Puls Tv keine Daten
-
- Site Admin
- Beiträge: 3353
- Registriert: 09 Sep 2006, 22:45
-
- Listings Provider
- Beiträge: 266
- Registriert: 05 Jul 2005, 17:39
- Wohnort: Wien
- Kontaktdaten:
Re: 4400
Das ist ja interessant!JuliaH hat geschrieben:Puls 4 sendete zumindst bis vor kurzem noch die auf Pro 7 eingestellte "4400 - Die Rückkehrer"
wäre Klasse käme der Sender durch Eure Hilfe in die Datenströme!
Ich habe die Daten mal an Bodo weitergeleitet.
Meine TV-Daten: http://tv.hermann.czedik.net/
Hi,
leider war am 1.4. mit "Das Serum" lt. online-Programmvorschau der vorerst letzte Teil von 4400. Bis zum 25.4., wo die online-Vorschau endet, scheint keine weitere Folge gesendet zu werden. Oder das Programm ändert sich noch oder irgendwas anderes. siehe auch puls4 com -> TV-Programm
Vielleicht, irgendwie,.. tut mir leid, falsche Hoffnungen gemacht zu haben.
Mein erster Beitrag in diesem Thread erinnert mich an die bekannteste Bauernweisheit: "Kräht der Hahn auf dem Mist, ändert sich das Wetter oder bleibt wie es ist"
g Julia
leider war am 1.4. mit "Das Serum" lt. online-Programmvorschau der vorerst letzte Teil von 4400. Bis zum 25.4., wo die online-Vorschau endet, scheint keine weitere Folge gesendet zu werden. Oder das Programm ändert sich noch oder irgendwas anderes. siehe auch puls4 com -> TV-Programm
Vielleicht, irgendwie,.. tut mir leid, falsche Hoffnungen gemacht zu haben.
Mein erster Beitrag in diesem Thread erinnert mich an die bekannteste Bauernweisheit: "Kräht der Hahn auf dem Mist, ändert sich das Wetter oder bleibt wie es ist"
g Julia
- Maria-Christine
- Moderator
- Beiträge: 1167
- Registriert: 21 Jun 2005, 16:59
- Wohnort: Herne
Keine Bange, wir werden den Sender aufnehmen in die Liste. Ich wollte hat nur sagen, das deutsche Nutzer sich keine Hoffnungen machen sollten, den Sender auch langfristig sehen zu können .
Wir bedienen nicht nur den TV-Markt hier in Deutschland. Uns ist es eigentlich Schnuppe, woher der Sender kommt .
Wir bedienen nicht nur den TV-Markt hier in Deutschland. Uns ist es eigentlich Schnuppe, woher der Sender kommt .
Mich würde interessieren wie diese Word Dateien aussehn. Sind das noch doc oder schon docx? docx wäre sicher viel einfacher zu extrahieren, weils ja zip+xml ist. Ich mach dieses Semester die Lehrveranstaltung Applied Web Data Extraction and Integration an der TU Wien. Da lernt man wie und mit welchen mitteln man Daten aus Webseiten extrahieren kann. Das Web ist schön standardisiert (auch wenns nicht immer valides HTML ist), würde mich interessieren wie man das bei so proprietären Formaten wie doc macht.
-
- Listings Provider
- Beiträge: 266
- Registriert: 05 Jul 2005, 17:39
- Wohnort: Wien
- Kontaktdaten:
Der einzige sinnvolle Weg ist meiner Meinung nach, die Konvertierung in ein anderes (offenes) Format mit einem Programm das doc verstehen kann. Soweit ich weiß, wird hier für alle Sender, die ihr Programm nur als doc anbieten, ein OpenOffice-Makro verwendet, dass in Plain-Text umwandelt.panzi hat geschrieben:Mich würde interessieren wie diese Word Dateien aussehn. Sind das noch doc oder schon docx? docx wäre sicher viel einfacher zu extrahieren, weils ja zip+xml ist. Ich mach dieses Semester die Lehrveranstaltung Applied Web Data Extraction and Integration an der TU Wien. Da lernt man wie und mit welchen mitteln man Daten aus Webseiten extrahieren kann. Das Web ist schön standardisiert (auch wenns nicht immer valides HTML ist), würde mich interessieren wie man das bei so proprietären Formaten wie doc macht.
Infos findest du hier: http://wiki.tvbrowser.org/index.php/Dat ... OpenOffice
Ich gehe diesen Weg für die Datenaufbereitung von gotv und 3+ und es gibt nur sehr selten Probleme.
Liebe Grüße von einem TU-Kollegen!
Zuletzt geändert von Bronkoknorb am 04 Mai 2008, 20:29, insgesamt 1-mal geändert.
Meine TV-Daten: http://tv.hermann.czedik.net/
Hast du schonmal docx angeschaut? Das ist so das schlimmste, was man mit XML machen kann
Wir konvertieren das meistens nach TXT oder RTF mit OpenOffice per Fernsteuerung und dann von da dann weiter.
Und du würdest dich wundern, wie aufwändig Webseiten manchmal zu parsen sind. Manchmal ist es echt einfacher, das RTF zu nehmen anstatt eine Webseite zu parsen.
Wir konvertieren das meistens nach TXT oder RTF mit OpenOffice per Fernsteuerung und dann von da dann weiter.
Und du würdest dich wundern, wie aufwändig Webseiten manchmal zu parsen sind. Manchmal ist es echt einfacher, das RTF zu nehmen anstatt eine Webseite zu parsen.
-
- Listings Provider
- Beiträge: 266
- Registriert: 05 Jul 2005, 17:39
- Wohnort: Wien
- Kontaktdaten:
Das kann ich bestätigen. Außerdem hat die Erfahrung gezeigt, dass sich das Format der Webseiten wesentlich häufiger grundlegend verändert und die Parser dann wertlos sind.bodo hat geschrieben:Und du würdest dich wundern, wie aufwändig Webseiten manchmal zu parsen sind. Manchmal ist es echt einfacher, das RTF zu nehmen anstatt eine Webseite zu parsen.
Meine TV-Daten: http://tv.hermann.czedik.net/
(Zumal ich noch < 1 Tag angemeldet bin darf ich noch keine URLs posten. Halt allen Pfaden die puls4 Domain prefixen.)
Mhm. Ich hab mir die Puls4 Seite mal angeschaut. Die verwenden Prototype (eine AJAX API). Auf folgenden weg kann man einen Chunk bekommen, der HTML Code beinhaltet, welcher das Programm eines Tages darstellt:
wget --header "X-Requested-With: XMLHttpRequest" "/tv/remoteGuideView/type/daily/active_day/2008-05-03"
D.h. ein Request auf /tv/remoteGuideView/type/daily/active_day/YYYY-MM-DD mit dem Header:
X-Requested-With: XMLHttpRequest
Das Ergebnis verwendet Tabellen und IDs, sollte somit relativ einfach zu parsen sein. Natürlich stellt sich die Frage wie stabil so eine Extraktion ist, also wie lange das so bleiben wird. Zumal der HTML Code hier ziemlich stark aufgeräumt ist und keine Formatierungen beinhaltet (das wird anscheinend alles per CSS gemacht) könnt ich mir vorstellen, dass das länger so bleibt (rein vom technischen Standpunkt her betrachtet).
Apropos: Firebug ruled.
Mhm. Ich hab mir die Puls4 Seite mal angeschaut. Die verwenden Prototype (eine AJAX API). Auf folgenden weg kann man einen Chunk bekommen, der HTML Code beinhaltet, welcher das Programm eines Tages darstellt:
wget --header "X-Requested-With: XMLHttpRequest" "/tv/remoteGuideView/type/daily/active_day/2008-05-03"
D.h. ein Request auf /tv/remoteGuideView/type/daily/active_day/YYYY-MM-DD mit dem Header:
X-Requested-With: XMLHttpRequest
Das Ergebnis verwendet Tabellen und IDs, sollte somit relativ einfach zu parsen sein. Natürlich stellt sich die Frage wie stabil so eine Extraktion ist, also wie lange das so bleiben wird. Zumal der HTML Code hier ziemlich stark aufgeräumt ist und keine Formatierungen beinhaltet (das wird anscheinend alles per CSS gemacht) könnt ich mir vorstellen, dass das länger so bleibt (rein vom technischen Standpunkt her betrachtet).
Apropos: Firebug ruled.
1. Braucht man dann tortzdem die erlaubnis von Puls4, die Daten von da zu laden,
2. Sind webseiten niemals stabil, auch wenn da mit Ajax gearbeitet wird
3. Presse-Daten reichen weiter in die Zukunft.
Kurz: vergess es, wir lassen die Finger von Webseiten. Aus gutem Grund .
Wir haben ja auch schon Kontakt zu Puls4, eigentlich sollten wir schon mit Daten von denen versorgt werden, nur ist halt leider noch nix hier angekommen
2. Sind webseiten niemals stabil, auch wenn da mit Ajax gearbeitet wird
3. Presse-Daten reichen weiter in die Zukunft.
Kurz: vergess es, wir lassen die Finger von Webseiten. Aus gutem Grund .
Wir haben ja auch schon Kontakt zu Puls4, eigentlich sollten wir schon mit Daten von denen versorgt werden, nur ist halt leider noch nix hier angekommen
- Maria-Christine
- Moderator
- Beiträge: 1167
- Registriert: 21 Jun 2005, 16:59
- Wohnort: Herne