TV-Browser-Forum

von **bodo** » 18 Mai 2008, 18:49

Heute Nacht wird Puls4 online gehen. Leider ebenfalls ohne Pressetexte, da die Leute von Puls 4 noch nicht wirklich sicher sind, ob die auch unter die VG Media Geschichte fallen.

Wir werden allerdings in den nächsten Tagen eine neue Version des Wirschauen-Plugins anbieten, mit der dann auch Daten für diesen Sender eintragbar sind.

von **panzi** » 04 Mai 2008, 23:44

Jo hat geschrieben:Also meinst du, wenn die eh schon URVs begehen, macht es auch keinen Unterschied mehr?

Ist es eine URV wenn sie selbst die Lieder Spielen? Und ich biete ja nur ein RSS Feed an, keine mp3 Dateien. Und das ist ja eigentlich nur eine Werbung für Zelda. Sie wären schön blöd die eigenen Fans zu verklagen. Es gibt sau viele Homepages auf denen Leute ihre Interpretationen von Game Music zum Download anbieten und ich hab da noch von nirgends etwas von Problemen gehört.

Eine tolle Seite bei der ich auch Daten aber nur zur eigenen Verwertung extrahiere ist ocremix punkt org. Da gibts haufenweiße tolle Musik. Hab mir da ein Skript geschrieben, welches neue Lieder erkennt und Informationen darüber runter läd und abspeichert. Dann hab ich in einer Datei Spiele und Künstler (Remixer) festgelegt, von denen ich Lieder haben will. Diese werden dann automatisch runtergeladen und in vordefinierte Ordner einsortiert.

Aber das hat jetzt nix mehr mit dem Thema des Threads zu tun. Die Sache mit dem OpenOffice Makro wirkt für mich auch wie eine gute Möglichkeit. Zumal OOo ja auch Python Bindings hat und Python ist wirkliche eine mächtige Sprache mit mächtiger Standardlibrary. Da kann man gleich eine XML Datei als output liefern.

von Jo » 04 Mai 2008, 22:47

panzi hat geschrieben:...eine Zelda Fan Homepage (zreomusic punkt com) auf der sie die Musik aus den Zelda Spielen selber neu aufnehmen und online stellen.

Also meinst du, wenn die eh schon URVs begehen, macht es auch keinen Unterschied mehr?

von **panzi** » 04 Mai 2008, 22:36

Bis auf einen Fall verwend ich das alles nur für mich selber. Und bei den einen Fall ist das eine Zelda Fan Homepage (zreomusic punkt com) auf der sie die Musik aus den Zelda Spielen selber neu aufnehmen und online stellen. Die haben zwar ein News Feed, aber ohne enclosures, also keine Podcasts. Ich liefere das nach (und zwar als eine art Archiv Podcast in denen alle Lieder immer drinnen referenziert bleiben) und habs auch bei denen im Forum geschrieben. Also da gibts keine Probleme.

von Jo » 04 Mai 2008, 22:32

Bronkoknorb hat geschrieben:Der einzige sinnvolle Weg ist meiner Meinung nach, die Konvertierung in ein anderes (offenes) Format mit einem Programm das doc verstehen kann. Soweit ich weiß, wird hier für alle Sender, die ihr Programm nur als doc anbieten, ein OpenOffice-Makro verwendet, dass in Plain-Text umwandelt.

Das hängt auch ganz davon ab. Ich habe letztens als ich Daten von einem Sender bekam auch gedacht oh je, doc und auch noch Tabellenform, aber die Daten waren (zwischen einigem Binärcode) ganz normal als Plain Text lesbar, nur durch "BEL"s getrennt. Ich weiß aber nicht welche Art doc das dann ist.

von **bodo** » 04 Mai 2008, 22:17

panzi hat geschrieben:Ja eh. Bin halt nur so im Web Data Extraction drinnen wegen der Lehrveranstaltung. Hab mir auch schon (vor der LVA) einige extraction Tools geschrieben um mir RSS Feeds aus Seiten zu machen, die keine Anbieten und ähnliches.

Aber pass mit dem UrhG auf. Diese eigenen Feeds darfst du nicht online stellen

. Nen Kumpel von mir hat da letztens noch eine schöne Abmahnung für kassiert.

von **panzi** » 04 Mai 2008, 22:10

Ja eh. Bin halt nur so im Web Data Extraction drinnen wegen der Lehrveranstaltung. Hab mir auch schon (vor der LVA) einige extraction Tools geschrieben um mir RSS Feeds aus Seiten zu machen, die keine Anbieten und ähnliches.

von **Maria-Christine** » 04 Mai 2008, 21:51

das kommt schon... ist doch Wochenende
auf die Antwort auf meine mail zu Dmax habe ich auch lange warten müssen

von **bodo** » 04 Mai 2008, 21:46

1. Braucht man dann tortzdem die erlaubnis von Puls4, die Daten von da zu laden,

2. Sind webseiten niemals stabil, auch wenn da mit Ajax gearbeitet wird

3. Presse-Daten reichen weiter in die Zukunft.

Kurz: vergess es, wir lassen die Finger von Webseiten. Aus gutem Grund

.

Wir haben ja auch schon Kontakt zu Puls4, eigentlich sollten wir schon mit Daten von denen versorgt werden, nur ist halt leider noch nix hier angekommen

von **panzi** » 04 Mai 2008, 21:11

(Zumal ich noch < 1 Tag angemeldet bin darf ich noch keine URLs posten. Halt allen Pfaden die puls4 Domain prefixen.)

Mhm. Ich hab mir die Puls4 Seite mal angeschaut. Die verwenden Prototype (eine AJAX API). Auf folgenden weg kann man einen Chunk bekommen, der HTML Code beinhaltet, welcher das Programm eines Tages darstellt:
wget --header "X-Requested-With: XMLHttpRequest" "/tv/remoteGuideView/type/daily/active_day/2008-05-03"

D.h. ein Request auf /tv/remoteGuideView/type/daily/active_day/YYYY-MM-DD mit dem Header:
X-Requested-With: XMLHttpRequest

Das Ergebnis verwendet Tabellen und IDs, sollte somit relativ einfach zu parsen sein. Natürlich stellt sich die Frage wie stabil so eine Extraktion ist, also wie lange das so bleiben wird. Zumal der HTML Code hier ziemlich stark aufgeräumt ist und keine Formatierungen beinhaltet (das wird anscheinend alles per CSS gemacht) könnt ich mir vorstellen, dass das länger so bleibt (rein vom technischen Standpunkt her betrachtet).

Apropos: Firebug ruled.

von **Bronkoknorb** » 04 Mai 2008, 20:31

bodo hat geschrieben:Und du würdest dich wundern, wie aufwändig Webseiten manchmal zu parsen sind. Manchmal ist es echt einfacher, das RTF zu nehmen anstatt eine Webseite zu parsen.

Das kann ich bestätigen. Außerdem hat die Erfahrung gezeigt, dass sich das Format der Webseiten wesentlich häufiger grundlegend verändert und die Parser dann wertlos sind.

von **bodo** » 04 Mai 2008, 20:26

Hast du schonmal docx angeschaut? Das ist so das schlimmste, was man mit XML machen kann

Wir konvertieren das meistens nach TXT oder RTF mit OpenOffice per Fernsteuerung und dann von da dann weiter.

Und du würdest dich wundern, wie aufwändig Webseiten manchmal zu parsen sind. Manchmal ist es echt einfacher, das RTF zu nehmen anstatt eine Webseite zu parsen.

von **Bronkoknorb** » 04 Mai 2008, 20:25

panzi hat geschrieben:Mich würde interessieren wie diese Word Dateien aussehn. Sind das noch doc oder schon docx? docx wäre sicher viel einfacher zu extrahieren, weils ja zip+xml ist. Ich mach dieses Semester die Lehrveranstaltung Applied Web Data Extraction and Integration an der TU Wien. Da lernt man wie und mit welchen mitteln man Daten aus Webseiten extrahieren kann. Das Web ist schön standardisiert (auch wenns nicht immer valides HTML ist), würde mich interessieren wie man das bei so proprietären Formaten wie doc macht.

Der einzige sinnvolle Weg ist meiner Meinung nach, die Konvertierung in ein anderes (offenes) Format mit einem Programm das doc verstehen kann. Soweit ich weiß, wird hier für alle Sender, die ihr Programm nur als doc anbieten, ein OpenOffice-Makro verwendet, dass in Plain-Text umwandelt.
Infos findest du hier: http://wiki.tvbrowser.org/index.php/Dat ... OpenOffice
Ich gehe diesen Weg für die Datenaufbereitung von gotv und 3+ und es gibt nur sehr selten Probleme.

Liebe Grüße von einem TU-Kollegen!

von **panzi** » 04 Mai 2008, 20:16

Mich würde interessieren wie diese Word Dateien aussehn. Sind das noch doc oder schon docx? docx wäre sicher viel einfacher zu extrahieren, weils ja zip+xml ist. Ich mach dieses Semester die Lehrveranstaltung Applied Web Data Extraction and Integration an der TU Wien. Da lernt man wie und mit welchen mitteln man Daten aus Webseiten extrahieren kann. Das Web ist schön standardisiert (auch wenns nicht immer valides HTML ist), würde mich interessieren wie man das bei so proprietären Formaten wie doc macht.

von **bodo** » 17 Apr 2008, 07:42

Keine Bange, wir werden den Sender aufnehmen in die Liste. Ich wollte hat nur sagen, das deutsche Nutzer sich keine Hoffnungen machen sollten, den Sender auch langfristig sehen zu können

.

Wir bedienen nicht nur den TV-Markt hier in Deutschland. Uns ist es eigentlich Schnuppe, woher der Sender kommt

.

TV-Browser-Forum

Puls Tv keine Daten

Antwort erstellen

Ansicht erweitern Die letzten Beiträge des Themas: Puls Tv keine Daten