Für Netz-Detektive

Du willst mithelfen? Hier gibt es die Möglichkeit dazu!
Antworten
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Für Netz-Detektive

Beitrag von Jo »

Mal etwas für Leute, die nicht unbedingt programmieren können, aber Html und Javascript auseinandernehmen können, um zu sehen, wie Daten auf einer Website dargestellt werden:

Wir dürfen für polnische Sender die Xml-Daten z.B. unter http://www.tvp.pl/prasa/programTVPol/xml_OMI/ auswerten. Dort finde ich aber z.B. keine Möglichkeit, zu erkennen, welche Sendungen englische Untertitel haben.
Auf http://www.tvp.pl/program-telewizyjny?o ... 29&ch3=420 werden diese aber angezeigt (die mit engl. Flagge). Es sieht aber so aus, als benutzen die für ihre Darstellung dieselbe Datenquelle wie wir (also auch diese Xml-Dateien). Nun ist die Frage, ob jemand herausfindet, wie die das machen, dass die (vermutlich) anhand dieser Xmls wissen, dass eine Sendung engl. Untertitel hat. Natürlich ohne zu hacken oder so, sondern nur anhand der JS-Files und was sonst noch alles zum Browser geschickt wird um die Seite darzustellen. Möglicherweise läuft es aber auch intern auf derem Server, sodass man das gar nicht rausfinden kann.
Neben den Untertiteln gibt es noch andere Sachen die in den Xmls zu fehlen scheinen, wie Mindestalter, Kategorie.

Alternative wäre natürlich, die zu fragen, aber bisher gab es keine Reaktion.
v6ph1
Site Admin
Beiträge: 1276
Registriert: 13 Jan 2008, 05:07
Wohnort: Radebeul

Re: Für Netz-Detektive

Beitrag von v6ph1 »

In den XML-Daten kann ich es nicht erkennen.
Höchstens ist es irgendwo verschlüsselt drin.

Aber die geladene Datei (für TVP, heute) ist http://www.tvp.pl/prasa/programTVPol/p0811_4.txt
-> eine normale Text-Datei

Auch interessant ist die Datei http://www.tvp.pl/prasa/programTVPol/xml/p0811_4.xml
Einiges hab ich dort schon aufgespürt:

Code: Alles auswählen

<PRASA_PRZED> ...programm_ID
<GODZINA_EMISJI> ... Anfangs-Zeit
<CZAS_TRWANIA> ... Dauer (ohne Werbung!)
<TYTUL_CYKLU> ... Lang-Titel
<TYTUL> ...Kurz-Titel (Serien-Name)
<TYTUL_ORYGINALNY> ...Original-Titel
<NR_ODCINKA> ...Folgen-Nummer
<RODZAJ> ... Kategorie/Typ
<KRAJ_PRODUKCJI> ...Produktions-Land
<ROK_PRODUKCJI> ...Produktions-Jahr
<REZYSER> ...Regie
<WYKONAWCY> ...Schauspieler
<NADZOR> ...Altershinweis
<DZWIEK> ...Ton-Format
<FORMAT_OBRAZU> ...Film-Format (16:9)
<AUDIOTELE> ...irgendwas mit Audio (aber immer ungenutzt)
<OPIS> ...Beschreibung (ist in diesen XML-Dateien leer)
<SPOSOB_EMISJI> ...Live-TV
<PRASA_PO> ...Videotext-Untertitel
In der anderen XML ist die Beschreibung und eine bessere Kategorisierung vorhanden:
http://www.tvp.pl/prasa/programTVPol/xm ... 11_T4D.xml
Sendungen mit Englischen Untertiteln haben alle ein * am Ende vom Namen.

mfg
v6ph1
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

Danke.
v6ph1 hat geschrieben:Sendungen mit Englischen Untertiteln haben alle ein * am Ende vom Namen.
Darauf wäre ich nie gekommen. Da haben die Xml mit allen Möglichkeiten, aber nutzen ein simples Sternchen hinterm Namen zur Kennzeichung :shock:
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

v6ph1 hat geschrieben:<NADZOR> ...Altershinweis
Das scheint in diesen OMI-Xmls als PLRATING mit Zahlen codiert zu sein.
Der Rest müsste okay sein, nur aus den Kategorien lassen sich wohl nicht unbedingt einfach "unsere" Kats erkennen (also Film, Serie, Magazin/Infotainment usw.)

P.S.: Läuft übrigens gerade Dekalog 5, mit Sternchen also mit Untertiteln ;-)
rif
Platin Member
Beiträge: 780
Registriert: 16 Jan 2008, 15:36

Re: Für Netz-Detektive

Beitrag von rif »

<AUDIOTELE> ...irgendwas mit Audio (aber immer ungenutzt) = Fernseh-Quiz (für Fernsehzuschauer, die die eingeblendete Nummer anrufen können)
http://de.pons.eu/polnisch-deutsch/audiotele
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

rif hat geschrieben:Fernseh-Quiz (für Fernsehzuschauer, die die eingeblendete Nummer anrufen können)
Da ist aber kein Wunder, dass das Feld immer ungenutzt ist. Solche Sendungen werden die nicht so oft haben ;-).

Ansonsten denke ich habe ich jetzt alles wichtige soweit, nur dass ich noch nicht weiß, wie ich deren Genre-Angaben in TVB-Sendungskategorien übersetzen kann.
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

Etwas ähnliches: Diesmal geht es darum, von http://programm.ard.de/radio/ möglichst effizient das Programm auszulesen.

Man bekommt z.B. über
die erste Programmseite (mit viel überflüssigem Html-Gedöns). Die zweite (usw.) Seite wird mit
http://programm.ard.de/Radio/Suchergebn ... &curpage=2
aufgerufen.
Das geht dann vermutl. über Cookies. Mir wäre es aber deutlich lieber, wenn direkt alle Sendungen auf einer Seite angezeigt würden. So etwas ist möglich mit der Druckansicht des Programms ("druckoptionen=all"):
http://programm.ard.de/Radio/Steuerseit ... tionen=all
Aber da muss wohl vorher entsprechendes Cookie gesetzt sein. Die Druckansicht selber kann ich ohnehin nicht gebrauchen, weil die nur die Sendungstitel ohne Beschreibungen enthält.

Also, wenn da jemand eine Möglichkeit findet, die Daten möglichst einfach und geschwind auszulesen, das wäre schön :-).
Zuletzt geändert von Jo am 21 Aug 2011, 13:48, insgesamt 1-mal geändert.
Grund: Link funktionierte nicht
Benutzeravatar
Agrivaine
Moderator
Beiträge: 810
Registriert: 21 Nov 2007, 14:39
Kontaktdaten:

Re: Für Netz-Detektive

Beitrag von Agrivaine »

Eventuell so? : siehe Anhang

In der ARD-Radio.url stehen die zu ladenden URLs drin (muss leider so sein, sonst kommt DOS mit den Sonderzeichen "&" etc. durcheinander).
Könnte man jetzt noch gleich mittels sed das gewünschte parsen...
btw: wget und sed sind Linux-Befehle, es gibt aber mittlerweile eine Portierung nach Windows.
Dateianhänge
ARD-Radio.rar
(728.06 KiB) 388-mal heruntergeladen
Gestern standen wir vor dem Abgrund; heute sind wir bereits einen Schritt weiter...
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

Hm, da bekommt man aber nur die aktuell laufenden Sendungen.
Ich habe gerade erst gemerkt, dass der Link in meinem Post gar nicht funktionierte. Sorry. Das sollte das Programm von NDR Kultur am 26.8. sein (halt nur die 1. Seite). So müsste es dann grundsätzlich aussehen. Also für jeden Sender und jeden Tag eine eigene Abfrage.
Benutzeravatar
Agrivaine
Moderator
Beiträge: 810
Registriert: 21 Nov 2007, 14:39
Kontaktdaten:

Re: Für Netz-Detektive

Beitrag von Agrivaine »

Dann so (benötigt wieder wget):

Speichert den Cookie (sie arbeiten mit Session-IDs). Könnte man natürlich noch verfeinern mit Tageseingabe etc. pp. :)
Dateianhänge
Radio.rar
(485 Bytes) 409-mal heruntergeladen
Gestern standen wir vor dem Abgrund; heute sind wir bereits einen Schritt weiter...
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

Ja, scheint das beste zu sein. Ist zwar blöd, dass dann so viel Html-Kram mitgeschickt wird (grob: 20 Sender * 20 Tage * 1,5 Seiten + 5 Sendungsbeschreibungen * 20 Sender * 20 Tage), aber dass die auf Knopfdruck Xml-Formate bereitstellen oder ähnlich, gibt es halt nicht.
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: Für Netz-Detektive

Beitrag von Jo »

Wie befürchtet: Es dauert extrem lange bis die ganzen Daten runtergeladen sind. Ich warte jetzt seit 1 Stunde, und ich habe noch keine 3 Tagen Daten für die Radiosender. Erschwerend ist, dass die Seiten für die Sendungsbeschreibungen eine einmalige ID haben, also selbst wenn eine Sendung jeden Tag dieselbe Beschreibung hat, kann man das nicht vorher wissen.
Also falls jemand auf den offiziellen ARD-Seiten noch eine Möglichkeit findet, das Radioprogramm effizient runterzuladen: gerne hier melden.
Antworten