Qualität der Daten - Hilfe ist gefragt!

Fehler in den Programmdaten; Senderwünsche; Aktualisierungsprobleme; Fragen, die die Programmdaten betreffen;
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Qualität der Daten - Hilfe ist gefragt!

Beitrag von bodo »

Wir sind gerade dabei, die Qualität der Daten etwas zu verbessern. Natürlich nur soweit man dies mithilfe eines Programmes machen kann.

Dazu brauchen wir eure Hilfe. Solltet Ihr Texte in den Sendungsbeschreibungen sehen, die dort nicht hingehören, sondern in andere Felder, und diese Texte tauche auf dem Sender wiederholt(!) in der gleichen Weise auf, dann meldet das uns hier in diesem Thread.

Beispiel wäre :
Erlebnisreisen rund um Göttingen
Moderation Thomas Görlitzer
16:9

Thomas Görlitzer präsentiert erlebnisreiche Touren für Frauen, spannende Abenteuer für Männer und tolle Ausflugsziele für die ganze Familie. Höhepunkt ist unter anderem ein Flug mit dem Gyrokopter - einem hubschrauber-ähnlichen Fluggerät - der das Gefühl zu schweben ganz neu vermittelt. In Northeim stellt Thomas Görlitzer das Theater der Nacht vor, in Nörten-Hardenberg die 300 Jahre alte Kornbrennerei, bevor es dann mit der "Fliegenden Brücke", der Gierseilfähre, über die Weser geht. Kinder können in dieser märchenhaften Region auch Dornröschen und Dr. Eisenbarth treffen. Begleitet wird Thomas Görlitzer auf seiner Entdeckungstour vom Gänseliesel, der "Miss Göttingen", die mit ihm eine Kochschule besucht und das Wellnessangebot in der Therme von Bad Karlshafen testet.
Hier könnte man die Zeile mit 16:9 rausholen. Die Moderation wäre schon etwas schwieriger, man kann nicht einfach jede Zeile mit Moderation rausholen und denken, danach kommt immer ein Schauspielername. Dann wäre nämlich bei folgendem Text:
Moderation war damals ein harte Job
"war damals ein harter Job" der Moderator der Sendung ;). Deswegen muss man bei dem Moderator noch schauen, ob man das weiter eingrenzen kann. Z.B. wenn Moderator in der ersten Zeile steht oder ähnliches.

Meldet einfach alles hier, wir versuchen dann unser bestes.

Bananeweizen
Site Admin
Beiträge: 3353
Registriert: 09 Sep 2006, 22:45

Beitrag von Bananeweizen »

Auf ARD haben viele Sendungen die URL als letzte Zeile direkt im Beschreibungstext stehen.

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Stimmt. Mit dem neuen ARD-Parser wird das nicht mehr der Fall sein. Den aktivieren ich morgen/übermorgen nach einigen weiteren Tests.

Bananeweizen
Site Admin
Beiträge: 3353
Registriert: 09 Sep 2006, 22:45

Beitrag von Bananeweizen »

Bei VOX haben "Folge" und "Kurzbeschreibung" von Serien oder sich wiederholenden Sendungen sehr oft den gleichen Inhalt. Man kann diese beiden Felder zwar durchaus gleich füllen, das sieht aber sowohl in der Sendungsinfo als auch in der Programmtabelle eher merkwürdig aus (und bringt ja auch keine Zusatzinfo im Vergleich zu nur einem Feld).

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Stimmt. Hab ich gerade auch eingebaut. Am Montag gibt's dann die neuen Daten, in denen ist das dann alles korrigiert.

A.J.
Gold Member
Beiträge: 276
Registriert: 16 Apr 2006, 18:49

Beitrag von A.J. »


So, 23. Sep · 14:30-15:00 · 3sat
Der Letzte seines Standes?

Markiert von


Plugin-Icons


Kurzbeschreibung
Der Glasmaler

Beschreibung
Ein Feuer aus Farben und Licht empfängt den Betrachter beim Anblick kostbarer mittelalterlicher Glasfenster. In seiner Werkstatt im Berliner Hinterhofgebäude restauriert Horst Lehmann seit Jahrzehnten solche Fenster.
Ein Feuer aus Farben und Licht empfängt den Betrachter beim Anblick kostbarer mittelalterlicher Glasfenster. In seiner Werkstatt im Berliner Hinterhofgebäude restauriert Horst Lehmann seit Jahrzehnten solche Fenster. Hier wird das alte Handwerk des Glasmalers fast wie vor Hunderten von Jahren ausgeübt. Der Film beobachtet Meister Lehmann und seine Gesellen bei der Arbeit und begleitet ihn bei der Restaurierung der wertvollen Bildfenster des Stendaler Doms aus dem 15. Jahrhundert.

Formatinformation


Showview
Keine Showviewinformationen (?)

Sendungsdauer/ -ende
30 min (bis 15:00)
Das was hier bei Kurzbeschreibung steht sollte in das Feld "Folge".
Der sich wiederholende Teil nach "Kurzbeschreibung" (hier rot markiert)
Betrifft: viele (alle?) öffentlich rechtlichen Sender.

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Leider gilt das nicht für alle Sendungen. In Kurzbeschreibung steht meistens nicht der Folgenname. Ich sehe auch spontan nicht, ob es anhand eines bestimmten Markes zu erkennen ist. Erkennst du einen? Oder jemand anders?

A.J.
Gold Member
Beiträge: 276
Registriert: 16 Apr 2006, 18:49

Beitrag von A.J. »

Ich weiß ob in "Kurzbeschreibung" der Folgenname steht, lässt sich kaum feststellen.
(Das einzige, was mir einfällt wäre "nur eine Zeile" und "unter x Zeichen"; ist aber auch nicht wirklich zuverlässig.)

Was aber nach meinem Wissen immer stimmt ist:
Wenn in "Beschreibung" eine Dopplung vorkommt (s.o. rot), dann ist der Inhalt von "Kurzbeschreibung" immer der Folgenname.

Man müsste folglich feststellen:
Gibt es eine Dopplung; wenn ja
->Kurzbeschreibung nach Folgenname
->Dopplung von Beschreibung nach Kurzbeschreibung

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Stimmt. Das versuche ich mal am Wochenende zu analysieren.

Heute Nacht gehen übrigens die neuen Daten Online. Verändert wurde die Schauspieler-Erkennung und der Text der Schauspieler, soweit es möglich ist, steht nun im TV-Browser:

Schauspieler[TABLATOR][TABLATOR]-[TABLATOR][TABLATOR]Rolle

[TABLATOR][TABLATOR] Ist natürlich die Taste, da steht nicht der Text "Tabulator" ;).

Film/Serien-Erkennung anhand des Genres der Sendung (natürlich ist dies nicht zu 100% zuverlässig). Bitte falsch markierte Sendungen hier posten. Das ist natürlich nur ab 2.6 Alpha1 sichtbar.

Zusätzliches neues Feld: "Weitere beteiligte Personen", für alles, das nicht in die vorhandenen Felder passte (Szenenbild, Redakteur, etc...). Das ist aber erst ab 2.6 Alpha2 sichtbar.

Und dann sind bei ARD noch einige Verbesserungen durch Verwendung von einem anderen Datenformat entstanden. Der Text enthält nun keine Schauspielernamen/Links mehr.

Und noch einige weitere Detailverbesserungen.

Wir sind bemüht, die Qualität der Daten noch weiter hochzuschrauben. Den Anstoß zu dieser massiven Aktion kommt übrigens von Jo, also nochmal Danke für die Hinweise/verbesserten Parser !

Es können sich natürlich auch Fehler eingeschlichen haben, als ich die Parser geschrieben/verbessert habe. Bitte direkt hier posten!

Falls ihr weitere Potential seht, ebenfalls hier posten!

hubendubel
Gold Member
Beiträge: 331
Registriert: 14 Mai 2006, 18:31

Beitrag von hubendubel »

Das man in der Infoseite einfach einen Schauspieler anklicken kann und dann die entsprechende Wikipediaseite geöffnet wird, finde ich eine prima Idee. Allerdings, z.B bei Rote Rosen, ARD Do, 20. Sep. 14:10 steht unter Regie: "Maria Graf und Mattes Reischel", danach wird dann auch in der Wikipedia gesucht. Da hat man natürlich keine Chance, obwohl Maria Graf dort durchaus erwähnt, wird. Schön wäre es, wenn da auch die einzelne Regisseure einzeln aufgerufen werden könnten. Ähnliches gilt für das Drehbuch. Die Musiker lassen sich anscheinend grundsätzlich nicht aufrufen, wäre vielleicht eine Überlegung wert die auch in der Wikipedia suchbar zu machen, ebenso Moderatoren.

Beim ZDF z.B Ein Fall für zwei, Do 20. Sep. 17:50 und beim WDR z.B. Tatort - Leyla, Do 20. Sep. 20:15 sind Schauspieler und Rollen vertauscht. Rollen links und Schauspieler rechts, sonst ist es umgekehrt.
TVB 3.2, Java 1.6.0, Linux-Ubuntu 12.4

Bananeweizen
Site Admin
Beiträge: 3353
Registriert: 09 Sep 2006, 22:45

Beitrag von Bananeweizen »

Die Trennung bei ver-und-eten Namen baue ich noch ein.
...sind Schauspieler und Rollen vertauscht...
Nein. In den Programmdaten ist die ganze Sammlung aus Rollen und Schauspielern lediglich Fließtext und ich ermittle durch statistische Analysen, was davon vermutlich die Schauspielernamen sind. Deswegen können die sowohl links als auch rechts auftauchen (genaugenommen könnten sie sogar gemischt links und rechts vorkommen).

hubendubel
Gold Member
Beiträge: 331
Registriert: 14 Mai 2006, 18:31

Beitrag von hubendubel »

Aber anklickbar ist jeweils immer nur der Schauspieler, nicht die Rolle. Irgendwoher muss Du also wissen, wer Schauspieler ist, und was die Rolle
TVB 3.2, Java 1.6.0, Linux-Ubuntu 12.4

Bananeweizen
Site Admin
Beiträge: 3353
Registriert: 09 Sep 2006, 22:45

Beitrag von Bananeweizen »

hubendubel hat geschrieben:Aber anklickbar ist jeweils immer nur der Schauspieler, nicht die Rolle. Irgendwoher muss Du also wissen, wer Schauspieler ist, und was die Rolle
Ich sage doch, textbasierte statistische Analyse. D.h. ich schaue, wo Abkürzungen vorkommen (Rolle), wo gleiche Namen vorkommen (vermutlich Rolle), wo kein Familienname da ist (vermutlich Rolle), wo ein Name steht, der auch im Titel vorkommt (vermutlich Rolle), wo ein Name einen Schrägstrich enthält (vermutlich 2 Schauspieler für eine Rolle) etc.
Und weil das nur Statistik ist und deswegen nicht in allen Fällen richtig sein muss, lasse ich die Textteile zumindest bisher immer in der Reihenfolge, in der sie im Fließtext stehen.

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Ich schau mal, ob ich das beim ZDF beim konvertieren der Quell-Daten umdrehen kann, sprich, ob das bei jeder Sendung so ist.

Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Ich habe jetzt die Schauspieler-Erkennung von den Dritten Programmes der ARD (NDR, MDR, ...) und des ZDFs verbessert.

Bei den Dritten ist nun nicht mehr eine Liste von Schauspielern im Fließtext, bei dem ZDF tausche ich die Schauspieler/Rollen um, sodass der TV-Browser nun nicht mehr die Rolle, sondern den Schauspieler zur Suche anbietet.

Antworten