AWStats für Server-Betreiber

Du willst mithelfen? Hier gibt es die Möglichkeit dazu!
Antworten
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

AWStats für Server-Betreiber

Beitrag von deerwood »

Moin,

diese Beschreibung ist nur für TVB-Server-Betreiber interessant!

Sie hätte auch in "Sonstiges" sein sollen ... allein, sobald ich angemeldet bin, darf ich die Nachrichten dort nicht mal lesen (erst recht nicht schreiben), obwohl ich sie unangemeldet lesen darf ???!!! Das scheint ein Bug in der Forums-Konfiguration/Software zu sein?


In einer (Sub) Domain betreibe ich einen TVB-Server. Andere Daten (bis auf ein par Bilder für Foren-Beiträge) werden in dieser Domain nicht gehostet. Ich werte die Zugriffe mit AWStats aus. Deshalb sind meine typischen "Browser" nicht Firefox usw., sondern eben TV-Browser.

AWStats handhabt aber den TV-Browser von Hause aus als ROBOT und dazu noch als einen potentiellen SPAM-Bot: "Java (Often spam bot)".

AWStats lässt sich aber konfigurieren, es hat z.B. eine lange Liste von bekanntenten Browsern in "lib/browsers.pm". Ich habe also zunächst den TV-Browser einfach dort hinzugefügt (die beiden Zeilen mit '+' am Anfang):

Code: Alles auswählen

--- browsers.pm.ORIGINAL     2010-07-11 02:20:34.325823464 +0200
+++ browsers.pm.MY      2010-07-11 02:33:23.148822427 +0200
@@ -42,6 +42,7 @@
 'lynx',
 'omniweb',
 'opera',
+'tv\-browser',
 # Other standard web browsers
 '22acidownload',
 'aol\-iweng',
@@ -227,6 +228,7 @@
 'lynx','Lynx',
 'omniweb','OmniWeb',
 'opera','Opera',
+'tv\-browser','TV-Browser',
 # Other standard web browsers
 '22acidownload','22AciDownload',
 'aol\-iweng','AOL-Iweng',
Überraschenderweise hat diese Änderung allein jedoch nicht zum Erfolg geführt. Nach Code-Inspektion wurde klar, dass AWStats ZUNÄCHST nach Robots sucht und erst DANN nach Browsern ... und in "lib/robots.pm" gibt es ganz am Ende einen CATCH-ALL für "java". Alle meine Versuche, den "java" CATCH-ALL zu erhalten, es sei denn, "tv-browser" ist im Präfix, sind gescheitert (ein PERL-Pattern mit lookbehind scheitert, weil in lookbehind nur Patterns mit fester Länge erlaubt sind). So musste ich den CATCH-ALL für "java" komplett entfernen (aus-kommentiert, siehe die Zeilen mit "-" bzw. "+" am Anfang):

Code: Alles auswählen

--- robots.pm.ORIGINAL       2010-07-11 02:20:47.788822941 +0200
+++ robots.pm.MY        2010-07-12 05:24:03.828821891 +0200
@@ -978,7 +978,7 @@
 'ng\/1\.', # put at end to avoid false positive
 'ng\/2\.', # put at end to avoid false positive
 'exabot',  # put at end to avoid false positive
-'java'   # put at end to avoid false positive
+#'java'   # put at end to avoid false positive
 );
 @RobotsSearchIDOrder_listgen = (
 # Generic robot
@@ -1608,7 +1608,7 @@
 'ng\/1\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 1.x (Exalead)</a>', # put at end to avoid false positive
 'ng\/2\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 2.x (Exalead)</a>', # put at end to avoid false positive
 'exabot','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">Exabot</a>', # put at end to avoid false positive
-'java','<a href="http://www.projecthoneypot.org/harvester_useragents.php" title="Bot home page [new window]" target="_blank">Java (Often spam bot)</a>', # put at end to avoid false positive
+#'java','<a href="http://www.projecthoneypot.org/harvester_useragents.php" title="Bot home page [new window]" target="_blank">Java (Often spam bot)</a>', # put at end to avoid false positive
 # Generic root ID
 'robot', 'Unknown robot (identified by \'robot\')',
 'crawl', 'Unknown robot (identified by \'crawl\')',
Mit dieser Anpassung wird der TV-Browser nun als normaler Browser behandelt.

Allerdings betrifft diese Anpassung von AWStats ALLE virtuellen Hosts (bei mir), und ich bin deshalb nicht zufrieden! Ich habe aber bisher keinen Weg gefunden, die Sonderbehandlung von TV-Browser auf nur eine Domain zu beschränken.

AWStats kennt ja den TV-Browser nicht von Hause aus und kann deshalb auch keine Informationen zu den TVB-Versionen zeigen. Da ich daran aber interessiert bin, habe ich die "ExtraSections" von AWStats genutzt, um TVB Versionen, TVB Java Versionen und TVB Versionen, die nicht existierenden Dateien zugreifen, anzuzeigen. Diese "ExtraSections" sind Domain-spezifisch:

Code: Alles auswählen

--- awstats.example.com.conf.ORIGINAL  2010-07-11 02:36:23.980822257 +0200
+++ awstats.example.com.conf.MY      2010-07-12 03:51:44.152840816 +0200
@@ -1471,6 +1471,45 @@
 #MinHitExtra1=1


+# TV-Browser
+ExtraSectionName1="TV-Browser Versions"
+ExtraSectionCodeFilter1="200 304"
+ExtraSectionCondition1="UA,TV-Browser"
+ExtraSectionFirstColumnTitle1="TVB Version"
+ExtraSectionFirstColumnValues1="UA,(TV-Browser [^J]*)"
+ExtraSectionFirstColumnFormat1="%s"
+ExtraSectionStatTypes1=PHBL
+ExtraSectionAddAverageRow1=0
+ExtraSectionAddSumRow1=1
+MaxNbOfExtra1=30
+MinHitExtra1=1
+
+ExtraSectionName2="TV-Browser Java Versions"
+ExtraSectionCodeFilter2="200 304"
+ExtraSectionCondition2="UA,TV-Browser"
+ExtraSectionFirstColumnTitle2="TVB Java Version"
+ExtraSectionFirstColumnValues2="UA,TV-Browser [^J]*(.*)$"
+ExtraSectionFirstColumnFormat2="%s"
+ExtraSectionStatTypes2=PHBL
+ExtraSectionAddAverageRow2=0
+ExtraSectionAddSumRow2=1
+MaxNbOfExtra2=30
+MinHitExtra2=1
+
+ExtraSectionName3="TV-Browser Versions producing 404 Errors"
+ExtraSectionCodeFilter3="404"
+ExtraSectionCondition3="UA,TV-Browser"
+ExtraSectionFirstColumnTitle3="TVB 404 Version"
+ExtraSectionFirstColumnValues3="UA,(TV-Browser [^J]*)"
+ExtraSectionFirstColumnFormat3="%s"
+ExtraSectionStatTypes3=PHBL
+ExtraSectionAddAverageRow3=0
+ExtraSectionAddSumRow3=1
+MaxNbOfExtra3=30
+MinHitExtra3=1
+
+
+
 # There is also a global parameter ExtraTrackedRowsLimit that limits the
 # number of possible rows an ExtraSection can report. This parameter is
 # here to protect too much memory use when you make a bad setup in your
 
Falls Ihr Verbesserungen oder andere Lösungen habt: immer her damit.

LG, Georg aka deerwood
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

Re: AWStats für Server-Betreiber

Beitrag von deerwood »

Moin,
Alle meine Versuche, den "java" CATCH-ALL zu erhalten, es sei denn, "tv-browser" ist im Präfix, sind gescheitert (ein PERL-Pattern mit lookbehind scheitert, weil in lookbehind nur Patterns mit fester Länge erlaubt sind). So musste ich den CATCH-ALL für "java" komplett entfernen
Ich habe mich nochmals um dies Problem gekümmert und ein Suchmuster gefunden, dass den Java CATCH-ALL beibehält, es sei denn, der Useragent beginnt mit dem String TV-Browser. Das diff -u sieht jetzt so aus:

Code: Alles auswählen

--- robots.pm.ORIGINAL       2010-07-11 02:20:47.788822941 +0200
+++ robots.pm.MY             2010-07-13 01:20:46.525051634 +0200
@@ -978,7 +978,7 @@
 'ng\/1\.', # put at end to avoid false positive
 'ng\/2\.', # put at end to avoid false positive
 'exabot',  # put at end to avoid false positive
-'java'   # put at end to avoid false positive
+'^(?!tv-browser).*java'   # put at end to avoid false positive
 );
 @RobotsSearchIDOrder_listgen = (
 # Generic robot
@@ -1608,7 +1608,7 @@
 'ng\/1\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 1.x (Exalead)</a>', # put at end to avoid false positive
 'ng\/2\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 2.x (Exalead)</a>', # put at end to avoid false positive
 'exabot','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">Exabot</a>', # put at end to avoid false positive
-'java','<a href="http://www.projecthoneypot.org/harvester_useragents.php" title="Bot home page [new window]" target="_blank">Java (Often spam bot)</a>', # put at end to avoid false positive
+'^(?!tv-browser).*java','<a href="http://www.projecthoneypot.org/harvester_useragents.php" title="Bot home page [new window]" target="_blank">Java (Often spam bot)</a>', # put at end to avoid false positive
 # Generic root ID
 'robot', 'Unknown robot (identified by \'robot\')',
 'crawl', 'Unknown robot (identified by \'crawl\')',
Der reguläre Ausdruck ist also nicht mehr schlicht 'java' sondern '^(?!tv-browser).*java' und das funktioniert folgendermaßen (AWStats benutzt die Patterns case insensitiv):
  • das Pattern besteht aus 3 Teilen
  • dem Hochpfeil ^ und dem negativen lookahead (?!tv-browser); am Anfang des Useragent-Strings wird nach der Zeichenfolge TV-Browser gesucht, wird sie gefunden, dann matched das ganze Pattern NICHT, weil es ein negativer lookahead ist. Wird die Zeichenfolge jedoch nicht gefunden, dann ist dieser Teil des Patterns (die Assertion) erfüllt und es geht weiter
  • .* matched 0 bis beliebig viele Zeichen, gefolgt von
  • java und erkennt so alle UAs, die auch 'java' enthalten
Damit ist die Modifikation von robots.pm allgemeingültiger geworden, nur der TV-Browser wird nicht als ROBOT behandelt, alle anderen Java Zugreifer schon. Siehe auch die excellenten Seiten regular-expressions.info und (auf der Kommandozeile/Shell/Terminal) 'perldoc perlrequick', 'perldoc perlretut' und 'perldoc perlre'.

LG, Georg
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

Re: AWStats für Server-Betreiber

Beitrag von deerwood »

Moin, moin,

erste Beispiele für die beschriebene Modifikation von AWStats:

Im ersten Bild könnt Ihr sehen, dass ich AWStats erst vor kurzem aufgesetzt und es dann 4 Tage lang unmodifiziert betrieben habe. Am Samstag habe ich die beschriebenen Änderungen angebracht und Sonntag und Montag werden bereits mit dieser Änderung ausgewertet. Nach 2 Tagen Betrieb sind die gezeigten Ergebnisse natürlich in keinster Weise repräsentativ, aber sie zeigen das Prinzip/die Tendenz.
TVB_AWStats_dom.png
TVB_AWStats_dom.png (18.1 KiB) 15479 mal betrachtet
Bemerkenswert ist der Sprung im ausgewiesenen Traffic in allen Spalten von Samstag auf Sonntag (den negativen Sprung von Montag auf Dienstag kann man ignorieren: AWStats läuft bei mir irgendwann kurz nach 24:00 Uhr, dann sind natürlich nur wenige Zugriffe vorhanden, die echte Auswertung wird einen Tag später sichtbar.

Beachtenswert ist auch, dass sich die Anzahl von "Pages" und "Hits" praktisch nicht unterscheidet. TVB lädt halt nur diverse Dateien herunter, nichts, was man wirklich als "Page" im Unterschied zu "Hit" zählen könnte; die einzigen Kandidaten für "Pages" wären "xxx_lastupdate", "xxx_channellist.gz" und "xxx_summary.gz" .. aber da habe ich noch keine Idee, wie ich das AWStats beibringen kann.

Schließlich finde ich interessant, dass die Anzahl von "Visits" deutlich niedriger ist, als die Anzahl von Hits/Pages. Ich halte diesen Wert auch für recht glaubwürdig: er ist abgeleitet aus der IP und einem Zeitfenster. TVB lädt die Daten "in einem Rutsch" herunter und es ist recht unwahrscheinlich, dass ein TVB-Benutzer Daten mehr als 1 mal lädt ... und falls doch, dass es den selben Server betrifft.

Das nächste Bild zeigt, dass, in meinem Fall, der Server wirklich überwiegend für TVB da ist:
TVB_AWStats_browsers.png
TVB_AWStats_browsers.png (36.82 KiB) 15479 mal betrachtet
Der Server liefert viele URLs. Nach 2 Tagen bereits mehr als 13.000, von Tag zu Tag des Auswertungs-Monats mehr, weil die etwa 10.000 wirklich vorhandenen Dateien rotiert werden. Es sind also wirlich immer nur ungefähr 10.000 Dateien auf dem Server (dank rsync), aber AWStats kann das nicht wissen: es zählt halt die zugegriffenen URLs, also auch die, die bereits vom Server gelöscht wurden.

Das letzte Bild zeigt einen Ausschnitt der "ExtraSection"s:
TVB_AWStats_custom.png
TVB_AWStats_custom.png (27.09 KiB) 15479 mal betrachtet
z.B. sind da noch Nutzer mit einer Version 1.0 RC02 unterwegs :D !

LG, Georg
Bananeweizen
Site Admin
Beiträge: 3353
Registriert: 09 Sep 2006, 22:45

Re: AWStats für Server-Betreiber

Beitrag von Bananeweizen »

Was ich auch interessant finde: Anscheinend warten viele Anwender schon so sehnsüchtig auf die Version 3.0, dass sie bereits die Beta2 einsetzen statt auf die Release-Version zu warten.

Danke für die sehr interessanten Statistiken, wir bekommen ja selbst sonst nicht mit, was da so abgeht.
Benutzeravatar
Siggi
Moderator
Beiträge: 2271
Registriert: 31 Dez 2003, 12:21
Wohnort: Doberlug - Kirchhain

Re: AWStats für Server-Betreiber

Beitrag von Siggi »

Coole Sache, dass du dich da so reinhängst. Coole Auswertung.

Die Sache, dass da auch noch 1.00 RC2 läuft find ich merkwürdig. Läuft die überhaupt mit den aktuellen Daten?

Die Auswertung könnte man monatlich in kurzer Form hier ins Forum stellen.

Sehr interessant.
mfg Siggi

PS: Wer Fehler findet, darf Sie behalten!!! :-)
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: AWStats für Server-Betreiber

Beitrag von Jo »

deerwood hat geschrieben:Der Server liefert viele URLs. Nach 2 Tagen bereits mehr als 13.000,
Da interessiert mich immer, welche Sender eigentlich am meisten genutzt werden ;-). Aber das wird schon dadurch verfälscht, dass die verschiedenen Sendergruppen verschiedene Mirrors haben mit unterschiedlicher Priorität. Da müssten dann schon alle Mirror-Betrieber Auswertungen machen. Viel zu aufwändig.
Siggi hat geschrieben:Die Sache, dass da auch noch 1.00 RC2 läuft find ich merkwürdig. Läuft die überhaupt mit den aktuellen Daten?
Müsste klappen. Aber es waren ja auch nur 10 Zugriffe. Da hat vermutlich jemand aus falscher Quelle installiert, oder einen alten Computer nach Jahren mal wieder eingeschaltet.
ds10
Site Admin
Beiträge: 19095
Registriert: 23 Jun 2005, 12:36
Kontaktdaten:

Re: AWStats für Server-Betreiber

Beitrag von ds10 »

Siggi hat geschrieben:Die Sache, dass da auch noch 1.00 RC2 läuft find ich merkwürdig. Läuft die überhaupt mit den aktuellen Daten?
Zu einem gewissen Grad, manche Informationen werden nicht unterstützt und auch Sender mit mehr als 254 Sendungen am Tag zeigen dort nur 254 Sendungen an. Wir schleppen so einiges mit, um die Kompatibilität der Daten mit alten Versionen zu erhalten. Da sind auch einige Würgarounds ;-) drin, wie eben das Anhäkeln von mehr als 254 Sendungen.

Ich hätte eigentlich lieber ein neues Datenformat gebastelt, aber es läuft halt ganz gut, so wie es ist und jede tief greifende Änderung, wie eine Änderung des Datenformats ist halt sehr gefährlich.
"First they ignore you, then they ridicule you, then they fight you, then you win." - Mahatma Gandhi
Unterstütze die Weiterentwicklung von TV-Browser
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

Re: AWStats für Server-Betreiber

Beitrag von deerwood »

Moin,

schön, dass einige das interessiert.

Ich muss mich zunächst korrigieren: ich habe nicht 10.000, sondern etwa 20.000 Dateien. Heute, nach 3 Tagen, wurden '14.860 different pages-url' ausgewiesen ... das zeigt, dass TVB nur die benötigten, neuen, Dateien holt. Wenn die Statistik mehrere Wochen/Monate läuft, wird die Anzahl der verschiedenen URLs aber wohl höher als 20.000 werden.
Jo hat geschrieben:Da interessiert mich immer, welche Sender eigentlich am meisten genutzt werden ;-). Aber das wird schon dadurch verfälscht, dass die verschiedenen Sendergruppen verschiedene Mirrors haben mit unterschiedlicher Priorität. Da müssten dann schon alle Mirror-Betrieber Auswertungen machen. Viel zu aufwändig.
Ich gebe Dir Recht, zumal mein Mirror auch ein sehr kleiner ist (niedrige Priorität). Einer der großen Mirrors, der alles mit gleicher, hoher Prorität hostet, sollte die Auswertung fahren, dann hätte man zwar nicht die Gesamtzahlen, aber statistisch nicht ganz falsche Tendenzen, oder?

Ich habe heute eine Custom Section hinzugefügt, die versucht, die Sender zu zählen. Dabei zähle ich bewusst die Dateien/URLs, die 'picture' im Namen haben nicht mit, um nicht Sender, die Bilder zur Verfügung stellen, zu bevorzugen.

Dennoch ist diese Statistik sicher nicht korrekt, weil TVB das schwer macht:

Ich zähle alle 'nicht picture' URLs und summiere sie unter 'country_channel' (de_zdf, at_3sat, ch_sfdres1 usw). Ich ignoriere also das Datum und auch die Datei-Varianten
  • base_full
  • base_update_N (N = 1, 2, 3, ...)
  • more00-16_full
  • more00-16_update_N (N = 1, 2, 3, ...)
  • more16-00_full
  • more16-00_update_N (N = 1, 2, 3, ...)
Dabei gehe ich davon aus, dass es sich bei '*base*' um die oben erwähnten 254 Sendungen handelt, die auch ganz alte TVBs verstehen und bei '*more*' um die "angehäkelten" Sendungen morgens/abends. Schon das verfälscht die Statistik: Sender ohne '*more*' werden halt nur 1 mal gezählt, Sender mit more werden 3 mal gezählt.

Noch schlechter wird die Zählung durch die '*update*' Dateien: manche Sender haben gar keine Updates, andere haben (im Moment) bis zu 7 Updates.

In der Essenz: Sender/Channels, die häufig geändert werden, erhalten einen unerwünschten Bias.

Aus Sicht der Auswertung würde ich ebenfalls für ein neues Dateiformat plädieren: EINE Datei pro Tag und Channel, die SÄMTLICHE (Text-) Änderungen enthält; dito für die Bilder.

Das würde auch die Anzahl der zu hostenden Dateien deutlich reduzieren (versucht doch mal ein 'ls -l', so wie es jetzt ist, für Manipulationen muss man immer auf 'find . | xargs <some_command> ausweichen). Ich glaube auch, dass die Performance der Server/Mirrors dadurch deutlich gesteigert werden könnte: zwar sind die Dateien größer, aber der WEB-Server kann sie dann "am Stück" ausliefern .. darin sind WEB-Server gut. Mit der jetzigen Stückelung pro Tag/Channel in viele einzelne kleine Dateien erfordert der Netzwerk/HTTP-Protokoll-Overhead vermutlich mehr Bandbreite, als die Daten selbst.

Trotz allem hier meine neue "Custom Section":

Code: Alles auswählen

ExtraSectionName4="TV-Browser Channels (pictures not counted)"
ExtraSectionCodeFilter4="200 304"
ExtraSectionCondition4="URL,\/+\d{4}\-\d{2}\-\d{2}_[^_]+_[^_]+_(?!picture)"
ExtraSectionFirstColumnTitle4="TVB Channel"
ExtraSectionFirstColumnValues4="URL,\/+\d{4}\-\d{2}\-\d{2}_([^_]+_[^_]+)_"
ExtraSectionFirstColumnFormat4="%s"
ExtraSectionStatTypes4=PHBL
ExtraSectionAddAverageRow4=0
ExtraSectionAddSumRow4=1
MaxNbOfExtra4=100
MinHitExtra4=1
Die Ausgabe sieht dann so aus (nach einem Tag, also wieder NICHT repräsentativ):
TVB_AWStats_channels.png
TVB_AWStats_channels.png (26.11 KiB) 15449 mal betrachtet
Siggi hat geschrieben:Die Auswertung könnte man monatlich in kurzer Form hier ins Forum stellen.
Wie oben erwähnt: mein Server hat niedrige Priorität und ist nicht repräsentativ.

Ich weise auch darauf hin, dass man die "life" AWStats Auswertung NICHT allgemein zur Verfügung stellen sollte, weil sie (in einigen Reports) IP-Adressen anzeigt. Datenschutz und Wahrung der Privatsphäre haben jedenfalls Vorrang! Bei mir werden die Apache-Logs kurz nach Auswertung gelöscht, damit auch die IPs ... und dennoch finden sich einige IPs in den Auswertungen.

LG, Georg
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: AWStats für Server-Betreiber

Beitrag von Jo »

deerwood hat geschrieben:Dabei gehe ich davon aus, dass es sich bei '*base*' um die oben erwähnten 254 Sendungen handelt, die auch ganz alte TVBs verstehen und bei '*more*' um die "angehäkelten" Sendungen morgens/abends.
Die "more"-Dateien haben die ausführlichen Beschreibungen usw. Die für >255 Sendungen heißen "additional", gibt es aber glaube ich momentan nicht, weil die Sender die wir anbieten können derzeit < 255 Sendungen haben.
deerwood hat geschrieben:Noch schlechter wird die Zählung durch die '*update*' Dateien: manche Sender haben gar keine Updates, andere haben (im Moment) bis zu 7 Updates.
Wenn ich mich nicht irre kann man die updates (und more) für eine Auswertung ignorieren. Wer einen Sender abonniert hat lädt immer die "base"s runter. Wieviele "updates" man runterlädt hängt davon ab wie oft der Sender updated und wie oft man selber im TVB updated.
deerwood hat geschrieben:Aus Sicht der Auswertung würde ich ebenfalls für ein neues Dateiformat plädieren: EINE Datei pro Tag und Channel, die SÄMTLICHE (Text-) Änderungen enthält; dito für die Bilder.
Das kann aber zu hohem Traffic führen. Wenn ein Sender mit ausführlichen Beschreibungen nur mal ein Punkt durch ein Komma ersetzt, muss der ganze Tag von allen neu geladen werden.

Danke auf jeden Fall für die Auswertung.
ds10
Site Admin
Beiträge: 19095
Registriert: 23 Jun 2005, 12:36
Kontaktdaten:

Re: AWStats für Server-Betreiber

Beitrag von ds10 »

deerwood hat geschrieben:Aus Sicht der Auswertung würde ich ebenfalls für ein neues Dateiformat plädieren: EINE Datei pro Tag und Channel, die SÄMTLICHE (Text-) Änderungen enthält; dito für die Bilder.
Aus Sicht der Auswertung vielleicht, aber aus Sicht der Benutzer mit geringer Bandbreite nicht. Daher ist es schon gut, dass das System auf möglichst wenig Bandbreite ausgelegt ist. Es gibt auch heute noch etliche, die nur 56K-Modem haben oder nur GPRS/EDGE und nur wenn man mit kleinen Updates arbeitet ist das halbwegs erträglich.
"First they ignore you, then they ridicule you, then they fight you, then you win." - Mahatma Gandhi
Unterstütze die Weiterentwicklung von TV-Browser
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

Re: AWStats für Server-Betreiber

Beitrag von deerwood »

Moin,
Jo hat geschrieben:Wenn ich mich nicht irre kann man die updates (und more) für eine Auswertung ignorieren. Wer einen Sender abonniert hat lädt immer die "base"s runter. Wieviele "updates" man runterlädt hängt davon ab wie oft der Sender updated und wie oft man selber im TVB updated.
Nach Überschlafen bin ich heute nachmittag schon zur gleichen Erkenntnis gekommen und habe die Sender-Zählung entsprechend angepasst. Es sind nur 2 Zeilen zu ändern: die Überschrift und die Condition, alles andere bleibt, wie oben gezeigt.

Code: Alles auswählen

ExtraSectionName4="TV-Browser Channels (only base_full counted)"
ExtraSectionCondition4="URL,\/+\d{4}\-\d{2}\-\d{2}_[^_]+_[^_]+_base_full"
Die absoluten Zahlen sind damit deutlich niedriger, aber die Statistik sollte damit sehr korrekt sein (bezüglich der Verhältnisse untereinander). In einer Woche oder so werde ich mal ein Bild zeigen. Im Moment sind die TOP 3 de_wdr, de_arte und de_bfs.

Damit ist auch meine Äußerung bezüglich Dateiformat hinfällig. Das Zusammenfassen aller Änderungen in immer die gleiche Datei würde zu den gleichen Verschiebungen führen, wie das Mitzählen von "update", "more" und "addtional". Mit einem Wort: habt Ihr gut gemacht, Jungs!

Und damit es auch was zu gucken gibt:
TVB_AWStats_hours_countries.png
TVB_AWStats_hours_countries.png (21.13 KiB) 15426 mal betrachtet
Wieder sind nicht die absoluten Zahlen interessant (kleiner Mirror) sondern die Verhältnisse. Beide Verteilungen haben sich von Tag zu Tag praktisch nicht geändert. Zur Stundenverteilung ist zu sagen, dass die Hauptlast schon gegen 20:00 Uhr anfällt, aber die Last verteilt sich doch besser über den Tag, als ich erwartet habe.

Für die Länder/Domain-Verteilung werde ich demnächst mal die freie GeoLite City DB / AWStats Plugin einsetzen.

LG, Georg

PS: auf meinem Server fliegen noch etwa 5000 Dateien aus 2009 herum. Gestern hatte ich sie manuell gelöscht, heute sind sie wieder da (offenbar via rsync). Könnt Ihr mal Eure Master-Server checken und diese Dateien dort löschen? Die Liste der Tage: 2009-11-30, 2009-12-01, 2009-12-02, 2009-12-03, 2009-12-07 und 2009-12-08.
Benutzeravatar
Siggi
Moderator
Beiträge: 2271
Registriert: 31 Dez 2003, 12:21
Wohnort: Doberlug - Kirchhain

Re: AWStats für Server-Betreiber

Beitrag von Siggi »

Kann mal einer auf einen großen Mirror übertragen? Wär mal cool zu sehen, was ein großer Mirror für Ergebnisse liefert.

Und bezüglich der 2009'er Daten: Hatten wir das Thema nicht schonmal? Irgendwie geistern da wirklich so alte Daten rum. Evt. bekommt Ihr die ja mal weg.

Danke für die coole Arbeit.
mfg Siggi

PS: Wer Fehler findet, darf Sie behalten!!! :-)
Jo
Site Admin
Beiträge: 11802
Registriert: 07 Apr 2006, 23:39

Re: AWStats für Server-Betreiber

Beitrag von Jo »

Siggi hat geschrieben:Und bezüglich der 2009'er Daten: Hatten wir das Thema nicht schonmal? Irgendwie geistern da wirklich so alte Daten rum. Evt. bekommt Ihr die ja mal weg.
Leider weiß niemand woher und warum. Vielleicht stoße ich mal auf die Lösung. Die alten Daten sollten ja eigentlich nicht mehr werden. Die liegen nur unnötig rum und verbrauchen etwas Platz, aber keinen Traffic.
deerwood
Junior Member
Beiträge: 14
Registriert: 24 Dez 2007, 00:05
Wohnort: Hamburg

Koffer in Berlin, war Re: AWStats für Server-Betreiber

Beitrag von deerwood »

Moin,

inwischen habe ich die TVB-AWstats-Auswertung noch mal leicht angepasst. Vor allem MaxMinds freie GeoIP und GeoLiteCity Datenbanken benutzt, dafür aber das DNS Lookup abgeschaltet, weil es sehr viel Zeit kostet und die GeoIP Lokalisierung viel genauer ist ... z.B. gibt es in der Auswertung jetzt das "Land" '.net' nicht mehr. Ausserdem habe ich die noch vorhandenen Logs des laufenden Monats (18 Tage) komplett ausgewertet.

Hier die daraus reultierende Länderübersicht:
TVB_AWStats_countries.png
TVB_AWStats_countries.png (9.71 KiB) 15387 mal betrachtet
und der neu verfügbare Report mit den Städten:
TVB_AWStats_cities.png
TVB_AWStats_cities.png (8.54 KiB) 15387 mal betrachtet
Keine Überraschung: große Städte sind in den Top Ten. Beachtet bitte, dass die freie City DB nur zu 60-70% treffsicher ist (die kommerzielle ist aber wohl auch nicht sooo viel besser). Ausserdem sind dort wohl Fehler drin, siehe 'Munich' vs. 'München' ... die Münchner liegen also wohl mit 3.6 % an zweiter Stelle vor den Wienern.

An der Stunden-Verteilung hat sich kaum etwas getan: ab etwa 08:00 bis 16:00 Uhr wird sehr gleichmässig pro Stunde etwa 1/3 der Spitzenlast abgerufen. Ab 17:00 steigt die Last gleichmäßig an bis zur Spitze um 20:00 Uhr, danach fällt sie schlagartig wieder zurück auf etwa 1/3 (21:00 bis 24:00). In der Nacht (01:00 bis 07:00) sind die Zugriffe kaum erwähnenswert.

Mit einer Auswertung von 18 Tagen lohnt sich auch die Anzeige der TOP Sender:
TVB_AWStats_channels02.png
TVB_AWStats_channels02.png (25.03 KiB) 15387 mal betrachtet
Auch hier, meines Erachtens, keine wirklich großen Überraschungen. Halt die Hauptsender, ÖR und VG Media. ARTE schlägt sich erstaunlich gut.

Ich würde mich wirklich freuen, wenn einer der großen Mirrors die Auswertung auch einmal macht (und Ausschnitte zeigt) ... auch wenn ich denke, dass sich die Tendenzen/Verhältnisse nicht gewaltig unterscheiden werden, weil TVB von sich aus dafür sorgt, dass die Zugriffe zufällig verteilt werden.

LG, Georg
Antworten