Valid XHTML 1.0!


(last major update 28. Apr 2001: see long term analysis, and some improvements on referrer sum up script 23. Feb 2002)

The first script is a standard bourne shell script and should work on any major UNIX system therefore (like SOLARIS, LINUX, AIX, HP-UX, ULTRIX, IRIX). It extracts only the most interesting (in my view) parts of the webalizer statistics: totals, most accessed pages/files and thereafter seperately --- if you use such --- your cgi scripts, the external referrals (your internals are trivial, I think), the search strings and finally the user agents (browsers and robots). Of course you have to change the "undesired own URLs" into the appropriate ones of your site.

In Deutsch: Aus einer webalizer-Statistik macht dieses erste Standard-UNIX-Skript einen Auszug der interessantesten Teile (nach meiner Meinung): Gesamtzahlen, meist abgerufene Seiten/Dateien und danach getrennt --- falls man welche benutzt --- die CGI-Skripte, die externen Verweise (die internen der Seite sind trivial, finde ich), die Suchmustereingaben und schließlich die user agents (Browser und Suchmaschinen). Natürlich muss man die "undesired own URLs" (eigenen, nicht zu zeigenden URLs) in die entsprechenden der eigenen Homepage abändern.

The second script is for practical reasons a bash script (I regret it deeply!), because the array handling is essential (acceptable sh alternatives are always most welcome!). But it should work on LINUX and Solaris at least. The referrers have to be adapted by yourself, because every site has its own referrers, for which you get the desired sums: domPat is the not case-sensitive domain name pattern, sensPat the case-sensitive directory/file name pattern and showPat the entry, which is visible in the statistics after summing up instead of the more or less strange URL. Not found sum entries are listed with counter 0. This is intended as some control. Not summed entries are show as usual, but without href (less important, I guess). The total of all referrals is also shown in the last referrer table line.

Das zweite Skript ist leider aus praktischen Gründen ein bash-Skript (Schande über mich!), da die Array-Behandlung einfach notwendig ist (für erträgliche sh-konforme Alternativen bin ich jederzeit dankbar!). Es sollte aber zumindest unter LINUX und Solaris verwendbar sein. Leider muss man dort die Referrer selbst anpassen, da jeder andere hat, um die gewünschten Summen zu erhalten: domPat ist ein nicht groß/klein differenzierendes Muster für den Domänennamensteil der verweisenden URL, sensPat das entsprechende Muster für den Verzeichnis/Dateinamensteil und showPat das, was in der Statistik als Bezeichnung statt der mehr oder weniger kryptischen URL stehen soll. Nicht auftretende Summen werden mit 0 ausgegeben! Das ist m.E. eine gute Kontrolle. Nicht summierte URLs werden wie gehabt an gezeigt (allerdings ohne href, das ist nicht so wichtig, finde ich). Die Summe aller Verweise wird ebenfalls, in der letzten Zeile der Referenzstatistiktabelle, gezeigt.

This third script is just like the second, but this time all once-in-a-time referrals, which are not summed up to the defined values, are suppressed. This can reduce the output size by irrelevant results considerably, if you deal with webrings, netrings or many topics like me.

Das dritte Skript ist wie das Zweite, nur werden in diesem alle einzelnen Referrer weg gelassen, die nicht in der Summierung der vorgesehenen Werte enthalten sind. Das kann die Statistikdatenmenge von uninteressanten Einträgen bereinigen und auch die Größe stark reduzieren, wenn man wie ich viele Themen behandelt und in webrings und netrings ist.

Final remark: you can use the second script either with your original statistic or with the extracted file, which you get from the first script. (Schlussbemerkung: man kann das zweite Skript entweder mit der Originalstatistik benutzen oder auch auf die Ausgabe des Ersten anwenden.)

This GNU zipped ustar archive of two further scripts (now online, just forgot to upload so far --- sorry!) and a manually to edit text file comprises a good way for long term scrutiny of your site: either if the older, simple wwwStat was used or the newer, far more elaborate webalizer, or your provider or you switched from one to other, you can gain sums, monthly maximums and monthly averages of the pages you entered into the tracked.pages text file.

The tracked.pages file contains just the page file name in the first column and the first month, in which it were online in the second. This latter entry can be omitted, but prevents then you for using the second of the two bourne shell scripts (sumAvrg), because that needs this information. That script needs the output of the first to work. In the tracked.pages file you create always one line for each page to be tracked --- of course you can choose other files too, not only *.htm or *.html pages, but also GIFs, ZIP files or others.

The first script needs some care from you too: you have to create a valid, and unique pattern for each months webStat and/or webalizer statistics file, which are needed of course as input. If you lack one of the two systems --- in my case a switch of the providers tool made it necessary to build in summing and comparing for both tools! --- you either can put in a dummy pattern for that one or you may omit/comment out the corresponding branch. But please ensure proper initialization of the per page hit sum anyway! You may write sum=0 instead of the webStat line in case of solely using webalizer; in case of using webStat it's easier: than you can just remove the webalizer part of it...

Really final remark: if you have any proposals, improvements or queries, don't be shy and send me a mail (see below)... This all is a rather complex topic and will never be finished for all time!


back to Internet main  LINUX package guide  back to main

remarks etc. to: