Fo(r)galmi káosz - Számok és interpretációk a weben

2001. április 9. 11:00

Az internetes kommunikáció óriási előnye a pontos mérhetőség. Elvileg. A gyakorlatban nem csak az a kérdés, hogy mit is kell mérni, hanem az is, hogy a kapott adatok mit jelentenek.

A szerveren mért adatok - akarattal, vagy akaratlanul - könnyen hamisíthatók. Mikor a keresőprogramok a webet pásztázó robotjai végigtapogatnak egy webhelyet, számos "találatot" generálnak. Ezeknek természetesen semmi köze a valós látogatottsághoz, szerencsére némi odafigyelés és megfelelő szoftver beszerzése árán elég jól kiszűrhetők.

Valamivel nagyobb gondot okoz a web cache technológia. A nagy szolgáltatók a gyakran kért oldalakat a jobb kiszolgálás érdekében saját "raktárukban" gyűjtik és kérés esetén innen szolgáltatják azokat. Az cache-ból történő letöltéseket természetesen sem a log fájl analízis, sem pedig a mérőpontokat használó audit nem képes számlálni.

Nem sokkal jobb a helyzet akkor sem, ha az oldalletöltés helyett az egyedi látogatók (unique visitor) számának mérésével kísérletezünk. A kiindulópont itt is világosnak és egyértelműnek tűnik: A szerverek rögzítik annak a számítógépnek az IP címét - afféle internetes rendszámát - ahonnan a látogató az információkat kéri. Annak kiküszöbölésére, hogy egy webhelyen ide-oda ugráló látogatót többször is megszámolják általánosan elfogadott gyakorlat, hogy a site-ra 30 percen belül azonos IP címről többször visszatérő látogatót csak egyszer veszik figyelembe. Nincs viszont módszer azoknak a látogatóknak a kezelésére, akik valamilyen vállalat, intézmény belső hálózatán lógva a közös IP cím miatt egyetlen látogatónak számítanak. (Gondoljunk csak bele, hogy az egyetlen egyetemi IP címről hányan internetezhetnek?) Ugyancsak megtévesztő adatokat szolgáltatnak a könyvtárakban, internet kávézókban és egyéb nyilvános helyeken elhelyezett gépek. Az IP címek elemzését még tovább nehezítik azok a "kemény internetezők", akik munkahelyükről és otthonról egyaránt látogatják kedvenc webhelyüket.

Folytatjuk...