A sikeres megküzdésnek a koronavírussal nem csak az az előfeltétele, hogy előre be legyen tárazva a lélegeztetőgép meg az orvosi maszk, de az is, hogy eredményesen előre tudjuk jelezni a fertőzésszámok megszaporodását. Ezért vesz rendszeresen mintákat a budapesti szennyvízből a Nemzeti Népegészségügyi Központ (mely a hónapban már a fővároson kívül is vizsgálódott), a mintákat elemezve ugyanis akár két héttel előrejelezhető az újabb gócpont kialakulása.
A Harvard új húzása is ezen az elven működik, csak teljes egészében az interneten zajlik: szennyvíz helyett a közösségi médiában indított kereséseket vizsgálja, a koronavírus helyett a koronavírussal kapcsolatos keresések gyakorisága és minősége alapján jósol, és ugyanúgy nagyjából két hetes felkészülési időt ad a helyi egészségügyi ellátórendszereknek. Az algoritmust a New York Times cikke mutatta be.
Az algoritmust egy nemzetközi kutatócsoport állította össze a Harvard két kutatója, Mauricio Santillana és Nicole Kogan vezetésével. A rendszer valós időben monitorozza a Twitter- és Google-kereséseket, párosítva az okostelefonok mobilitási adataival és további adatokkal. A kutatócsapat az eszközt úgy írja le, mint egyfajta hőfokszabályzót, mely segít a szigorítások és lazítások tervezésében és finomhangolásában, vagyis nagy segítség lehet az újranyitások tervezésében.
Santillana úgy ragadta meg az algoritmusban rejlő újdonságot, hogy a legtöbb virológiai modellben különböző feltételezések alapján dolgoznak ki különféle forgatókönyveket - feltételezések viszont ebben a keresés-monitorozó rendszerben nincsenek, itt csak megfigyelés folyik, de ez az eljárás a valós idejűség miatt érzékenyebben reagál a viselkedésminták azonnali megváltozására.
Az új elemzési módszernek még nem készült el a szakmai bírálata, de azok a külsős szakemberek, akik már betekintést nyertek bele, eddig biztatónak látták a fejleményeket, kiemelve, hogy a módszer javíthat a már meglévő vírusmodellek eredményességén.
Próbálták már, nem sikerült
A betegségek terjedésének valós idejű adatokon alapuló előrejelzésére már legkésőbb 2008-ban tettek kísérletet, de az a projekt még nem volt sikeres. Akkor a Google mérnökei próbálták meg kitapintani a háziorvosi látogatások esetleges felszökését, az alapján, hogy keresőjükben elkezdték külön figyelni az olyan, influenza-gyanús keresőkifejezések gyakoriságának alakulását, mint "levertnek érzem magam", "sajgó ízületek" vagy az "oszeltamivir-adagolás" (ez egy az influenzavírus A és az influenzavírus B fertőzés kezelésére és megelőzésére használt gyógyszer), és így tovább.
Ez volt a Google Flu Trends, de nem muzsikált valami jól: mint utóbb kiderült, folyamatosan túlbecsülte az orvosi látogatásokat, részben a nem elegendő adat miatt, részben külső tényezők befolyása okán (ilyen volt például a sajtómegjelenések hatása - ha valahol elkezdtek cikkezni az influenza-járványról, annak nyomán akkor is megugrottak a Google-keresések, ha amúgy adott régióban nem is indult útjára a fertőzés).
Ez is bizonyítja, hogy a környezetéből kiragadba, önmagában egyetlen adatsor nem nyújt valós képet, a mostani modell azonban jóval több, valós időben alakuló adattal dolgozik, így valóban eredményesen képezheti le a valós vírushelyzet valós alakulását.
Több gépszem többet lát
Az új eljárás a Google-ön túl négy forrás adatait vizsgálta. Nézték a Twitteren megjelenő koronavírussal kapcsolatos bejegyzéseket, azok posztolói lokációjának számba vételével, nézték az UpToDate nevű orvosi platformon lefuttatott (nyilvánvalóan orvosi) kereséseket, az okostelefonok anonim lokációs adatait, és a Kinsa nevű okoshőmérő adatait, melyet az eszköz a hozzá párosított applikációba tölt fel. Ezt a színes adathalmazt küldték be a Northeastern University által kifejlesztett előrejelzési modellbe, mely az emberek mozgási és közösségben mutatott viselkedési mintáin alapul.
A kutatócsoport a modell számításainak helyességét úgy ellenőrizte, hogy összevetették az előrejelzések adatait és a koronavírus-fertőzések és a betegséghez kapcsolt halálesetek adatait március-áprilisban, az USA minden egyes államában. Azt találták, hogy New Yorkban a koronavírus-témájú Twitter-bejegyzések már több mint egy héttel azelőtt kilőttek az égbe, hogy a vírus március közepén konkrétan berobbant volna a városban. A Google releváns keresései és a Kinsa-adatok is több nappal előzték meg a fertőzöttek tömeges megjelenését.
A kutatócsoport súlyozta az adatforrásokat releváns találatok alapján, és az így kapott előrejelzés átlagosan 21 nappal jelezte előre a következő gócpont-kialakulást. Az aktuális adatok azt jósolják, hogy a következő nagy fertőzöttszám-felszökést Nebraskában és New Hampshire-ben regisztrálják majd pár héten belül, noha jelenleg mindkét államban még csendes a járványhelyzet.
Santillana kiemeli, hogy a modelljük nem kiváltja a tradicionális megfigyelést, hanem megerősíti. Szerinte ezekkel az információkkal felszerelve a helyi vezetők sokkal könnyebben meg tudnak hozni egy szigorításról szóló döntést, melynél akár egy hetes késlekedésen is emberéletek tömegei múlhatnak.
A világot ez sem váltja meg
A modell kritikusai szerint ugyanakkor a bigdata-elemzések sem tudják jobban előrejelezni a társas visekedés hirtelen változásait, mint a tradicionális modellek. Például semmi sem jelezhette előre a Geroge Floyd halála miatt indult tiltakozási hullámot, és annak járvány-hatásait - ez tömeges megfertőződések melegágya lehetett.
Problémás az is, hogy a közösségimédiás keresések az idő előrehaladtával kevésbé képesek a valósággal tényleg találkozó fertőzöttségi jóslatokat produkálni, egyszerűen azért, mert minél többet tudnak az emberek a vírusról, annál kevesebbszer használják a hozzá kapcsolódó keresőkifejezéseket.
Az amerikai járványügyi hivatal (Centers for Disease Control and Prevention) éppen ezért nem is szán központi szerepet a hasonló algoritmusoknak a járvány-előrejelzéseik összeállításakor. Santillana ugyanakkor arról beszél, hogy az elérhető "legjobb" adatsorokkal dolgoznak, és nagyon kíváncsiak lennének például arra, hogy az Amazon és a Netflix adatai mit árulnának el nekik.