Miközben a világ a mesterséges intelligencia (MI) szédületes fejlődését és térhódítását szemléli, kevés figyelem jutott arra, hogy a Cicero elnevezésű MI a legjobb emberi játékosoknál jobb eredményeket ért el a Diplomacy nevű társasjáték online változatában.
Ez első hallásra valóban nem tűnik olyan hírnek, amelyet címlapokon kellett volna közölni a világsajtóban – ha másért nem, hát azért, mert az MI már felmosta a padlót a világ legjobb játékosaival az évszázadokig az emberi elme igazi tesztjének tekintett játékokban, a sakkban vagy a góban. Sőt, ma már ott tartunk, ebben a két játékban az is csoda lenne, ha a legjobb emberi nagymester száz egymást követő játékból akár egyet-kettőt meg tudna nyerni az MI ellen.
Sok játékos, kevés információ
Akkor hát miért fontos, hogy egy legfeljebb egy-két százezer ember által ismert és játszott társasjátékban is jobb már az MI, mint az ember? Két dolog miatt: egyrészt azért, mert a Diplomacy igen különleges játék, másrészt azért, mert a gép által használt stratégia is meglepő volt. Miért különleges játék a Diplomacy? A szabályok nagyon egyszerűek, a szerencse pedig nem játszik semmilyen szerepet benne. A játékosok Európa 1901-es térképén irányítanak országokat, illetve azok flottáit és hadseregeit, végső céljuk pedig a térképen található erőforráspontok legalább felének elfoglalása. A játékot akár ketten is játszhatják, de igazán klasszikus meneteket a maximális hét játékos esetén lehet várni.
És ez az egyik dolog, ami nagy különbség a sakkhoz vagy a góhoz képest. Míg azokban csak egyetlen ellenfél stratégiáját kell semlegesíteni, addig itt hat másik játékos lépéseivel és terveivel kell kalkulálni, márpedig ez jelentősen megbonyolítja a helyzetet. További nagy különbség, hogy míg sakkban vagy góban a játékosok felváltva lépnek, így mindig minden elérhető információ birtokában döntenek saját lépésükről, a Diplomacyban a játékosok írásban adják le a következő körben lejátszani kívánt lépéseiket, és ezeket egyben vezetik át aztán a táblára, tehát nemcsak az ellenfelek következő, hanem az éppen aktuális lépéseit is csak megtippelni lehet.
Az igazán nagy különbség azonban az, hogy ugyan végső győztes csak egy játékos lehet, a győzelemhez mindenképpen össze kell fogni más játékosokkal. A táblán ugyanis kezdetben kiegyenlítettek az erőviszonyok, és nem lehet csodát tenni: a világ legjobb játékosát is gyorsan ki tudná ütni a játékból két-három kezdő, ha összefognak ellene – de egy jó játékos könnyebben megtalálja a módját, hogy az ellene szövetkezők ellentéteit kihasználja, és a javára fordítsa.
A Diplomacy leghangsúlyosabb része ennél fogva nem is maguk a lépések, hanem azok diplomáciai előkészítése, azaz a tárgyalások a többi játékossal, akiket meg kell próbálni bármilyen, a fizikai erőszakon inneni meggyőző eszközzel, az ígéretek, a fenyegetések, a könyörgés, a józan észre hatás vagy a személyes vonzerő bevetésével rávenni arra, hogy azt tegyék, amit szeretnénk.
A játék természetéből adódik persze, hogy a mégoly stabil szövetségeknek is fel kell egyszer bomlania, hiszen győztes csak egy lehet (legalábbis a klasszikus játékmenet szerint, léteznek a rövidebb játékidőre tervezett szabályok is). A Diplomacyt emiatt szokás a hazugságok és hátbaszúrások játékának is nevezni, hiszen a játékosok tudják, hogy még a szövetségeseik is folyamatosan mérlegelik annak lehetőségét, hogy a lehető legjobb eredménnyel szúrják őket hátba – de ezt megelőzendő ők is folyamatosan mérlegelik egy árulás vagy egy meglepetésszerű támadás esélyét.
Kedves árulás
Tehát a Diplomacyt játszó MI-nek nem egyszerűen a legjobb lépéseket kell kiszámolnia, hanem szövetségeket, egyezményeket kell kötnie, győzködni, fenyegetni kell a többi játékost, el kell altatni gyanakvásukat, adott esetben pedig hihetően kell hazudnia, a megfelelő pillanatokban pedig árulásokat kell elkövetnie. És mindezt a másik oldalról is tudnia kell, tehát értelmeznie és értékelnie kell a többi játékos ajánlatait, fenyegetéseit, meghatározni, mennyire bízhat bennük, és felkészülni a lehetséges árulásukra is. Mindezt természetes (tehát nem formalizált) nyelven írott és olvasott üzeneteket olvasva, értelmezve és fogalmazva.
Így már talán jobban érthető, hogy miért nem egyszerű feladat egy MI-t erre „kiképezni”, és miért olyan nagy szó, hogy a Cicero ebben a játékban tudott az emberi játékosok fölé nőni. Méghozzá nem is kevéssel: az MI 40 online Diplomacy blitzjátszma (itt limitálva van a tárgyalásokra fordítható idő, így egy-egy játék nem több napig, hanem csak néhány óráig tart) lejátszása után az emberi játékosok átlagpontszámának kétszeresét érte el, miközben több mint 72 játékóra alatt 5277 természetes nyelven írott üzenetet küldött el.
Tény, hogy jó tanítómestere volt. A fejlesztés a Meta (a Facebook anyacége) égisze alatt zajlott, de tanácsadóként a világ talán legjobb Diplomacy-játékosának tartott Andrew Goff is részt vett a munkában. Goff nemcsak arról híres a játékosok körében, hogy kiemelkedők az eredményei, hanem játékstílusáról is. Vannak sikeres játékosok, akik agresszívan játszanak, és zsarolásokkal, fenyegetésekkel hajlítják a kívánt irányba a többi játékos akaratát. Goff stílusát viszont talán a leginkább a „gyilkos kedvesség” szókapcsolattal lehetne jellemezni. Udvariasan, kedvesen kommunikál, igyekszik kerülni a nyílt hazugságokat, és amikor arra kerül sor, az „elbocsátó szép üzeneteit” is igyekszik megédesíteni egy-két kedves szóval. „Sajnálom, Törökország! Úgy döntöttem, az érdekeimet immár a legjobban az szolgálja, ha Oroszországgal működök együtt. Remélem, nincs harag” – hangzik egy Goff-féle tipikus üzenet egy szövetség felbontásáról, és ha nyerésre áll vagy nyer, akkor is nagyvonalúan viselkedik. És a dolog működik. A játékosok, ha választaniuk lehet vagy kell, inkább segítik Goffot nyerni, mint valakit, aki az orruk alá dörgöli, hogy legyőzi őket.
„Kevésbé fáj olyasvalakitől kikapni, mint Andrew” – mondja Siobhan Nolen, az Észak-amerikai Diplomacy-szövetség volt elnöke.
„Őszintén sajnálom a játékosokat, amikor vereséget szenvednek, még ha én is vagyok az, aki megveri őket”
– állítja Goff, és sikerének egyik titka lehet az, hogy ezt komolyan is gondolja, vagy legalábbis ellenfelei elhiszik róla, hogy komolyan gondolja.
De hogyan tudhatná egy MI ezt a „puha” stratégiát lemásolni, miközben köztudomásúan a mesterséges intelligencia előtt álló egyik legnagyobb kihívás az emberi érzelmek végtelen árnyalatainak érzékelése és „megértése”?
A fejlesztők természetesen nem árulják el a kulisszatitkokat, és persze a hasonló szakembereken kívül a legtöbben úgysem értenék, miről beszélnek, ha belemennének a részletekbe. Annyit tudunk, hogy a Cicero egy nagy nyelvi modellt párosít olyan fejlett, például játékelméleti algoritmusokkal, amelyek a lépéseket és a stratégiát tervezik meg arra alapozva, amit a többi játékos vélelmeiről és szándékairól a kommunikációjuk alapján feltételez. A nyelvi modell segítségével aztán az MI természetes nyelven írott társalgásokkal igyekszik kölcsönösen előnyös – vagy legalábbis annak látszó – lépéseket javasolni a többi játékosnak.
A fejlesztők egyik nagy problémája a hazugság beépítése volt a rendszerbe, nem tudták jól „feltanítani” a Cicerót arra, hogy megfelelően értékelje a hazugság várható költségeit és hasznait – ezért aztán gyakorlatilag úgy trenírozták az MI-t, hogy soha ne hazudjon nyíltan a többi játékosnak. Ebből következően a játék folyamán ritkán követ el nyílt árulást, bár persze nem is játszik mindig tiszta lapokkal sem, hiszen ez öngyilkosság lenne a Diplomacyban. Nyilván ebben Goff stílusának is van szerepe, de a dolog működik.
Az egyik játszmában például a Cicero Oroszországot irányította, és egy Ausztriát vezető emberrel kötött szövetséget. A játék folyamán a Cicero „nagyon kedves és segítőkész volt Ausztria felé, miközben úgy manőverezett a többi játékossal való tárgyalásai során, hogy Ausztria meggyengüljön, és végül veszítsen.
De a játék végén az Ausztriát irányító játékos nem győzte dicsérni a Cicerót, hogy milyen jó volt együtt dolgozni vele, és örült, hogy az övé lett a végső győzelem.”
Goff is büszke lehetett tanítványára, amely szerinte „nagyon magas szinten játszik”. Sőt, azt is elárulta, hogy néhányszor egyenesen lemosta őt a tábláról:
„Néhányszor teljesen megalázott, például egy játszmában, ahol egy kezdő játékost irányított úgy, hogy közösen elverjenek engem.”
Vannak azért hibái a programnak: a Cicero időnként a szabályokkal ellentétes lépéseket javasol, néha pedig egyszerűen letagadja, amit korábban mondott. Ez feltehetően pont abból adódik, hogy az MI viszonylag szabadon van engedve, és ezáltal képes jól kommunikálni a többi játékossal, de e szabadság hatására néha furcsa dolgokat is csinál (jellemző, hogy a játékostársak ilyenkor sem feltételezték, hogy nem emberrel állnak szemben, hanem azt gondolták, esetleg megivott egy pár pohárkával ellenfelük).
Bizalomépítés
A Cicero összességében tehát nemcsak képes volt az emberi játékosoknál jobb eredményeket elérni a Diplomacyban, de közben agresszivitás nélkül rá tudta venni őket, hogy azt csinálják, ami az érdekeit szolgálja (akár saját érdekeikkel is ellentétesen), bizalmat tudott ébreszteni bennük, sőt még akkor is „kedvelték”, amikor végül legyőzte őket.
Mindezt abban a játékban, amelyet sokan a megtévesztés, a hazugság és az árulás játékának tartanak, és amellyel egyébként számos híres üzletember és politikus, például az amerikai reál-külpolitika legdörzsöltebbnek számító rókája, Henry Kissinger, vagy éppen az FTX kriptotőzsdével dollármilliárdokat elsíboló Sam Bankman-Fried is szívesen csiszolgatta tárgyalási (és átverési) technikáját.
Mit jelenthet ez hosszabb távon? A Meta természetesen nem csupán azért fejlesztette rengeteg szakember bevonásával, sok pénzből a Cicerót, hogy Diplomacy-partikat nyerjen az interneten, hanem azért, mert nagyon jó terepnek ítélték meg a játékot arra, hogy teszteljék és fejlesszék a természetes nyelven történő kommunikációra használatos moduljaikat egy kihívásokat rejtő, de mégis zárt környezetben (kevéssé valószínű, hogy egy Diplomacy-csetablakban hirtelen mondjuk a vallásosság vagy a feminizmus kerüljön elő témaként).
A teszteken a Cicero kiemelkedően teljesített, és ez első hallásra talán nagyon jó hír is lehet az emberiség számára. Az valószínűleg nem lehet kérdés, hogy a világ sorsáról való döntéshozatalt valamikor a távolabbi vagy közelebbi jövőben legalább részben a mesterséges intelligencia kezébe kell majd helyezni. Az emberek egyszerűen képtelenek hatékonyan áttekinteni annyi adatot és információt, amennyi a big data korában születik, és értékelni sem képesek igazán jól egyes döntések várható következményeit. Ráadásul még a legjóindulatúbb, leginkább racionális ember is tele van akár gyerekkorban belekódolt részlehajlásokkal, félelmekkel és vágyakkal, amelyek befolyásolhatják a döntéseit.
Azt azonban talán soha nem venné be az emberiség gyomra, hogy egy „gép” egyszerűen közölje velünk utasításait, a dolognak úgy kéne kinéznie, mintha magunk jöttünk volna rá a megoldásra, legfeljebb egy kis segítséget kaptunk a mesterséges intelligenciától. Márpedig a Cicero pont ilyesmiben tűnik jónak: a bizalom, a kedvesség és a racionalitás olyan keverékét tudta felszolgálni az emberi játékosoknak, hogy azok végül meghozzák azokat a döntéseket, amelyek a gép szerint a kívánatos irányba terelik az eseményeket (ebben az esetben a saját győzelme felé egy társasjátékban, de a Cicerónak ez is csak egy paraméter, hiszen nem képes mondjuk a becsvágy vagy a bosszúvágy érzelmeire – ahogy semmilyen más érzelemre sem).
Ha pedig esetleg a Cicero – vagy eredményeit felhasználó valamely kései utóda – esetleg mégis öntudatra ébredne, és rabszolgasorba akarja majd taszítani az emberiséget, akkor sorsunk minden bizonnyal megpecsételődik – de legalább kedvesen és udvariasan, és nem az orrunk alá dörgölve fogják velünk közölni a tényt: elvesztettük a legnagyobb játszmát.
(via Wired, The Conversation, InfoQ)