A Magyar Tudományos Akadémia 197. közgyűlésének hétfői nyitóünnepségén Freund Tamás, az MTA elnöke köszöntője után “Magyar nyelvtechnológiai eredmények a mesterséges intelligencia korában” címmel Prószéky Gábor nyelvész, az MTA doktora tartott előadást a magyar nyelvre kifejlesztett hazai ChatGPT-ről: a Puliról.
A nyelvész, matematikus és programtervező, a HUN REN nyelvtudományi kutatóközpont főigazgatója kiemelte:
“Még sohasem volt ekkora modellünk, amely ekkora léptékben tudta volna modellezni a magyar nyelvet. Ezzel az angol, a kínai után a magyar nyelv már az első tíz modellezett nyelv között szerepel - mintegy hétmilliárd rögzített paraméterrel. Miközben 130 millió magyar szó van a nyelvünkben, a Puli fejlesztői már 50 milliárd szót tartalmazó magyar szöveget gyűjtöttek össze a modellbe" - summázta az általuk létrehozott alapnyelv-modell és a Puli-rendszer jelentőségét, amelyhez hosszú út vezetett.
Mint megtudtuk, a fejlesztés során sok olyan problémába ütköztek, amivel előtte senki sem találkozott. Nehézséget okozott például, hogy nyelvünkben minden szöveg többértelmű. Ezért a számítógépes nyelvész feladata volt e többértelműségeket kiküszöbölni. Az okos gép például elemekre bontott olyan szavakat is: mint az adósság, a cumisüveg (adós- ság, cumi- süveg) így nem tudja ebből mit kell használni. Hasonló a helyzet azzal a mondattal is, hogy “ez a pók minden talpalatnyi helyet telefon”. (Azaz a mesterséges intelligencia nem tudta értelmezni, mit is kezdjen ebben az összefüggésben a telefonnal…) Ez is mutatja, másképpen működik az emberi elme, mint a szabály alapú gépi feldolgozás.
Mesterséges neurális háló
Előrelépést hozott a nyelvi mesterséges intelligencia fejlesztésében, hogy sok szöveg került fel a világhálóra, amivel a nyelvi statisztikai módszerek is fejlődtek. Így az előre megadott szabályok helyett a gép maga, statisztikai alapon állapítja az adott szó, szövegrész, mondat jelentését. Azt az értelmezést fogadja el, amiből több van, és nem azt, amiből kevés. Emiatt azonban a mesterséges intelligencia nem tudott értelmezni olyan nyelvi fordulatokat, mint például “a postás harapta meg a kutyát”, hiszen a fellelhető szövegek többségében fordítva történik.
A 2010-es évek elején kezdték alkalmazni a szövegkezelésben a mesterséges neurális hálót. Ez egy - sok, súlyozott bemenetű - számítógépes rendszer, amelyben a “súlyozott összeg” egy függvény argumentumába kerül be. A neurális hálós gépi tanulással kezelik a szöveget, amely már hasonlóság alapján választ, ad eredményt. Mindezt az alapján, hogy melyik nyelvi szerkezet hasonlít legnagyobb mértékben a másikra. Ezt a felügyelt és a felügyelet nélküli tanulással is közelítheti a rendszer. A felügyelt tanulásnál ehhez a programozók mintákat adnak a gépnek, hogy ezt közelítse.
Van már egy köztes rendszer is: a visszacsatolásos gépi tanulás, amelyhez a kutatók előre adják meg a mintákat. Ez azt is jelenti, hogy a gépnél ott ül tehát valaki, aki valós időben beavatkozik, segít a gépnek eldönteni, hogy ez az értelmezés, eredmény jó, vagy nem jó.
Tanulnak tanulni
Ezeknek a technikák áttörés hoztak a mesterséges intelligenciás nyelvi feldolgozásban. Kiderült, hogy a gépi tanulással a természetes nyelveket is fel lehet dolgozni, ennek még szűkebb területe, ahol - az előadó szerint - “tanulást tanuluk”. A többszintű rendszerben az egyik rendszer kimenetét már egy másik rendszer bemenetének tekintik, egymás után több szint működik.
A rendszertörténeti kitekintő után az előadó az alkalmazott matematika, programozás, vektoranalízis felhasznált módszereibe is bepillantást engedve mondta el, hogyan fejlesztették ki a Pulit. A szöveg egy-egy mondatának, minden szavának a vektorát valahogyan átlagolják, így a hasonló állítások hasonló helyre kerülnek. Az egymásra épülő hierarchikus rendszerben így eljutottak odáig, hogy a nyelvi tartalmat magas szinten tudják matematikailag modellezni. Az így létrehozott gigantikus nyelvi modellek a mesterséges intelligencia-rendszerek alapjai, de ez csak sok pénzzel, hosszú idő alatt és nagyon nagy teljesítményű számítógéppel lehet létrehozni, amire jobbára csak a világcégek képesek. Az arányokat mutatja, hogy Elon Musk modellcégét, az első ChatGPT-s sikerei után a Microsoft további horribilis összeggel: 10 milliárd dollárral támogatta.
Ezért is tiszteletre méltó, hogy a hazai fejlesztők által létrehozott magyar modell - igaz, csak a maga módján, például egyes funkciókban - mégis képes versenyezni ezekkel az óriásokkal. A mesterséges intelligencia fejlesztésével így elérték, hogy a rendszer jobban figyel bizonyos szókapcsolatokra. A modellt, amit a nagy cégek létrehoztak, az előadó szerint ugyanis tovább lehet tanítani. Olyan feladatokra például, hogy a magyart cserélje csángó magyarra, vagy akár fűtésszerelő szaknyelvre. Ezekhez a feladatokhoz pedig már sokkal kisebb teljesítményű számítógép, kisebb szövegmennyiség is elég.
2025 legyen a Magyar tudomány éve!
A Magyar Tudományos Akadémia 197. közgyűlésének hétfői nyitóünnepségén Freund Tamás elnök köszöntőjében emlékeztetett arra, hogy „az akadémia a nemzet szemében máig megtestesíti a tudás tiszteletét, a magyar nyelv és a nemzet egységét és fejlődését, amit politikai és világnézeti hovatartozás nélkül minden magyar ember által elismert politikus, tudós és művész nagyjaink hitelesítenek”. Elvárásnak nevezte, hogy az akadémia iránt megnyilvánuló társadalmi bizalom a magyar tudományos közösség minden tagját és intézményét áthassa, és mint mondta: “felelősségvállalásra és büszkeségre ösztönözze.” Kitért egyebek között arra is, hogy 2025 legyen a Magyar tudomány éve!
A Puli-rendszer a saját szavaival azt is el tudja mondani, miről szól a megkapott szöveg, amelyről sokáig csak álmodtak a fejlesztők. A megkapott szöveget ékezetekkel is el tudja látni. Sőt, a “meg” és a “még” szót is megkülönbözteti. A tulajdonneveket - egyes névelemeket - is felismeri a rendszer, így az “érzékeny” szövegekben, ha kell kicseréli, eltávolítja a neveket, dátumokat, web-címeket. A nyelvi struktúra ezután is ugyanaz marad, de (személyiségi jogi értelemben) már nem lesz “érzékeny”, tudnak vele tovább dolgozni.
Az előadó külön hangsúlyozta, hogy a Puli képes megmondani, hogy az adott szöveg kire, mire nézve előnyös, vagy éppen hátrányos. Ezért is szeretik a politikusok, a marketingesek a nyelvi rendszereket. Sőt, végigolvasva képes kivonatolni a szöveget, ami például vezetői összefoglalók készítésénél nagy segítség. Természetesen más nyelvre is le tudja fordítani a szöveget, sőt ugyanazt, saját szavaival vissza is fordítja más nyelvről ismét magyarra. Hab a tortán, hogy a rendszerrel magyarul - de angolul és kínaiul is - lehet beszélni, szemben a csak angolul kommunikáló nagy amerikai rendszerekkel. A Puli legújabb fejlesztése dialógusokra is képes, beszélgetést is szimulál.
Prószéky Gábor azonban arra is felhívta a figyelmet, aki szövegkezelő ChatGPT-t használ és egy szöveget beír a rendszerbe, az azonnal megjelenik a szolgáltatónál, nincs tehát teljes biztonságban, amit beleírtak. A Puli végfelhasználói viszont a saját gépükön dolgozhatnak, nem kell felküldeni az internetre. Így nem kell félni, hogy mások is hozzáférnek a szövegeikhez. Ez is az egyik oka, hogy létrehozták. Fontos, hogy tovább tanító programozással tovább lehet tanítani, akár ügyfélszolgálati felhasználásra is bevetni.
Nem ember, hanem gép
“Ez a rendszer sok mindent tud, de nem mindent, szépen válaszol, de nem mindig mond igazat, vagy összekeveri a dolgokat, de nagyon hitelesnek tűnik” - oszlatta el a mesterséges intelligenciáról a hamis illúziókat a szakember. Sokat ígér viszont, hogy finom hangolással a jelenlegi rendszert is tovább lehet javítani. “A matematikáját értjük, az informatikáját csináljuk, a nyelvészeti eredményeinek örülünk, és tágra nyílt szemmel várjuk, hogy valaki megfejtse.” - fejezte be az előadását.
Az ünnepi ülésen a legrangosabb akadémiai elismeréseket is átadták. Az idei Akadémiai Aranyérmet Pléh Csaba pszichológus, nyelvész, az MTA rendes kapta. Átadták az Akadémiai Díjakat és további akadémiai elismeréseket is. Az esemény zárásaként átadták a 2023. évi jótékonysági gyűjtés céljára felajánlott több mint 12,5 millió forint adományt a II. Rákóczi Ferenc Kárpátaljai Magyar Főiskola számára.