8p

 Közgyűlést tart a Magyar Tudományos Akadémia, ahol a mesterséges intelligencia az egyik fő téma.

A Magyar Tudományos Akadémia 197. közgyűlésének hétfői nyitóünnepségén Freund Tamás, az MTA elnöke köszöntője után “Magyar nyelvtechnológiai eredmények a mesterséges intelligencia korában” címmel Prószéky Gábor nyelvész, az MTA doktora tartott előadást a magyar nyelvre kifejlesztett hazai ChatGPT-ről: a Puliról.

Nincsenek határok
Nincsenek határok
Fotó: Pixabay

A nyelvész, matematikus és programtervező, a HUN REN nyelvtudományi kutatóközpont főigazgatója kiemelte:

“Még sohasem volt ekkora modellünk, amely ekkora léptékben tudta volna modellezni a magyar nyelvet. Ezzel az angol, a kínai után a magyar nyelv már az első tíz modellezett nyelv között szerepel - mintegy hétmilliárd rögzített paraméterrel. Miközben 130 millió magyar szó van a nyelvünkben, a Puli fejlesztői már 50 milliárd szót tartalmazó magyar szöveget gyűjtöttek össze a modellbe" - summázta az általuk létrehozott alapnyelv-modell és a Puli-rendszer jelentőségét, amelyhez hosszú út vezetett.

Mint megtudtuk, a fejlesztés során sok olyan problémába ütköztek, amivel előtte senki sem találkozott. Nehézséget okozott például, hogy nyelvünkben minden szöveg többértelmű. Ezért a számítógépes nyelvész feladata volt e többértelműségeket kiküszöbölni. Az okos gép például elemekre bontott olyan szavakat is: mint az adósság, a cumisüveg (adós- ság, cumi- süveg) így nem tudja ebből mit kell használni. Hasonló a helyzet azzal a mondattal is, hogy “ez a pók minden talpalatnyi helyet telefon”. (Azaz a mesterséges intelligencia nem tudta értelmezni, mit is kezdjen ebben az összefüggésben a telefonnal…) Ez is mutatja, másképpen működik az emberi elme, mint a szabály alapú gépi feldolgozás.

Mesterséges neurális háló

Előrelépést hozott a nyelvi mesterséges intelligencia fejlesztésében, hogy sok szöveg került fel a világhálóra, amivel a nyelvi statisztikai módszerek is fejlődtek. Így az előre megadott szabályok helyett a gép maga, statisztikai alapon állapítja az adott szó, szövegrész, mondat jelentését. Azt az értelmezést fogadja el, amiből több van, és nem azt, amiből kevés. Emiatt azonban a mesterséges intelligencia nem tudott értelmezni olyan nyelvi fordulatokat, mint például “a postás harapta meg a kutyát”, hiszen a fellelhető szövegek többségében fordítva történik.

A statisztikai módszerre épülnek a mesterséges intelligenciát használó fordítási modellek is
A statisztikai módszerre épülnek a mesterséges intelligenciát használó fordítási modellek is
Fotó: Pixabay

A 2010-es évek elején kezdték alkalmazni a szövegkezelésben a mesterséges neurális hálót. Ez egy - sok, súlyozott bemenetű - számítógépes rendszer, amelyben a “súlyozott összeg” egy függvény argumentumába kerül be. A neurális hálós gépi tanulással kezelik a szöveget, amely már hasonlóság alapján választ, ad eredményt. Mindezt az alapján, hogy melyik nyelvi szerkezet hasonlít legnagyobb mértékben a másikra. Ezt a felügyelt és a felügyelet nélküli tanulással is közelítheti a rendszer. A felügyelt tanulásnál ehhez a programozók mintákat adnak a gépnek, hogy ezt közelítse.

Van már egy köztes rendszer is: a visszacsatolásos gépi tanulás, amelyhez a kutatók előre adják meg a mintákat. Ez azt is jelenti, hogy a gépnél ott ül tehát valaki, aki valós időben beavatkozik, segít a gépnek eldönteni, hogy ez az értelmezés, eredmény jó, vagy nem jó.

Tanulnak tanulni

Ezeknek a technikák áttörés hoztak a mesterséges intelligenciás nyelvi feldolgozásban. Kiderült, hogy a gépi tanulással a természetes nyelveket is fel lehet dolgozni, ennek még szűkebb területe, ahol - az előadó szerint - “tanulást tanuluk”. A többszintű rendszerben az egyik rendszer kimenetét már egy másik rendszer bemenetének tekintik, egymás után több szint működik.

A rendszertörténeti kitekintő után az előadó az alkalmazott matematika, programozás, vektoranalízis felhasznált módszereibe is bepillantást engedve mondta el, hogyan fejlesztették ki a Pulit. A szöveg egy-egy mondatának, minden szavának a vektorát valahogyan átlagolják, így a hasonló állítások hasonló helyre kerülnek. Az egymásra épülő hierarchikus rendszerben így eljutottak odáig, hogy a nyelvi tartalmat magas szinten tudják matematikailag modellezni. Az így létrehozott gigantikus nyelvi modellek a mesterséges intelligencia-rendszerek alapjai, de ez csak sok pénzzel, hosszú idő alatt és nagyon nagy teljesítményű számítógéppel lehet létrehozni, amire jobbára csak a világcégek képesek. Az arányokat mutatja, hogy Elon Musk modellcégét, az első ChatGPT-s sikerei után a Microsoft további horribilis összeggel: 10 milliárd dollárral támogatta.

Ezért is tiszteletre méltó, hogy a hazai fejlesztők által létrehozott magyar modell - igaz, csak a maga módján, például egyes funkciókban - mégis képes versenyezni ezekkel az óriásokkal. A mesterséges intelligencia fejlesztésével így elérték, hogy a rendszer jobban figyel bizonyos szókapcsolatokra. A modellt, amit a nagy cégek létrehoztak, az előadó szerint ugyanis tovább lehet tanítani. Olyan feladatokra például, hogy a magyart cserélje csángó magyarra, vagy akár fűtésszerelő szaknyelvre. Ezekhez a feladatokhoz pedig már sokkal kisebb teljesítményű számítógép, kisebb szövegmennyiség is elég.

2025 legyen a Magyar tudomány éve!

A Magyar Tudományos Akadémia 197. közgyűlésének hétfői nyitóünnepségén Freund Tamás elnök köszöntőjében emlékeztetett arra, hogy „az akadémia a nemzet szemében máig megtestesíti a tudás tiszteletét, a magyar nyelv és a nemzet egységét és fejlődését, amit politikai és világnézeti hovatartozás nélkül minden magyar ember által elismert politikus, tudós és művész nagyjaink hitelesítenek”. Elvárásnak nevezte, hogy az akadémia iránt megnyilvánuló társadalmi bizalom a magyar tudományos közösség minden tagját és intézményét áthassa, és mint mondta: “felelősségvállalásra és büszkeségre ösztönözze.” Kitért egyebek között arra is, hogy 2025 legyen a Magyar tudomány éve!

A Puli-rendszer a saját szavaival azt is el tudja mondani, miről szól a megkapott szöveg, amelyről sokáig csak álmodtak a fejlesztők. A megkapott szöveget ékezetekkel is el tudja látni. Sőt, a “meg” és a “még” szót is megkülönbözteti. A tulajdonneveket - egyes névelemeket - is felismeri a rendszer, így az  “érzékeny” szövegekben, ha kell kicseréli, eltávolítja a neveket, dátumokat, web-címeket. A nyelvi struktúra ezután is ugyanaz marad, de (személyiségi jogi értelemben) már nem lesz “érzékeny”, tudnak vele tovább dolgozni.

Az előadó külön hangsúlyozta, hogy a Puli képes megmondani, hogy az adott szöveg kire, mire nézve előnyös, vagy éppen hátrányos. Ezért is szeretik a politikusok, a marketingesek a nyelvi rendszereket. Sőt, végigolvasva képes kivonatolni a szöveget, ami például vezetői összefoglalók készítésénél nagy segítség. Természetesen más nyelvre is le tudja fordítani a szöveget, sőt ugyanazt, saját szavaival vissza is fordítja más nyelvről ismét magyarra. Hab a tortán, hogy a rendszerrel magyarul - de angolul és kínaiul is - lehet beszélni, szemben a csak angolul kommunikáló nagy amerikai rendszerekkel. A Puli legújabb fejlesztése dialógusokra is képes, beszélgetést is szimulál.

Prószéky Gábor azonban arra is felhívta a figyelmet, aki szövegkezelő ChatGPT-t használ és egy szöveget beír a rendszerbe, az azonnal megjelenik a szolgáltatónál, nincs tehát teljes biztonságban, amit beleírtak. A Puli végfelhasználói viszont a saját gépükön dolgozhatnak, nem kell felküldeni az internetre. Így nem kell félni, hogy mások is hozzáférnek a szövegeikhez. Ez is az egyik oka, hogy létrehozták. Fontos, hogy tovább tanító programozással tovább lehet tanítani, akár ügyfélszolgálati felhasználásra is bevetni.   

Nem ember, hanem gép

“Ez a rendszer sok mindent tud, de nem mindent, szépen válaszol, de nem mindig mond igazat, vagy összekeveri a dolgokat, de nagyon hitelesnek tűnik” - oszlatta el a mesterséges intelligenciáról a hamis illúziókat a szakember. Sokat ígér viszont, hogy finom hangolással a jelenlegi rendszert is tovább lehet javítani. “A matematikáját értjük, az informatikáját csináljuk, a nyelvészeti eredményeinek örülünk, és tágra nyílt szemmel várjuk, hogy valaki megfejtse.” - fejezte be az előadását.

Az ünnepi ülésen a legrangosabb akadémiai elismeréseket is átadták. Az idei Akadémiai Aranyérmet Pléh Csaba pszichológus, nyelvész, az MTA rendes kapta. Átadták az Akadémiai Díjakat és további akadémiai elismeréseket is. Az esemény zárásaként átadták a 2023. évi jótékonysági gyűjtés céljára felajánlott több mint 12,5 millió forint adományt a II. Rákóczi Ferenc Kárpátaljai Magyar Főiskola számára.

LEGYEN ÖN IS ELŐFIZETŐNK!

Szerkesztőségünkben mindig azon dolgozunk, hogy higgadt hangvételű, tárgyilagos és magas szakmai színvonalú írásokat nyújtsunk Olvasóink számára.
Előfizetőink máshol nem olvasott, minőségi tartalomhoz jutnak hozzá havonta már 1490 forintért.
Előfizetésünk egyszerre nyújt korlátlan hozzáférést az Mfor.hu és a Privátbankár.hu tartalmaihoz, a Klub csomag pedig egyebek között a Piac és Profit magazin teljes tartalmához hozzáférést és hirdetés nélküli olvasási lehetőséget is tartalmaz.


Mi nap mint nap bizonyítani fogunk! Legyen Ön is előfizetőnk!