CESAR: dicsérni, de temetni?

A magyar nyelv helyzete a digitális korban

Magyarországon nagyon komoly kutatások folynak a nyelvtechnológia területén. Az ágazat azonban nincs könnyű helyzetben. Az Európai Unió nagyon komolyan veszi a nyelvtechnológiai fejlesztéseket, de mire számíthatunk Magyarországon?

Fejes László | 2013. január 22.

Korábban már a nyest oldalain is beszámoltunk a CESAR projektről: a magyar kutatók, pontosabban a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Nyelvtechnológiai és Élőnyelvi Osztálya által koordinált munkálatokban Lengyelországtól Bulgáriáig hat közép-európai nyelv nyelvtechnológiai kutatásait fogja össze, és teszi elérhetővé egységes rendszerben.

A CESAR résztvevő országai
(Forrás: CESAR)

A projekt 2011. februárjában indult és 2013. januárjában ér véget. A munkálatok részeként a projektnek része volt egy „road-show” is: a hat résztvevő állam fővárosában konferenciákat rendeztek annak érdekében, hogy különböző szakmán kívüli körökkel – üzleti partnerekkel, kormányokkal és szervezetekkel – megismertessék a nyelvtechnológia lényegét, és tudatosítsák annak gazdasági és társadalmi jelentőségét. A projekt zárórendezvénye a road-show budapesti konferenciája volt, melyet január 18-án, pénteken rendeztek meg az MTA székházában.

Szólnak azok, akiknek szólna

Természetesen a rendezvények megjelentek azok az állami vezetők (vagy képviselőik) is, akiknek a rendezvény elsősorban szólt. Aki szokott konferenciára járni, az tudja, hogy különböző magas beosztású, tekintélyes személyiségeket amúgy is szokás meghívni a megnyitóra: ilyenkor a dékánok, rektorok, igazgatók, kormány- vagy önkormányzati hivatalnokok igyekeznek valami témához kapcsolódót szólni – több-kevesebb sikerrel. Ezen a konferencián több ilyen vendég is jelen volt – mint egy felszólaló megjegyezte, csaknem annyi a köszöntő, mint utána az előadás –, ám a köszöntés feladatát annál kevesebb sikerrel teljesítették.

Áder János köztársasági elnök megbízásából Gróh Gáspár köszöntötte az egybegyűlteket. Korábban már javasoltuk a köztársasági elnöknek, hogy cserélje le beszédíróit – a mostani beszédéből ugyan nem tudnánk tárgyi tévedések sorát felidézni, de a szöveg végkicsengése az volt, hogy a nyelvtechnológusok feladata a magyar nyelvet megvédeni az anglicizmusoktól. (Azt persze nem tudhatjuk, hogy Áder János személyesen mennyit tudott a beszéd tartalmáról, de mégiscsak az ő hivatala Társadalmi Kapcsolatok Igazgatóságának vezetője szájából hangzott el, ami elhangzott.)

Nem kisebb bölcsességeket mondott Bába Iván, a Külügyminisztérium közigazgatási ügyekért felelős államtitkára, aki szerint a magyar nyelv sajátos, mivel nem indoeurópai nyelv, tehát nehezen formalizálható. A magyar nyelvtudomány nagyjai közül felidézte Zsilka Jánost – az ELTE BTK Általános és Alkalmazott Nyelvészeti Tanszékének valaha rettegett vezetőjét a magyar nyelvtudomány halála után olyan gyorsan felejtette el, ahogyan csak tudta.

Az Emberi Erőforrások Minisztériumának kultúráért felelős államtitkára, L. Simon László felszólalásának tanulsága szerint azon előadók közé tartozik, akik helyénvalónak érzik közönségüket a saját életük apró részleteivel szórakoztatni. Hrabalt és Esterházyt megszégyenítő, véget nem érő mondataiból a közönség nem csupán személyes internethasználati szokásaiba, de lánya olvasási szokásaiba is betekintést nyerhetett. Meglátása szerint a magyar kulturális örökséghez köthető tartalmat magyar szervereken kellene tárolni – bár fő feladatként a szövegek digitalizálását emelte ki, néhány tagmondatából kiderült, hogy neki legalább vannak fogalmai arról, mi is az a nyelvtechnológia. Minisztériumi kollégája, Hoffmann Rózsa oktatásért felelős államtitkár a nyelvtechnológiai konferenciára küldött levelében kiemelte, hogy nincs ok az aggódásra: hiába késztetne bennünket pesszimizmusra a technika, van ok az optimizmusra is – az ember.

A köszöntők közül kétségtelenül Csizmadia Norberté, a Nemzetgazdasági Minisztérium tervezéskoordinációért felelős államtitkáráé vitte el a pálmát. Ő tanúbizonyságát adta annak, hogy nyelvtudományi kérdésekben az internet legsötétebb bugyraiból, esetleg a Koponyányi Monyók Nemzeti Könyvesbolt kínálatából tájékozódik. Nem kevesebbet állított, mint hogy a Sorbonne kutatásai is igazolták, hogy a magyar a világ legrégebbi nyelve, emellett persze az emberi logika csúcsterméke, A tamana áltudományos irányzat, mely szerint a világ különböző tájain fellelhető, hasonló hangzású (illetve inkább írásmódú) földrajzi nevek alapján egy a Földet valamikor átfogó őskultúrára következtet – eme őskultúra leszármazottjai pedig a magyarok. hivatkozott a tamanára – mindezt a Magyar Tudományos Akadémia falai között, szakemberek előtt. Érdekes lenne tudni, hogy vajon az államtitkár úr egy csillagászati konferencián is megdicsérné-e az időzítést, hiszen a bak mérleg aszcendenssel jó szellemi erőt ígér; egy orvosi konferencián is kifejezné-e csodálatát, hogy ma már tévén keresztül is lehet kézrátétellel gyógyítani; egy genetikai szimpózium alkalmával is megjegyezné-e, hogy ez a tudományág számunkra különösen fontos, hiszen köztudomású, hogy a magyarok génje kilencszer többet csavarodik, mint másoké.

A vendégek közül Korányi László, a Nemzeti Innovációs Hivatal kül- és belkapcsolati elnökhelyettesé volt az egyetlen érdemi hozzászólás. Mint kifejtette, Európa a legideálisabb hely a nyelvtechnológia fejlődésére: sok a nyelv és magas a technológiai színvonal. Ugyanakkor a piacvezető cégek mind amerikaiak – ő célként azt emelte ki, hogy tudásunkból gazdasági hasznot is képesek legyünk húzni.

Az állami vezetők köszöntőik elmondása után többségükben távoztak, nem várva meg azokat az előadásokat, melyek éppen az ő felvilágosításukra készültek. Folyosói pletykák szerint azért intézményeik képviselői ott maradtak a teremben, így remélhető, hogy a szükséges információk eljutnak az illetékesekhez, ahogyan olvasóinkhoz is.

Mi is az a nyelvtechnológia?

Konferencia-összefoglalónk nem követi a felszólalások eredeti sorrendjét, és nem ismertetünk minden előadást.

Ezt a kérdést már Németh Géza, a Budapesti Műszaki Egyetem Távközlési és Médiainformatikai Tanszékének docense tette fel. Definíciója szerint a nyelvtechnológia „természetes beszédlánc valamely elemének gépi megvalósítása” – azaz az emberi nyelvhasználat valamelyik elemének számítógépes modellezése. Az előadó a beszédtechnológiát, azaz a beszédfelismerést és a beszédszintézist emelte ki, mivel az emberi nyelvhasználat elsődleges területe a beszéd. Mint elmondta, a felfutó technológiák közül sok a beszédtechnológiához kapcsolódik. Magyarország ezen a területen nem áll teljesen rosszul: egy évtizede léteznek mail- és sms-felolvasó rendszerek, igaz, ezeket a távközlési cégek alig reklámozták, illetve túlárazták, így nem igazán használatosak. Készült szövegfelolvasó vakok számára is, a JAWS for Windows – igaz, ez is csak pénzért vehető igénybe.) Készültek magyar nyelvre ügyfélszolgálati adatelemző rendszerek: ezek képesek mérni az ügyfél elégedettségét, vagy azt, hogy mennyire komolyan érdeklődik, érdemes lesz-e később visszahívni. Magyarországon világszínvonalú kutatócsoportok dolgoznak, ám a nagy cégeknek hazánkban nincsenek kutató-fejlesztő csapataik (ez azonban nem régiós probléma: Közép-Európában vannak!). Bőven van még fejlesztenivaló: az automata ügyfélszolgálatok a mai napig számjegyenként mondják be a telefonszámokat.

Azt a kérdést, hogy milyen a jól működő nyelvtechnológia, Kornai András, az MTA Számítástechnikai és Automatizálási Kutatóintézete (a többek között szótárának és robot-MÁV-pénztárosának köszönhetően közismert SZTAKI) Informatikai Kutatólaboratóriumának munkatársa tette fel és válaszolta meg. Ezek szerint szükség van egy nagyjából helytálló elméleti modellre, egy nagyjából jól számoló algoritmusra, nagyjából hibátlan és hiánytalan adatra, illetve a társadalmi befogadókészségre. Ezeknek együtt kell jelen lenniük: hiába jó például a modellünk, ha túl sok számítást igényel. A társadalmi befogadóképességgel kapcsolatban elmondta, hogy a beszélő autók már a nyolcvanas években megjelentek az Egyesült Államokban: ezek szóban figyelmeztették a járművezetőket, ha alacsony volt az olajszint vagy hasonló műszaki probléma lépett fel. Bár az emberek elsőre ezt jópofának találták, a gyakorlatban már idegesítette őket, hogy a kocsijuk beszél hozzájuk – az ilyen kocsik el is tűntek a piacról. (Mi is tapasztaltuk, hogy az ilyen kocsik el szoktak tűnni: érdemes megnézni korábbi cikkünk utolsó videóját.) Kornainak nem ez volt az utolsó autós párhuzama: szerinte a jó nyelvtechnológia olyan, mint az autóban a karburátor – nélküle nem működnek a dolgok, de a felhasználót egyáltalán nem érdekli. A nyelvtechnológia csupa rejtett feladatból áll, olyanokból, mint

tokenizálás: szavak, mondatok határainak felismerése;

szófaji besorolás;

morfológiai elemzés (milyen számban, személyben, esetben időben, módban stb. áll a szó);

névelem-felismerés;

chunking (sekély mondattani elemzés: az összetartozó szócsoportok felismerése anélkül, hogy egymás közötti viszonyaikat meghatároznánk);

funkcionális elemzés (a szócsoportok közötti viszonyok megállapítása, hasonlatos az iskolából ismert mondatrészes elemzéshez);

a szövegbeli előre- és hátrautalások felismerése stb.

A gyakorlatban ezekkel a feladatokkal önmagukban a felhasználó nem találkozik, de lényegében minden nyelvtechnológiai alkalmazás ezekre épül. Kornai András igyekezett válaszolni arra a kérdésre is, hogy az angolra kifejlesztett nyelvtechnológiai eszközök mennyire alkalmasak a magyar nyelv elemzésére. Vannak esetek, amelyekben egyáltalán nem: egy angol szótőkinyerő program húsz soros, a magyarban több ezer programsorra is szükség lehet. A magyarban vannak olyan jelenségek, amelyek az angolban hiányoznak: összetett toldalékolás, magánhangzó-harmónia stb. Természetesen a finn és a magyar közötti ilyen átjárhatóság nem a nyelvrokonságnak, hanem a tipológiai hasonlóságnak köszönhető. Viszont például a finnre kifejlesztett eszközök jól használhatóak a magyarra, és viszont. Ugyanakkor vannak olyan eszközök, melyek a magyarra is jól működnek, legfeljebb kevés változtatásra van szükség: ilyen például a főnévi csoport meghatározása (azaz annak felismerése, hogy mely szavak a jelzői egy-egy főnévnek a mondatban).

Az állami döntéshozók leginkább azt sajnálhatják (és ezért mi, magyar állampolgárok, magyarul beszélők is sajnálhatjuk) , hogy Prószéky Gábor szakmán kívüliek számára is jól követhető előadásáról maradtak le. A Pázmány Péter Katolikus Egyetem Információs Technológiai Karának egyetemi tanára, az nyelvtechnológiai kutatás-fejlesztésre specializálódott magyar vállalkozás, a MorphoLogic ügyvezető igazgatója az üzlet oldaláról mutatta be a magyar nyelvtechnológia mai helyzetét. Ma már modern papírszótárakat nem éri meg kiadni, elektronikus szótárakat sem érdemes fejleszteni, főleg nem „kisebb” nyelvekre. Bár a technológiának köszönhetően ma már könnyebben és gyorsabban összeállítható egy szótár, mint néhány (vagy akár egy) évtizeddel ezelőtt, a felhasználók alacsony száma miatt ez üzletileg semmiképpen nem éri meg. Nem számíthatunk tehát arra, hogy valaki üzleti alapon adjon ki mondjuk egy minőségi horvát–magyar szótárat. Hasonlóképpen kockázatos nagy nyelvekre fejleszteni: a nagyközönség megszokta a neten elérhető ingyenes szótárakat, és nem ad pénzt a jobb minőségért. Sőt, a nagy szolgáltatók piaci túlereje még a jobb minőségű ingyenes szolgáltatásokat is képes elnyomni. A független tesztek szerint a MorphoLogic ingyenes magyar–angol–magyar fordítója, a webforditas.hu jobban fordít, mint a Google Translate, a felhasználók mégis inkább ez utóbbit használják, hiszen ezt ismerik, ezt érik el könnyebben az amúgy is használt Google-szolgáltatásokon keresztül. (Ennek következtében a magyar fejlesztő hiába adja ingyen a szolgáltatást, még reklámbevételből is kevesebb jut neki.) A két fordító között jelentős különbség, hogy a Google statisztikai, a MorphoLogic szabályalapú fordítót használ. A két módszer alapjában tér el (bár kombinálhatóak egymással): a statisztikai alapú fordító viszont bizonyos szerkezetek helyes fordítására sosem lesz képes. (Novák Attila példájával élve: a postás megharapta a kutyát mondatot statisztikai alapon sosem lehet jól lefordítani.) Aki valaha használta a gépi fordítók valamelyikét, könnyen beláthatja, hogy a fejlesztésre szükség van: üzleti alapon azonban ez nem történhet meg. Hasonló a helyzet a fordítómemóriákkal: ezek hatékonyságát is nyelvspecifikus elemzőkkel lehetne növelni, ám a javítás nem éri meg a befektetést. Az egyetlen megoldás a nyelvtechnológia központi, állami finanszírozása lenne. A tudományos alapkutatásokat ma is támogatja az állam, ám ezeknek nincs hasznuk, ha nem lesznek belőlük folyamatosan karbantartott használati eszközök.

Valahol Európában

Az Európai Unió már felismerte a nyelvtechnológia fontosságát. A futó programokról az Európai Bizottság nevében Nagy-Rothengass Márta, a MEAT-NET hálózat nevében Georg Rehm, a CESAR projekt részéről pedig Váradi Tamás, a Magyar Tudományos Akadémia Nyelvtudományi Intézete Nyelvtechnológiai és Élőnyelvi Osztályának vezetője számolt be. Sajnos ezek az előadások – részben törvényszerűen – csak igen nagy vonalakban tekintették át a folyó munkálatokat.

A CESAR-Projektben részt vevő kutatóintézetek földrajzi elhelyezkedése
(Forrás: CESAR)

Az ezzel kapcsolatos hiányérzetünket némiképpen pótolhatták azok az előadások, melyek egy-egy kutatás vagy fejlesztés eredményeit mutatták be előadásban vagy poszteren, illetve élő bemutatóként. Az érdekesebb vállalkozások közül kiemelnénk az EMM News Brief hírfigyelő projektet. Mint Ralf Steinberger projektmenedzser elmondta, nem profitorientált projekt, a felhasználók az unió intézményei, de bizonyos alkalmazásaik a nagyközönség számára is elérhetőeket. Az oldal online híreket gyűjt több mint 70 nyelven (nem csak európaiakon), és elemzik őket, összekapcsolják a hasonló témákról szóló cikkeket. Statisztikákat készítenek: mikor milyen témák mennyire népszerűek, adott országokról hol mennyit írnak, milyen témaelemek (pl. politikusok, intézmények nevei stb.) fordulnak elő gyakran együtt, egy adott időszakaszban mik a legnépszerűbb témák stb. A tevékenység számos melléktermékkel jár, például a nevek különböző variánsait gyűjtik: a Kadhafi névnek például rendkívül sok változata ismert. Ha ismeretlen nyelven találunk egy hírt, az oldal segítségével könnyen ellenőrizhetjük, tárgyalta-e a sajtó általunk ismert nyelven is. Bár a közhiedelem szerint angolul amúgy is minden fontos hír megjelenik, a vizsgálatok szerint ez nem igaz. Egészségügyi híreket vizsgláva megállapították, hogy adott időszakban egyáltalán nem voltak angol nyelvű hírek a Magreb-országokból, miközben lett volna miről tudósítani: franciául akadtak jócskán. Sajnos a szolgáltatás kapcsán komoly hiányosságot is fel kellett fedeznünk: a nyest híreit nem figyeli a rendszer.

A magyar nyelv helyzete a digitális korban

Kiemelendő még, hogy a a CESAR-projekt keretében elkészült (bár még nem érhető el) a Magyar Nemzeti Szövegtár új változata. Ezt Oravecz Csaba, Magyar Tudományos Akadémia Nyelvtudományi Intézete Nyelvtechnológiai és Élőnyelvi Osztályának kutatója mondta el. Ez volt az első jelentős magyar elemzett korpusz, regisztrációval szabadon hozzáférhető. Eredetileg 1998–2001 között készült, a kilencvenes évek második felének nyelvhasználatát tükrözte. 2005-ben a határon túli magyar korpusszal egészítették ki. Több mint 7000 felhasználója van, rengeteg tanulmány épül rá. Az utóbbi évtizedben nőttek az igények: több adat szükséges a pontosabb eredmények; jobb minőségű nyelvfeldolgozó eszközök születtek; a reprezentativitás megőrzése érdekében újabb, a kétezres évek nyelvhasználatát tükröző mintákra volt szükség. A Magyar Nemzeti Szövegtár most valódi gigakorpusszá vált: egymilliárd szónyi szöveget tartalmaz. Az új minták között lejegyzett beszélt szövegek is vannak – korábban ezek hiányoztak. Tisztázták a szerzői jogokat, bővítették a metaadatokat (nem véletlenszerűen gyűjtöttek szövegeket a webről, hanem olyan szövegeket vettek be, melyeknek szerzője és alapvető életrajzi adatai ismertek). Számítógéppel eleve jól kezelhető adatokat dolgoztak fel, nem pdf-ből vagy szkennelt dokumentumokból nyerték ki a szöveget. A nem magyar szövegrészeket, ill. (kvázi-)duplumokat (hasonló szövegeket) kiszűrték. Finomodott a szövegek elemzése is: kijelölték a frázisokat (szorosabban összetartozó szószerkezeteket), jelölték a tulajdonneveket, mindehhez nemzetközi szabványokat használtak. A korpusz kifinomult és gyors keresési lehetőségeket biztosít: a morfofonológiai jelenségeket, toldalékolási tulajdonságokat, nagyobb szerkezeteket, bibliogáfiai adatokat mind ki lehet nyerni, és a találatok szélesebb kontextusukban is megjelenítőek. A kutatóknak sajnos kellemetlen meglepetésekkel is találkozniuk kellett az anyaggyűjtés során: sajtó nem archivál, ill. nem ad át anyagokat kutatási célokra – esetenként azok sem, amelyek tíz éve még megtették.

Alsó tagozatos diákok szóhasználata
(Forrás: Szabó Tamás Péter)

Büszkén mondhatjuk el, hogy a konferencián bemutatott kutatások között volt olyan is, melyről már beszámoltunk: így például Szabó Tamás Péter a mondatkezdő hátról szóló kutatása poszteren mutatkozott be.