0:05
Főoldal | Rénhírek
Fordulat a fordításban:
új technológiára tér át az EU

A soknyelvű Európa és a nyelvtechnológia: META-Forum 2011

„Megoldások a soknyelvű Európának” alcímmel tartották Budapesten a második META-Forum konferenciát, melyen az európai nyelvtechnológia élvonalába tartozó kutatók és az EU döntéshozói találkoztak. Beszámoló a konferenciáról.

Simon Eszter | 2011. július 7.

Korábbi ígéretünknek megfelelően beszámolunk a június 27-28-án rendezett META-Forum konferenciáról, melynek központi témáját a soknyelvű Európa kihívásaira  megoldást nyújtó nyelvtechnológiai alkalmazások szolgáltatták. A konferencia szervezője a META-NET (Multilingual Europe Technology Alliance) volt, amely az európai nyelvtechnológiával foglalkozó intézmények szövetsége. Az első META-Forum konferenciára tavaly novemberben került sor, amikor Brüsszelben találkoztak az európai nyelvtechnológia élvonalába tartozó kutatók és az Európai Bizottság döntéshozói. Annak az eseménynek az alcíme Challenges for Multilingual Europe (Kihívások a soknyelvű Európában) volt, melyre tulajdonképpen választ ad a mostani rendezvény alcíme: Solutions for Multilingual Europe (Megoldások a soknyelvű Európának). Brüsszel után most Budapest adott otthont a konferenciának, az – akkor még – magyar EU-elnökség alatt. A helyi szervezők az MTA Nyelvtudományi Intézetének munkatársai voltak.

Nyitrai Zsolt infokommunikációs államtitkár helyett Mester Máté megbízott osztályvezető, Váradi Tamás és Hans Uszkoreit
Nyitrai Zsolt infokommunikációs államtitkár helyett Mester Máté megbízott osztályvezető, Váradi Tamás és Hans Uszkoreit
(Forrás: Niksz Gyula (Weblafoto))

A megnyitó beszédet magyar részről Nyitrai Zsolt infokommunikációs államtitkár tartotta volna, de sajnos végül nem jelent meg. Beszélt viszont Váradi Tamás, az MTA Nyelvtudományi Intézetének igazgatóhelyettese, Zoran Stančič, az Európai Bizottság Információs Társadalom és Média szervezetének vezetője, valamint Hans Uszkoreit, a META-NET koordinátora.

Google és IBM

Az első napon két meghívott előadót is hallhattunk: az első előadásban Thomas Hofmann, a Google munkatársa beszélt arról, hogy milyen nyelvtechnológiai eszközöket alkalmaznak a Google-nál az internetes szolgáltatások fejlesztéséhez.

Thomas Hofman
Thomas Hofman
(Forrás: Niksz Gyula (Weblafoto))

Főleg a Google Translate-ről beszélt, mint a cég leginkább ismert és alkalmazott nyelvtechnológiai alkalmazásáról, de az is egyértelműen kiderült, hogy az ilyen nagy keresőcégeknek, mint a Google sem nagyon van más választása, mint az interneten található nyelvi információ intelligens feldolgozása és prezentálása. Ehhez pedig olyan eszközöket használnak, mint a morfológiai elemző, a tulajdonnév-felismerő, az anaforafeloldó vagy a jelentésegyértelműsítő.

A másik nagy előadást Bran Boguraev tartotta, aki úgy lett felkonferálva, mint az ember Watson mögött, mivel ő az IBM nyelvtechnológiai kutatócsoportjának a vezetője, akik idén év elején durrantottak nagyot az intelligens géppel, amely megverte az embereket egy amerikai kvízműsorban. A Jeopardy! hasonló a Mindent vagy semmit! műsorhoz, vagyis a játékosoknak nagy lexikális tudást igénylő, a témakörök széles spektrumát lefedő kérdésekre kell választ adniuk. A meghatározások már önmagukban becsapósak, általában valami kis vicc, ironikus fordulat található bennük, aminek a dekódolása a gép számára még nehezebb feladat, mint magukra a kérdésekre jól válaszolni. Felmerülhet a laikus olvasóban, hogy Watsonnak előre megadott kérdésekre kellett esetleg válaszolni, vagy valamilyen módon meg volt könnyítve a helyzete: nos, nem. Sőt még internetet sem használhatott, vagyis mindent a gép memóriájában kellett tárolni, ami viszont 15 terabájtos volt, szóval elég sok adat elfért benne. Watson kulcsszavakkal dolgozik, vagyis a műsorvezető által megadott információból kiemel pár kulcsszót, és azok mentén halad tovább, így próbálja meg kitalálni a megfejtést. Mindehhez a természetesnyelv-feldolgozás minden szintjét mozgósítja: a szavakra bontástól a mondat szerkezetének feltárásán át a szemantikai elemzésig.

Természetesen konkrétumokat nem hallottunk, kicsit olyan volt az előadás, mint amit a bíró lánya mondott Mátyás királynak abban a bizonyos mesében: hoztam is, meg nem is, mondtam is valamit, meg nem is. Nyilván ezek az információk üzleti titkot képeznek, nem mintha bárki rendelkezne odahaza egy 15 terabájtos memóriás és 2880 processzormagos géppel...

Bran Boguraev, az ember a Watson mögött
Bran Boguraev, az ember a Watson mögött
(Forrás: Niksz Gyula (Weblafoto))

Egyébként Bran Boguraev rendkívül szimpatikus kutató: első dolga volt, hogy pontosítsa a konferálást: ő csak az egyik ember Watson mögött, természetesen egy egész csapat dolgozott az intelligens gépen.

MT@EC

A két nagy előadáson kívül a két nap alatt további 9 szekcióban ismerkedhettünk meg a soknyelvű Európa kihívásaira megoldást nyújtó nyelvtechnológiai fejlesztésekkel és projektekkel. Ha soknyelvűség, akkor értelemszerűen a gépi fordítás jut rögtön az ember eszébe mint megoldás a nyelvi korlátok ledöntésére. Több nagyvállalat (Vodafone, Daimler) képviselője is beszámolt arról, hogy hozzájuk már elért az innováció szele, és lelkesen alkalmazzák a nyelvtechnológia fejlesztéseit, de legfőképpen a gépi fordítást. Egy nemzetközi vállalatnál rengeteg szöveges információ termelődik nap mint nap, melyek egyrészt strukturálatlanok, másrészt több nyelven íródtak. Ezekben a dokumentumokban nagyon sok értékes információ bújik meg, melyek lefordítása, rendszerezése és feldolgozása nagy előnyhöz juttathatja a céget.

A soknyelvűség természetesen nem csak a multinacionális cégeket érinti, hanem az Európai Unió mindennapi ügymenetében is nagy szerepet játszik. Gondoljunk csak arra, hogy minden európai intézmény által alkotott jogszabályt le kell fordítani az EU mind a 23 hivatalos nyelvére. Az Európai Bizottság fordítással foglalkozó részlegétől érkezett Spyridon Pilos, aki arról tartott előadást, hogy hogy áll a gépi fordítás ügye az EB-ben.

Spyridon Pilos
Spyridon Pilos
(Forrás: Niksz Gyula (Weblafoto))

Jelenleg 1750 nyelvészből és 600 további kiszolgáló személyből áll az EB fordítási osztálya, ami elég jelentős bérkiadással jár, ráadásul az emberi fordítás több időbe is telik. Ezért az EB már viszonylag korán, a hetvenes években elkezdett a gépi fordítás lehetőségével foglalkozni, akkor, amikor ez a terület Európában a nyelvtechnológia húzóágazatának számított. 2010-ig azt a szabályalapú rendszert használták, amit 1975 és 1998 között a Systran fejlesztett nekik. Tavaly viszont úgy döntött az EB, hogy új irányba kell terelni a gépi fordító alkalmazások fejlesztését, és statisztikai alapú (data-driven) rendszert kell inkább építeni, ami rugalmasabb és technológiailag függetlenebb, mint a régi szabályalapú volt. A projektnek frappáns nevet is adtak: MT@EC (Machine Translation at European Commission).
Nemcsak az EU-s intézmények, hanem más multinacionális szervezetek és vállalatok számára is nagyon fontos lenne egy megbízható teljesítménnyel, hatékonyan használható gépi fordítási alkalmazás. Mint általában a nyelvtechnológia majd minden ágában, itt sem úgy kell elképzelni, hogy van egy termék, amit készre csomagolva, a mi igényeinkre hangolva leemelünk a polcról, és már használunk is. A feladat bonyolultságától függően, a speciális elvárásokhoz igazítva egy ilyen eszköz kifejlesztése több éves kutatómunkát igényel. Kérdés, hogy akár az EB-nek, akár az egyes cégeknek megéri-e a befektetés. Hogyan lehet mérni a hasznát ezeknek az alkalmazásoknak? És itt persze gazdasági haszonról van szó. De ugyanilyen hangsúlyos kérdés volt az is, hogy mi a szerepük az emberi fordítóknak az új szisztémában.

Fehér könyvek

A konferencia mottója egy kérdés volt: „Valóban veszélyben Európa nyelvei?” A kérdésfeltevés első ránézésre pesszimista huhogásnak tűnik. Viszont: az EU területén a 23 hivatalos nyelven kívül még kb. 60 kisebbségi nyelvet beszélnek, és ha ehhez még hozzávesszük a nagyszámú bevándorló közösségek által használt egyéb nyelveket is,  Európában több száz nyelvet használnak. Az EU egy nagy olvasztótégely, amelyben azért elég erősen dominál az angol, a francia és a német mint lingua franca. Ha innen szemléljük a helyzetet, már nem is tűnik olyan hihetetlennek, hogy bizonyos nyelvek veszélyben lennének.

A soknyelvű Európa és a nyelvtechnológia: META-Forum 2011

A konferencián mutatták be 29 európai nyelv ún. fehér könyvét, amelyek mindegyike az adott európai nyelv helyzetét ismerteti a digitális korban. A kiadványokban találunk általános leírást az adott nyelvről, annak európai helyzetéről (hányan beszélik, milyen országokban, milyen szintű az adott nyelven az oktatás stb.), továbbá kitekintést az adott nyelven működő nyelv- és beszédtechnológiai alkalmazásokról, a kutatás-fejlesztés helyzetéről. A fehér könyvek közös bevezetője arra helyezi a hangsúlyt, hogy annak ellenére, hogy vannak olyan nyelvek, amelyeket többen beszélnek, és persze olyanok is, amelyeket kevesebben, a nyelvtechnológia fejlesztései le tudják dönteni ezeket a nyelvi korlátokat, és garantálni tudják az információs szabadságot és az esélyegyenlőséget minden európai polgár számára.

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások (1):

Követem a cikkhozzászólásokat (RSS)
12 éve 2011. július 7. 12:49
1 zoltanvarju

A Watson-ról szerintem nem azért nem beszélt részletekbe menően az előadó mert hiper-szuper titkos lenne a dolog, hanem mert annyira összetett hogy egy ember nem igazán láthatja át. A rendszer alapját képző UIMA (uima.apache.org/) nyílt forráskódú, szabadon hozzáférhető rendszer, ahogyan a többi "összetevő" is (pl. Hadoop) ismert és egy kis guglizással simán lehet találni a Watson-t bemutató tanulmányokat is.