Merd kérdezni az MTA-t!

„...határozottan kijelenthetjük, hogy Fejes László /.../ érvei nem támasztják alá azt a sarkos véleményét, amely alapjában elhibázottnak tartja az online helyesírási tanácsadó portál ötletét.”

Váradi Tamás | 2015. július 23.

„(Ne) kérdd az MTA-t” címmel nemrég cikk jelent meg a Nyest-en, melynek szerzője, Fejes László, egy olvasói levél kapcsán foglalkozik az MTA Nyelvtudományi Intézet által fejlesztett és üzemeltetett helyesírási tanácsadói portállal. A kivételes és meglehetősen trükkös példa elemzéséből kiindulva a szerző olyan végletes véleményt fogalmaz meg, amelyet nem hagyhatunk szó nélkül. E cikkben a portál munkálatainak vezetőjeként, a fejlesztőcsapat nevében szeretnék rámutatni Fejes konklúziójának tarthatatlanságára, és egyben bemutatni a portál készítésének szakmai kihívásait, továbbá érveket felhozni az alkalmazott nyelvtechnológiai megoldások mellett.

Maga a szóvá tett eset (egy szóalakbeli egybeesés, melyet a rendszerünk nem kezelt kimerítően és egyértelműen) annyira egyedi jelenségnek tekinthető, hogy az ügy majdhogynem ürügynek tűnik a belőle levont konklúziókra (a részletekért l. az eredeti cikket, különösen az illető János nevű olvasó józan reflektálását a cikkhez fűzött megjegyzések között). Korántsem akarom trivializálni a felhozott esetet, és nem is kívánom vitatni, hogy a rendszerünk nem a kellő szofisztikáltsággal kezelte a szóban forgó többértelműséget. Véleményünk szerint azonban az ebből az egyedi esetből Fejes által levont konklúzió teljességgel megalapozatlan, már-már abszurdnak is mondható.

Fejes László ugyanis a (történetesen két szótőre, a kér és a kérd ’kérdez’ igére egyaránt visszavezethető) kérd szóalak elemzése kapcsán az alábbi véleményre ragadtatja magát: „Sajnos azt kell megállapítanunk, hogy az online automatikus helyesírási tanácsadónak már az ötlete is hatalmas szakmai melléfogás”. E vélekedésének alátámasztására Fejes négy érvet hoz fel. Véleményünk szerint ezek egyike sem, de együttesen sem teszik indokolttá e sommás ítéletet. Nézzük őket sorra:

1. „Először is tisztában kell lennünk azzal, hogy a morfológiai elemzők működése is egy csomó kényszerű buktatót rejt magában (elég a korábban már bemutatott anyósom példájára gondolni).”

Ezt megelőzően Fejes hosszasan foglalkozik a morfológiai elemzők képességeivel. Rámutat ugyan arra, hogy a portálunk meghaladja azokat, de leegyszerűsíti és „okoskodásnak” minősíti a portál által hozzáadott értéket (erről l. alább). Itt is visszatér a morfológiai elemzők korlátozottsága. Ezzel kapcsolatban fontos hangsúlyoznunk, hogy egy ilyen helyesírási tanácsadó portál komplex rendszer, amelynek csupán egy alkotórészét jelentik a morfológiai elemző által adott adatok. Amint azt Fejes is elismerőleg említi, a pusztán alaki jólformáltságot vizsgálni képes helyesírás-ellenőrzőkkel szemben (amelyek csak a morfológiai elemzőre hagyatkoznak), a mi rendszerünk képes olyan szóalakokkal kapcsolatban is tanácsot adni, amelyek önmagukban jól képzettek (pl. egyenlőre – egyelőre, takarítónő – takarító nő, bántja – bántsa) azaz egy morfológiai elemzőre épülő rendszer egyaránt helyesnek tartja őket. Pusztán az alakot tekintve a kérdés, hogy melyik helyes, eldönthetetlen.

A helyesírási tanácsadás (legyen az gépi vagy emberi) azzal az alapproblémával néz szembe, hogy a helyes alak nagyon gyakran nem ítélhető meg pusztán a felszíni forma alapján, hanem a szándékolt jelentés, a kontextus ismerete is szükséges hozzá. Ennél fogva a jólformáltságot tekintő, morfológiai elemzőn alapuló rendszerek szükségszerűen korlátozott képességűek. Ez azonban kezelhető probléma, erre később, a szerző harmadik érve kapcsán visszatérünk. Egy további problémát jelent a lehetséges és a ténylegesen használt szóalakok kérdése. Ezt példázza a cikkben hivatkozott anyósom szóalak, amely a szóösszetétel produktivitását érinti: az anyósom szóalak ugyanis elemezhető az anyó + som összetételnek, és mivel a főnév + főnév összetétel elvileg korlát nélkül működik a magyarban, a morfológiai elemző az anyósom alakot összetett alakként is elemzi. Ennek kezelésére szintén találhatunk korpuszokra épülő nyelvtechnológiai megoldásokat. Az intuícióra épülő puszta vélekedésekkel szemben e téren kifejezetten a nyelvtechnológia ad szilárd, megbízható fogódzót.

2. „Másodszor is: a helyesírási szabályzat rendkívül kaotikus, és a morfológiai elemzők nem is a szabályzat, hanem egészen más szabályok alapján működnek. Éppen ezért ha a morfológiai elemző jól működik, akkor is nehéz meghatározni, hogy a helyesírási szabályzat melyik pontja vonatkozik az adott szó helyesírására.”

Nem kívánjuk vitatni Fejes véleményét a helyesírási szabályzatról. A mi feladatunk a mindenkori helyesírási szabályzat szerinti helyesíráshoz segítséget nyújtani. Mondhatni, hozott anyagból dolgozunk. Hozzátehetjük: nem csupán a szabályzat, hanem maga a nyelvhasználat is szövevényes, telis-tele van kivételekkel, hiányos, szabálytalan alakokkal, többértelműségekkel stb. (amint azt az eredeti cikk kiinduló példája is bizonyítja). Az, hogy a morfológiai elemző és a szabályzat más szabályok alapján működnek, számunkra közömbös tény, mert – amint említettük az előző pontban – nem a morfológiai elemző határozza meg azt a rendszerünkben, hogy a helyesírási szabályzat melyik pontja vonatkozik az adott szó helyesírására. Az hogy Fejes ezt feltételezi, elárulja tájékozatlanságát a portált működtető nyelvtechnológiai rendszerről. Ez ugyanis egy komplex, ún. döntési fán alapuló elemző rendszer, amely jóval több tényezőt vesz figyelembe, mint ami a morfológiai elemző számára releváns. Például a morfológiai elemzők általában nem foglalkoznak azzal, hogy hány szótagból áll egy szó, a helyesírás szempontjából viszont ez fontos tényező. Azt, hogy a helyesírási szabályzat mely pontja vonatkozik egy szó helyesírására, annak alapján dönti el a rendszer, hogy feldolgoztuk a helyesírási szabályzat által relevánsnak tekintett összes (morfológiai, szintaktikai és szemantikai jegyet) és ezt összevetjük a felhasználók által beírt keresési kifejezés elemzése során kapott jegyekkel. Ez utóbbiak egyike csupán a morfológiai elemzés eredménye.

3. „Harmadszor: az MTA szoftvere az esetek többségében megelégszik azzal, hogy közli, hogy a szóalak helyes – holott ez nem sokat segít pl. a helység és a helyiség, a fáradság és a fáradtság megkülönböztetésében. Korábban a program semmi ilyesmit nem tudott, azóta e téren sokat fejlődött (az itt említett megkülönböztetésekben pl. segít), de ezeket a feladatokat nem lehet programozással megoldani, egyesével kell bevinni őket, és a legügyesebb szakemberek sem gondolhatnak mindenre – amint azt János esete is mutatja.”

Az érv önellentmondásos első részére nem (csak) azért érdemes egy pillanatnyi figyelmet fordítanunk, hogy jólesőn nyugtázzuk a szerző elismérését a rendszer minőségének emelése iránti erőfeszítéseink és annak látható eredménye iránt, hanem inkább azért, hogy felfigyeljünk arra, hogy a rendszer, amely Fejes szerint „hatalmas szakmai melléfogás”, ezek szerint mégiscsak fejlődőképes. Mi ugyan úgy emlékszünk rá, hogy már születése pillanatában is fel volt vértezve efféle tudással, de elfogadjuk, hogy ezek szerint nem olyan mértékben, ami annak idején elérte volna Fejes László észlelési küszöbét.

A helyesiras.mta.hu portál moduljai

Az érv második fele már komolyabb megfontolást érdemel. Fejes tehát úgy gondolja, hogy egy számítógépes rendszernek akkor van csak létjogosultsága, ha minden eleme algoritmikus megoldáson alapul, azaz programozható. Ezt alapos túlzásnak, a mi esetünkben teljes tévedésnek tartjuk. Abszolút természetes bármilyen számítógépes rendszerben, hogy például a kivételes helyzetek kezelésére adatbázisba gyűjtött statikus adatokkal dolgozik, amelyeket kezdetben akár kézzel állítanak össze, még az sem kizárt, hogy egyesével, ha másképp nem megy. Különösen így van, ha a bemenő adatok önmagukban tele vannak kivételekkel, szabálytalanságokkal. Ez tehát a mi esetünkben sem volt másképp, bár mondjuk a helységnevek, keresztnevek, anyagnevek stb. listáját például nem egyesével, kézzel állítottuk össze. Ugyanez vonatkozik a kivételes vagy többértelmű alakok kezelésére is. Ahol egyedi esetekről van szó, azokat listába vettük, majd ezen listák kezelésére lokális hatókörű algoritmikusokat szerkesztettünk. Arra is van stratégiánk, hogy miképpen tudnánk a jelentést, a kontextust bevonni a formailag önmagában helyes, de eltérő kontextusban helyes alakok esetében. Jelenleg leginkább példákkal illusztráljuk azt a szövegkörnyezetet, amelyben az illető alak helyes. Egy további lehetőség az interaktív egyértelműsítés, amelyben a kérdéses szóalakot általánosítva egy mondatpárba illesztjük, és a felhasználót megkérjük, hogy válassza ki, melyik használatra gondol. Ezt sajnos kapacitás hiányában még nem volt módunk rendszeresen alkalmazni, azért említem csupán, hogy cáfoljam azt a leegyszerűsítő nézetet, amely a kivételes esetek kezelésével kapcsolatban Fejes érvéből látszik.

Ami pedig azt az érvet illeti, hogy „legügyesebb szakemberek sem gondolhatnak mindenre”, ez természetesen igaz, de éppen a portál beindítása óta nem vagyunk magunkra hagyva, innentől kezdve számíthatunk a portál lojális használóinak milliós táborára, akik éles szemű, segítő megjegyzéseikkel olyan kollektív tudásbázist jelentenek, amilyenre ezen „hatalmas szakmai melléfogás”-ra épülő rendszer beindítása nélkül nem is gondolhattunk.

4. „A negyedik, és talán a legfontosabb dolog, amelyről az ötletgazdák megfeledkeztek, hogy akik az ilyen programok fő felhasználói lennének, nem nyelvészek. Minél kevésbé járatosak nyelvi kérdésekben, annál kevésbé fognak tudni mit kezdeni a számítógép által adott helytelen (vagy akár helyes) válaszokkal. Nem biztos például, hogy mindenki tudni fogja, mi az a felszólító mód.”

Nagyon fontos szempontra hívja fel a szerző a figyelmet, de egyrészt nyitott kapukat dönget, másrészt érve nem a számítógépes megoldásra vonatkozik. A „hagyományos technológia”: maga a helyesírási szabályzat, és annak nyomán az iskolákban sulykolt magyarázatok hemzsegnek a szakkifejezésektől, továbbá olyan szaktudást tételeznek fel, melyek között a kijelentő mód és felszólító mód közötti különbségtétel elenyésző. Egyetértünk Fejes Lászlóval, nem lehetünk elégedettek, e téren még nem tudtuk elérni kezdeti céljainkat. Bőven van helye a szakzsargon visszaszorításának, és helyette a példákkal történő illusztrálásnak. Annak ellenére, hogy általános iskolában tanítják, készek vagyunk elfogadni, hogy nem hagyatkozhatunk arra, hogy a felhasználók feltétlen tisztában vannak azzal, hogy mi az a felszólító mód. Abban azonban biztosak lehetünk, hogy felismerik, ha találkoznak vele. A felhasználók spontán nyelvhasználatára bátran lehet apellálni példák segítségével a terminológia helyett. Ez a legfontosabbnak nevezett érv nem érinti a számítógépes rendszer lényegét, sőt nem is vonatkozik rá. Sajnálatos örökségnek tekinthető, amelyet még nem sikerült felszámolnunk.

Összefoglalva, úgy véljük, határozottan kijelenthetjük, hogy Fejes László fenti érvei nem támasztják alá azt a sarkos véleményét, amely alapjában elhibázottnak tartja az online helyesírási tanácsadó portál ötletét. A polémiát félretéve: a portál megtervezésekor számba vettük a kihívásokat, tisztában voltunk azzal, hogy a teljes körű technológiai megoldás a mesterséges intelligencia világába nyúlik. Ugyanakkor számos lehetőséget láttunk arra, hogy a nyelvtechnológia alkalmazásával hasznos szolgáltatást adjunk, és széles körben elősegítsük a tudatos helyesírás elterjedését.

Tisztelettel fogadunk minden hibajelzést, és igyekszünk ki is javítani a tévedéseket, pótolni a hiányosságokat, de ezek sem rendítenek meg bennünket abban a határozott véleményünkben, hogy – a portál jelen működésének hibái és hiányosságai ellenére is – a portál mögötti technológia adja az egyetlen szakszerű és hosszú távú megoldást az online helyesírási tanácsadásra.

Ahhoz, hogy ezt belássuk, nézzük meg, hogyan működik jelenleg a papíralapú rendszer. Ez két pillérre támaszkodik: a helyesírási szabályzatra és a helyesírási szótárra.

A helyesírási szabályzat értelmezése embert próbáló feladat még iskolázott emberek számára is. Ebben a feladatban igyekszik segítséget nyújtani a helyesírási szótár, amely a helyesírási szempontból várhatóan problémás eseteket igyekszik számba venni. Mint láttuk azonban, a nyelvi rendszer számos eleme produktív, azaz tetszőleges számú kombinációt képes előállítani, és megjósolhatatlan, hogy a számtalan lehetséges szóalakból – de leginkább összetett szóból és többszavas kifejezésből – mikor melyik gyökeresedik meg a nyelvhasználatban. Ennélfogva a szótár óhatatlanul is hiányos lesz, legfeljebb csak kullog az élő nyelvhasználat után. Márpedig ha valami nincs a szótárban, abból nem következtethetünk semmi bizonyosra, nem tudhatjuk ugyanis, hogy azért nincs a szótárban, mert az alak/kifejezés hibás, vagy pusztán azért, mert „a legügyesebb szakemberek (itt: szótárírók) sem gondolhatnak mindenre”.

A mi megoldásunk azonban nem rögzített listákra épül, hanem egy olyan komplex nyelvtechnológiai elemző rendszerre, amely feldolgozza a helyesírási szabályzat összes releváns pontját, megállapítja, hogy milyen nyelvi elemekre, jegyekre, sorrendre stb. hivatkozik, majd ezek alapján megállapítja, hogy a keresett kifejezés mely szabálypont hatálya alá esik.

Ezt azért tartjuk tartós megoldásnak, mert nincs szükség előre megjósolni a majdani új összetételek és kifejezések pontos listáját: mivel a jövőben felbukkanó szóalakok is a magyar nyelv szabályai és a helyesírási szabályzat által meghatározott szabályok által képzettek, ezért a rendszer képes kezelni őket. Természetesen, a szabályzat változása esetén, a rendszerünket is hozzá kell igazítanunk.

Nem hibáztatjuk Fejes Lászlót azért, hogy nem volt tisztában a portál mögött működő technológia részleteivel, bár ezeket a weblapon, a kapcsolódó blog oldalon és több publikációban is ismertettük. Úgy gondoljuk azonban, hogy ennek az állítólagos hamvába holt ötletnek az életképességét a fenti szakmai érvek mellett a portál töretlen és egyre növekvő népszerűsége bizonyítja legjobban.

A szerző az MTA Nyelvtudományi Intézete Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztályának osztályvezetője

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások (2):

Követem a cikkhozzászólásokat (RSS)

9 éve 2015. július 24. 12:06

2 Janika

Ez a cikk egy szép példa arra, hogyan lehet kulturáltan különböző véleményeknek teret engedni. Ez mindenképpen elismerés a nyestnek és az MTA Nyelvtudományi Intézetnek is. A kérdéses szócikket látom ki is egészítették, és korrekt magyarázatot fűztek hozzá.

A Balassi idézetet azonban kicsit erőltetettnek érzem, gondolom nem találtak a mai nyelvhasználatból életszerű példát a kérdd használatára.

9 éve 2015. július 23. 22:24

1 azigazsaagfeelmeshrugaja

alapjában elhibázottnak tartja az online helyesírási tanácsadó portál ötletét.”

akkor nem elhibázott, ha másfajta vélemény is helyet kap, azaz érvelhet helyesírási módozat mellett. hiszen a tanácsadás erről szól.

mindenre van érv, de nem minden érv mérvadó.

az anyósom az anyós+birtokosjelző. mert az om jelent mást is.

legutóbbi hozzászólások listája...

Nyelv és politika; Természettudomány; Nyelvtudomány; Oktatás; LEITERJAKAB

Váltás normál nézetre...