Ismeretlen főnevek, szálló igék

MSZNY 2010. Második nap, délután

Záró szakaszához érkezett a Magyar Számítógépes Nyelvészeti Konferencia Szegeden.

nyest.hu | 2010. december 3.

A délután folyamán először morfológiával és korpuszokkal kapcsolatos előadások hangzottak el, végül pedig a géptanulással kapcsolatos előadásokkal zárult a konferencia.

Zsibrita János, Vincze Veronika és Farkas Richárd Ismeretlen kifejezések és a szófaji egyértelműsítés című előadásában arról esett szó, hogy miképp azonosíthatja a számítógép egy ismeretlen szó szófaját a szövegben. Ehhez a szó környezetét vizsgálják. Pl. ha az ismeretlen szó nagybetűs, majd kötőjellel egy főnév követi, akkor valószínűleg tulajdonnévről van szó (pl. Bush-kormány). Ha a kötőjel után toldalék áll, akkor valószínűleg szintén főnévről van szó (Vodafone-nal, de megtévesztő: Ray-Ban!). Arra jutottak, hogy hatékonyabb először megállapítani a szószerkezetek határait, és ezután megpróbálni megállapítani a szófajokat, mint fordítva.

Fejes László és Novák Attila Obi-ugor morfológiai elemzők és korpuszok című előadásában manysi és hanti nyelvű szöveggyűjtések feldolgozásáról esett szó. A kutatók megállapították, hogy egy hanti tőnek több alakja lehet, mint egy manysinak (a tőtárba felvett hanti töveknek átlagosan több mint három alakjuk van!). Emellett szó esett arról is, hogy a morfológiai elemzők építése során interakcióba kerül a gyűjtött szöveg, a belőle készült szójegyzék, illetve a nyelvtan, és ennek köszönhetően kiszűrhetőek azok a hibák, amelyek az emberi feldolgozás során keletkeztek.

Bárdosi Vilmos és Kiss Gábor A magyar frazeológiai adatbázis létrehozása és az ebből generált szinonim frazémaszótár munkálatai című előadásában főként a magyar frazeológiai szótárak történetéről szólt. Az előadás bőven tartalmazott illusztrációkat, a tudósító becslése szerint kb. félszáz szólás, közmondás, sajátos jelentésű szókapcsolat hangzott el az előadás során. Az új projekt három korábbi szótárra épül.

Váradi Tamás, Peredy Márta és Oravecz Csaba Nyelvtechnológiai módszerek a Budapesti Szociolingvisztikai Interjú lexikai és szintaktikai vizsgálatában című előadása arról szólt, hogy a BUSZI interjúiban milyen statisztikai elemzéseket végeztek el, illetve vetettek össze a Magyar Nemzeti Szövegkorpusz hasonló vizsgálatának eredményeivel. Megfigyelték például a szavak relatív gyakoriságát a két szövegkorpusz, de a BUSZIban vizsgált különböző társadalmi csoportok között is. (Érdemes megtekinteni a letölthető kötet 303. oldalán található ábrát.) Hasonlóan érdekes, de nem váratlan eredmény, hogy a BUSZI-interjúkban több a névmás, kevesebb a főnév. Nagyobb a névelők aránya is, különösen a határozatlan névelőké.

A résztvevők ezután rövid kávészünetre vonultak vissza, majd Móra György és Farkas Richárd Szótáralapú névelem-felismerés szóhatárainak javítása gépi tanulási módszerrel című előadása következett. A kutatók angol nyelvű, biológiai tárgyú szövegekben azonosítottak olyan névelemeket (például gének neveit), melyek az elemző szótárában nem szerepeltek. Hasonló módon tulajdonneveket kerestek magyar nyelvű szövegekben (a HVG cikkeiben). Ezt a szövegkörnyezet alapján végezték el.

Kálmán László és Rung András Klaszterek helyett prototípusok című előadása amellett érvel, hogy a nyelvi elemeket nem lehet szigorú osztályokba sorolni, hanem vannak tipikus és kevésbé tipikus viselkedési formák, amelyek folyamatos átmeneteket képeznek egymás között. Olyan szavak viselkedését vizsgálták, melyben hangkivetés fordul elő (bagoly – bagly-ot). A prototípusokat úgy választották ki, hogy minél gyakoribbak legyenek, a lehető legkevésbé hasonlítsanak a többi prototípusra, de minél több más szóra. Azt jósolták, hogy minél közelebb áll hangalakjában egy szó egy prototípushoz, annál hasonlóbban viselkedik. A hasonlóságot azonban többféleképpen lehet számolni, így például kisebb vagy nagyobb súlyt lehet helyezni a szó végére, amely legközelebb áll a toldalékhoz.

A legjobb ifjú kutatói díjat

meggyőző fölénnyel idén Recski Gábor nyerte, gratulálunk!

Recski Gábor Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel című záróelőadása olyan eszköz fejlesztéséről szól, mely főnévi csoportokat azonosít szövegekben. (Egyszerűsítve: a főnévi csoportok lehetnek csupasz főnevek vagy jelzős szerkezetek, pl. a három sánta kutya.) Bár sok hasonló, hatékonyan működő eszköz létezik, ezek statisztikai alapon, gépi tanulással készülnek – a bemutatott eszköz viszont a fejlesztők által írt szabályokra épült. A hatékonyságot a két eszköz kombinálása tovább növeli.