Twitter-hangulatok

MSZNY 2010. Első nap, első szekció

Szegeden folyik a 2010-es Magyar Számítógépes Nyelvészeti Konferenciája. Tudósítónk folyamatosan beszámol az elhangzó előadásokról.

nyest.hu | 2010. december 2.

A 2010-es Magyar Számítógépes Nyelvészeti Konferenciájának első napján a délelőtti első blokkban információkinyerésről szóló előadások hangzottak el. Információkinyerésnek azt a folyamatot nevezzük, amikor folyó, emberi olvasásra szánt szövegekből azonosytjuk a számunkra fontos adatokat (pl. hírekben szereplő eseményeket azonosítjuk úgy, hogy meghatározzuk résztvevőit, helyét, idejét stb.).

Bártházi Eszter és Héder Mihály Panaszlevelek szerkezetének gépi felismerése című előadásában panaszlevelek gépi feldolgozásáról volt szó. A panaszlevelek gyakran zavarosak, feldolgozásukat megnehezíti, hogy nem egyértelmű a szerkezetük. A levélből ki kell nyerni, hogy ki az ügyfél (név, ügyfélszám stb.), milyen jellegű a problémája, milyen intézkedést vár el stb.

Miháltz Márton OpinHu: online szövegek többnyelvű véleményelemzése című előadásában híroldalakon, fórumokon érkező bejegyzések tartalomelemzéséről szól. Jelenleg angol, német, arab, kínai és magyar nyelvű modulokat fejlesztenek. A fejlesztés konkrét célja a hozzászólás érzelmi értékének megállapítása a szóhasználat alapján. A http://zetema.co.uk/ oldalon néhány alkalmazási terület kipróbálható: érdemes megnézni a twittr-posztok alapján készült hangulatjelentést.

Gyarmati Ágnes és Gareth J.F. Jones előadása Videókhoz kapcsolódó kiegészítő információk többnyelvű keresése a Wikipédia segítségével című előadása egy komplex problémát mutat be: idegen hangfelvételen vagy videón előforduló nevekről, fogalmakról szeretnénk többet megtudni, de már anyanyelvünkön (vagy egy jobban ismert nyelven). Ehhez az idegen nyelvű hangzóanyagban beszédfelismeréssel azonosítanunk kell a kifejezéseket, majd a neten kiegészítő információt keresnek hozzá. A jelenlegi alkalmazás holland nyelvű videókon azonosít kifejezéseket, és az angol nyelvű Wikipédia megfelelő oldalát keresi ki.

Németh Bottyán és Vándor Tamás DBPedia magyar nyelvű szövegek elemzéséhez című előadása azt mutatja be, hogy egy magyar nyelvű szövegben hogyan azonosíthatóak egyes szavak, kifejezések. (Tehát az első előadásban tárgyalt feladathoz hasonló ez is.) Ez az alkalmazás megpróbálja kinyerni a magyar Wikipédia infoboxait (a cikk jobb felső sarkában található, táblázatba foglalt adathalmazait). Létrehozták a DBPediat, mely a Wikipédiához hasonlóan szerkeszthető, de strukturált adatbázis. Mivel az adatbázisban az adat típusa jelölve van, ennek alapján már a folyó szövegeken is azonosíthatóak a személynevek, helynevek, intézménynevek stb.