MSZNY 2010. Első nap, második szekció
Folytatjuk tudósításunkat a szegedi Magyar Számítógépes Nyelvészeti Konferenciáról.
A délelőtti szekció második fele már valójában koradélután zajlott.
Solt Illés, Szidarovszky P. Ferenc és Tikk Domokos Kontextualizált névelem-felismerés és relációkinyerés kórházi zárójelentésekben című előadásában arról esett szó, hogy a szövegben hogyan kell kijelölni a neveket. A kórházi zárójelentések azért bizonyulnak nehéz terepnek, mert megfogalmazásuk gyakran töredékes, nem teljes, jól megformált mondatok szerepelnek bennük. A kifejlesztett algoritmus feladata, hogy felismerje a páciens nevét, illetve a rá vonatkozó információkat (a betegségek, a kezelések, a gyógyszerek stb.) – de ne keverje bele pl. a családban előforduló betegségekre vonatkozó információkat.
Berend Gábor és Farkas Richárd beszámolója Kulcsszókinyerés magyar nyelvű tudományos publikációkból címen hangzott el. Kulcsszavaknak a szöveg tartalmilag legfontosabb kifejezéseinek nevezzük. A tudományos publikációk esetében feladatot külön nehezíti, hogy a legtöbb cikk pdf-ben van, ebben pedig a mondat-, időnként a szóhatárok sem világosak. A megtísztított dokumentumokat mondattanilag elemzik, a kifejezéseket azonosítják. A Wikipédiában ellenőrzik, van-e önálló oldala a kifejezésnek: ha igen, akkor általában alkalmas kulcsszónak. A kulcsszó általában arról ismerhető fel, hogy frekvenciája jóval magasabb, mint egy nagy, vegyes tematikájú korpuszban (szöveggyűjteményben).
Váradi Tamás, Pintér Tibor, Mittelholz Iván és Peredy Márta Bibliográfiai adatok automatikus kinyerése című előadása zárta az információkinyerésről szóló előadások sorát. Míg a természettudományos publikációk szinte kizárólag angol nyelvűek, addig a társadalom- és bölcsészettudományokat sok nyelven művelik. Egy-egy cikk, illetve szerző hatása leginkább azzal mérhető, hogy hányan hivatkoznak rá. Ennek automatikus méréséhez az egyes publikációkban azonosítani kell a hivatkozásokat. Ezek előfordulhatnak lábjegyzetben vagy a szöveg végén is. A bibliográfiai tételek formázására vontkozó, kiadványonként eltérő szabályok miatt a hivatkozás egyes elemeire (szerző neve, könyv vagy cikk címe, a publikáló folyóirat neve, évfolyama, a kiadó neve, a kiadás éve stb.) bontása igen összetett feladat.
A konferenciához kapcsolódó kötet letölthető.