0:05
Főoldal | Rénhírek
Az Orosz Nyelv Nemzeti Korpusza

Legyen Ön is Fandorin!

Az Orosz Nemzeti Korpusz egy óriási, számos területen használható adattár. Segítségével a nyelvészek vizsgálhatják a nyelv apró vagy óriási változásait, a nyelvtanárok élővé tehetik a tankönyvek tartalmát, a nyelvtanuló ellenőrizheti, „hogyan használják valóban” szavakat. A korpusszal kimutathatók a műfajok, az írott és a beszélt nyelv közötti különbségek...

Tempfli Péter | 2011. április 27.

Mielőtt belevágnánk a világ egyhatodán beszélt nyelvet feldolgozó korpusz bemutatásába, talán érdemes átgondolni, mi az a korpusz. Sok szöveg összegyűjtve magában még nem az, bár rengetegféle vizsgálatot így is lehet rajtuk végezni. Korpusszá az teszi őket, hogy a szövegek beválogatásának vannak valamiféle kritériumai, illetve a szövegek maguk is el vannak látva őket jellemző adatokkal.

A beválogatás elvei sokfélék lehetnek; a legkézenfekvőbb az időbeli felosztás; lehet egy korpusz csak a jelen nyelvállapotot tükröző, ám ha különböző korú szövegeket válogatunk össze, akkor vizsgálhatjuk a nyelv időbeli változásait is. A másik kézenfekvő szempont a szöveg műfaja: szépirodalmi, szakirodalmi, publicisztikai, és „egyéb” fajta szövegekkel lehet biztosítani, hogy az adatok kellőképpen reprezentatívak legyenek, és szokás bevenni nem írott (vagyis szóbeli) anyagot is. Ez sajnos időnként elég nehéz, mivel nem egyszerű kellő mennyiségű átírt beszélgetést beszerezni, illetve komoly kérdés az is, mi az elsődleges: az írott vagy a beszélt nyelv? Meg lehet jeleníteni továbbá a nyelv különféle dialektikus változatait is. A lényeg tehát az, hogy szemben egy elektronikus könyvtárral vagy akár az egész internettel, a korpusz tartalma elvileg kiegyensúlyozott és reprezentatív. Csak elvileg, mert az arányokat a készítők határozzák meg, és ezek korpuszonként erősen különbözőek lehetnek.

Az Orosz Nemzeti Korpusz a fentiek közül az összes típusú szöveget tartalmazza (ezek külön al-korpuszokat is képeznek), időben pedig a XVIII. század végétől a XXI. század elejéig terjed. Közel 50.000 dokumentumot és kb. 180 millió szót tartalmaz (ez nagyságrendileg ugyanannyi, mint a Magyar Nemzeti Szövegtár, a British National Corpus vagy Cseh Nemzeti Korpusz egyes, önálló részei)

Minden dokumentum rendelkezik egyedi azonosítóval, melyben többek közt szerepel létrejöttének dátuma, műfaja, szerzője, szerzőjének neme, forrása, az olvasóközönség típusa. A korpusz szavait morfológiailag elemezték (természetesen géppel), így nem csak konkrét szóalakra, de tövekre is kereshetünk (ismeretes, hogy az orosz alapvetően flektáló nyelv, kiterjedt ige-, főnév- és melléknév ragozással). A kereső, miután rákerestünk egy alakra, visszaadja az összes előfordulást kontextussal és forrással együtt, a szavakra kattintva pedig további nyelvtani információt kapunk. Érdemes megemlíteni a szintén kereshető szemantikai információkat is: egy előre kidolgozott rendszer alapján minden szóhoz szemantikai adatok is tartoznak. Néhány példa:

év (год) : r:abstr, t:time:age, t:time:period

Budapest (Будапешт) : r:propn, t:topon

érdekes (интересный): der:s, dt:abstr, dt:ment, ev:posit, r:qual

A kereső ezen túl arra is képes, hogy egy bizonyos tőnek csak bizonyos nyelvtani alakjait keresi ki (például egy ige múlt idejű, befejezett alakjait vagy egy főnév többes szám részes eseteit). Lehetséges az üres keresés is,  ami használható ritka alakok kikeresésére is. Például az oroszban nyelvben létezik egy nagyon ritka ún. „második genitivus” eset, amiről egy kereséssel azonnal kiderül, hogy valamilyen furcsa okból csak egyes elvont kategóriákkal ('nép', 'értelem', stb.) és italokkal ('tea', 'konyak'...) együtt fordul elő. Természetesen a korpusz nem magyarázza meg ennek az okát, azonban kiváló eszköz saját hipotéziseink ellenőrzésére.

További írások a Számítógépes nyelvészetről

Szófaj-elemzés 2 – néhány újabb tapasztalat

Wordle: a logónk története

Szógyakoriság vizualizáció Many Eyes használatával

Szógyakoriság

A kereső  tetszőleges számú szó kombinációira is tud keresni (az összes fenti lehetőséget kihasználva), és nem is csak egymás mellett, hanem egymástól tetszőleges távolságra. Így gyakorlatilag a szóelőfordulásokkal kapcsolatban bármilyen bonyolult kérdést feltehetünk, és biztosak lehetünk benne, hogy a százmilliós adatbázisban biztosan találunk releváns adatot. Ha nem, az arra utal: a kérdésünk helytelen, ilyen kombináció nem létezik az orosz nyelvben – és időnként ez is óriási eredmény! Az eredmények természetesen rendezhetők, átalakíthatók egymás alá rendezett KWIC (key word in kontext) formátumba, letölthetők excelben, XMLben.

Végül, érdemes megemlíteni, hogy semmiféle előzetes előzetes regisztráció nem szükséges, vagyis bárki számára elérhető az eszköz;  a Studiorumban pedig metodológiai segítséget találunk a korpusz használatához, illetve cikkeket és hivatkozásokat az orosz és a nyugati korpusznyelvészet témakörében.

A korpusz természetesen angol nyelven is elérhető.

Orosz cím: http://www.ruscorpora.ru/index.html

Angol változat: http://www.ruscorpora.ru/en/index.html

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások:

Követem a cikkhozzászólásokat (RSS)
Még nincs hozzászólás, legyen Ön az első!