0:05
Főoldal | Rénhírek

Nyomtatásban jelent meg az adatbázis

Mindegy, hogy gyerekem lesz vagy eső lesz. Sőt az is mindegy, hogy szomorú leszek vagy világbajnok. Legalábbis egy fontos szempontból: az igei szerkezetek gyakorisága szempontjából. Azt, hogy ezek mennyire hasonlítanak és mennyire térnek el egymástól, megtudhatjuk a frissen megjelent Magyar igei szerkezetek – A leggyakoribb vonzatok és szókapcsolatok szótára című könyvből.

Simon Eszter | 2011. augusztus 4.

A szótár több tekintetben is úttörő vállalkozás. Legelsősorban azért, mert ezelőtt még nem jelent meg olyan adattár, amely a magyar nyelv leggyakoribb igei szerkezeteit ilyen sokféle módon visszakereshetően tálalta volna.

Sass Bálint, Váradi Tamás, Pajzs Júlia, Kiss Margit: Magyar igei szerkezetek. A leggyakoribb vonzatok és szókapcsolatok szótára.
Sass Bálint, Váradi Tamás, Pajzs Júlia, Kiss Margit: Magyar igei szerkezetek. A leggyakoribb vonzatok és szókapcsolatok szótára.

De újdonságnak számít az a módszer is, ahogy a szótár anyaga előállt. Az már tulajdonképpen bevett gyakorlatnak számít, hogy a szótárak készítői a címszavak felvételénél, megírásánál nem elsősorban a saját intuíciójukra támaszkodnak, hanem élő nyelvi adatokat vesznek alapul. Ilyen adatokat pedig az ún. korpuszokban, vagyis nagyméretű szöveggyűjteményekben találhatunk. Az a lexikográfusi gyakorlat, hogy a tervezett címszóhoz keresnek előfordulásokat, és kiválasztanak pár szimpatikus mondatot, amit példaként idéznek a szótárban, lexikonban. Amikor ezt a módszert használják, a korpuszból származó nyelvi adatok csak illusztrációként szerepelnek. Ez a szótár viszont ennél tovább megy, ugyanis a szótár teljes anyaga korpuszból, számítógépes algoritmusok alkalmazásával állt elő. Az alapanyagot a Magyar Nemzeti Szövegtár szolgáltatta, amelynek mondataiból automatikusan kinyerték a lehetséges igei szerkezeteket és a hozzájuk tartozó gyakorisági adatokat. A könyvbe csak a 250-nél többször előforduló szerkezetek kerültek bele.

De mik is azok az igei szerkezetek? A mű szerzői szerint „igei szerkezet alatt az egy központi igéből és a hozzá tartozó (nulla vagy több) névszói csoport bővítményből álló szerkezeteket értjük”. Például a füléhez tartotta a tenyerét mondatban szerepel a tart ige és a hozzá tartozó bővítmények: a füléhez és a tenyerét. A szerzők a bővítmények elkülönítésében is új utat járnak, vagyis nem a hagyományosnak nevezhető vonzat – szabad határzó megkülönböztetést követik. Ehelyett lexikálisan szabad, illetve kötött bővítményekről beszélnek. A lexikálisan szabad bővítmények (LSzB) olyanok, amelyeknek csak az esetragja vagy névutója van megszabva, maga a szó, ami felveszi ezt, bármi lehet. Pl. kivették a kezemből a kalapácsota sarlót, a kapát, a klaviatúrát stb. Ezzel szemben a lexikálisan kötött bővítmények (LKB) esetében nem csak az esetrag, hanem maga a szó is fix, pl.: pontot tettek a 30 éve húzódó vita végére – de nem tehettek volna tortát vagy kutyát a vita végére.

Hófehérke és az öt törpe

A könyv hat nagyobb részből áll össze. Az első és legnagyobb ezek közül a szótári rész, amelyben – mint egy hagyományos szótárban – szócikkek követik egymást ábécérendben. Mégsem nevezhetjük hagyományosnak, nem csak az előbb felsoroltak miatt, hanem amiatt is, hogy a szótár alapegységei nem szavak, hanem az említett igei szerkezetek, a bennük található ige alá sorolva. Minden egyes igénél meg van adva a gyakorisága, vagyis hogy hányszor szerepelt a Magyar Nemzeti Szövegtárban. A címszó alatt szerepelnek az adott igéhez tartozó szerkezetek gyakoriságuk szerinti sorrendben. Ezt a sorrendezést csak az töri meg, hogy az általánosabb szerkezetek alá sorolták behúzással a valamelyik bővítményi helyen lexikálisan kötött bővítményeket tartalmazó specifikusabb szerkezeteket. Lássunk egy példát:

alakít (7477)

  • alakít -t [1807] jogi képviselőcsoportot alakítottak
    • alakít kormány-t [304] új kormányt alakítanak

A gyakorisági mérőszámok függetlenek egymástól, vagyis egy általánosabb szerkezet előfordulásainak a száma nem fedi le az alá besorolt specifikusabb szerkezet(ek) számát. Látható, hogy a lexikográfiai hagyományt azért annyiban követték a szótár létrehozói, hogy minden egyes bejegyzéshez az igei szerkezet használatát illusztráló példamondat tartozik. Ezek a korpuszból automatikus módszerrel kilistázott igei szerkezeteket tartalmazó mondatok közül lettek kiválasztva. A válogatást már két lexikográfus végezte: Pajzs Júlia és Kiss Margit.

A szótári részt öt mutató követi, amelyek ugyanazt az anyagot tartalmazzák, csak másként csoportosítva és rendezve. Az első ilyen a gyakorisági mutató, amelyben a gyakorisági mérőszámuk szerint vannak sorbarendezve a szerkezetek. Ebből a felsorolásból derül ki az is, hogy a „lesz gyerek-A” és a „lesz eső” (296), valamint a „lesz világbajnok” és a „lesz szomorú” (256) ugyanolyan gyakoriak.

A leggyakoribb a „mond -t” [136354], a második a „tud -t” [121340], és csak a harmadik a „van” [71980]. Nyilvánvalóan a „van” szerkezetet vártuk volna az első helyre – annak, hogy ez nem így van, több oka is van. Az egyik az, hogy a vant tartalmazó különböző szerkezetből több mint 10 oldalnyi van, vagyis a van ige összes előfordulása nagyon sok szerkezet között oszlik szét.

A másik a módszer egyik hiányosságában fakad: mivel a létige egyes szám harmadik személyben jelen időben nem jelenik meg, az ilyen előfordulásokra rákeresni nem lehet. (Lásd: én szomorú vagyok, te szomorú vagy, de ő szomorú, nem pedig *ő szomorú van – múlt időben viszont ő szomorú volt.) Gyakorlatilag is lehetetlen lett volna a 187 millió szavas korpuszt végigbogarászni az ilyen esetek után kutatva, elméletileg pedig borult volna az egységes szótárkészítési koncepció.

A harmadik ok az, hogy a van és a lesz két külön igeként van kezelve. Ennek az az oka, hogy a korpusz szavainak elemzéséhez használt morfológiai elemző ezt a kettőt külön kezeli. Meg lehetett volna tenni, hogy utólag összevonják őket, de mivel a két igének vannak különböző szerkezeteik (pl. „lesz -n úr-vÁ”), nem tették ezt a szótárkészítők. A szótári részből kiderül, hogy azért egyértelműen a van a leggyakoribb ige még így is: egy nagyságrenddel többször fordul elő (1507162), mint a szerkezetek listáján első helyezett mond (343471).

A keretek szerinti mutatóban az igei szerkezetek igétől független részeik szerint vannak rendezve, kezdve az olyanokkal, amelyeknek nulla bővítményük van, ábécérendben haladva a -vAl-ig. Ebből azt láthatjuk, hogy milyen különféle igék társulnak azonos kerettel. Az például elég szembeötlően kijön ebből a felsorolásból, hogy a van és a lesz sokszor jár ugyanazzal a kerettel.

A kötött szavak szerinti mutatóban az lexikálisan kötött bővítményekként megjelenő kötött szavak szerint csoportosítva látjuk a szerkezeteket. Ebből a névszók viselkedéséről kaphatunk képet, vagyis kiderül, hogy bizonyos névszók mely igékkel szeretnek leginkább együttjárni. A mutatót tanulmányozva szépen kirajzolódnak az idiomatikus szerkezetek (pl. „tör fej-A-t”), illetve a szó szerinti jelentésű, de gyakran együtthasznált szavak is (pl. „meg|ad úr-nak szó-t államtitkár”).

A szótár készítői az igekötőket külön egységként kezelik, mivel sokszor előfordul, hogy az igekötő önálló életet él, vagyis az igétől függetlenül kapcsolatban áll a bővítményekkel. Ezért a szótárban helyet kapott egy igekötős keretek szerinti mutató is, amelyben az igéről leválasztott igekötők és a velük járó esetragok, névutók vannak felsorolva. Jól láthatóvá válik, hogy bizonyos igekötők jellemzően milyen ragokkal járnak együtt (pl. bele -bA, fel -rA, ki -bÓl).

Az alapige szerinti mutató alapján szintén az igekötős igékről kaphatunk további információt. A teljes szótári anyag itt az igekötőtől megfosztott alapige alapján van rendezve. Azt vizsgálhatjuk ebben a részben, hogy milyen igék milyen igekötővel szeretnek leginkább együttjárni, illetve hogy mennyiben változtatja meg az igekötő az ige jelentését. Ezalapján az igék különböző jelentései is szépen kirajzolódnak, mivel a különböző jelentés általában különböző kerettel is jár (pl. „utal -rA”, „utal -t”).

De mire jó mindez?

A sokféle mutató, vagyis annak a lehetősége, hogy egy szerkezetet sokféleképpen is megtalálhatunk és elemezhetünk, nagyon praktikus és kényelmes használatot biztosít. Ennek ellenére – vagy éppen ezért? – felmerül az olvasóban a kérdés, hogy egy ilyen típusú szótárat miért könyvalakban adnak ki, miért nem egy online lekérdezőfelületet csináltak inkább. A szerzőkkel beszélgetve az derült ki számomra, hogy könyvet kiadni manapság, az e-bookok korában is nagyobb presztízs, mint egy weboldalon megjelentetni ugyanazt. Továbbá a célközönség – nyelvészek, nyelvtanárok, fordítók, magyarul tanulók – nagy része még mindig inkább hajlamos könyvet forgatni, mint egy webes lekérdezőfelületet használni. És persze az is hozzátartozik a teljes képhez, hogy a Magyar Nemzeti Szövegtár anyaga elérhető az interneten, továbbá létezik egy speciális korpuszlekérdező eszköz, a Mazsola, amelynek segítségével a magyar igék bővítményszerkezetét vizsgálhatjuk. Ez utóbbi a szótár egyik szerzőjének és a számítógépes algoritmus tervezőjének és kivitelezőjének, Sass Bálintnak a nevéhez fűződik szintén. Fontos különbség azonban, hogy a Mazsola nem tartalmazza a jellegzetes igei szerkezeteket összegyűjtő lépést, vagyis ha azt akarja vizsgálni, hogy mely szerkezetek tipikusak, akkor ehhez a szótárhoz kell fordulnia az olvasónak.

Könyvekről olvasna?

További könyvismertetések a nyesten!

Ha már idáig eljutott a jelen cikk olvasója, felmerülhet benne a kérdés, hogy ugyan mire lehet használni egy ilyen könyvet. A szótár elsősorban a nyelvész szakmának szól. Elméleti nyelvészeknek a kutatásban nyelvi adatok hiteles forrásaként, pszicholingvistáknak nyelvi kísérletek összeállításához segédanyagként, lexikográfusoknak ellenőrzött korpuszalapú adattárként, nyelvtechnológusoknak különböző alkalmazások fejlesztéséhez lexikális erőforrásként szolgálhat. A nyelvészeken kívül persze hasznosnak tarthatják fordítók, nyelvtanárok és haladó magyarul tanulók is a megfelelő magyar nyelvű kifejezések megtalálásához, a szókincs bővítéséhez.

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások:

Követem a cikkhozzászólásokat (RSS)
Még nincs hozzászólás, legyen Ön az első!