Kérek száz deka címszót
Az önjelölt szótáríró még munkához sem látott, s máris útelágadozáshoz érkezik. Hány szó az épp elég? Melyek? Miért pont azok? Nem nehéz a választás, csak komplikált: olyan kérdések állnak lesben, mint hogy „mi a szó” és „hány szó van egy nyelvben”. A hős bölcsen kikerüli ezeket, és amikor senki nem néz oda, elővarázsol a kalapból tízezer megnyerő címszót. Uszkve.
Induljunk a kályhától. Amikor 2015 elején fejembe vettem, hogy közösségi szótárat építek, világos volt, hogy csak akkor van esélye a CHDICT-nek, ha nem üresen indul. Szép felhívás, hogy „Itt egy remek kis szótár készül, bár egyelőre egyetlen szócikket sem tartalmaz. Gyere és légy te, aki az elsőt megírja!” Én a magam részéről biztosan nem válnék törzsvendéggé ebben az ígéretes klubban. A CHDICT-nek tehát törzsanyagra volt szüksége.
De mekkora az a méret, amitől már – feltételezhetően – hasznos a szótár?
Mi a szó?
Kísérletet sem teszek, hogy ezt megválaszoljam. Inkább néhány példával illusztrálom, hogy mitől olyan reménytelenül nehéz ez a kérdés.
Kezdjük az alfabetikus írást használó nyelvekkel. Itt legalább egy fogódzója van az írott szöveggel foglalkozó számítógépes nyelvésznek: daraboljuk csak szét a bekezdéseket szóközök mentén, csupáljuk le mindenről az írásjeleket, s ami marad, azok a szavak. Apró bonyolítás, hogy a ragozás miatt ugyanaz a szó sok-sok formát ölthet, de ma már van erre polcról levehető eszköz: tövesítőnek hívják.
A kínaival egyszerre könnyebb és nehezebb a dolgunk. Toldalékolás lényegében véve nem létezik a nyelvben. Szóalakok így, többes számban, nincsenek, ezért tövesítenivaló sincsen.
Nagyobb gond, hogy a kínai írás nem jelöli a szóhatárokat. Olyannyira nem, hogy a „szó” fogalma egészen frisskeletű elképzelés a kínai filológiában. Nem mintha nem lennének már évszázadokkal ezelőttről leíró munkák, csak éppen azok mind írásjegy-tárak.
Nyilván nem független ettől az a sajnálatosan elterjedt tévhit, hogy a kínaiban minden szó egyszótagos, és minden szótag önmagában is szó. Itt még a nyest egyik bloggere is bakizott, amikor 2014-ben így fogalmazott: minden szóhoz, ami bármilyen jelentéssel bír, tartozik egy jel, amivel le lehet írni.
De lendüljünk tovább: szóközök ide vagy oda, a kínai nyelv is szavakból, méghozzá túlnyomórészt többszótagos szavakból építkezik. Sajnos vannak egyéb nehézségek is, ráadásul olyanok, amiket a magyarból is jól ismerünk. Sok szónak az a furcsa szokása, hogy néha összefüggően lép fel, néha viszont alkotóelemeire szakad, amik kisebb-nagyobb távolságra elkalandoznak egymástól a mondaton belül. Az előző mondatban is volt erre példa: a fellép ige két részre szakadt, s ezek sorrendje még fel is cserélődött. Valami hasonlót művelnek egyes kínai igék. A 睡觉shuì jiào egy ige, jelentése ’aludni’, a 睡不着觉 shuì bù zháo jiào ’nem tud elaludni’ szerkezetben viszont darabjaira esik.
A szóhatárok beazonosítása és a nem összefüggő elemek egy szóként való felismerése a két elemi kihívás, ami a kínai szövegek számítógépes feldolgozása előtt áll. De miért akarnánk szöveget feldolgozni – nem szótárról volt szó? A cikk végére világos lesz az ok.
Hány szó van egy nyelvben?
A továbblépés érdekében tegyük most fel, hogy a „mi a szó” kérdésére találtunk valamiféle pragmatikus megoldást. Egyből előbújik tudalattinkból az eddig csöndben lapító mérnök, és követeli, hogy számoljuk meg ezeket a szavakat!
Mérnök-énünk lelki társra talál leíró nyelvész énünkben, és mindketten úgy vélik, a kérdésre empirikus módszerrel kell választ adni. Gereblyézzünk hát össze annyi valódi szöveget, amennyit csak tudunk, nevezzük el az egészet korpusznak, és lássunk hozzá a számolgatáshoz.
Pontosabban ne tegyünk semmit, csak olvassuk el, mit írtak azok, akik ezt előttünk már mind végigcsinálták. Meglepő következtetésre jutunk: minden jel arra mutat, hogy a nyelvek szókincse végtelen. Ahogy rójuk a sorokat egy korpuszban, egyre ritkábban bár, de szüntelenül találunk új szavakat. Hiába próbálkozunk ötször, tízszer, ezerszer akkora korpusszal, abban is ugyanez a helyzet.
Ezt én személyesen legalább akkora fricskaként élem meg a világtól, mint az afféle állításokat, hogy az univerzum egyszerre tágul és határtalan, de beletörődéssel tudomásul veszem a tényeket.
Hány szót ismerünk?
Ha az a kérdés nem megválaszolható, hogy hány szó van egy nyelvben, cseréljük le egy másikra: hány szót ismernek a nyelv beszélői? Erre már egész használható válaszokat találunk.
A nyest is beszámolt a TestYourVocab.com oldalról, ami egy igen rafinált, hatalmas adatgyűjtés arról, hogy az életkor, iskolázottság, nyelvtanulással töltött idő és hasonlók függvényében mekkora az angolul beszélők szókincse. Később Marc Brysbaert, a Genti Egyetem professzora végzett más kutatókkal egy egész Belgiumra és Hollandiára kiterjedő felmérést, amelyben 400.000-en (!) vettek részt. Ugyanez a kutatócsoport tett közzé 2016-ban egy részletes tanulmányt a szókincs témájában.
A szókincstesztek rákfenéje, hogy nincs pontos válaszunk sem arra, hogy „mi a szó” (ezt már a fentiekben láttuk), sem arra, hogy mi jelent pontosan „ismerni” egy szót. Ennek ellenére a felmérésekből kirajzolódik néhány sarokszám:
- A felnőtt anyanyelvi beszélők szókincse 20-40 ezer közé tehető
- A teljes szókincs 11 ezer körüli szócsaládra vezethető vissza
- A szókincs felnőttkorban is folyamatosan bővül
- A 8-10 éve angol nyelvterületen élő nem angol anyanyelvűek szókincse 17 ezer körüli
A szókincs kérdése önmagában is annyira bámulatos, hogy a CHDICT fejlesztése közben egy hónapra teljesen eltérültem és a TestYourVocab mintájára, merő kíváncsiságból, gyártottam egy saját német nyelvű tesztet. Töltsétek ki ti is!
Szereplőválogatás
A fenti fogódzókon kívül tekintetbe vettem pár egyéb támpontot is, hogy kitűzzem a „pont elég” elvárását teljesítő szótárméretet.
Az egyik a hivatalos (kontinentális) kínai nyelvvizsga, a HSK. A legfelső szintjéhez elvárt teljes szókincs 6.000 szót tesz ki, amelyek listája különböző weblapokon, például itt, megtalálható. Sokat haboztam, hogy mit kezdjek ezzel az információval, mert alapvetően bizalmatlan vagyok a HSK-vizsgával kapcsolatban. Sok jel utal arra, hogy nem a valós hétköznapi nyelvhasználatot tükrözi, hanem valamiféle idealizált és ideologizált elképzelést a nyelvről. De győzött a pragmatizmus: a HSK-vizsga léte kőkemény valóságfaktor, minden Kínába készülő diáknak ezen kell átesnie, így nem teheti meg a CHDICT, hogy nem szolgálja ki őket.
Nyilvánvaló viszonyítási pont volt a kiváló Bartos-Hamar-féle Kínai-magyar szótár, amely 3.750 írásjegy-címszót és 8.000 összetett címszót, vagyis összesen közel 12 ezer címszót tartalmaz.
Ennyi körmönfont méricskélés után némileg szeszélyesen, ám annál gyakorlatiasabban meghoztam az egyszerű döntést: legyen 10 ezer címszó. Ez egyrészt kerek szám, másrészt kevesebb, mint az igen magas szintet elért nem anyanyelvi beszélők szókincse, harmadrészt pedig több, mint a legmagasabb szintű HSK-vizsga előírása. Fényévekre van egy nagyszótártól, de magabiztosan meghaladja a „kicsi” méretet.
Rangsorolás
Most már csak azt kellett eldönteni, a HSK-nak eladott kontingens feletti helyet mivel töltsem ki. Az alapelv nem volt kérdés: természetesen a leggyakoribb szavakkal. A bonyodalom abban áll, hogy mit értünk pontosan a gyakori szavak alatt. A választ két tényező befolyásolja erősen: milyen korpuszt vizsgálunk, és hogyan szegmentáljuk szavakra az illető korpuszt.
Mindkét kérdés több évre lefoglalhat egy kutatót, az én dolgomat viszont leegyszerűsítette egy prózai tény: szélsőségesen kevés nyilvános adat állt rendelkezésre 2015 elején. Írásjegy-gyakorisági listákból nincs hiány, szógyakorisági listák viszont éppenséggel nem hemzsegnek az interneten.
Az egyik szóba jövő forrás a 10 ezer leggyakoribb szót feltüntető Wiktionary-oldal. Bár a lap tetején egy köszönetnyilvánítás áll, az adatok forrását és az alkalmazott szószegmentálási módszert alapvetően homály fedi. Ráadásul a tartalmat feldolgozva egyből kiderül, hogy a 10 ezer szó rengeteg duplikátumot tartalmaz, és valójában csak 8.295 különböző elemről beszélhetünk. Az ilyesmi nem túl bizalomgerjesztő, bármilyen forrást kapirgálunk is meg.
De nem csigázom tovább az olvasót: a nyertes a SUBTLEX-CH korpusz közzétett szógyakorisági listája lett. A 33 millió szavas korpusz filmfeliratokat tartalmaz, aminek olvastán kisebbfajta örömtáncot lejtettem. Több kutatás is azt találta, hogy a különféle szövegtípusok közül a filmfeliratok reprezentálják a legjobban a szógyakorisággal kapcsolatos pszicholingvisztikai hatásokat (egy témába vágó írás itt). Leegyszerűsítve: az én célom a CHDICT-tel a hétköznapi nyelvhasználat hű leírása, amire a filmfeliratoknál jobb háttéranyagot keresve sem találhatnánk.
Az univerzum újabb fricskája (esküszöm, ez teljesen véletlen egybeesés), hogy a SUBTLEX-CH gyakorisági listáját ugyanaz a Marc Brysbaert publikálta, akit a szókincs-kutatással kapcsolatban emlegettem. Milyen kicsi a világ.
Osztódással szaporodnak
Miközben az adatokat előkészítettem a szótárfordításhoz, a 10 ezer szóból varázsütésre 12.500 lett.
A burjánzás egyik oka merő definíciós kérdés. A szógyakorisági lista egyszerűsített írásjegyekkel írt szavakat tartalmaz. A CHDICT szócikkei viszont háromeleműek: egyszerűsített, hagyományos, illetve pinyin-átirat. Ha bármelyik eltér, az már külön szócikk. Amikor az egyszerűsített írással írt szavakat kulcsként használva leválogattam a két forrásomat, a CC-CEDICT-et és a HanDeDict-et, felszínre kerültek a többértelműségek: számos írásjegynek több olvasata is van, és az is előfordul, hogy egy adott egyszerűsített írásjegynek kettő vagy több hagyományos írásjegy is megfelel.
Ezen felül a burjánzáshoz hozzájárultak a forrásaim közötti nézeteltérések is. A HanDeDict a tajvani nyelvhasználat felé hajlik, a CC-CEDICT viszont a szárazföldi felé, ezért sok szónál eltérő kiejtést tüntetnek fel. Végül pedig mindkettő tartalmaz hibákat (igaz, a HanDeDict érzésem szerint többet), ami szintén ahhoz vezet, hogy egyazon egyszerűsített címszóhoz eltérő kiejtést vagy eltérő hagyományos írásjegyeket adnak meg.
Így lett a 10 ezerből 12.500 címszó, amelyek azonban a szótárfordítás során szépen fogyatkoztak: a hibák és többértelműségek esetén csak egy változatot tartottam meg. Prózaian fogalmazva, a redundáns vagy téves elemeket kilövöldöztem. A számláló 10.888 szócikknél állt meg.
Az viszont már egy másik írás tárgya lesz, hogy hogyan jutottam el odáig.
A sorozat első része:
Hivatkozások:
Wortschatz.tk német szókincsteszt
Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal. Marc Brysbaert, Emmanuel Keuleers, Paweł Mandera, & Michael Stevens. 2013 [PDF]
How Many Words Do We Know? Practical Estimates of Vocabulary Size Dependent on Word Definition, the Degree of Language Input and the Participant’s Age. Marc Brysbaert*, Michaël Stevens, Paweł Mandera és Emmanuel Keuleers. Frontiers In Psychology, 2016. [link]
Subtitle-Based Word Frequencies as the Best Estimate of Reading Behavior: The Case of Greek. Maria Dimitropoulou, Jon Andoni Duñabeitia, Alberto Avilés, José Corral és Manuel Carreiras. Frontiers In Psychology, 2010. [link]
SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles. Qing Cai, Marc Brysbaert. PLOS ONE, 2010. [link]
Kapcsolódó tartalmak:
Hasonló tartalmak:
Hozzászólások (16):
Követem a cikkhozzászólásokat (RSS)Az összes hozzászólás megjelenítése
@szigetva: @Fejes László (nyest.hu): Számomra inkább az az érdekes különben, hogy az újlatin nyelvekben miért éppen a főnévi igenév lett az igék szótári alakja, amikor a latinban csak egy "jelentéktelen" igealak volt, ráadásul sokat el sem árul az ige ragozásáról. Ha pl. az E/1. alak lenne a kijelentő mód jelen időben + a befejezett múltban + a befejezett melléknévi igenév, ahogy a latinban volt, akkor ebből a három alakból adná magát az ige teljes ragozási paradigmája (a mindössze 2 db erősen rendhagyó szuppletív ige kivételével). A főnévi igenév egyedül a ragozási osztályról informál, semmi másról...
@Janika: Lásd youtu.be/CZf1URtw2PQ :-)
Az "útelágadozás" szó csak nekem tűnik furcsának?
@szigetva: Persze, de ez is véletlen. (Egyébként az ikes igéknél is ez az alapalak.)
@Fejes László (nyest.hu): A szótári alak egyrészt hagyomány, de azért mégiscsak úgy érezzük, hogy a kijelentő mód és a jelen idő az alapesetek, a magyarban meg az e3, mert ezeknek nincs „testes” morfjuk: fut-0-0-0-0 (fut+kiejentő+jelen+e+3, persze egyáltalán nem akarok olyat mondani, hogy itt zéró morfok állnak).
@ug: Ezeket én nem vitattam, bár mondjuk a fucking meg a de ilyen beszúrása nyilvánvalóan nyelvi játék. A magyar összetett szóra sem teljesen igaz a felbonthatatlanság, mert pl. mellérendelésben megtörténhet: zseb- és konyhakések, buszjegyek vagy -bérletek stb. De ezek mind jól körülhatárolható esetek, míg az igekötő összevissza szaladgál, és az tekinthető kivételesnek, amikor beáll közvetlenül az ige elé. Az is véletlen, hogy a felmegy a szótári alak, nem mondjuk a megy fel, ugyanúgy, ahogy az is csak tradívió, hogy általában az infinitivus az igék szótári formája, de a magyarban az sg3, a latinban az sg1, vagy hogy mindkettőnél a jelen idő kijelentő mód.
@Fejes László: Innentől tényleg csak a jóízű beszélgetés kedvéért.. A vicc az, hogy még a nagyon-nagyon összetartozó, folytonos elemek folytonossága és elválaszthatatlansága sem igaz univerzálisan.
Angol passer-by nominalizáció: többes számban a közepén ékelődik be egy plusz morféma: passers-by
Angol szleg: összetett szó közepébe ékelődik be egy intenzifikáló elem: prime fucking minister
Ugyanez: nemhogy összetett szó, de kötött morfémás prefix és tő közé ékelődő elem: un-fucking-believable
Magyar nótakultúra: felszíni, fonetikai szinten ékelődik be egy ízes "de" az összetett szó közepébe, leginkább prozódiai céllal: lánc de babám, lánc de fűrész, azzal vágtam ki a nyárfát (ismeretlen szerző)
Szóval csak annyi, hogy kalandos szerzet ez a "szó". De pont ezt írtam a szövegben is.
@szigetva: Igazán itt inkább arról van szó, hogy egy kétszavas szerkezethez járul a képző (l. szép szemű), csak helyesírási kérdés, hogy ezt egybeírjuk. (Az persze a hangsúlykiosztásra megy vissza, de ez más kérdés.) Zárójelezési paradoxonokkal meg tele van a nyelv.
@ug: Persze, magam is írtam, hogy sajnos ebben a szakirodalom is nagyon következetlen, a szótárirodalom meg végképp.
A szó egyébként nem igazán nyelvészeti fogalom, ahhoz túl sok értelemben használják. Nem véletlen, hogy ha nyelvészeti elemzésre kerül a sor, ahol a dolognak jelentése van, szoktak lexikai szóról (lexémáról), szóalakról, szövegszóról stb. beszélni. Ezeket viszont a fenti szöveg erősen keveri: „daraboljuk csak szét a bekezdéseket szóközök mentén, csupáljuk le mindenről az írásjeleket, s ami marad, azok a szavak. Apró bonyolítás, hogy a ragozás miatt ugyanaz a szó sok-sok formát ölthet, de ma már van erre polcról levehető eszköz: tövesítőnek hívják.” Először a szavakat szövegszóként definiálja, aztán ezeket rögtön szóalaknak veszi (oké, ez az adott szövegkörnyezetben nem számít). A következő mondat szerint azonban a szónak több alakja is lehet: ekkor nyilván már a lexémára kell gondolnunk – na de eddig nem ezt jelentette a „szó”! Minden elismerésem azé a laikus olvasóé, aki ezt követni tudja! (Hát arról nem is szólva, hogy honnan tudná a szerencsétlen, hogy mi az a tövesítő, és hogy jön ide. Nem mondom, hogy könnyű megértetni, miről van szó, de ilyenkor szokott az íróember példákhoz fordulni.)
Természetesen nem állítom, hogy könnyű a kérdés. Az én kifogásom inkább az, hogy nem lehet olyan könnyen odakenni, hogy „a fellép ige két részre szakadt”, elsősorban azért, mert nem igaz, hogy az igék (szavak) két részre szakadnak. Ez csak az „igék” nagyon speciális körére igaz. Mi több, alapjában véve ez a helyzet nem nagyon különbözik attól, hogy mondjuk a „rágja a fülét” ’nyaggatja’ szótározandó, mert a „rág” és a „fül” jelentése alapján nem található ki a teljes szerkezet jelentése, de ettől függetlenül a szerkezet megjelenhet „a fülét rágja” és „rágja a fülét” szórendben is. Magyarul az illusztrálandó jelenségnek semmi köze a „szétszakadáshoz”, csupán ahhoz, hogy vannak többszavas (azaz variálódó sorrendű, + egymástól elszakadni is bíró, vö. „azért rágja egész nap a fülét, hogy...”) kifejezések is. Nekem az ilyesmi a kínaihoz már csak azért is jobbnak tűnik, mert ha jól tudom, ott az egybeírás-különírás kérdése fel sem merül, tehát csak a sorrendi kérdéseken lehet a lényeg.
@ug: "Illetve izgatottam várom a "szó" és az "ige" konszenzusos, univerzális nyelvészeti definícióját."
Hadd idézzek az általam belinkelt blogból:
"Azokat az alakokat lehetne egy szónak tekinteni, amelyek sorrendjükben és kategóriájukban is nagyon kötött módon egymáshoz kapcsolódó elemekből – vagyis tőből és toldalékokból – állnak."
Ezt a megoldást egyébként Kálmán László javasolta.
@Fejes László Jogos az ellenvetésed a "fellép" szó igeként való kategorizálása ellen, de ugyanezt a kifogást a Bárczi-Országh-féle értelmező szótárnak is címezheted, melyben ez áll:
FELLÉP tárgyatlan ige
mek.oszk.hu/adatbazis/magyar-nyelv-ertel...?kereses=fell%C3%A9p
Ha szőrszálat akarunk hasogatni, akkor így is fogalmazhatunk: "a fellép lexikai elem két részre szakadt". Amit köznyelvi értelemben mezeien szótárnak nevezünk, az valójában lexikaielem-tár. Amíg viszont ez a hosszabb elnevezés gyökeret nem ver a magyar nyelvhaszálatban, felmutatom a "bocsánatos bűn" feliratú kártyát, ha az a vád ér, hogy szegény "fellép"-et megrágalmaztam és mégoly elnagyoltan igének tituláltam.
Illetve izgatottam várom a "szó" és az "ige" konszenzusos, univerzális nyelvészeti definícióját.
@Fejes László (nyest.hu): Miközben persze én is ezt mondanám, azért így előáll egy bracketing paradox pl. a [fel lép]ő/és típusú szavakban. Attól, hogy a "fel" is szó, meg a "lép" is szó, még lehet a "fellép" is szó (a fenti példában inkább tő) csak azon nem kell csodálkozni, hogy külön is válhatnak.
„a fellép ige két részre szakadt”
Hát először is, a fellép nem ige, hanem egy igekötő+ige kapcsolat. És mivel a szóösszetételek fő tulajdonsága, hogy tagjaik nem választhatóak el egymástól, az igekötős igék még csak szóösszetételnek sem tekinthetőek. (Bár egyes nyelvtanok tényleg butaságokat írnak erről. www.nyest.hu/hirek/gub-szazmilliokbol) Persze ha azt vesszük, hogy szó az, ami két szóköz között van, akkor ez egy szó. De akkor mikről beszélünk, amikor „kettészakad”? Két szóköz között akkor is egy-egy szó lesz, nem mondjuk azt, hogy azok félszavak vagy szótöredékek. Akkor már megint csak érdemes azt mondani, hogy két szóköz között akár két szó is állhat...
@aphelion: Hát igen, viszont ha egy ilyen összetételi elem elveszti az önállóságát, tehát már csak összetett szavak egyik elemeként értelmes, akkor az onnantól kezdve már toldalék. Erre kiváló az általad hozott példák közül az "alagút": számomra semmi értelme nincs annak, hogy "alag-", de azt érezni, hogy a végén az "út" főnév van; de még inkább ilyen az "alagsor", ahol egyértelmű, hogy a "sor" főnév a vége. Tehát azt mondhatjuk, hogy a mai magyarban az "alag-" egy toldalék vagy összetételi elem.
Gondolom a kínaiban is vanak ilyenek. Vagy pl. ha a többes számot úgy képzeik, hogy a szó elé tesznek egy 'több' vagy 'sok' jelentésű szót, akkor azt már lehet többesszám-jelnek is elemezni Elvégre a toldalékoló nyelvekben a toldalékok is sokszor így alakultak ki, hogy kezdetben önálló szavak (névutók vagy elöljárók) voltak.
@aphelion: Vagy méginkább az ilyen összetettnek indult, de ma már nem igazán annak érzett szavakhoz, mint pl alagút, évszak, reptér, hanem.
@Sultanus Constantinus: A többszótagú kínai szavak inkább a magyar összetett szavakhoz hasonlíthatók, mintsem a toldalékoltakhoz:
www.digmandarin.com/chinese-a-language-of-compound-words.html