0:05
Főoldal | Rénhírek
Generatív indoeurópai szótár

Programozott nyelvtörténet

Az ember esendő, figyelmetlen – éppen ezért jobb, ha számítógép ellenőrzi a feltételezéseit.

nyest.hu | 2015. február 6.

Új indoeurópai nyelvtörténeti szótár jelent meg a világhálón. Sajátossága, hogy nem csak azt mutatja meg, mely indoeurópai tövekből milyen szavak fejlődtek, hanem azt is hogy hogyan. Ráadásul nagyon következetesen. Ezt a következetességet számítógép garantálja.

A Jouna Pyysalo doktori értekezésére épülő projekt lényege pontosan ez a következetesség. A nyelvtörténészek úgy képzelik, hogy volt egy alapnyelvi alak, és a nyelvek története során ezeken különböző változások mentek végbe – ezek a változások azonban az adott feltételek mellett minden egyes szóban végbementek. Ha azonban több száz szóról és több száz szabályról van szó, akkor nehéz ellenőrizni, hogy valóban történhetett-e minden úgy, ahogy elképzeljük.

És itt jön a képbe a számítógép. Ha ugyanis a számítógépnek megadjuk a feltételezett alapalakokat és szabályokat, akkor ezekből képes legenerálni a ma várt alakokat (ezért hívják generatívnak) – ezeket pedig összevethetjük a valós alakokkal. Ha eltérést tapasztalunk, akkor hiba van a rendszerben. A rendszer működése hasonló a helyesírás-ellenőrzők működéséhez, csak itt a szabályok nem ragozott alakokat hoznak létre, hanem leánynyelvi töveket.

Programozott nyelvtörténet
Forrás: Pyysalo et al.

Sajnos a projekt alapján készült teljes szótár még nem érhető el, de némi ízelítőt kaphatunk már belőle. A Helsinki Egyetem honlapján egyelőre egyetlen, ’üt, öl, kovácsol’ jelentésű igető származékait figyelhetjük meg. Az első oszlopban a rekonstruált alakot látjuk, a második oszlopban azt, hogy melyik szó (nyelv és tő) levezetése olvasható, a harmadik oszlopban ennek a szónak a nyelvtani jellemzése és jelentése következik, a negyedik és ötödik oszlopban különböző hivatkozásokat találunk.

Üt, ver, kovácsol
Üt, ver, kovácsol
(Forrás: Wikimedia Commons / Jorge Royan / CC BY-SA 3.0)

Ha az első oszlopban álló alakra rákattintunk, a szócikk megnyílik, és láthatjuk a teljes levezetést. Az alábbiakban például az orosz кузнец [kuznyec] ’kovács’ szó levezetése látható.

A kép kattintással nagyítható
A kép kattintással nagyítható

Ebben az esetben az első sor első oszlopában a kiinduló alakot látjuk, a második oszlopban a szabály formalizált alakját, a harmadikban ugyanennek angol nyelvű kifejtését. A negyedik oszlopban a folyamat végeredményét, az ötödikben szakirodalmi hivatkozást. Az új sor első oszlopába már az az alak kerül, amelyet az előző szabály alapján kaptunk (ez állt a negyedik oszlopban), és a folyamat addig tart, míg el nem jutunk a mai alakig (illetve kihalt nyelvek esetében valamelyik ismert, dokumentált alakig).

Az eredmények természetesen vitathatóak, de tény, hogy a módszeresség figyelemre méltó, és előbb-utóbb elvárás lesz a hasonló megoldások használata.

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások (7):

Követem a cikkhozzászólásokat (RSS)
9 éve 2015. február 7. 19:37
7 LvT

@Sultanus Constantinus: >> Hát, már a legtetején a fonémakészlet is homlokegyenest ellentmond a mai feltételezéseknek. Hol vannak pl. a hehezett, a labioveláris és a labioveláris hehezett zöngés zárhangok? <<

Mióta teret nyert a laringáliselmélet, azóta a hehezett, palatális és labiális mássalhangzókat a <Ch>, <Ci̯>,<Cu̯> hangcsoportokra vezetik vissza, amelyek a laringálisok kiveszése után keletkeztek. A régi és az új rekonstrukciók úgy viszonyulnak egymáshoz mint a pl. a Bólyai–Lobacsevszkij-féle és az euklidészi geometria: tehát speciális esetben továbbra is használhatók a hehezett stb. hangokból építkező rekonstrukciók, de csak az alapnyelv felbomlásban lévő korának állapotára utalva.

Vegyük pl. a belinkelt oldal utolsó sorát, amely a korai ie. <*gɑɦudɑɦótsi-> alakból vezeti le a görög <φθόσι->-t. Az 1.és a 2. alak közti átmenet az az időszak, amit közönségesen a laringálisok kiveszésének szoktunk nevezni, jóllehet itt konkrétan az <ɑ>-val jelölt svá esett ki. Ez az a kor, amikor a hettita kiválik, és a maradék is elkezd differenciálódni a majdani nyelvtörzsekké. Az eredményt itt <*gɦudɦótsi->-nak jelölik, ennek az elejét lehetne a régi jelöléssel <*gʰʷdʰ-> vagy <*gʷhð-> kezdettel jelölni (l. alábbi linkek). A 2.-ról a 3. és a 4. lépés mutatja azokat a változásokat, amellyel a görög alapnyelv kivált az indoeurópai egységből: [<*gɦ(u̯)> →] <*gʰ(ʷ)> → <*bʰ> → <pʰ>.

www.utexas.edu/cola/centers/lrc/ielex/X/P0742.htmlstarling.rinet.ru/cgi-bin/response.cgi?r...ort=number&ic_any=on

.

>> A fordítások meg miért (csak) németül vannak megadva? <<

Ha megnézed, a helyzet vegyes. Az a szokás a tudományos irodalomban, hogy a „másodközölt” jelentéseket mindig olyan alakban tüntetik fel, ahogy az az adott forrásban (szótárban, cikkben stb.) szerepelt. A forrásokat (a bevett rövidítésükkel) egyébként az oldal zárójelben feltünteti. Az indoeurópai etimológiai irodalom túlnyomó többsége még mindig németül van.

9 éve 2015. február 7. 16:45
6 Pierre de La Croix

@Szalakóta: Nem tudtad? Krizsa bevallottan ódzkodik az "újmódi" találmányoktól (ezért regisztrált és ossza meg csak itt az agymenéseit, mert máshová nem tud - Ő írta több hozzászólásában, és nem én, mielőtt még szokása szerint letagadná. Lásd a vitát arról, hogy miért nem hoz inkább létre egy önálló honlapot vagy blogot).

A levezetésben pedig azért kételkednék. :)

9 éve 2015. február 7. 16:39
5 Krizsa

Amikor a számítógépre megyünk, akkor már megvan a találmány, s ez önálló új tudományág esetén, nem egy, hanem többszáz felfedezés együttese. A számítógép csak szolga. Pontosan azt csinálja, amit beprogramoznak neki. Azt is levezeti, aminek van értelme, azt is, amit csak játéknak szántak - a kitalációk tudományosnak vélt, vagy valóban tudományos "rendszeret" egyformán kezeli. A számítógépnek fogalma nincs arról, hogy mit miért csinál.

9 éve 2015. február 7. 16:16
4 Szalakóta

@Krizsa: A gyöknyelvészetet is le tudná vezetni.

9 éve 2015. február 6. 15:53
3 Krizsa

Ha beprogramozzuk a számítógépnek, hogyan lesz az elefántból bolha, akkor levezeti a bolha-nyelvcsaládot. Ha egyidejűleg azt is betápláljuk neki, hogy a bolhából lesz az elefánt, akkor megáll, és további utasításra vár. Enter. Most már levezeti az elefánt nyelvcsaládot is. A cikkből: "Ez a következetességet a szmámítógép garantálja."

9 éve 2015. február 6. 14:57
2 mederi

Ha éppen a "kovács" szó eredetét nézzük, szerintem:

-A magyar szerintem szituációhelyesen "kövecs(es)" szó lehetett, amit szlávosan "kovács"-nak mondanak ("-es" nélkül).

Az "e" nyelvjárásonként más ma is (egyfajta "eá" pl.: "(e)ázzél" = "ezzel" felvidéken..)

Ez a szó végül szlávosan épült vissza a magyarba...

***

-Az alap szó a "kő" (mivel a szituáció az volt, hogy először nem állt rendelkezésra nagyobb mennyiségben kalapácshoz való vas anyag, ezért alkalmas nyélre erősített kő lehetett az első kovácsok kalapácsoló eszköze a kő korszak végén).

-A hozzá tapadó "vet" ige (vé(+**)--->veszt/ vedt (múlt idő:vett)) jelentése, hogy "elvet pl. egy nagy követ, valamire ráveti magát", az "üt" szót helyettesíti...

-A foglalkozás ilyen megközelítéssel: "kővető(s)" ---> "követ(ő)s-(es)----->kövecs (ts=cs)"..

A kovácsok sokszor ketten (követősen!!) dolgoznak egymást váltva ütemesen, mert úgy hatékonyabb a munka (az üresjárati időt is kihasználják) ..

9 éve 2015. február 6. 13:33
1 Sultanus Constantinus

Hát, már a legtetején a fonémakészlet is homlokegyenest ellentmond a mai feltételezéseknek. Hol vannak pl. a hehezett, a labioveláris és a labioveláris hehezett zöngés zárhangok?

A fordítások meg miért (csak) németül vannak megadva?