Nyelvhalál a digitális korban
A digitális korban másképp élnek a nyelvek és másképp is halnak ki. Erről szól Kornai András legújabb kutatása, amelyet a PLOS ONE tudományos folyóirat közölt.
A magyar köztudatban Kazinczy és Verseghy óta erősen él a herderi jóslat, „hogy nyelvünk a föld szinérül kevés üdő múlva elenyészik”. A digitális korban azonban ami egyszer kikerült a webre, az többé nem vész el. Sőt: elsősorban az ellenkező folyamatra látunk példákat: a klasszikus kínai, a szanszkrit, az ógörög és sok más már rég kihalt nyelv lassanként megjelenik a weben. Ezzel együtt egyre több olyan, még élő nyelvről tudunk, amelyeket közvetlenül fenyeget a kihalás veszélye. Az Endangered Languages oldal már 3200 ilyet sorol fel, a világ kb. 8000 nyelvének (a pontos számot senki nem ismeri) kb. 40 százalékát.
Kornai Andrásnak a tudományos világ egyik legtekintélyesebb online folyóiratában, a PLOS ONE-ban október 22-én megjelent Digital language death (Digitális nyelvhalál) című cikke azt tárja fel, hogy mi a helyzet valójában. A cikkben a szerző először a nyelvek életképességének hagyományos kritériumait gondolja újra a digitális térben: a nyelvet beszélők száma helyett a nyelvet a hálózaton használók számára figyel. Az olyan, hagyományos értelemben kihalással egyáltalán nem fenyegetett nyelvek esetében, mint a mandinka – melyet Alex Haley Gyökerek című regényéből és az ebből készült tévésorozatból a magyar közönség is jól ismerhet –, ez hatalmas különbséget jelent, hiszen a sok millió beszélőt számláló nyelvet kevesebb, mint a lakosság 1 százaléka tudja írásban is használni. Hiába hivatalos nyelv a mandinka ma két országban is, Szenegálban és Gambiában, hiába van mandinka nyelven rádió- és TV-adás, a digitális térben gyakorlatilag nincs jelen.
Min alapul a kutatás?
Kornai hatalmas mennyiségű adatot gyűjtött a webről, hogy a nyelvek veszélyeztetettségének kritériumait számszerűsíteni tudja: minden nyelvet több mint harminc dimenzió mentén vizsgált meg. Ebben és az adatok elemzésében nagy segítségére voltak az MTA SZTAKI munkatársai, Zséder Attila és Pajkossy Katalin.
A nyelveket négy csoportra bontották: digitálisan mozdulatlan, örökségi, élő, és viruló nyelveket különböztettek meg – nagyjából aszerint, hogy mennyi digitális kommunikáció zajlik azon a nyelven. A mozdulatlanokon gyakorlatilag semmi, a virulókon naponta több milliárd szónyi új anyag válik digitálisan elérhetővé. Az örökségi nyelvek, mint a latin vagy az ógörög azért érdekesek, mert ezek hatalmas kulturális örökséget közvetítenek, de akik ezt felviszik a webre azok nem anyanyelvi beszélők. Büszkén vallhatja valaki, hogy ő mandinka, vagy lengyel, vagy magyar, de senki nem mondhatja: én latin vagyok. Ettől még lelkesen szerkesztheti a latin wikipédiát. Amikor egy-egy nyelvet megmentenek a digitális nyelvhaláltól, akkor nem digitálisan élő, hanem örökségi nyelvek jönnek létre.
A kutatók által használt módszer lényege az volt, hogy nagyon világos és egyértelmű példákat választottak az egyes csoportokból, majd olyan matematikai modelleket állítottak fel, amelyek megtanulják, melyik nyelv melyik osztályba esik. Ezek a modellek, mint kiderült, nem is használják a rendelkezésükre álló 35 dimenziót, ezekből mindössze 6-8-at tartottak fontosnak. Ennek ellenére a különböző példákon és különböző paraméterhalmazokkal tanított modellek lényegében mind egyetértettek egymással, amikor az eredeti példáktól eltérő nyelvekre alkalmazták őket: a ma ismert nyelvek és nyelvjárások több mint 95 százaléka digitálisan halott. Nem arról van szó, hogy egyszer majd, talán, valamikor ki fog halni: a mozdulatlan tetemek itt fekszenek előttünk.
Mit lehet tenni?
Két dolgot is. Egyrészt a digitálisan halott nyelvek döntő többsége a hagyományos értelemben még csak nem is veszélyeztetett: biztosak lehetünk benne, hogy mandinka vagy nynorsk (ez a norvég egy változata) anyanyelvű beszélőket még száz év múlva is fogunk találni. Ezek a nyelvek örökségi nyelvvé tehetők, sokan dolgoznak ezen. Másrészt itt van még az a négyszázvalahány nyelv, amelynek még van esélye. Ezekkel ma kevesebbet foglalkoznak, pedig nem mindegy, hogy a kibertérbe magunkkal visszük-e őket.
A magyar, ezt világosan le kell szögezni, nincs veszélyben – digitálisan sem. Amíg épül a magyar wikipédia – jelenleg nagyságra a 24. helyen áll, tehát nemhogy az életképes 4-5 százalékban, de még a felső 5 százalékban is benne van –, magyarul csetelnek az ifjú párok, magyarul írnak a Facebookra, virágzó blog- és portálkultúra van, addig nagy baj nem lehet.
Olyan nyelvek, amelyeket a nagy nyelvkatalógusok sem tartanak számon, tényleg vannak – elsősorban Délkelet-Ázsiában. De gyakran szolgálnak meglepetéssel azok a nyelvek is, amelyeket egy-egy misszionárius már az 1930-as vagy az 1960-as években leírt – ilyen például a manapság annyi vitát kiváltó Pirahã. Ehhez nagyon hasonló témáról beszélt tavaly Brüsszelben a szerző a METAforum rendezvényen (a Multilingual European Technology Alliance, azaz Többnyelvű Európai Technológiai Szövetség fórumán). Akkor azonban csak arról a néhány száz nyelvről volt szó, amelyen már van wikipédia. A mostani kutatásban azonban az összes ismert nyelvet vizsgálták, beleértve a már kihaltakat is, és azokat is, amelyeket a nagy nyelvkatalógusok sem tartanak számon.
Bővebben a témáról
Nyelvhalál a digitális korban (a teljes sajtóközlemény)
Kornai András: Digital Language Death
Avatar: (bár az eredeti cikket már kinyomtattam, de még csak a bevezetését olvastam el) az az érzésem, hogy a cikk nem akar jóslatokat tenni. Szerintem a cikk (és egy ilyen típusú tudományos cikk általában) két dologról szól elsősorban: egy érdekes, újszerű problémafelvetésről, valamint egy újszerű (jelen esetben erősen matematikai-számítógépes) módszertanról. Másodlagos jelentőségű, hogy konkrétan milyen "eredményre jut". Azonban ez az eredmény sem a jövőre vonatkozó jóslat, hanem a jelenlegi állapot értékelése. És bizony, i.sz. 300-ban a germán nyelvek teljesen kívül estek az írásbeliségen (... ha nem tévedek).
kb. annyi értelme van ennek a kutatásnak, mint mondjuk ha isz 300-ban kutatták volna, hogy milyen nyelveken születnek könyvek, és amelyikeken nem, azokat haldoklónak mondták volna. Megállapíthatták volna, hogy a pl a germán nyelvek "mozdulatlan" írásbeliségűek, és nagy veszély, hogy nyomtalanul eltűnnek...
"Büszkén vallhatja valaki, hogy ő mandinka, vagy lengyel, vagy magyar, de senki nem mondhatja: én latin vagyok."
Na hát azért ez így önmagában nem igaz, mivel pl. a spanyol anyanyelvűek mondják magukról, hogy "latin vagyok" -- még ha tudjuk is, hogy nem szó szerint kell érteni, de mondják:
www.google.com/search?q=%22soy+latino%22
www.google.com/search?q=%22soy+latina%22
www.google.com/search?q=%22somos+latinos%22
A kutatásban nagyon tetszik, hogy megkülönböztették az élő és a viruló nyelveket.
De a felvetett problémák jelentős része csak azért probléma, mert ma még nem 100% körüli az internetpenetráció, hogy egy szép magyar szóval éljek.