Gigantikus korpusz szolgálja a nyelvészeti kutatásokat – is
A Google hatalmas szöveganyagot digitalizált, mely az 1800 és 2000 között megjelent könyvek 4%-ának szövegét tartalmazza. Hogy mire jó ez a hatalmas anyag?
A Language Log tömören bemutatja, milyen kutatásokról számolt be a Science-ben tizenegy kutató és a Google Books csapata. A Google több mint 5 millió könyvet digitalizált, ezek mindegyike 1800 és 2000 között jelent meg. Úgy becsülik, hogy ez az ebben az időszakban megjelent könyvek 4%-a. A világ nyelvei azonban nem egyformán vannak képviselve, a könyvek kétharmada angol nyelvű, a maradékon francia, német, spanyol, kínai, orosz és héber nyelvű könyvek osztoznak. Az angol korpusz 360 milliárd szóból áll: korábban a legnagyobb használt korpusz, a Brigham Young Egyetem által üzemeltetett amerikai angol történeti és mai szövegkorpusz 400 millió szót tartalmazott. (A legnagyobb magyar korpusz, a Magyar Nemzeti Szövegtár kb. 190 millió szavas. Helyesbítés: a legnagyobb magyar szövegtár a Szószablya, mely másfél milliárd szót tartalmaz. Ebben azonban a Google korpuszával és a MNSZ-szel szemben nem könyvek, hanem az internetről letöltött vegyes szövegek vannak.)
A kutatók a könyvek szövegeiben keresve, az adatokat statisztikailag feldolgozva többféle kutatást is végeztek. Megvizsgálták például, hogy az angol rendhagyó igék hogyan váltak szabályos ragozásúvá a kétszáz éves időszakban. Egy másik kutatás azt vizsgálta, hogyan mutatható ki egyes művészek és értelmiségiek elnyomása a náci Németország, a sztálini Szovjetunió, illetve a mai Kína kiadványaiban. Egy harmadik csoport a hírnév terjedésének jelenségét vizsgálta az egyes nevek gyakoriságának növekedése alapján. Ehhez 740 000 nevet választottak ki a Wikipédiából, a születési évszámaik szerint rendezték őket, és minden születési évből kiválasztották azt az ötven embert, akinek a neve a leggyakrabban fordult elő a gyűjteményben. Ezek után megnézték, hogy az így kiválasztott személyek említési gyakorisága hogyan változik évről évre az átlagos említési gyakorisághoz képest. Azt találták, hogy az emberek egyre gyorsabban válnak híressé, de hírnevük gyorsabban is elapad, mint mondjuk száz évvel ezelőtt.
Az alkalmazást megnyitva a tofu és a hot dog kifejezések gyakoriságának változását látjuk. A hot dog gyakorisága némi hullámzással, de folyamatosan emelkedik, ám a tofu kezdetben nagyon ritkán fordul elő, s csak 1970 körül kezd gyakorivá válni, az 1980 körül pedig olyan hirtelen kezd emelkedni, hogy 1982-ben már eléri a hot dog gyakoriságát, 2000-re pedig messze meg is haladja.
FRISSÍTÉS: Jelenleg az Atlantis és az El Dorado kifejezések hasonlíthatóak össze, elképzelhető, hogy az alapbeállítás időről időre változik.
Egy alkalmazás segítségével magunk is megvizsgálhatjuk, hogy miként változott az egyes szavak gyakorisága 1920-tól kezdve. (A korpusz korábbi része egyelőre nem érhető el.) Ráadásul egyszerre nem csupán egy szót vizsgálhatunk, hanem akár ötöt is. Nincs az az unalmas bölcsészbuli, amit ne dobhatnánk fel olyan játékokkal, amelyekben meg az egyes szavak egymáshoz viszonyított gyakoriságát, ill. gyakoriságának változását kell megtippelni. (Mi a gyakoribb: a ’paradicsom’ vagy a ’krumpli’, a ’kecsöp’ vagy a ’mustár’, vagy hogy ki a híresebb: Ceauşescu vagy Kádár?)
Sajnos egyelőre bonyolultabb kereséseket nem végezhetünk, például nem vizsgálhatjuk szavak együttes előfordulását (a ’kecsöp’ vagy a ’mustár’ gyakoribb-e a ’hal’ mellett), vagy hogy egyes szavak hol fordulnak elő mások nélkül (pl. a rock ott, ahol nem fordul elő a music és a concert) stb. Vannak azonban tervek a kereső további fejlesztésére, így aztán néhány éven belül fergeteges bölcsészbulikra számíthatunk.
Forrás
A gyakoriságból levont következtetések merőben eltérhetnek a valóságtól, hiszen a gyakoriság alapja csak a 4%. Ez nem jelenti azt, hogy a maradék 96%-ban ugyanez a gyakoriság. Az is lehet, hogy a 4%-ban minden példányban előfordult egy adott szó, a 96%-ban meg egyáltalán nem szerepelt...