Finnugor és szamojéd
könyvek az interneten
A jövőben a kisebb uráli nyelveken is több száz kötetnyi anyag válik elérhetővé.
Köztudomású, hogy a kisebb finnugor és a szamojéd nyelveken meglehetősen kevés a digitálisan hozzáférhető szöveg. Ez nem csak azért probléma, mert az ezen nyelven írt szövegek iránt érdeklődők – beleértve e nyelvek anyanyelvi beszélőit – kevés anyaghoz férhetnek hozzá az interneten, hanem hátráltatja e nyelvek kutatását is – különös tekintettel a számítógépes eszközökkel támogatott nyelvészeti kutatásra.
Ezen a problémán igyekszik segíteni a Finn Nemzeti Könyvtár (Suomen Kansalliskirjasto) új projektje, melynek során 2015-ig több mint ezer karjalai, izsór, erza, moksa, mari (hegyi és mezei), udmurt, komi (permják és zürjén), manysi hanti, nyenyec és szölkup kötetet, továbbá több mint félszáz komi, udmurt és mordvin nyelvű újságot digitalizálnak – összesen 89 ezer könyv- és 72 ezer újságoldalt. A digitalizálandó anyagokat finn kutatók válogatták az Orosz Nemzeti Könyvtár anyagából.
A már digitalizált anyagok a Finn Nemzeti Könyvtár Uralica portálján keresztül érhetőek el – itt nem csak a projektben digitalizált anyagokat találjuk meg, hanem a világ más könyvtáraiban digitalizált finnugor vonatkozású anyagokat is. Itt pillanatnyilag elsősorban mordvin (erza és moksa) anyagokat találunk, a mari és az udmurt anyag ennek töredéke, komi, obi-ugor és szamojéd anyag pedig még egyáltalán nincs. Ezzel szemben vannak nem uráli nyelvű anyagok is (például Japán japán nyelvű térképe) – ezek szerepeltetése legalábbis váratlan.
A projekt középpontjában egy a Finn Nemzeti Könyvtár által fejlesztett online szerkesztőprogram áll, melynek segítségével a szövegfelismerővel (OCR) digitalizált szövegeket lehet szerkeszteni. A szerkesztő segítségével olyan szabványosan formált szövegeket állítanak elő, melyek számítógépes feldolgozása szabványos eszközökkel megoldható. A szerkesztőről szemináriumot is tartanak.
A munka haladását a projekt blogján lehet követni.