A diszlexiás felmérés titkai
Cél: egy böngészőhöz telepíthető, diszlexiásokat segítő program. Eszköz: ami rendelkezésre áll. Hogyan kerültek megosztó szövegek egy jó szándékú felmérésbe?
Némi értetlenség kísérte a Facebook-oldalunkon és a kommentszekcióban azt a felhívást, amit a nyest közölt egy hete. A nyestet olyan kutatók keresték meg segítségünket kérve, akiket jól ismerünk, és teljes mértékben megbízunk bennük. A kérés pedig arra vonatkozott, hogy segítsünk résztvevőket toborozni egy diszlexiával foglalkozó kérdőív kitöltéséhez. Természetesen, álltunk a kötélnek, hiszen a téma is fontos, és a projektet vezető két kutatót, Balogh Kittit és Varjú Zoltánt jól ismerjük, munkájukat követjük, sokat segítenek nekünk is, több cikket is írtunk együtt – egyszóval megbízunk bennük.
A kérdőívbe belépve, a kitöltést megelőzően a szerzők megjelölik a szövegek forrását (kurucinfo), a kutatás vázlatos leírásában elhangzik egy fontos figyelmeztetés:
„A kérdőív szerkesztői függetlennek érzik magukat a cikkek témájától, és előre elnézést kérnek azoktól, akiket a cikkek sértően érintenek, illetve megzavarják a nyugalmukat.”
Sokaknak azonban nem volt elegendő ez a közlés, és némi indulattal kértek magyarázatot arra, hogy kerültek ezek a – rasszista – szövegek a kérdőívbe. Megígértük, hogy rövidesen választ adunk a kérdésekre, így megkerestük a két kutatót – mivel mégis ők a legilletékesebbek a kérdésben.
Kincse Szabolcs: Hogy jött létre ez a korpusz? Mi volt az a korábbi projekt, amire a kérdőív bevezető szövegében is utaltok?
Balogh Kitti: A korábbi projektben azt szerettük volna vizsgálni, hogy hogyan gyűrűzött be a médiabeli diskurzusokba és közbeszédbe a romaellenes beszéd. Ezért úgy döntöttünk, hogy megvizsgáljuk, milyen témákban jelenik meg a romaellenes beszéd a kurucinfo portálon.
Ennek kapcsán legyűjtöttünk 10 400 szöveget – ezek kisebb-nagyobb cikkek, írások – a portálról. A szövegekből automatikusan kinyertük a különböző témákhoz tartozó kulcsszavakat és a dokumentumokhoz tartozó témákat, valamint megnéztük, hogy az időben hogyan alakulnak a témák. Az előzetes tervezésekkel a végső elemzésekig és az adatvizualizációig ez a munka nagyjából másfél évig tartott.
A fenti projekt eredménye egy olyan tanulmány lett, ami 2006-tól 2015-ig feldolgozza, hogy melyek a fő romaellenes témák, ezeket időben is elrendezve. Összesen 27 ilyen fő témát találtunk – ezek magukért beszélnek.
A kutatók által azonosított 27 fő romaellenes téma:
- EU roma külpolitika
- Magyar Gárda, Jobbik, egyéb jobboldali szerveződések
- Roma önkormányzat, önszerveződés
- Lopással kapcsolatos hírek
- Roma-nem roma társadalmi problémák, előítéletesség
- Uzsorásokkal, lakhatással kapcsolatos problémák
- Politika, pártok, politikusok
- Máshonnan átvett tartalmak kritikája, értékelése
- Vidéki települések roma-többségi konfliktusai
- Közbiztonság, önvédelem, polgárőrség
- Egészségügy
- Olvasói történetek
- Fa- és fémlopás okozta árvizek, önvédelem
- Lopások, rongálások közlekedésben, vallási helyeken
- Bírósági eljárások, tárgyalások
- Cozma-gyilkosság
- Közlekedéssel kapcsolatos kihágások, bűncselekmények
- Verekedések, késelések, támadások
- Pásztor Albert és a cigánybűnözés
- Roma művészek, celebek bűncselekményei
- Gyilkosságok, gyújtogatások
- Finnországi roma bűncselekmények
- Szociális segély, közmunka
- Szebb Jövőért Polgárőr Egyesület és Gyöngyöspata
- Roma, török, muszlim, fekete bevándorlók Európában
- Oktatási, iskolai problémák
- Emberkereskedés, prostitúció
K.Sz.: Hogy jön ide a diszlexia?
Varjú Zoltán: A vizualizáció elkészítése után a kulcszókinyerés felé fordultunk. Több algoritmust is kipróbáltunk amíg megtaláltuk a megfelelőt. Ennek a folyamatnak a része volt, hogy kb. 400 szöveget munkatársaink átolvastak és bejelölték bennük a kulcsszavakat. Erre azért volt szükség, hogy az algoritmusaink hatékonyságát objektíven tudjuk mérni.
A kiértékeléshez végzett irodalomkutatás során akadtunk rá egy tanulmányra, ami arról szól, hogy a kulcsszavak kiemelése segíti a diszlexiások szövegértését. Rögtön láttuk, hogy ez egy nagyszerű lehetőség: az algoritmusunk segítségével képesek lehetünk egy olyan kulcsszavazó alkalmazás megalkotására, ami a weben folyamatosan segíti a diszlexiás olvasót a szöveg értelmezésében. A végtermék egy böngészőhöz telepíthető kiegészítés lehet, amit, ha a felhasználó telepít, a kulcsszavakat automatikusan kiemeli neki a szövegben.
K.Sz.: És ehhez nem lehetett volna más korpuszt találni?
B.K.: A korpuszból, még mielőtt a diszlexiás ötletünk jött volna, 400 szöveget annotáltunk. Azaz kézzel átment minden egyes szövegen két annotátor, akik kijelöltek 5-5 kulcsszót vagy kulcskifejezést. Ezenkívül az előző kutatásunkból egy másfajta automatikus kulcsszavazás eredménye is a rendelkezésünkre állt ugyanezekhez a szövegekhez. Ilyen feltételekkel csak nagy humán- és anyagi erőforrás befektetése mellett tudtunk volna új korpuszt keresni és feldolgozni.
V.Z.: Ráadásul a kitöltők azt nem tudhatták, hogy nem mindenki ugyanazt az öt szöveget látja. A felhasználók ötven különböző szövegből kapták az anyagokat – mindegyik szöveghez öt kulcsszóval. Én értem, hogy az emberek jobban szeretnének egy mesét látni, de nem volt kérdés: vagy elvégezzük ezt a kutatást ezen a korpuszon és talán lesz belőle egy használható segédeszköz, vagy egyáltalán nem csinálunk semmit.
K.Sz.: Néhány olvasónk meglehetősen dühösen reagált a kurucinfós cikkekre, még annak ellenére is, hogy a felmérés a fent is idézett figyelmeztetéssel kezdődik.
V.Z.: Egyrészt természetes és érthető reakció a felháborodás. Az alapprobléma, hogy mi olyan olvasókhoz vagyunk szokva, akik tudják, értik, hogy miből áll ez a munka és ennek megfelelően szakmaiak a reakcióik is. A nyest közönsége nagyon jó közönség, de nyilván nem szakmai.
Ugyanakkor érdemes azt is elmondani, hogy a felmérés elején külön felhívtuk a figyelmet, hogy nem kellemes szövegek következnek, és hát van egy pont, amin túl tényleg nem tudunk többet mondani. Nem szélsőjobbos propagandát folytatunk, nem emberkísérletet, hanem egy fontos kutatást végzünk azon az egyetlen korpuszon, amin ezt el tudjuk végezni. Amire a kérdőív elején konkrétan fel is hívjuk a figyelmet. A válasz, hogy nem, nem tudtunk volna másik szöveget használni. Nem volt más szöveg.
K.Sz.: Több olvasónk is kérdezte, hogy nem lenne-e célszerűbb a kulcsszavak relevanciájára foglalkozó vizsgálatokat semleges, tényszerűen fogalmazott szövegeken végezni? Mások szerint a szövegeket adó portálnak olyan sajátos, egyedi nyelvezete van, hogy sok az olyan kifejezés, amelyeknek másodlagos jelentése van egy adott szubkultúrában – és hogy ez bezavarhat az eredményeitekbe.
V.Z.: Bármilyen szöveg alapvető tulajdonsága, hogy vannak központi elemei. A kulcskifejezés/kulcsszó a szöveg tulajdonsága – teljesen mindegy milyen szövegről van szó. Azaz ha lett volna egy hasonlóan feldolgozott korpuszunk nyest-cikkekkel, az pontosan olyan jól megfelelt volna erre a célra, mint az amit használtunk. Nem volt.
Robert Merle: Mesterségem a halál.
Az olvasó szinte már empatizál a főhőssel, hogy jaj, csak sikerüljön neki elvégezni a rábízott feladatot... A szakmaiság szempontja mindent visz...
Szomorú.
Kedves kutatók, még mindig azt mondom, hogy a Nyest-cikkek jobbak lettek volna, még akkor is, ha többletmunkával és több éves késedelemmel járt volna azok feldolgozása. Titeket már annyira a szakmai szempontok vezérelnek, hogy képtelenek vagytok észrevenni, hogy mennyire szélsőségesek ezek a szövegek. Vagy a célközönséget választottátok meg rosszul: szakmai körökben kellett volna elvégeznetek a vizsgálatot, akik szintén képesek lettek volna elvonatkoztatni a cikkek tartalmától. Biztos vagyok abban, hogy a Nyest-cikkeknél nem zavarna bele az ideológia; az eredmény pedig inkább csak a szélsőséges témájú cikkekhez lesz hasznos, a semlegesebb témákhoz kevésbé. Torzítás be, torzítás ki. Kérdésem: mennyire fontos a szövegekben az, hogy az elkövetők cigányok voltak? Mennyire tartozik a cikkekben leírtak lényegéhez? Erre ti még nem feleltetek.