Optimistán szövegelünk?
Amerikai kutatók azt találták, hogy a szövegekben gyakoribbak a pozitív szavak, mint a negatívak. Egy nyelvi adatbázisokon végzett kutatásról adunk hírt.
Az interneten elképzelhetetlen mennyiségű szöveg lelhető fel, a nyelvészek legnagyobb örömére. Számítógéppel most már olyan mennyiségű adat vizsgálható rövid idő alatt, amelyet hagyományos módszerekkel egy életen át lehetett volna kutatni. Egy tíz nyelvre kiterjedő kutatás most azt bizonyította, hogy a vizsgált nyelveken írott szövegekben a pozitív szavak dominálnak – írja a Sci-News.com.
Néhány éve már beszámoltunk a Vermonti Egyetemen folyó kutatásokról, melyek azt célozták, hogy az angol nyelvű szövegekben található szavak pozitív vagy negatív voltát vizsgálják. Az akkori vizsgálatot terjesztették ki most az angol mellett még kilenc nyelvre. Kutatták a spanyolt, a franciát, a németet, a brazíliai portugált, a koreait, a kínait, az oroszt, az indonézt és az arabot.
Az eredeti tudományos cikkből az is kiderül, hogy a kutatók az egyes szóalakokat külön kezelték. Így például a magyar szeret, szereti, szeretlek, szeretnétek, szerethette mind külön tételként szerepelne egy ilyen adatbázisban.
Hogyan dolgoztak a kutatók? Minden nyelvről rengeteg különböző típusú szöveget gyűjtöttek. Könyvek, filmek feliratai, dalszövegek és Twitter-bejegyzések egyaránt szerepeltek az adatbázisokban. Ezekből a szóalakokat gyakorisági sorrendbe állították. Majd anyanyelvi beszélőket béreltek fel, hogy a leggyakoribb tízezer szóalakot minősítsék egy kilences skálán: 1 pontot adjanak a nagyon negatív szavaknak, 5-öt a semlegeseknek, míg 9-et a legpozitívabbaknak.
Minden egyes szót összesen 50 különböző beszélő értékelt. A folyamat végén a tíz nyelvből összesen 5 millió értékelt szavuk lett. Minden egyes szóra átlagot számoltak. A laughter ’nevetés’ szó például 8,5 pontot kapott, a the ’a’ névelő pedig 4,98-at, azaz ezt szinte teljesen semlegesnek ítélték meg.
A kutatók végül a pontszámok alapján kiszámolták, hogy a szövegekben használt szavak vajon inkább pozitívak vagy inkább negatívak. Ehhez nyelvenként az 5000 leggyakoribb szó pontszámait vették figyelembe. Az sajnos nem derült ki a cikkből, miért csak az értékelt adatbázis felével dolgoztak. A számítások alapján a legpozitívabb szavakat a spanyolban használják, míg a sort a kínai zárta. De még a kínaiban is a pozitív szavak javára billent a mérleg.
Sőt, a kutatók azt találták, hogy a fordítás során a szavak „pozitivitása” megmarad – legalábbis, ha a Google Translate fordítóprogramot használják. Ha lefordítunk egy mondatot, a két mondat valószínűleg ugyanolyan érzelmi töltetű szavakat tartalmaz.
A kutatás eredményeivel szemben kissé szkeptikusak vagyunk. Úgy tűnik, az adatbázisokat leginkább az alapján választották ki, hogy mi volt szabadon elérhető. Emellett a Google Books adatbázisával és a Google Translate pontosságával szemben erős fenntartásaink vannak, mint korábban írtuk. Ennek ellenére elképzelhető, hogy egy kiegyensúlyozottabb adatbázison is hasonló következtetésre jutnak majd a kutatók: a nyelvek szavainak többsége pozitív töltetű.
Források
Sci-News: New Study Finds Positive Bias in Human Languages
Dodds et al: Human language reveals a universal positivity bias
@Fejes László (nyest.hu): pozitívab, de nem pozitív! Egyébként egyetértek! A vizsgálat arra vonatkozott, hogy elemezze a szövegben előforduló pozitív és negatív szavakat. Ebből azonban nem elhamarkodott azt a következtetésrt levonni, hogy a pozitív szavakat tartalmazó szöveg pozitívabb jelentésű egészében is vagy fordítva.
pl a 'nem' és a 'rossz' is önmagában negatív szó, de együtt 'nem rossz' már kimondottan pozitív töltetű.
A kutatás pesze óvatos, és nem tesz ilyen kijelentést, mindvégig a szövegben előforduló szavak töltetéről szól és nem magának a szövegnek a töltetét.
@Fejes László (nyest.hu): pozitívab, de nem pozitív! Egyébként egyetértek! A vizsgálat arra vonatkozott, hogy elemezze a szövegben előforduló pozitív és negatív szavakat. Ebből azonban nem elhamarkodott azt a következtetésrt levonni, hogy a pozitív szavakat tartalmazó szöveg pozitívabb jelentésű egészében is vagy fordítva.
pl a 'nem' és a 'rossz' is önmagában negatív szó, de együtt 'nem rossz' már kimondottan pozitív töltetű.
A kutatás pesze óvatos, és nem tesz ilyen kijelentést, mindvégig a szövegben előforduló szavak töltetéről szól és nem magának a szövegnek a töltetét.
@Janika: Ha összehasonlítjuk azt a két lehetőséget, hogy valaki úgy fejezi ki az ügyintézővel kapcsolatos elégedetlenségét, hogy ironikusan kedvesnek nevezi, azzal a lehetőséggel, hogy lebunkózza, nem egyértelműen pozitívabb az előző?
@Janika: "Az iróniáról nem is beszélve:
"Az ügyintéző annyira 'kedves' volt, hogy legszívesebben elküldtem volna melegebb éghajlatra." Ez csupa pozitív szavakat tartalamzó mondat!"
Hát igen, én is pont erről beszéltem, csak sajnos nem tudtam úgy megfogalmazni, hogy a nyelvészek is megértsék.
Egy magyar cég is is végez internetes hangulatelemzést magyar szövegeken. (nem reklámozom, így nem írom le a nevét). Ők figyelmebe veszik a minimális szövegkörnyezetet.
lehet hogy a lepra egyértelmű , azonban ha valamiről úgy nyilatkozunk hogy a "ez rossz", vagy úgy hogy "ez nem rossz" már nem mnindegy. Ez utóbbi ugyanis a jó (vagy a még jobb) szinonimája.
Az iróniáról nem is beszélve:
"Az ügyintéző annyira 'kedves' volt, hogy legszívesebben elküldtem volna melegebb éghajlatra." Ez csupa pozitív szavakat tartalamzó mondat!
@Sultanus Constantinus: „ ha a szavak jelentését az adott szövegkörnyezetben nem veszik figyelembe, akkor nem ér semmit az egész kutatás”
Ez azért csak részben igaz. Pl. a nincs olyan szövegkörnyezet, amelyben a „lepra” pozitív hangulatú lenen. Még az olyan mondatok, amelyekben az szerepel, hogy „nincs lepra”, „lepra nem fordul elő” stb., azok is elég negatív hangzásúak, még akkor is, ha a kijelentés összességében pozitív.
„Minden szót vizsgálni megintcsak hülyeség, pl. egy névelő mitől lenne akár pozitív, akár negatív jelentésű, amikor tkp. nincs is jelentése?” Ezért is érdemes betenni a tesztbe. Hiszen ha az jött volna ki, hogy nem semleges, akkor lehetett volna tudni, hogy a módszerben valahol hiba van, és nem érdemes publikálni. Ez kb. annyira értelmes megjegyzés volt, mintha azt kifogásoltad volna, hogy egy gyógyszertesztben placebót is használtak..
Ez egy nagy marhaság. Eleve, ha a szavak jelentését az adott szövegkörnyezetben nem veszik figyelembe, akkor nem ér semmit az egész kutatás. Minden szót vizsgálni megintcsak hülyeség, pl. egy névelő mitől lenne akár pozitív, akár negatív jelentésű, amikor tkp. nincs is jelentése?
A másik pedig, hogy ez nem a nyelvtől függ, hanem az emberektől, akik ezeket a nyelveket beszélik. Tehát ha lenne is értelme egy ilyen kutatásnak, abból csak az derülne ki, hogy melyek a legpozitívabb népek azok közül, akiket vizsgáltak, de ezt más, sokkal objektívebb kutatásokkal is meg lehet állapítani.