0:05
Főoldal | Rénhírek
Módszertan

Aki keres, az talál?
Csákányozás az adatbányában

Az adatbányászat nem is olyan régen még pejoratív kifejezés volt, mára azonban alaposan megváltozott a helyzet. De mire kell ügyelnie annak, aki hatalmas adatbázisokban szeretne turkálni? Leginkább a valódinak látszó, de hamis összefüggésekre... A statisztikusok már felkészültek!

Takács Boglárka | 2013. szeptember 18.

A kutatók akár még tíz évvel ezelőtt is lenézték azokat, akik hatalmas adathalmazokban kutakodtak összefüggések után, mára viszont igen népszerű lett a téma. De mi az első számú buktató, amire figyelnie kell annak, aki hasonlóra adja a fejét? Minek higgyen a kívülálló érdeklődő?

Aranybánya Brazíliában. Csak keresni kell?
Aranybánya Brazíliában. Csak keresni kell?
(Forrás: Wikimedia Commons / Leandro Neumann Ciuffo / CC BY 2.0)

Véletlen?

A tudományos ismeretterjesztő sajtóban gyakran emlegetik, hogy a kutatók „szignifikáns különbséget” találtak valamiben. Azt már korábban részletesen elmagyaráztuk, hogy a szignifikancia csak annyit jelent, hogy a talált különbség betudható-e a véletlennek, és semmit sem mond arról, mennyire nagy a különbség. Lehet egy különbség szignifikáns, de igen kicsi is; ezekkel az eredményekkel a gyakorlatban nem sokra megyünk.

A szignifikanciával kapcsolatban létezik azonban még egy igen nagy probléma, ami az elmúlt hónapokban, években egyre aktuálisabbá vált. Ha rengeteg mindent mérünk, szükségszerűen fogunk találni szignifikáns hatásokat is! Lássuk, hogyan és miért...

Facebook-korszak

Régebben a tudományos kutatás általában úgy festett, hogy egy viszonylag kisméretű mintán elvégzett vizsgálatból – például kísérletből – megpróbáltak következtetni a teljes népességre. Manapság viszont egyre gyakrabban áll elő az a helyzet, hogy nincsen szükség mintavételre, mert az összes vizsgálandó személy kívánt adatai már eleve rendelkezésre állnak. Egyre nagyobbak és egyre könnyebben hozzáférhetőek a különböző közösségi oldalak adatbázisai, és mint azt láthattuk, az állam is egyre több információt tart nyilván rólunk. Az adatbányászat kifejezésnek még tíz-tizenöt évvel ezelőtt is pejoratív mellékzöngéje volt, napjainkra viszont ez a nagy adathalmazok elemzésével foglalkozó terület rohamosan önálló tudományággá fejlődött.

Lengyel bányászzenekar. Másfajta bányászat
Lengyel bányászzenekar. Másfajta bányászat
(Forrás: Wikimedia Commons / Silar / GNU-FDL 1.2)

Amikor a kutatók olyan hatalmas adattömegekből próbálnak levonni következtetéseket, mint például az összes Facebook-felhasználó profilja vagy éppen a társadalombiztosítási adatbázis, beleütköznek a többváltozós mérésekkel kapcsolatos nehézségekbe. Ahhoz, hogy ezeket megérthessük, kicsit közelebbről meg kell vizsgálnunk a szignifikancia fogalmát. Senki se aggódjon, ehhez nem lesz szükségünk bonyolult képletekre!

Minél kisebb, annál érdekesebb

A szignifikanciának mindig van egy adott szintje. A szignifikanciaszint konyhanyelven azt mondja meg nekünk, mennyire valószínű, hogy az adott hatás pusztán a véletlen műve. (Most a magyarázat kedvéért kicsit egyszerűsítettünk; hogy egészen pontosan mit mond ez az érték, azt ebben a magyarra fordított szakcikkben elolvashatjuk.) A szignifikanciaszint mindig 0 és 1 közé eső szám; minél kisebb, annál jobb. Például egy 0,03-as szignifikanciaszint jobb, mint egy 0,06-os.

Az elvárt szint tudományágtól függően változhat. A társadalomtudományokban – ideértve a nyelvészetet is – általában a 0,05-ös, azaz 5 százalékos szignifikanciaszint a bevett. Ez azt jelenti, 5 százalék az esély arra, hogy az eredmény betudható véletlen hatásoknak. Ha a szignifikanciaszint ennyi vagy kisebb, a hatást valódinak fogadják el, és az eredményeket ennek megfelelően értelmezik; ha pedig nagyobb, akkor a véletlennek tulajdonítják az adatokat. (A fizikusok ennél jóval kisebb szignifikanciaszinteket követelnek meg.)

Részecskegyorsító. Tudományága válogatja
Részecskegyorsító. Tudományága válogatja
(Forrás: Wikimedia Commons / Muriel / CC BY-SA 2.0)

Talán kezdhetjük sejteni, hol van itt a probléma... Minden mérésnek van saját szignifikanciaszintje, és ha rengeteg változó együttjárását mérjük, az eredmények félrevezethetnek minket. Ha például a 0,05-ös szignifikanciaszintet tartjuk mérvadónak, akkor a méréseink 5 százaléka teljesen véletlenszerű adatokon is szignifikáns lesz. Sok mérés esetén ez nem elhanyagolható mennyiség...

Hatalmas felfedezések?

Hogy szemléletesebben is láthassuk mindezt, vegyünk egy nagy kupac különböző változót! Tegyük fel, hogy a vidéki városokban élő emberek közösségioldal-használata érdekel minket. Rögzíthetjük mindenkiről a Facebook-profilja alapján, hogy mekkora városban él, barátai is javarészt ott élnek-e, a lakóhelyén van-e a munkahelye és így tovább. Emellett pedig felvehetünk rengeteg online aktivitással kapcsolatos változót is – megállapíthatjuk például, mennyire gyakran posztol valaki, szokott-e rendszeresen feltölteni fényképeket, előszeretettel használ-e rövidítéseket. Akár több tucat hasonló változónk is lehet.

Győr történelmi belvárosa. Példánk fiktív
Győr történelmi belvárosa. Példánk fiktív
(Forrás: Wikimedia Commons / Uzo19 / GNU-FDL 1.2)

Tegyük fel azt is, hogy fogalmunk sincs arról, hogyan használják a Facebookot a vidéki városokban élő emberek! Tehát az összes változó összes többi változóval való együttjárása érdekelni fog minket. (A gyakorlatban egyre több kutatás épül pont erre a sémára.)

A mérésünk végén minden egyes változópárra fogunk kapni egy számot, ami megmondja, mennyire járnak együtt, és minden ilyen számhoz fog kapcsolódni egy szignifikanciaérték is. Kideríthetjük például, hogy akik többet írnak a Facebookra, azok kisebb településeken élnek és a barátaik messzebb laknak tőlük, ráadásul mindkét eredmény 0,05 szinten szignifikáns.

Juhé! – mondhatjuk. Megvan a tudományos felfedezésünk! Vagy mégsem? A nehézség abból adódik, hogy kellően nagy mennyiségű változót vizsgálva teljesen véletlenül is lesz néhány szignifikáns érték. Azt is pontosan tudjuk, hogy mennyi! Ha a mércét 0,05-re tettük, és a változóink között nincsen kapcsolat, akkor is minden huszadik együttjárás szignifikáns lesz (ez épp 5 százalék).

Korrigáljunk lelkesen

Lehet-e bármit is tenni? Kétségbeesni nem érdemes, ugyanis a statisztikusok számos módszert dolgoztak ki arra, hogy segítsenek a többi kutatónak megoldani ezt a problémát. A tudósok több dolgot is tehetnek. Az első és nehezebb, hogy csak azokat az együttjárásokat vizsgálják, amelyekről tényleg gondolnak is valamit. Például azt szeretnék megtudni, tényleg igaz-e, hogy azok, akik messze laknak a barátaiktól, intenzívebben használják a Facebookot. A többi összefüggést bármennyire csábító és egyszerű lenne kiszámolni, nem számolják ki.

A gyakorlatban a tudósok sokszor nem tudnak ellenállni annak a lehetőségnek, hogy valamilyen teljesen előre nem látott kapcsolatot fedezhetnek fel a már meglévő adathalmazban. Ilyenkor is van megoldás: léteznek olyan korrekciók, amelyek annak a függvényében szigorítják az elfogadási feltételeket, minél több összefüggést vizsgál valaki egyszerre. A legegyszerűbb ilyen módszer a Bonferroni-korrekcióelosztjuk a szignifikanciaszintet az összehasonlítások számával és az új szintet tekintjük mérvadónak. Ez a módszer azonban gyakran túl szigorú is lehet, így idővel számos más alternatív eljárás is született.

A viselkedés vastörvényei?

Gondolhatnánk, ha ezeknek az eljárásoknak neve is van, akkor a kutatók nyilván használják és ismerik őket. A mi tapasztalatunk azonban az, hogy különösen a társadalom- és élettudományokban gyakran hajlamosak elfeledkezni ezekről a korrekciókról. Ráadásul a különböző korrekciók alkalmazása után gyakran vért izzadhat az ember, hogy szignifikáns eredményt csiholjon ki az adataiból.

Német bányász az ötvenes évekből
Német bányász az ötvenes évekből
(Forrás: Wikimedia Commons / Deutsches Bundesarchiv, 183-17031-0004 / CC BY-SA 3.0)

Az emberi viselkedéssel kapcsolatos mérések nem olyan szépek és elegánsak, mint például amit a fizikában várhatnánk; az összefüggések ködösek és gyengék. Így csábító elfeledkezni arról, pontosan hogyan definiáltuk a szignifikanciát és ennek milyen félrevezető következményei vannak.

Ha valaki mindenesetre meglepő és bizarr eredményekre jut mondjuk a Twitter vagy hasonló közösségi oldalak adatainak elemzéséből, mi inkább éljünk fenntartásokkal! A tudományban nagyon fontos az eredmények különböző módszerekkel történő megerősítése. Tehát ha valaki valamit talált az adatbányában való csákányozás során, annak alapján tervezhet kísérletet vagy másféle mérést, és ha az is hasonló eredményre vezet, akkor már mindjárt határozottabban állíthatja, hogy felfedezett valamit. A kísérlettel ráadásul nem csak együttjárásokat, hanem oksági viszonyokat is fel lehet térképezni. Ez persze sokkal tovább tart, de mi inkább legyünk türelmesek...

További olvasnivaló, felhasznált irodalom

Az érdekes p-érték (más számszerű példa csoportközi összehasonlítással)

Barátkozzunk a statisztikával: A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal?
Képregényes szemléltetés az xkcd-n (angolul)

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások:

Követem a cikkhozzászólásokat (RSS)
Még nincs hozzászólás, legyen Ön az első!