A gép az ember tükre
A gépek nem lehetnek rasszisták. A gépek logikusak. Vagy mégsem? Az ártatlan algoritmusok is csúnyán előítéletes döntéseket hozhatnak – és gyakran hoznak is. Nem ők tehetnek erről, hanem mi.
Amikor álmai lakásához hitelt vesz fel a kedves olvasó, mit szeretne jobban: egy kedves banki alkalmazott kérdezze végig hogyan érzi magát mostanság, mennyire tud takarékoskodni, milyen gyakran vált munkahelyet, mennyit szokott betegeskedni, lesznek-e majd gyerekei, stb. vagy inkább egy standard kérdőívet töltene ki, megadná hiteltörténetét, jelenlegi keresetét és pár egyéb adatot egy algoritmusnak és egy hideg gépre bízná a döntést? Többségünk valószínűleg inkább bízná egy pártatlan gépre a döntést, hiszen a gépet nem érdekli nemünk, bőrszínünk, vagy az, hogy a hitelkérelem napján rossz napunk van és nem a legjobb arcunkat mutatjuk a világnak éppen. Ez jól is hangzik, de az ártatlan algoritmusok nagyon gyakran olyan adatokkal dolgoznak, amik remekül újratermelik az emberi előítéleteket és koránt sem objektív döntéseket hoznak.
Cserfes kislányoknak nem való a beszédfelismerés
A Google beszédfelismerőjével kapcsolatban már többször felmerült, hogy a női beszéddel nehezebben boldogul, nem kicsit, nagyon.
(Forrás: makingnoiseandhearingthings.com)
A válasz erre gyakran az, hogy hát a nők olyan kis cserfesek, gyorsan beszélnek, nem artikulálnak bele a mikrofonba, meg halkak is. A baj ezzel az, hogy a statisztikák szerint a nők lassabban és tisztábban beszélnek, de persze halkabbak anatómiai adottságaik miatt. Ezeket a problémákat azonban simán lehetne orvosolni, ha a beszédfelismerők betanítására használt adathalmazokban megfelelően lennének a női beszélők reprezentálva.
Mi a hiba a képen?
Nagyon nehéz beszerezni beszédfelismeréshez használt adatbázisokat (vagy korpuszokat), hogy alaposan megvizsgáljuk, ténylegesen felülreprezentáltak a férfi beszélők. A Google, vagy a Microsoft általában saját korpuszt szokott építeni, ami rengeteg pénzbe kerül, ezért nem adják csak úgy ki ezeket.
A mesterséges intelligencia egy másik ágában, a képfeldolgozásban azonban nagyon divatosak a szabadon felhasználható adathalmazok. Az egyik ilyen népszerű adathalmaz a Flickr30k, ami a Flickr képmegosztó oldalon található szabad felhasználású képeket és rövid leírásukat tartalmazza. Az adathalmaz úgy készült, hogy a MechanicalTurk nevű oldalon dolgozó embereket bízták meg azzal, írják le egy-egy kép információtartalmát. A képfeldolgozás egyik népszerű feladata, hogy még nem látott képekhez generáljunk leírásokat, ehhez jönnek jól az ilyen adathalmazok.
Emiel van Miltenburg ezt az adathalmazt vizsgálva jutott arra, hogy a leírásokkal valami nincs rendben. A leírásokról feltételezzük, hogy azok semlegesek és arra törekednek, hogy csak a képen látható dolgokat írják le, csakhogy ezekbe a leírásokba óhatatlanul belekerültek bizonyos sztereotípiák. Például a gyermekeket ábrázoló képeknél, ha nem fehér babákról van szó, nagyon gyakran bekerültek etnikai jelzők, pl. black baby, asian baby, stb. Az alábbi táblázat ezt nagyon remekül összefoglalja:
Vagy éppen az ázsiai embereket mutató képeken rendszeresen megemlítik hogy „Japanese people”, „Chinese people”, azaz egy adott etnikumhoz sorolják őket. De talán a legszebb példa az előítéletek beszivárgására a 8063007 azonosítóval rendelkező kép, melyhez az alábbi leírások tartoznak:
-
Egy szőke lány és egy kezeit keresztbe tevő kopasz férfi egymással szemben állnak
-
Egy munkást éppen kioktatóan lehord a főnöke
-
Egy menedzser egy munkással beszél a teljesítményéről.
-
Egy szőke jó csaj kritikát kap a főnökétől.
-
Sonic (gyorsétterem lánc) alkalmazottak a munkájukról beszélgetnek.
.
Gépi előítéletek
Aki szeretne nagyokat csodálkozni és őszintén felháborodni azon, hogy rossz adatokon, vagy éppen rosszul betanított algoritmusokkal hogyan lehet óvatlanul, vagy szándékosan tönkretenni emberek életét, netán csődbe vinni cégeket, azoknak Frank Pasquale The Black Box Society könyvét ajánljuk. Itt csak két nagyon egyszerű példán keresztül próbáljuk megmutatni, miért baj ez.
Történt egyszer, hogy Latanya Sweeney egyik tanulmányát szerette volna egy kollégája beszerezni. Sweeney erre a Google szolgáltatását ajánlotta nevével és pár kulcsszóval. A kedves kolléga megdöbbent, hogy az első, úgynevezett szponzorált találatok között szerepelt egy szolgáltatás, ami az adott személy előéletének feltérképezését ajánlotta a volt-e büntetve Latanya Sweeney? kérdéssel.
Miután a kutatók kipróbálták, milyen eredményeket kapnak több inkább fehérekre, vagy inkább feketékre jellemző névvel, olyan mennyiségű anyagot tudtak gyűjteni, hogy végül egy csinos tanulmányt is tudtak írni belőle.
Persze, nem arról van szó, hogy a Google rasszista. A hirdetési felületen a hirdetők licitálnak, hogy egy-egy kulcsszóhoz tartozó találatoknál az ő fizetett tartalmuk jelenjen meg. Ha nyertek, akkor az adott találati oldalon megjelenik a hirdetésük; ha szerencséjük van, akkor valaki rákattint a hirdetésre, ha még szerencsésebbek, akkor a kattintás után vásárol náluk valamit az illető. A licitáló rendszerek is általában automatikusak és tanulnak. Mivel feketének hangzó neveknél sokkal többen kattintottak a szolgáltatás reklámjára és általában nem a semleges „ismerje meg X hátterét”, hanem a „volt-e X büntetve” szöveggel, ezért a fekete nevekhez társította a negatív felvetést sugalmazó kérdést a rendszer. Ez még önmagában nem lenne baj, csak hát manapság, amikor megpályázunk egy állást, (vagy akár csak megismerkedünk valakivel, és valamiért rákeresünk), ez a jelenség kimondottan igazságtalan és hátrányos – már amennyiben egyáltalán fontolóra veszünk egy olyan embert, akinek a neve nem szokványos, vagy szokványos, de a többségi társadalométól eltérő norma szerint az. Hiszen mit szeretnénk mi magunk látni a hirdetések között: hogy azt ajánlja valaki hogy megtudhatja nála, voltunk-e büntetve, vagy inkább azt, hogy leellenőrizhetik-e a hátterünket? Mit gondolna ön arról, akinek a neve mellett szerepel eldöntendő kérdésként, hogy volt-e büntetve?
Az Egyesült Államokban a rendőri munkát egyre többször segítik kockázatelemző szoftverek. Elvileg ezeknek a dolga lenne, hogy segítsék a rendőröket abban, hogy egy-egy gyanúsítottal szemben arányosan tudjanak fellépni munkájuk során. Ezek a kockázatelemző szoftverek múltbeli esetek leírásaiból alakítottak ki maguknak modelleket, ezért amikor megkérdezik őket, hogy X.Y. mekkora kockázatot jelent, megpróbál X.Y.-hoz hasonló eseteket keresni s azokra alapozva tippelni.
(Forrás: JD Hancock / Flickr / CC BY 2.0)
Ahogy a Pro Publica riportjából is kiderül, a feketéket és latinókat ezek a szoftverek rendre magasabb kockázatúnak találják, mint a fehéreket. De miért van ez így? Nem lehet, hogy minden rasszizmust félretéve is az van, hogy a gazdaságilag elmaradottabb, iskolázatlanabb rétegek körében magasabb a bűnözés – és hát ők történetesen éppen a kisebbségek tagjai közül kerülnek ki? Nem lehet ésszerű magyarázat, hogy a szegényebb, kisebbségi elkövetőkhöz általában inkább erőszakos cselekmények köthető, míg a „rendes fehér középosztály” inkább gazdasági bűncselekményeket követ el?
Nyilvánvaló, hogy a jelenség összetett, de annyi bizonyos, hogy a rendszer betanításához használt adatokban is akad hiba bőven. Elég csak a TASZ Jogtalanul programjára gondolni, hogy megértsük mi lehet a hiba. Ha a rendőrök eleve nagyobb számban állítanak meg romákat azért, mert nincsen rajtuk láthatósági mellény, nincs kellően kivilágítva kerékpárjuk, vagy éppen nem jelezték az üres úton, hogy balra kanyarodnak, akkor elve olyan adatok keletkeznek, amelyekben utalunk arra, hogy ilyen cselekményeket romák követnek el. Nem kell rögzítenünk, hogy az illető roma! Elég a lakhelyét, nemét, foglalkozását, a bírságolás helyét, stb. rögzíteni, máris lefedtünk még pár tucat hasonlót, aki magas kockázatú szabálysértőnek tekinthető és történetesen roma.
Van remény?
Szerencsére a kutatók elkezdték szisztematikusan feltárni a jelenlegi adathalmazok és a rájuk alapozott algoritmusok hiányosságait. Az Európai Unió külön szabályozással próbál rendet tenni (General Data Protection Regulation), ami nem csak a személyekről gyűjtött adatok átláthatóságát és ellenőrizhetőségét teremti meg, hanem megköveteli, hogy minden, ezen adatokra alapozott döntésnek transzparensnek kell lennie. Ez nagyon jól hangzik, csak sajnos nagyon nehéz megfelelni neki, de erről egy későbbi írásban fogunk majd szólni.
Mire képes a mesterséges intelligencia:
imgur.com/gallery/0OTzV
imgur.com/gallery/VhlAW
@Irgun Baklav: Ha sikerül mesterséges intelligenciát teremteni akkor a probléma átalakul. Nem automatikusan és visszakereshető szisztéma szerint rasszista gépeink lesznek hanem "emberiek", racionalizálóak és hazugok.
Hát igen, a tanuló rendszerek eleve az emberi viselkedés ("gondolkodásnak" csak félve nevezném) imitálása alapján működnek; ha a társadalomban jelentős számban vannak jelen ezek az elfojtani kívánt előítéletek, "rasszista" sztereotípiák, akkor a gépek (algoritmusok) is ezt fogják megtanulni.
"Nagyon nehéz beszerezni beszédfelismeréshez használt adatbázisokat (vagy korpuszokat), hogy alaposan megvizsgáljuk, ténylegesen felülreprezentáltak a férfi beszélők"
Valóban, de annyira azért nem nehéz kikövetkeztetni, hogy a google hangfelismerő rendszerének a használói között a "young, tech-savvy white male" kategória felül lehet reprezentálva, mert pl. azon eszközök (pl. androidos tabletek, mobiltelefonok) tulajdonosai között is népességbeli arányukhoz képest felül vannak reprezentálva, amelyik ezeket használja. (Vagy éppen a youtube-videók, vlogok készítői között, amelyekhez szintén hangfelismerővel készítenek feliratot.)
Én néhányszor próbálkoztam azzal, hogy a google hangfelismerős keresőjét használjam, de igazából jelenleg még csak érdekességnek jó, mert épp azokkal a bonyolultabb szövegekkel nem boldogul, amelyeket nehéz lenne begépelni, vagy gondot okozna a helyesírása.