Miből tanulnak az algoritmusok?
Az adat az új olaj! Nézze meg, miből nyerheti ki és mibe tankolhatja egy izgalmas rendezvényen.
Az adat az új olaj, halljuk sokszor mostanában, hiszen ha sok adatunk van, akkor azokon csodás algoritmusokat futtatva megjósolhatjuk a jövőt, eladhatjuk portékánkat, vagy felfedezhetjük az örök fiatalság szerét. Jól hangzik, de van egy kis probléma; önmagukban a nyers adatok csak egyesek és nullák halmazai adathordozókra mentve. Ahhoz, hogy a gépek tanulni tudjanak az adatokból, azokat megfelelő formában kell tálalni. Március 22-én, az NLP meetupon az érdeklődők megismerkedhetnek ennek a folyamatnak az alapjaival két gyakorlati példán keresztül.
A tanuló algoritmusok két nagy csoportba sorolhatóak, a szerint, hogy mire képesek és milyen adatokra van szükségük. Az első csoport a nem-felügyelt módszerek csoportja. Azért hívjuk őket nem-felügyeltnek, mert nekik egy nagy adag adaton kívül nem kell más a tanuláshoz. Az ilyen módszerek célja, hogy valamit megtanuljanak a tanulóadatokról, például, hogy hány csoportba sorolhatóak az elemeik és mi jellemzi az egyes csoportokat. Nem árt persze átalakítani a tanulóadatokat, pl. szövegek esetében gyakran lecseréljük a szavakat a szótövekre, kidobjuk az írásjeleket, a gyakran használt szavakat (például a kötőszavakat) és mindent csupa kisbetűsre alakítunk, de azon kívül, hogy előkészítjük az adatokat, nem igényelnek különösebb törődést. Például ilyen nem-felügyelt módszerrel állapítottuk meg, hogy milyen topikokba sorolhatóak a migránsokkal foglalkozó cikkek és képek. A felügyelt módszerek sokkal ambíciózusabbak, céljuk, hogy a tanulóadatokon megszerzett tudásukat új, korábban még nem látott adatokon kamatoztassák. Jó példa erre a klasszifikáció, amikor előre megadott kategóriák egyikébe kell besorolnunk egy még nem látott elemet, pl. egy újságcikket be kell sorolnunk a belföld, külföld, gazdaság, sport és bulvár kategóriák egyikébe. A klasszifikációt végző algoritmust ehhez először be kell tanítanunk, ehhez mutatnunk kell neki sok-sok példát a felismerni kívánt kategóriába tartozó cikkekből. A katgóriához való tartozást egy címke jelöli, ennek megléte és pontossága létfontosságú a felügyelt tanulás során. Sajnos azonban a legtöbb adat nincs felcímkézve! Ilyenkor nem tehetünk mást, mint annotálunk, azaz felcímkézzük az adatokat különféle szempontok szerint. Az ilyen munkák megszervezése rendkívül nehéz és körülményes, ugyanakkor nagyon fontos, hogy algoritmusaink minőségi adatokon tanuljanak, ne pedig az emberi előítéleteket reprodukáló mintákon, ahogy arról korábban már beszámoltunk.
Az NLP meetupon két hazai cég mutatja be, hogyan készítik elő adataikat. A Belfry IO egy nem rég indult magyar startup. Termékük az online hozzászólások kezelését és szűrését teszi egyszerűbbé. Az automatikus moderálást lehetővé tevő algoritmusuk betanításához rengeteg kommentet kellet annotálniuk különböző nyelveken, ennek tapasztalatait osztják meg a meetup hallgatóságával.
A Precognox a Járókelő számára végzett projektjét mutatja be, melynek célja, hogy a különböző bejelentésekre reagáló szervezetek automatikus visszajelzést kapjanak válaszaikról. Ehhez a Járókelőn található bejegyzésekre érkezett válaszok egy jelentős részét a Járókelő és a Precognox emberei különböző szempontok szerint felcímkézték, majd ezeken az adatokon tanult be egy algoritmus, ami automatikusan tudja értékelni immár a válaszokat. Az ideáig vezető út azonban rögös volt, hiszen az annotálás során több ember, több szempontból közelít a szövegekhez, ami az egyiknek semleges válasz, azt a másik rendkívül udvariatlannak értelmezheti, ami ahhoz vezethez, hogy inkonzisztens lesz a tanulóadatunk. Az előadás bemutatja milyen további problémák merülhetnek fel, hogyan oldhatjuk meg ezeket, hogy végül legyen egy betanított algoritmusunk.
Mindenkit szeretettel várunk március 22-én, 18:30-tól a Háló közösségi és Kulturális Központban (1052, Budapest, Semmelweis utca 4.)! A rendezvény ingyenes, de a részvétel előzetes regisztrációhoz kötött az esemény oldalán.