Neurális hálózatok

A jövő a tanulóalgoritmusoké!

Beszédfelismerés, gépi fordítás: „Alapvetően arra kell csak ügyelni, hogy nagyobb és gyorsabb legyen az, amit csinálunk – és ettől már jobb is lesz” – magyarázza Richard F. Rashid, a Microsoft vezető szakértője a mélytanulást végző szoftverekről.

MTI-Press | 2012. december 18.

A mesterséges intelligencia technikájának megalkotását eredetileg az agy különböző mintafelismerési képességeit leíró elméletek ihlették, az erre szakosodott cégek pedig egyre-másra megdöbbentő eredményekről adnak számot olyan változatos területekről, mint a számítógéppel segített látás, a beszédfelismerés vagy a gyógyszerkutatásban nélkülözhetetlen, ígéretes új molekulák azonosítása. Ez az előretörés széles körben kiváltotta azoknak a kutatóknak a lelkesedését is, akik az emberi tevékenységeket – mint a látás, hallás és gondolkodás – modellező szoftverek tervezésével foglalkoznak. Munkájuk nyomán olyan gépek jönnek létre, amelyek beszélgetnek az emberekkel, autót vezetnek vagy gyárakban dolgoznak helyettük – utóbbi esetben jócskán fokozva azokat az aggodalmakat, amelyek arra épülnek, hogy az automatizált robotok sok területen teljesen kiszoríthatják az emberi munkavállalókat.

Áttörés a sebesség és a pontosság terén

Az úgynevezett mélytanulási technológia néhány szolgáltatást tekintve már a gyakorlatban is vizsgázott. Ilyen például az Apple cég Siri nevű virtuális személyi asszisztense, amely a Nuance Communications beszédfelismerési szolgáltatására épül, vagy a Google Street View, amely a gépi látást használja fel egy adott cím azonosítására.

Lábbal hajtitt gépi látás
(Forrás: Wikimedia Commons / CambridgeBayWeather / CC BY-SA 3.0)

Az elmúlt hónapok igazi újdonsága azonban a mélytanulási programok jócskán megnövekedett sebessége és pontossága (a mélytanulási programokat gyakran mesterséges neurális hálózatoknak, illetve röviden csak neurális hálóknak is nevezik, utalva az agy neurális kapcsolataira való hasonlóságra). „Számos lenyűgöző új eredmény született a mélytanulási módszerek területén – nyilatkozta a The New York Times című lapnak Yann LeCun, egy, a New York-i Egyetemen dolgozó számítógéptudós, aki a Bell Laboratoriesnál a kézírásfelismerés egyik úttörő kutatója volt. – Rendkívül ritkán lehet tapasztalni ilyen fokú nagyságrendbeli ugrást e rendszerek pontosságában.”

A mesterséges intelligencia kutatói ugyanakkor tisztában vannak a túlzott optimizmus jelentette veszélyekkel is: számos alkalommal volt már arra példa, hogy a rosszul időzített lelkesedést a terület feltűnő mélyrepülése követte. Az 1960-as években néhány számítógépes szakember úgy vélte, hogy alig 10 éven belül elkészülhetnek a működőképes mesterségesintelligencia-rendszerek, aztán ezt az 1980-as években a kereskedelmi start-up cégek összeomlásának hulláma követte.

Versenyben a hatásos gyógyszerkomponensekért

A legutóbbi eredmények azonban a számítógépes szakemberek legszélesebb táborát is lenyűgözték. Októberben például a Torontói Egyetem végzős hallgatóiból álló csapat – a számítógéptudós Geoffrey E. Hintonnel kiegészülve – fődíjat nyert a Merck által szponzorált, új gyógyszerek kifejlesztéséhez szükséges molekulák felfedezését elősegíteni hivatott szoftverek versenyében.

Egy több ezernyi, különböző molekula kémiai szerkezetét leíró adathalmazra támaszkodva mélytanulási szoftvert használtak. Azt igyekeztek meghatározni, hogy melyik molekula esetében a legvalószínűbb, hogy hatásos gyógyszerkomponens lehet belőle.

Az eredmény azért is volt különösen látványos, mert a csapat az utolsó pillanatban döntötte el, hogy egyáltalán elindul a versenyen. Ráadásul a szoftver sem rendelkezett semmiféle speciális tudással azzal kapcsolatban, hogy miként kötődnek a molekulák kiválasztott céljaikhoz. Emellett a torontói diákok viszonylag kis mennyiségű adattal dolgoztak, jóllehet a neurális hálók általában csak gigantikus adathalmazokra építve teljesítenek jól. „Ez tényleg lélegzetelállító eredmény! Első alkalommal fordul ugyanis elő, hogy a mélytanulás módszere győztesnek bizonyul, és ami még fontosabb, hogy ezt egy olyan adathalmazra alapozva sikerült elérni, amelyen egyáltalán nem lehetett kiugró eredményben reménykedni” – lelkendezett Anthony Goldbloom, az adattudomány területének versenyeit – így a Merck versenyét is – szervező Kaggle alapító vezérigazgatója.

Forrás: Wikimedia Commons / CC CC0 1.0

Marketing és bűnüldözés

A mintafelismerés területén elért eredmények ugyanakkor nem csupán a gyógyszerfejlesztésre lesznek nagy hatással, hanem egy sor más alkalmazási környezetre is, ideértve a marketinget és a bűnüldözést. A marketingesek például jóval nagyobb pontossággal tudják majd szűrni a nagy adatbázisok tartalmát, amikor a felhasználók vásárlási szokásait igyekeznek minél precízebben feltérképezni. Az arcfelismerésre gyakorolt hatás eredményeként pedig valószínűleg jóval olcsóbbá válhat – és ezáltal jóval szélesebb körben terjedhet el – a megfigyelési technológia.

A mesterséges neurális hálózatok gondolati gyökerei egészen az 1950-es évekig nyúlnak vissza, amikor is azt a folyamatot igyekeztek modellezni, amelynek során az agy értelmezi az információkat, és tanul belőlük. Az utóbbi évtizedekben a 64 éves Geoffrey E. Hinton különösen hatékony új módszereket dolgozott ki a mesterséges hálózatok mintafelismerésének segítéséhez (Hinton egyébként az ük-ük-unokája a 19. századi matematikus George Boole-nak, akinek a munkája megalapozta a mai digitális számítógépek működésének logikáját).

A modern mesterséges neurális hálózatok bemenetekre, rejtett rétegekre és kimenetekre osztott, szoftverkomponensek alkotta tömbökből tevődnek össze. A tömböket trenírozni lehet a minták – például képek vagy hangok – ismételt felismertetésével.

Neurális...
(Forrás: Wikimedia Commons / GerryShaw / CC BY-SA 3.0)

Ezek a technikák – a modern számítógépek növekvő sebessége és teljesítménye által támogatva – gyors javulást eredményeztek a beszédfelismerés, a gyógyszerkutatás és a számítógépi látás területén. A mélytanulási rendszerek nemrégiben bizonyos korlátozott felismerési vizsgálatok során túltettek az embereken is.

Lekörözve az emberi elmét

Tavaly például egy, a Luganói Egyetem mesterségesintelligencia-laboratóriumának kutatói által elkészített program egy alakfelismerési verseny során nem csupán két konkurens szoftverrendszernél teljesített jobban, hanem a hús-vér szakértőknél is, amikor egy adatbázisban a német közlekedési jelzőtáblákat kellett azonosítani. A győztes program egy 50000 elemből álló képsor esetében 99,46 százalékos pontossággal teljesített, míg a legtöbb pontot elért, 32 ember alkotta csoport 99,22 százalékos eredményt ért el, az átlagos emberi felismerési pontosság pedig 98,84 százalék volt.

Idén nyáron Jeff Dean, a Google műszaki szakembere és Andrew Y. Ng, a Stanford Egyetem számítógéptudósa egy 16000 számítógépből álló klasztert hozott létre 14 millió fénykép felismeréséhez (ezek egy könyvtár 20000 különböző elemét ábrázolták). Bár a pontosság mértéke viszonylag alacsony volt – 15,8 százalékos –, a rendszer így is 70 százalékkal jobbnak bizonyult legfejlettebb elődjénél.

Októberben pedig egy Tiencsinben megtartott konferencián a mélytanulás még merészebb formában mutatkozott be. Richard F. Rashid, a Microsoft vezető szakértője tartott előadást egy hatalmas, barlangszerű teremben, miközben egy számítógépes program felismerte az általa kimondott szavakat, és egyidejűleg meg is jelenítette azokat angol nyelven az előadó feje fölött elhelyezett nagy képernyőn.

Olyan nyelven szólalt meg, amelyen sohasem beszélt

Ekkor eljött egy olyan fordulat a bemutató során, amelyet döbbent, dübörgő taps követett: az előadó minden mondat után rövid szünetet tartott, szavai pedig mandarin nyelven, kínai karakterekkel jelentek meg a kijelzőn, a saját hangja által kísérve. Vagyis Rashid egy olyan nyelven „szólalt meg”, amelyen sohasem beszélt. A bravúrt részben a mélytanulási technológia tette lehetővé, amely a beszédfelismerési pontosság hatalmas javulását eredményezte.

Rashid – aki a Microsoft világméretű kutatási szervezetét felügyeli – elismerte, hogy miközben a vállalat új beszédfelismerő szoftvere 30 százalékkal kevesebb hibát vét, mint a korábbi modellek, mindez még messze van a tökéletestől. „A korábbi minden negyedik-ötödik helyett most csupán minden hetedik-nyolcadik szó felismerése hibás” – írta a Microsoft weboldalán. Mindazonáltal hozzátette, hogy ez volt a legdrámaibb változás a pontosság terén 1979 óta, „és ahogy még nagyobb mennyiségű adaton végezzük a tréninget, vélhetően egyre jobbak lesznek az eredmények is”.

Az egyik titok: nincsenek szakmai belharcok

Igen figyelemreméltó vonása a Hinton vezette kutatásnak, hogy csupán elvétve fordulnak elő a high-tech területeken általános szabadalmi korlátozások, és a szellemi tulajdonjogok feletti keserű belharc sem jellemző. „Idejekorán eldöntöttük, hogy nem pénzt akarunk keresni ezzel a kutatással, hanem arra törekszünk, hogy a lehető legszélesebb körben elterjesszük a technológiát – nyilatkozta. – És ezzel valamennyi közreműködő cég borzasztóan elégedett is.”

Majd arra utalva, hogy a mélytanulás fejlődésének felgyorsulásához nagyban hozzájárult a főként grafikus processzorok növekvő számítási teljesítménye is, aláhúzta: a megfelelő megközelítés az, hogy nagyszerűen alakultak az arányok. „Alapvetően arra kell csak ügyelni, hogy nagyobb és gyorsabb legyen az, amit csinálunk – és ettől már jobb is lesz. Visszafelé tekingetni most nincs miért” – magyarázta.