0:05
Főoldal | Rénhírek

A neurális az új szexi!

Álmodnak-e az androidok elektronikus bárányokkal? – tette fel a kérdést 1968-ban Philip K. Dick. Úgy tűnik, minden esélyük megvan rá, hogy igen, álmodhatnak.

Varjú Zoltán | 2016. július 13.

Mi az intelligencia? Hogyan lehet mesterséges intelligenciát előállítani?

Sokáig úgy gondoltuk, hogy az intelligencia egyszerűen problémamegoldó képességet jelent, valami olyasmit, amit az intelligencia teszteken használunk. Az az ember intelligens, aki különböző helyzetekben feltalálja magát, megoldja a felmerülő problémákat és képes ezekből tanulni (azaz a már látott és megoldott problémákkal gyorsan végez, képes tipizálni az egyes problémákat és analógiásan tanulni belőlük).

A mesterséges intelligencia kutatói sokáig olyan alapvető, általános elveket kerestek, melyek több helyzetben is bevethetőek. Ez a megközelítés a bevett tudományos módszert követi, pár alapelvből és azok kombinálásából szeretne egy önálló, környezetéhez alkalmazkodó, intelligens rendszert építeni.

A képletből csak egy dolog hiányzik: a kreativitás – azaz a meglévő tudás használata nem megszokott környezetben, avagy a képesség arra, hogy a megszokott kereteken átlépve közelítsünk meg egy problémát. A Google Magenta programja ezért fordult a művészetek felé és indította el az Inceptoinism projektjét, vagy finanszíroz olyan bolondságnak tűnő dolgokat, mint Mozart stílusának utánzására képes zeneszerző-­rendszerek készítése, vagy éppen romantikus regények olvasására kárhoztatott gépek garmadája.

A kreativitás szórakoztató megfejtése

De ez nem csak az Alphabet cégeire jellemző, a világ jó nevű mesterséges intelligencia- és kognitív tudományos kutatói is sorra jelentenek be mókásabbnál mókásabb alkalmazásokat, melyek a gépi kreativitást próbálják nekünk megmutatni. Miközben jól szórakozunk, a tudósok megpróbálják megfejteni a kreativitás mibeléntét.

A legtöbb projekt két irányzatba sorolható. Az első a képfeldolgozással foglalkozók körében népszerű úgynevezett stílustranszfer, ami egy adott kép stílusának átvitelét jelenti egy másik tetszőleges képre. A másik a nyelvfeldolgozással foglalkozók körében népszerű generatív (azaz jellemzően automatikus szöveggenerálással összefüggő) feladatok, amelyke voltaképpen egy-­egy, adott szerző vagy műfaj stílusában generálnak szövegeket – sőt újabban zenei műveket.

Nevezhetnénk ezt utánzásnak is, de inkább tekintsük ezt a kreativitás legalsóbb fokának, mint amikor egy fiatal alkotó egy-­két nagy elődjének befolyása alatt áll, vagy tekinthetünk az analógiás gondolkodás egyik formájaként ezen projektekre. De meddig tolhatók ki a mesterséges kreativitás határai? Létre fog­-e hozni egyszer egy algoritmus egy olyan művet mint Cage 4:33­-a?

Ha az olvasó megnézte a fenti linket, akkor akár azt is mondhatja, hogy mi sem egyszerűbb, ilyen zenét bárki tud szerezni. Alva Noe elmefilozófus szerint ugyanakkor ez a mű remek példa arra, hogy a művészet maga a világ egy kreatív megismerési módja, ami – ellentétben a tudománnyal, vagy a hétköznapi gyakorlattal – egy folyamat, és nem célja hogy valami véglegeset érjen el.

A négy perc harminchárom másodpercnyi csönd megalkotása előtt Cage rengeteg zeneszerző művét hallgatta meg és írt ilyen­-olyan darabokat, nyilván ezekben itt-­ott előfordul kisebb-­nagyobb szünet, de miért lett az egész mű egy hosszú szünet? Lehet hogy csak poén az egész? A szerző azt akarja, hogy a koncertterem kényes közönsége inkább magára reflektáljon pár percig? Túl sok Heideggert olvasott Cage és megnyilvánult neki a semmi, amit így akar nekünk is kifejezni?

Akárhogy is van, a kreativitás Noe szerint itt egy különös eszközt ad nekünk arra, hogy rácsodálkozzunk a világra, elgondolkozzunk egy kicsit és kilépjünk a megszokott keretekből. Ez az állapot egy folyamat, ami nem ér véget avval, hogy a művész elkészítette remekművét. A rácsodálkozás mértéke csökkenhet, de az alkotás által kiváltott kérdésekre nincs válasz, csak újabb és újabb kérdések születnek a befogadók fejében, akik azután néha újabb műalkotásokat készítenek kérdéseikből. Ez a folyamat Noe szerint egyrészt annyira összetett, hogy nem írható le teljesen tudományos módszerekkel, másrészt kívül esik a tudományos kérdéseken, ezért teljes egészében a tudomány nem is tudja megragadni.

Ez persze nem jelenti azt, hogy nem is kell kutatni, vagy hogy a gépi kreativitás vizsgálata nem viszi előre a mesterséges intelligencia kutatását, csak annyit jelent, hogy a tudományon kívül is van élet.

Az ideális tanulási módszer

Deep learning, magyarosan mély tanulás a neurális hálózatok új, trendi neve. Maga a módszer egyidős a számítógépekkel, már Turing és Neumann is kísérletezgetett az emberi neuronok gépi modellezésével. 

 A jelenlegi eljárások alapjait a nyolcvanas években a konnekcionista iskola fektette le. Ennek lényege, hogy a korábban használt lapos, kétrétegű, azaz be­- és kimeneti rétegekkel rendelkező hálózatokat elkezdték köztes rejtett rétegekkel feltölteni és megtalálták az „ideális” tanulási módszert, ami az úgynevezett backpropagation.

Ez egy nagyon egyszerű ötleten alapul. Először a mesterséges neuronok közötti kapcsolatok erőssége random. Eztán elkezdjük információkkal bombázni a hálót, majd megmérjük, hogy mennyiben téved a rendszerünk kimeneti része. A tévedés mértéke segít nekünk az eredetileg random súlyokat igazítani és ezt a folyamatot addig ismételhetjük, amíg a kívánt pontosságot el nem éri a hálózat.

Ez az eljárás amellett, hogy jelentős javulásokat hozott a neurális hálózatok eredményességében, ugyanakkor technikai problémákat is felvetett. Egészen 2006­-ig kellett várni arra, hogy a konnekcionizmus egyik úttörője és a backpropagation egyik atyja Geoffrey Hinton és tanítványai találjanak egy olyan eljárást, ami könnyen és gyorsan kezeli az ilyen mély hálózatokat és legyenek olyan számítógépes architektúrák, amelyeken ez időben le is fut.

Az alábbi vizualizáción egy nagyon egyszerű (tulajdonképpen egyetlen neuronból álló) hálózat feladata az adott vonal felett ill. alatt található pontok megkülönböztetése. Ehhez a pontok helyzetét (x­ és y­ koordinátáit) és az ideális vonaltól való távolságát használja fel a neuron. Minden tanulási körben pár pontról eldönti, hogy a vonal alatt, vagy felett találhatóak-­e, majd a hiba függvényében korrekciót végez, egészen addig, amíg el nem éri az ideális állapotot. A vizualizáción jól látható, hogy nagyon hamar megtanulható a feladat. A mély hálók esetében persze ennél bonyolultabb a helyzet, hiszen figyelembe kell vennünk, hogy sokkal több bemenettel kell számolnunk és a mesterséges neuronok szintekbe szerveződnek, de a backpropagation lényegét ez az egyszerű feladat is jól szemlélteti.

A neurális az új szexi!
Forrás: http://natureofcode.com/book/chapter­10­neural­networks/

Mi az a style transfer?

A stílusátvitel lényege, hogy az egyik kép stílusát (Ámos Imre: Sötét idők VIII. Emberpár Apokalipszisben) és egy másik kép tartalmát felhasználva generálunk egy harmadik képet. Valahogy így: 

+

A neurális az új szexi!

=

Tavalyi megjelenése óta Gatys et al. A Neural Algorithm of Artistic Style (röviden csak Neural Style-ként szoktak rá hivatkozni) című tanulmánya igazi divathullámot indított el – nem csak a neurális hálók kutatói, de a generatív művészet iránt érdeklődők körében is. A tanulmányban bemutatott algoritmus az úgynevezett konvolúciós neurális hálókra (convolutional neural networks, röviden CNN) épül, melyek az objektumfelismerésben verhetetlennek bizonyultak.

A CNN minden rétege egy filternek tekinthető, ami egyre összetettebb struktúrákat ismer fel ahogy haladunk felfelé a hierarchiában. Amellett, hogy ez a módszer sok adaton tanítva hihetetlenül pontos az objektumfelismerésben, úgy tűnik, hogy összhangban van azzal, ahogy az emlősök látása működik.

Ezt a videót Kassák Lajos alábbi festménye és sokak gyermekkori kedvence, a Nagy Ho-Ho-Ho Horgász főcímdalára készítettük, avagy készíttettük a konvolúciós neurális hálónkkal. A kísérletnek szomorú aktualitást ad, hogy a legendás főcímzene alkotója, Pethő Zsolt Balázs Béla-díjas zeneszerző a napokban hunyt el. 

A neurális az új szexi!

Kassák Lajos képének felhasználásával tehát megcsodálhatjuk a kassákiánus Ho-Ho-Ho Horgász dalát:

Az egyes alsóbb rétegeket elképzelhetjük olyan detektoroknak, melyek bizonyos irányú élekre aktiválódnak, pont ahogy Hubel és Wiesel híres macskakísérleteiben is láthatjuk.

A magasabb szinteken ezek az élek alakzatokká állnak össze és a kép tartalmi leírását adják. Gatsy és társai szerint a tartalom mellett a stílust az egyes szinteken tapasztalható együttjárások adják, például bizonyos formák és színek közötti korrelációk, azaz a textúra. A tanulmány szerzői szerint nem csak algoritmikusan választható így szét a képek tartalma és stílus, de vannak arra utaló jelek, hogy az emberi észlelés is hasonlóan működik.

Videónk és képeink elkészítéséhez Li és Wand Combining Markov Random Fields and Convolutional Neural Networks for Image Sythesis tanulmánya alapján készített eszközt használtunk. Li és Wand az eredeti ötletet gondolta tovább, csak míg a Neural Style viszonylag egyszerű korrelációkkal azonosítja a stílust, ők komolyabb eszközt, a képfeldolgozásban már jól bevált Markov Random Fields módszert használják erre, ami sokkal finomabb stílusjegyeket is képes azonosítani. Videónk elkészítéséhez, követve a hagyományokat, egy absztrakt festő képét választottuk. Ugyanakkor rögtön felmerül a kérdés: vajon mi az ilyen műalkotásoknak tartalma a stílusátvitel keretein belül?

Válasz helyett tekintsük meg a Kontroll című filmből „összeálmodott” videónkat a Quimby zenéjére – szintén Ámos Imre képének segítségével: 

Akinek pedig ez sem lenne elég, tekintsen bele a 2001 Űrodüsszeia egy-két ismert jelenetébe, Pablo Picasso segítségével. A filmet Bhautik Joshi készítette, a Google Deep Style nevű neurális hálózatának segítségével:

Hasonló tartalmak:

legutóbbi hozzászólások listája...
Nyelv és politika; Természettudomány; Nyelvtudomány; Oktatás; LEITERJAKAB
Váltás normál nézetre...