A szemantikus háló álomképe
Ön valószínűleg tudja, hogy Petőfi egy költő és nem egy vízibicikli, de a számítógépek maguktól nem képesek hasonló következtetéseket levonni. Cikkünkből kiderül, miért nem tudnak az internetes keresők teljes mondatokban feltett kérdésekre jól válaszolni – legalábbis egyelőre...
A webes keresés történetével foglalkozó sorozatunk ugyan a múlt hónapban befejeződött, de a keresés folyamatosan fejlődik. Most áttekintjük, mit hozhat a jövő, milyen aktuális fejlesztési irányok vannak, milyen speciális területeken használhatóak az internetes keresésre kifejlesztett technológiák. Először a szemantikus hálóról lesz szó.
Mesterséges intelligencia hiányában
Arról már sokat írtunk, hogy a web sokkal kevésbé strukturált lett, mint amilyennek eredetileg tervezték. A webes keresés jóval könnyebb feladat lenne, hogyha a weboldalakon található szöveg számítógépek által könnyebben feldolgozható formátumban lenne. Jelenleg a szöveg nagy részét a böngészőnk vagy épp a webkereső csak megjeleníti, de nem értelmezi – az az olvasó dolga.
Például ha vesszük ezt a cikket, és megkérjük önt, hogy keresse ki a benne szereplő embereket, ön valószínűleg gond nélkül teljesíti a feladatot. De ugyanezt hiába mondjuk a webböngészőnek vagy akár a Google-nak, ilyenre azok nem képesek. Még ha írunk is egy kis programot, ami kikeresi a nagybetűkkel kezdődő szavakat, akkor sem leszünk sokkal előbbre, hiszen a földrajzi nevek is nagybetűkkel kezdődnek... Sőt, ha fogunk egy hatalmas listát, amiben mindenféle személynév benne van, és ezekre keresünk a cikkben, akkor is lesznek a szoftverünknek nehézséget okozó esetek:
(Forrás: Wikimedia Commons)
Hogyan lehet megoldani ezt a problémát? A legjobb az lenne, ha lenne egy általános célú mesterséges intelligenciánk, amit egyszerűen megkérhetnénk, hogy olvassa el a szöveget és hajtsa végre a feladatot. Ilyesminek a létrehozásával azonban már nagyon régóta bajlódnak a tudósok, de gyakorlatilag nem jutottak előbbre – a mesterséges intelligencia kutatói nagy sikereket csak szűkre szabott részterületeken értek el.
Akkor mit lehet tenni? – Nézzük meg, melyek egy weboldal azon részei, amelyek már a programok által értelmezhető formában vannak! Ilyenek például a hivatkozások. A weboldalak szövegében található hivatkozások a weboldal forráskódjában külön jelölve vannak: „itt egy hivatkozás következik és ide meg ide mutat”. Ezt az olvasó nem látja (csak a tényleges hivatkozást), a böngésző viszont tudja értelmezni. Ugyanilyen módon lehetne mindenféle más információt is jelölni a forráskódban, az emberi olvasó számára láthatatlanul, például lehetne az „itt egy személynév következik” minden személynévhez csatolva. Ezek között az információk között különböző kapcsolatokat is lehetne definiálni, például a Petőfi Sándor utca tartozhatna az utcanevek kategóriájába, azon belül a személyekről elnevezett utcák kategóriájába, ami pedig hivatkozhatna magára Petőfire, a költőre, aki viszont a személyek kategóriájába tartozna.
Mindez igen nyakatekertnek hangzik, de csak azért, mert a mi fejünkben a hasonló műveletek teljesen automatikusan zajlanak le – nem kell végiggondolnunk minden egyes alkalommal, amikor Petőfi nevét halljuk, hogy „aha, Petőfi egy személy!”. A számítógépnek viszont mindezt meg kell mondani. De érdemes-e?
A jövő zenéje?
A szemantika a nyelvészet egyik résztudománya, a nyelvi jelentésekkel foglalkozik. Már igen régóta léteznek hasonló próbálkozások; a web atyja, Tim Berners-Lee maga is foglalkozott a kérdéskörrel. Ő nevezte el szemantikus hálónak vagy szemantikai hálónak azt a jövőbeli, elképzelt hálózatot, ahol a számítógépek minden adatot tudnak értelmezni.
Ha a szemantikus háló létrejönne, akkor akár fel is tehetnénk kérdéseket a webkeresőnek, és az válaszolna. Megkérdezhetnénk például, hogy mik voltak 2010 legnézettebb mozifilmjei Thaiföldön. Ha ma ezt tesszük, akkor egy nagy kupac weblapot kapunk, amelyek közül a listában az első néhány jó eséllyel tartalmazza az általunk keresett adatokat, de az is lehet, hogy nem. Ha viszont a kereső ténylegesen értelmezni tudná egyfelől a kérdésünket, másfelől a weben található információkat, akkor össze tudná párosítani a kettőt és nyomban konkrét választ tudna adni.
Már ma is vannak ebbe az irányba mutató fejlesztések, de ezek általában viszonylag korlátozott területekre vonatkoznak. Például ilyen az időjárás. Ha a Google-nak azt mondjuk, hogy weather in Bangkok – azaz ’időjárás Bangkokban’ –, akkor a keresőtalálatok fölött megjelenít egy kis időjárásjelentést.
Ha azonban azt mondjuk neki, hogy weather in the capital of Thailand – azaz ’időjárás Thaiföld fővárosában’ –, nem kapjuk meg a bangkoki időjárásjelentést, mert a Google nem tudja értelmezni a bonyolultabb szöveget, csak néhány kulcsszót:
A kereső nem érti, amit beírunk neki, nem tudja, hogy Bangkok Thaiföld fővárosa. Egyszerűen csak azokat a népszerű oldalakat sorolja fel, ahol ezek a szavak előfordulnak.
Esetleg eszünkbe juthat a Wolfram Alpha nevű szolgáltatás, ami konkrét kérdésekre képes válaszokat adni. Valóban, a Wolfram Alpha tényleg tudja, hogy Thaiföld egy ország, Bangkok a fővárosa, és még időjárásjelentést is ad:
Igen ám, csakhogy a Wolfram Alpha nem a weben keres, hanem kézzel igen gondosan megépített tudásbázisa van. Egy csomó ember gondosan belerakosgatott sokféle információt – többek között azt, hogy melyik országnak mi a fővárosa. Ennek a módszernek igen hamar megmutatkoznak a korlátai; például akkor, ha azt szeretnénk megtudni, milyen az időjárás Északnyugat-Magyarországon. Egy ember ilyenkor megnézne egy magyar időjárásjelentést és kikeresné az északnyugati településeket – Győr, Sopron, Szombathely és így tovább. Esetleg megnézné az időjárást Magyarország térképére vetítve az Időkép weboldalán, és ebből rögtön láthatná, hogy északnyugaton éppen esik-e vagy süt a nap, esetleg köd van. Ezzel szemben mire jut a Wolfram Alpha?
Az amerikai Északnyugati Egyetem (Northwestern University) és Magyarország időjárását közli, külön-külön – valószínűleg mert a készítők közül senkinek sem jutott eszébe, hogy az északnyugat szót egy országgal is lehetne kombinálni.
Szemantikus szemét?
Ebből a kis példából már azt is sejthetjük, mik a szemantikus háló elterjedésének legfőbb akadályai. Az interneten az adatokat senki sem kategorizálgatta, nem definiálta precízen, hogy hogyan kapcsolódnak egymáshoz – hogy például a „főváros” egy ország tulajdonsága és nem mondjuk egy fagylalté, Petőfi nem egy vízibicikli, hanem egy költő, a Gangnam Style pedig a legújabb popsláger és nem egy ruhamárka. Ha mindezt kézzel kellene megadnunk, az rengeteg időbe telne. Van, amikor az ilyesmi hasznos lehet. Egy árösszehasonlító weboldalnak nagyon jó, ha tudja, hogy az általa linkelt webáruházakban mi a termék ára és mik az egyéb paraméterei. A webáruházak üzemeltetőinek pedig szintén jó, ha az árösszehasonlító szolgáltatások automatikusan ki tudják nyerni a weblapjukról a fontos adatokat. De a legtöbb esetben nem éri meg az energiaráfordítás.
Amit ember készít, az nem mentes az emberi tévedésektől vagy torzításoktól sem. Cory Doctorow amerikai író és techblogger még 2001-ben írt a témáról egy mára klasszikussá vált cikket. Doctorow rámutatott, hogy a kézzel készített kategorizációk tág teret adnak a tudatos félrevezetésnek, a különböző ideológiai elfogultságoknak vagy az egyszerű nemtörődömségnek. A fentebbiekhez hasonló saját példával: mi Izrael fővárosa? Izrael állam szerint Jeruzsálem, más országok szerint Tel Aviv. A Palesztin Hatóság szerint viszont Jeruzsálem Palesztína fővárosa!
(Forrás: Wikimedia Commons / Wayne McLean / CC BY 2.0)
Akkor a szemantikus világháló örökre vágyálom marad? Ne essünk kétségbe! Egyre sikeresebbek azok a próbálkozások, amelyek automata vagy félautomata módon próbálnak létrehozni hasonló adatstruktúrákat. (Ezt szakkifejezéssel úgy hívják, hogy automata ontológiafejlesztés.) Továbbra is érvényes azonban, hogy egy-egy konkrét, jól körülhatárolható területen lehet nagy előretöréseket elérni. Az általános célú, élőszóban utasítgatható rendszerek egyelőre még gyermekbetegségekkel küzdenek, és a fentebbiek alapján talán érthető is, miért...
További olvasnivaló
Egy hosszabb magyar nyelvű cikk a szemantikus hálóról
A Web 2.0 és a szemantikus web (tanulmánykötet)