0:05
Főoldal | Rénhírek

Nem a falnak beszél!

Vlad Sejnoha beszél a televíziójához. Lehet, hogy ezt más is megteszi, csak éppen az övé hallgat is arra, amit mond. „Dragon (Sárkány) TV!” – mondja a képernyőnek Sejnoha. „Keress Meryl Streep-filmeket!” Egy-két másodperc, és legördül egy lista, amelyen az Első szerelemtől az Egyszerűen bonyolultig számos filmcím szerepel. „Dragon TV! Kapcsolj a CNN-re!” – hangzik a következő utasítás, és megjelenik a hírcsatorna.

MTI | 2012. május 5.

Sejnoha egy lakás nappalijának látszó helyiségben ül, amely valójában a hangtechnológia vezető cégének, az Apple IPhone 4S virtuális személyi asszisztense, a Siri hangfelismerő rendszerét is kifejlesztő Nuance Communicationsnek egyfajta laboratóriuma. Sejnoha, a cég technológiai főnöke és más vezetők itt tervezik afelhangosított jövőt, amelyben már nemcsak okostelefonok és televíziók, gépkocsik és számítógépek reagálnak az emberi hangra, hanem kávéfőzők, hűtőgépek, termosztátok, riasztórendszerek, s egyéb okos berendezések és szerkezetek.

Ezek a rendszerek máris kezdik megváltoztatni az ember és környezete egymásra hatásának módját, valamint a technológiáról alkotott elképzeléseinket. Végül is eddig csak egymással beszéltünk. Mi lesz, ha beszélni kezdünk mindenféle géphez is, és azok akárcsak a Siri emberi módon válaszolnak?

Gépekbe beszélünk, gépek beszélnek hozzánk
Gépekbe beszélünk, gépek beszélnek hozzánk
(Forrás: Wikimedia Commons )

Komoly kihívást jelenthetnek majd

Tény, hogy az emberek Thomas Edison fonográfja óta beszélnek gépekbe. Az 1980-as évekre a kereskedelmi beszédfelismerő rendszerek elég fejletté váltak ahhoz, hogy képesek legyenek írott szövegbe áttenni a beszédet. Ma a hangtechnológia sok vállalat ügyfélszolgálatának elengedhetetlen része, igaz, néha őrjítő része.

A verseny azonban most már annak eldöntéséért zajlik,hogy ki tudja először a közénk és technológiánk közé építhető, keresett új közvetítő elemmé tenni a hangot. Az eredmények olyan újításokkal vetekednek, mint a számítógépes egér és a grafikus ikon, és egyes szakértők szerint idővel komoly kihívást jelentenek majd olyan óriásoknak is, mint a Google, mert helyettesíteni tudják a hagyományos keresőmotorokat.


A hangtechnológiában a massachusettsi Burlingtonban működő, az ágazat úttörőjének számító Nuance-é a vezető szerep, amely több mint 40, ezen a területen működő vállalatot olvasztott magába, és jelenleg 7300 embernek ad munkát. Egyike azoknak a cégeknek, amelyek segítettek megtenni a nagy technológiai ugrást a diktálást fogadó programoktól azokhoz a rendszerekhez, amelyek kihámozzák a szavak értelmét, és válaszolnak rájuk.

A Nuance néhány technológiája ma már több mint 50 nyelven beszerezhető. Ügyfélszolgálati rendszerét olyanok cégek alkalmazzák, mint az Air France, a US Airwas, a Deutsche Bank és az ABN Amro. Gépkocsiba épített hangrendszerei megtalálhatók Fordokban, Toyotákban és Nissanokban. A cég hangpostaüzenetet írott szöveggé változtató programját használják egyebek mellett telekommunikációs óriások, köztük a Telefónica, a Vodafone és a Telstra.
A Microsoft, a Google vagy az Amazon megfelelői egy nagyon szűk technológiai területen” – magyarázta Andrew Rosenberg, a Queens College komputertudomány adjunktusa.

Egy napon felforgathatja a piacot

Mint sok új technológiának, a fejlett hangrendszernek is vannak hátrányos vonásaik. Néhány szakértő aggódik a privát szférába történő behatolás miatt, mások azért, mert attól tartanak, hogy egyre inkább a rabjaivá válunk olyan eszközöknek, mint az okostelefonok.

Az emberek hajlamosak rá, hogy a beszélő berendezéseknek úgy válaszoljanak, mintha rokonlelkek volnának” – érzékeltette Sherry Turkle, a Massachusettsi Műszaki Egyetem (MIT) professzora, aki a tudomány és a technika társadalmi vonatkozásaival foglalkozik. „Nem azt mondom, hogy a hangfelismerés rossz. Csupán arra akarok figyelmeztetni, hogy nem árt óvatosan bánni a tárgyakhoz való kötődésünkkel, mert különben sok darwini gombot nyomhatunk meg a pszichénkben. 

Mindössze egy évtizeddel ezelőtt a hanggal vezérelt virtuális asszisztens inkább a tudományos-fantasztikus irodalom világába tartozott, mintsem hogy üzleti tény lett volna. 2000-ben azonban Paul Ricci, a Xerox korábbi vezetője már azt jósolta, hogy a hangszoftver egy napon úgy felforgathatja a piacot, ahogy az egér és az számítógép képernyőjén megjelenő ikonok tették az 1980-as években.

Felforgathatja a piacot
Felforgathatja a piacot
(Forrás: Wikimedia Commons / James Joseph Jacques Tissot)

Idejében el kellett döntenünk, hogy melyek azok a piacok, amelyeken sikeresen bevezethetjük a technológiát” – húzta alá Ricci, aki ma a Nuance vezérigazgatója.

A Nuance, illetve akkor még a ScanSoft agresszív felvásárlásba kezdett. Megszerezte a Dragon NaturallySpeaking nevű asztali diktálórendszert és tucatnyi, a hangtechnológia különböző területein működő kis céget. Legértékesebb szerzeménye a versenytárs Nuance volt, amely a kaliforniai Menlo Parkban működő Stanfordi Kutatóintézetből (S.R.I.) vált ki. Az egyesült vállalat Nuance néven működött tovább. (Az S.R.I. később kifejlesztette a Sirit, amelyet 2010-ben az Apple vett meg.)

A Nuance jövedelme 2011-ben 1,3 milliárd dollár volt, és úgy tűnik, hogy a tőzsde is elégedett a működésével: részvényeinek ára februárban 31,15 dolláros rekordot ért el, ami mintegy a kétszerese a tavaly augusztusi 15,59 árfolyamnak.

Problémákat vet fel

Nem mindenki rajong azonban a hangtechnológiáért. A magánszféra érinthetetlenségének védelmezői amiatt aggódnak, hogy ezután az ember nemcsak digitális nyomot hagy maga után az internet és más alkalmazások használatával, hanem hangnyomot is, és ezzel még inkább ki lesz téve az adatlopással foglalkozók támadásának.

A hangfelismerő szoftver úgy működik, hogy a beszédet olyan processzorokhoz továbbítja, amelyek a kimondott szavakat hanghullámokra bontják le, és speciális algoritmusokkal azonosítják a hangokból összeállítható legvalószínűbb szót. A rendszer rögzíti és tárolja a beszédet, úgyhogy képes tanítani magát, hogy az idő múlásával egyre pontosabbá váljon.

A Nuance által adott biztosítékok ellenére a hangfelismerő szoftver elegendő kockázatot jelent az emberek magánszférájára számára ahhoz, hogy a használatának szabályozásáért felelősök odafigyeljenek rá. „Ahogy az arcfelismerés alkalmazási lehetőségei miatt aggódunk, úgy más biometrikus azonosításokról, köztük a hangfelismerésről is az a véleményünk, hogy problémákat vet fel” – szögezte le David C. Vladeck, a Szövetségi Kereskedelmi Hivatal (FTC) Fogyasztóvédelmi Irodájának vezetője általában a hangtechnológiáról, nem kifejezetten a Nuance által alkalmazott megoldásról.

A felhasználók gyorsabban jutnak célba „Dragon Go! – szól bele iPhone-jába Sejnoha. – Három személyre akarok helyet foglalni holnap estére a Craigie-ben, a Mainen.”

A Dragon Go a Nuance saját virtuális asszisztense, az az alkalmazás, amelyet bevezetése óta több milliószor töltöttek le.

A Siritől eltérően azonban a Dragon Go nem válaszol. Sejnoha azt közölte vele, hogy helyet akar foglalni a massachusettsi Cambridge egyik éttermébe: az alkalmazás azonnal felvette a kapcsolatot az OpenTable-lel, és megjelenítette a lehetőségeket.

A legegyszerűbb keresések esetén a Dragon Go rendszerint megkerüli a keresőmotorokat, és egyenesen olyan vállalatok internetes oldalára irányítja a felhasználókat, mint a Nuance partnerei, az Emazon, az Expedia és az OpenTable. Ha ott nem találják meg azt, amit keresnek, akkor a Dragon Go felajánlja a hagyományos internetes keresés lehetőségét.

A felhasználók így kevesebb lépésben, gyorsabban jutnak célhoz. Sok esetben, ha például éttermi helyfoglalásról vagy vásárlásról van szó, a Nuance mérsékelt díjat számít fel a partneroldalaknak. Az alkalmazás kihívást jelent a Google-nak és a Microsoftnak, amelyeknek van saját hangtermékük – a Google Voice Actions és a Microsoft Tellme –, valamint a keresőmotoroknak is.

Christopher Katsaros, a Google szóvivője nem volt hajlandó nyilatkozni erről a kérdésről. A cég nemrég korszerűsítette az Android telefonoknál használatos hangutasítási rendszert, a Google Voice Actionst: képessé tette arra, hogy az emberi beszédet folyamatosan írott szöveggé alakítsa át, és ezzel gyorsabbá és egyszerűbbé vált a szöveges üzenetek diktálása és küldése, a Google hangos keresése vagy útbaigazítások kérése.

Lezli Goheen, a Microfost szóvivője elmondta, hogy cége a fogyasztók elvárásának megfelelően többféle módon is könnyített az információk megszerzésén. A minden Windows-termékben szereplő Tellme programon kívül, amely lehetővé teszi üzenetek diktálását és alkalmazások hangvezérlését, bevezették a Bing Voice Search programot is a keresések beszéddel történő irányítására.

Illúziókeltő, de könnyű a használata

A US Airways törzsutasprogramjának azokat a résztvevőit, akik regisztrálták mobiltelefonjukat, név szerint üdvözli a Wally, a Nuance által a légitársaságnak kifejlesztett interaktív hangrendszer.

Nem a falnak beszél!
Forrás: Wikimedia Commons / Lipton sale / GNU-FDL 1.2

A Wallyt tavaly nyáron vezették be annak az átalakításnak a részeként, amelynek során a US Airway telefonos ügyfélszolgálatát külföldről visszatelepítik az Egyesült Államokba. A rendszer képes például megmondani a törzsutasoknak, hogy milyen helyre szól a jegyük, egyszersmind jelenteni, ha magasabb szintre kerültek a programban. Az emberi beszédet írott szöveggé alakítja át, úgyhogy ha egy ügyfél úgy dönt, hogy élő személlyel kíván tovább tárgyalni, az eredeti kérdést nem kell megismételnie.

A hangrendszer – amelyhez Wally Wingert, a Jay Leno vezette népszerű televíziós showműsor bemondója kölcsönözte a hangját – nemcsak azoknak a számát csökkentette, akik ragaszkodnak az élő munkatárshoz, hanem az ügyfélhívások átlagos hosszát is. Kerry Hester, a légitársaság alelnöke szerint ha nincs a rendszer, több száz új ügyfélszolgálati munkatársat kellett volna felvenniük. A Wally – amely nem árulja el, hogy automatizált rendszer – annyira élőnek tűnik, hogy sok ügyfél „Köszönöm”-mel köszön el tőle, mielőtt lerakja a kagylót.

Ez az anonimitás azonban nem mindenkinek tetszik. Sherry Turkle, az MIT professzora szerint ahogy a hangfelismerő rendszerek kifinomultabbá válnak, megteremtik annak az illúzióját, hogy nem gépekkel, hanem más emberekkel kommunikálunk. Szerinte hosszú távon a rendszerek illúziókeltő volta és könnyű használata miatt háttérbe szorulnak a lassúbb, rendezetlenebb, valódi emberi kapcsolatokat. Ha emlékeztetik a felhasználókat, hogy egy géppel beszélnek, akkor talán jobban tudatosodik bennük, hogy mennyire felszínes a kapcsolat.
„Kultúránkat érintő döntést kell hoznunk. El kell határoznunk, megmondjuk-e az embereknek, hogy géppel beszélnek vagy sem” – húzta alá a professzor.

Kapcsolódó tartalmak:

Hasonló tartalmak:

Hozzászólások:

Követem a cikkhozzászólásokat (RSS)
Még nincs hozzászólás, legyen Ön az első!