0:05
Főoldal | Rénhírek
Akusztikai arculattal a gyilkos automata ügyfélszolgálat ellen

Beszédszintézis: élmezőnyben a magyar tudósok

Az SMS-ezés alternatíváival, köztük a telefonnak diktálás témájával foglalkozó cikkünk megjelenése után a Reuters hírügynökség egyenesen odáig jutott, hogy a beszédfelismerés technológiája még mindig nem találta meg a saját hangját. Dehogynem. Legalábbis a Nyest erre a következtetésre jutott, miután beszélgetett Németh Gézával, a budapesti műszaki egyetem Beszédtechnológiai laboratóriumának vezetőjével.

G.B. | 2009. október 22.

Miközben a mobilgyártók sebzett mókusként vergődnek a költséghatékonyság és a marketingesek karmának szorításában, nem veszik észre, hogy számos gondjukra létezik megoldás. Múltkori cikkünkben azt a konklúziót kellett levonnunk, hogy SMS-t diktálni például nem igazán lehetséges még a legmenőbb készülékeknek sem, holott a közlekedés büntetési tételei egyre csak szigorodnak. Pedig lehetne – mondta Dr. Németh Géza docens, a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék Beszédtechnológiai laboratóriumának vezetője.

Jonathan Ruchti (http://www.scen.tk) fotója
Jonathan Ruchti (http://www.scen.tk) fotója

A Speechlab-ként is emlegetett műhely a telefonos beszédfelismerés és -szintézis területén világelső volt, 2003-ban már megalkottak egy úgynevezett SMS-mondót (felolvasót), amit a Westel/T-Mobile egy ideig forgalmazott is az ügyfelei számára. Kimondottan az volt a célja a programnak, hogy az autózó ember vezetés közben meg tudja hallgatni az üzeneteit. Az ugyanis akkoriban még belefért a dologba, hogy a sofőr egy-egy gombot megnyomjon a készülékén a következő üzenethez, ahhoz nem kellett nagyon félrenézni az útról. Ugyanígy létezett egy hírolvasó szolgáltatás is, a rendelkezésre álló programokat a fejlesztők mostanában igyekeznek egy platformba tömöríteni.

Saját megoldások

Elgondolkodtató dolog, hogy a világ legnagyobb mobiltelefon-gyártója nem vette meg a Speechlab-től az SMS-felolvasó technikát, hanem az ötletet felhasználva három év fejlesztés után rukkolt elő a saját megoldásával. Ez a jobb készülékein már gyári kivitelben rajta is van, igaz, a magyar nyelvű Németh szerint „elég gyenge”, így a BME alkalmazását erre a piacra pluszban is alkalmazni lehetne. A magyar szakemberek ezeket a réseket kihasználva azon dolgoznak, hogy a programot megcsinálják iPhonra, illetve az újabb platformokra is. „Lehet, hogy kicsit előrerohantunk a fejlesztésekben, de hát az a dolgunk, hogy újdonságokat csináljunk, lehetőleg minél nagyobbakat, aztán vagy reagál rájuk a piac, vagy nem. Egyelőre úgy fest, hogy nem reagál” – összegezte tapasztalatait Németh.

A bevezetésben említett cikkben a Nyest pórul járt a nagyobb telefonos cégekkel: volt, aki válaszra sem méltatott bennünket, más gyártóknál viszont úgy nyilatkoztak, nem kívánnak szövegdiktálós alkalmazásokat fejleszteni. Németh Géza úgy látja, hogy ezek a vállalatok valóban leállították az ilyen fejlesztéseket. A probléma egyik oka az, hogy míg a programok beszédet szintetizáló oldala viszonylag könnyen megoldható, a beszédfelismerő rész rengeteg zavaró akusztikai tényezőtől, így például a háttérzajoktól terhelt.

A cégeknél a fejlesztések átkerültek a műszaki szakemberektől a marketingesekhez, akik nem mindig veszik észre a lehetőségeket. A műszaki egyetem kutatóinak az is nehézséget okoz, hogy találkozzanak a szolgáltatás-fejlesztő emberekkel. Nincsenek például olyan konferenciák, ahol össze lehetne futni velük.

Ellenszer az idegesítő telefonos ügyfélszolgálatokra:
az „akusztikai arculat”

Németh Géza szerint sokkal alapvetőbb gondok is adódnak. Van egy fogalom, amit ő talált ki, ez a cégek úgynevezett 'akusztikai arculata'. Valamilyen szinten ezt elkezdték megalkotni a vállalatok, van logójuk, jelmondatuk, dallamuk, és a többi, de mindez sokkal messzebbre vezethetne. A telefonos ügyfélszolgálatoknál például nem mindegy, hogy milyen hang szólal meg, vagy, hogy a menürendszer mennyire bonyolult. Azzal nem nagyon törődik senki, hogy az ügyfelek mennyire elégedettek ezekkel a szolgáltatásokkal. Velük akkor foglalkoznak, ha panaszkodnak, márpedig az ügyfél egy-egy nagyobb vállalatnál csak akkor emel panaszt, ha már teljesen botrányos a helyzet – mutatott rá Németh.

Miután a személyes ügyfélszolgálatokat átdolgozták telefonosra, rájöttek a szolgáltatók, nem bírják pénzzel, hogy több ezer embert foglalkoztassanak ilyen célból. Ezért elkezdik automatizálni a rendszereket, de ezt a meglehetősen összetett folyamatot csak hozzávetőlegesen kezelik. Főleg ha egy rendszer egyszer már felállt, mert akkor nem szívesen nyúlnak hozzá többet. Pedig sokféle oldalról lehetne megújítani a tolakodó, idegesítő automata telefonos ügyfélszolgálatokat: van például a szoftver-ergonómia, és a már említett akusztikai arculat. Mindezt Németh összetett formában kezelné: például, ha gép fogadja a hívást, akkor fölösleges a bejelentkező hanggal embert imitálni. Ez önmagában is egy kutatási terület, tudniillik, hogy mi az, amit elfogadnak a kliensek és mi az, amit nem. Nem mindegy ugyanis, hogy a felhasználó tudja-e adott helyzetben, hogy még géphez, vagy már ügyfélszolgálatoshoz beszél-e.

Azt már tudja (tudná) a mai technológia is, hogy föltesz a telefonközpontos gép egy kérdést, „miben segíthetek?”. Ekkor jó eséllyel fel tud ismerni olyan válaszokat, mint hogy nem működik valami, rossz számla érkezett, satöbbi. Az ügyfél nem billentyűket nyomogat, hanem beszél, a szoftver felismeri, hogy körülbelül milyen problémája van a telefonálónak, kezelőt kapcsol, vagy továbbvisz a bonyolult menürendszerben. Az azonosítás is egyszerűbb lehetne ezzel a módszerrel. Most mindenféle PIN- és egyéb kódokat pötyögünk a telefonba, a beszédfelismerő program ellenben megkérdezhetne néhány személyes adatot és ezek alapján is beazonosíthatná az ügyfelet, akár időkorláttal, a húszéveseknek rövidebb, nyolcvanasoknak hosszabb válaszidőt adva. Ezek a technológiák már léteznek, csak éppen nem alkalmazzák a multik – hívta fel a figyelmet Németh.

A rendszer tudja

Az ügyfélszolgálatok egyik alapvető hibája, hogy nincsen olyan munkatársuk, aki minden területhez ért, ezért sokkal egyszerűbb lenne a beszédfelismerő programokkal segíteni a kuncsaftokat. A magyarországi call-centerekben hozzávetőleg 20 ezer ember dolgozik, a szolgáltatásközpontokban (ahol például a számlázásokat intézik) másik 20-25 ezer, már csak emiatt is nagy lehetőségek rejlenének említett programok alkalmazásában, bár a Speechlab-nek még nem sikerült megtalálnia a partnereket ehhez. Bizonyos alkalmazások, így a kulcsszó-keresés már magyarul is megy, egy telefonbeszélgetésben akár több száz szót lehet valósidejűen keresni.

(A technikát használják a titkosszolgálatok munkatársai is, akik nem bíbelődnek azzal, hogy egész nap hallgassák Megfigyelt beszélgetéseit: utasítják a számítógépet, hogy milyen szavakra figyeljen, majd kényelmesen hátradőlhetnek a fotelban. Ha például Megfigyelt véletlenül egy terrorista-gyanús személy és kiejti a száján a bomba szót, vagy annak szinonimáit, máris indulhat a felvétel és a nagy fekete autó...)

Egy kódszavas felismerésben jeleskedő, a BME Beszédtechnológiai laboratóriuma és több cég fejlesztéseként létrejött magyar program demó változata bárki számára elérhető, híradók anyagában lehet keresni vele: www.mindroom.hu . A rendszer tudja, hogy mikor vannak a híradók a tévékben, letöltögeti és szavanként katalogizálja a műsorokat, így a kulcsszavas keresés nagyjából annyi időt vesz igénybe, amíg megnyomjuk az enter gombot. A program készít egy szófelhőt is, ami azt mutatja meg, hogy a híradásokban mely szavak hangzottak el a legtöbbször. Ahogy a tévéműsorokban, úgy a telefonos ügyfélszolgálatokkal folytatott beszélgetésekben is tudna kutakodni az alkalmazás, vagy figyelhetné a beszélgetéseket, az operátoroknak segítve – de egyelőre nincsen rá igény.

Hasonló alkalmazás már létezik angol nyelven, ezzel együtt a magyar program a világ élvonalához tartozik. Annál inkább, mivel a magyar beszédet sokkal nehezebb felismernie a gépi agynak, mint az angolt, az ismert okok (ragozás, többféle szóalak, szórend, stb.) miatt. Az ilyen programok ügyessége attól függ, mennyi mintát taníttatnak meg velük, az amerikai angolra például 1500 órányi minta bebifláztatásával készítik fel a program-nebulókat.

Etológusok és mobileszközök

A Speeechlab több tíz dolgot futtat párhuzamosan. A legnagyobb projekt, ami foglalkoztatja őket, egy autós dialógust támogató alkalmazás kifejlesztése a már ismertetett dolgok figyelembevételével. Etológusokkal is együtt dolgoznak, azt vizsgálják, hogy az ember-kutya kommunikációjából megismert dolgokat miként lehetne átemelni ember-robot, vagy ember és mobileszköz vonatkozásba.

Németh Géza érdekességképpen még elmesélte, hogy az amerikai hadseregben már léteznek olyan – PDA méretű – tolmácsgépek, amelyek lefordítják a diktált szöveget a kiválasztott nyelvre, majd a választ vissza angolra. Jól jön ez háborús övezetekben, ahol a hagyományos, klaviatúrán bevitt szövegekkel dolgozó eszközök használata macerás lenne és persze a civil alkalmazásuk is sok lehetőséget kínál. Elég csak a külföldi nyaralásokra gondolni. Ez is egy létező technika, ami az okostelefonokra is könnyen telepíthető lenne, de a gyártók egyelőre ez iránt sem mutatnak különösebb érdeklődést.

Hasonló tartalmak:

legutóbbi hozzászólások listája...
Nyelv és politika; Természettudomány; Nyelvtudomány; Oktatás; LEITERJAKAB
Váltás normál nézetre...