Beszélhetnek-e a siketek telefonon?
Triviális kérdést tettünk fel a címben. Hogy mennyire nem triviális a válasz, arról cikkünk tanúskodik. A magyar beszédkutatás sokat tett és tesz azért, hogy a válasz valóban magától értetődő legyen.
A telefon képernyőjén egy emberi arc: határozott gesztusokkal tátog, magyaráz. És hogy mit? Pontosan azt a szöveget, amit a vonal túlsó oldalán mond a beszélő. A néhány éve még csak tudományos-fantasztikus filmekbe illő és siket honfitársaink telefonos kommunikációját minden eddiginél hatékonyabban segítő fejlesztés a Pázmány Péter Katolikus Egyetem Informatikai és Távközlési Karán (PPKE ITK) vált valósággá.
A múlt század közepén megjelenő számítógép forradalmi változásokat indított el a beszédkutatás egyébként több évszázados történetében, és mára lehetővé tette az emberi beszédhangok digitális megjelenítését is.
Hosszú út vezetett azonban addig, amíg egy számítógépen megjelenhettek az emberi beszédhangok, vagy amíg olyan programok jöhettek létre, amelyek a természetes beszéd sebességével képesek írásos (gépi) tolmácsolást végezni. A számítógép alapjaiban alakította át az addig használt mérési eljárásokat és kutatási módszereket, továbbá lehetővé tette a beszédhangok minden eddiginél kényelmesebb megjelenítését és sokrétűbb feldolgozását. A hangok (beszédjelek) egyre tökéletesebb leképezésére törekszik a digitális beszédfeldolgozás, amely mára képes modellezni a természetes beszéd egyes részleteit.
Az emberi artikulációt a természetes emberi beszéd (beszédlánc) gépesített változatával, az egyes elemek felismerésével helyettesíthetik, de számos megoldás létezik a hangképzés, a beszédkódolás, valamint a beszédjel kiváltására, modellezésére. Beszédszintézissel, azaz a beszédhang mesterséges létrehozásával pedig kiváltható az emberi artikuláció és hangképzés. A beszédkódolással az akusztikus jel közegét lehet megvalósítani (milyen helyzetben, milyen szövegkörnyezetben hangzik el az adott mondat), az automatikus beszédfelismeréssel pedig a beszéd érzékelése helyettesíthető.
A beszédtechnológia jelentősen kiszélesítette a korábbi beszéddel foglalkozó kutatások határait. Ugyan nem vagyunk képesek utánozni az emberi beszédet, de annak biológiai működésmechanizmusát sem, képesek vagyunk matematikai jelfeldolgozási módszerekkel (amit a számítógép is használ) az emberi hanghoz hasonló jelet (hangokat) produkálni, illetve az emberi hangot megfejteni. A mai napig nincsenek azonban általános beszédtechnológiai megoldások. Nincs mindent jól felolvasó gépi szintetizátor, nincs általános beszédfelismerő. A jelenlegi technikai megoldások kombinációjával igyekeznek minél tökéletesebbet alkotni a fejlesztők.
Mivel telefonálnak a siketek?
Az egyik ilyen készülék, - amely a hallássérültek kommunikációs akadálymentesítését kívánja megoldani - az emberi beszédet egyfajta gyorsíró szoftver segítségével reprodukálja. Így ezzel az alkalmazással lehetővé válik a telefonhasználat is. A Pannon is egy ilyen gyorsíró szoftver fejlesztésére tette le voksát tavaly decemberben: a kommunikációs akadálymentesítés jegyében nagy összegű adománnyal járult hozzá a Hallássérültek Rehabilitációjáért Küzdők Egyesület félbemaradt projektjéhez. Egy korábbi európai uniós projektből (EQUAL IT-mentor) származó, Amerikában kifejlesztett Eclipse gyors- és gépíró szoftver állt mindezidáig az egyesület rendelkezésére. A beszéd- és gyorsíróval az élőbeszéddel azonos sebességű írásos tolmácsolás valósítható meg, ami nagy segítséget jelent a hallássérültek számára. Az anyagi támogatás a szoftver magyar nyelvi szabályainak teljes beépítését és a szoftverhasználat tesztelését finanszírozta. Ezeknek a fejlesztésnek köszönhetően a hallássérültek hátránya az élet számos területén (pl. az oktatásban vagy a közszolgáltatások igénybe vételében) csökkenthető. A szoftver és a hozzá kapcsolódó speciális billentyűzet segítségével ugyanis bármely elhangzó szöveg a beszéddel azonos sebességgel kerülhet rögzítésre és kivetítésre.
Közérdek a kommunikációs akadálymentesítés
Nehogy azt gondolja bárki is, hogy az akadálymentesítés és az azzal összefüggő kutatások kizárólag a siketek érdekeit, kényelmét szolgálják. Az elhangzott anyagokból származtatott gyorsírással megegyező sebességű digitális szövegrögzítés – azaz voltaképpen a „digitális tollbamondás” – a bíróságok, jogszabályalkotó testületek és média munkáját is megkönnyítheti. Az Eclipse szoftvert a világ számos részén alkalmazzák a Caption Coloradótól (amely a világ legnagyobb feliratozó vállalata) egészen Ausztrál Szövetségi Parlamentig. A Pannonnak köszönhetően a közeljövőben a beszéd- és gyorsíró Magyarországon is elterjedhet.
A Nemzeti Kutatási és Technológiai Hivatal (NKTH) 2004-ben támogatott egy, a Pázmány Péter Katolikus Egyetem Információs Technológiai Kar koordinálásával készült, a fentiektől eltérő fejlesztést, amely a Siketek és Nagyothallók Országos Szövetségével és a T-mobile Magyarországgal közösen történt.A PPKE ITK a bevezetőben már említett megoldásánál nincs szükség magyar nyelvű szabályrendszerre, mivel az elvileg nyelvfüggetlen. A telefonon továbbított beszédjelet egy mozgó emberi fej képévé alakítják át, amely „eltátogja” az elmondott szöveget. „A siketek fantasztikus képességekkel rendelkeznek a szájról olvasás terén, így ezzel az eljárással egy általuk megszokott mechanizmussal használhatják a fejlesztést” – mondta el a Takács György, a PPKE ITK egyetemi docense.
A kísérletek során kiderült, hogy a siketek számára nehézséget jelentenek a természetes nyelv bonyolult nyelvtani szabályai, így általában csak a legfontosabb üzenetelemek maradnak meg emlékezetükben. Ennek megfelelően kommunikációjukban kulcsfontosságúak a konkrét nevek, a személyes névmások.
Mivel a siketek számára bonyolult a hirtelen témaváltás követése, a kísérletben speciális szövegű adatbázist alakítottak ki mind a tanító, mind a tesztanyaghoz (kétjegyű számok, a hónapok, illetve a hét napjainak nevei).
További kísérletekből kimutatták, hogy néhány száz pontos felbontású képet 30–40 centiméter távolságból nézve a képminőség elegendő a szájról olvasáshoz. Egy igényes, nagyméretű grafikus kijelzővel rendelkező mobiltelefon tehát megfelel a célnak.
Az adatbázist különböző jeltolmácsok összerendezett hang- és képfelvételeinek rendszere alkotja. Az arc mozgókép-felvételeinek minden egyes képkeretét az MPEG 4 szabvány segítségével jellemzik.
Ezzel a megoldással a beszédjelből olyan pontossággal hozhatók létre a szájmozgást leíró jellemzők, hogy azok alapján a beszéd megérthető. A rendszer könnyen alkalmazható a korszerű mobiltelefonok vagy vezetékes végberendezések erőforrásaival. Egy egyszerűsített modell akár valós időben is működhet valamelyik szolgáltató rendszerén, de az is elképzelhető, hogy a végberendezésen egy kliensrendszer fut, miközben a nagyobb matematikai teljesítményt igénylő feladatokat egy központi kiszolgáló végzi. Ez a modell azonban további finomítást igényel, és szükség van a felismerési hibák további csökkentésére is. A természetes beszédből létrehozott arc fejlesztésével, majd a termék megszületésével a siketek mobiltelefon-használata is lehetővé válik.
Mobilkommunikáció hallássérült módra
A Nokia 2008-ban mutatott be egy olyan eszközt, amit a hallássérültek hallókészülékkel vagy implantátummal használhatnak. Az érdekfeszítően elnevezett vezeték nélküli indukciós hurok (Nokia Wireless Loopset) a hallókészüléket viselőknek jó hangminőséget biztosít, legyen szó a mobiltelefon vagy más kapcsolódó eszköz használatáról.
A korábbi megoldások között találkozhatunk többek között a Sony Ericsson szöveges telefonjával, amely a telefonhoz csatlakoztatható távgépíró- (TTY-) tartozékkal nyújt segítséget a hallássérültek és a némák számára. Ez a megoldás egy hagyományos közvetített adás: a felhasználó egy távgépíró segítségével, interaktív, karakteres terminálkapcsolat (azaz a betűk bepötyögése) révén küldi el üzenetét az operátornak, aki a megfelelő helyre továbbítja.
Az AT&T, egy amerikai telekommunikációs vállalat 6 éve dobta piacra azt a szolgáltatását, amelynek segítségével a siketek és nagyothallók számára lehetőség kínálkozik a hallókkal folytatott kommunikációra. A Video Relay Service (VRS) névre keresztelt szolgáltatás lényege, hogy a számítógéppel, webkamerával és nagysebességű internetkapcsolattal rendelkező siket vagy nagyothalló felhasználók az amerikai jelbeszéd révén kapcsolatba léphetnek egy tolmáccsal, aki majd a vonal másik végén levő személlyel beszélni fog. A szolgáltatás szerte az Egyesült Államokban díjmentesen vehető igénybe.
Forrás:
http://www.kla.hu/kla-hirek/article/115254/2915/
http://www.pannon.hu/pannon/sajtoszoba/sajtokozlemenyek/681/
http://www.itextreme.hu/index.php?q=hirek/1872
http://www.euuzlet.hu/it/2003/februar.html
www.agr.unideb.hu/if2008/kiadvany/papers/A62.pdf
Híradástechnika 2006/3: Beszédjel átalakítása mozgó száj képévé siketek kommunikációjának segítésére (Takács György, Tihanyi Attila, Bárdi Tamás, Feldhoffer Gergely, Srancsik Bálint) – http://digitus.itk.ppke.hu/~flugi/johnnie/papers/HT_BeszedjelAtalakitasaMozgoSzajKepeveSiketekKommunikaciojanakSegitesere.pdf
IT Business 2007/9: Látható beszéd – http://www.itk.ppke.hu/karunkrol/cikkek_sajtoban/IT-Business200702.pdf