Nyaktörő feliratozás a YouTube-on
A YouTube új auto-cap funkciójától volt hangos a techvilág az elmúlt néhány napban. A lépés mindenképp merész. De vajon mire lehet ezt majd használni?
Gyakran kerülünk olyan helyzetbe, amikor egy nyelvet (jelen esetben az angolt) viszonylag jól megértünk írott, sőt beszélt formában is, egy hanganyagban mégis egy-egy ponton nem értjük jól, mit mond a megszólaló. Ilyenkor kapóra jönne egy, az adott nyelvben még járatosabb társ, aki kisegít, csak sajnos nem jellemző, hogy a legváratlanabb pillanatokban ilyesvalaki a rendelkezésünkre álljon. Ha hallássérültekre gondolunk, még inkább égető a probléma, hiszen ők eddig igen korlátozottan élvezhették például a videomegosztó szolgáltatásokat. Problémánkkal esetleg fordulhatunk transzkribáló szolgáltatásokhoz is, amelyeknek az igénybevétele viszont rendkívüli módon körülményes, és nem is olcsó. Hiánypótló tehát a Google újabb lépése, miszerint a YouTube videók alatt feliratként bekapcsolható lesz a gépi átírás (transzkripció).
A Google bejelentésében, és máshol is lépten-nyomon hangsúlyozzák, hogy a beszédfelismerő technológia közel sem tökéletes. Ugyanaz a – jogos – mentegetőzés tapasztalható, mint a fordítás és általában véve a nyelvtechnológiai termékek kapcsán mindenhol: hiába jelent már ez is hatalmas technológiai vívmányt, maga az eredmény félkész, sőt ráadásul nevetséges hatást is kelt: az imént linkelt videóban viszonylag kevésszer fordul elő a hibátlanul felismert mondat, gyakoribb a kisebb hibákkal, részleteiben rosszul átírt szöveg, s szintén nem ritka a kifejezetten nevetséges, az eredetire csak nyomokban emlékeztető átírás. Például a „far from the area's designated skirun”-ból 'Gary this is it” lett, ami a lavinabalesetet szenvedő sízőről szóló klipben igazán csattanósan néz ki.
Ennek fényében nem túlzás nagy merészségnek nevezni a Google mostani lépését, ráadásul rögtön rá is tesznek egy lapáttal: az automatikus átírást automatikus fordításnak is alávethetjük, így a humorfaktor akár meg is hatványozódhat.
Persze látni kell, hogy a technológiára mindezek ellenére óriási az igény, érthető tehát, miért veszik fel sorra a nagyhalak a beszédfelismerést termékeik alapfelszerelései közé. A Microsoft a Vistától kezdve, az Apple meg már régebb óta beleépíti a funkciót operációs rendszerébe, és a Google-nál is elérhető volt a technológia, igaz csak az amerikai felhasználóknál: a Google Voice szolgáltatás a hangpostafiókra érkező üzeneteket automatikusan átírja. (Hogy milyen hatékonysággal, az persze megintcsak kérdéses.)
A jelenleg kereskedelmi forgalomban lévő legjobb beszédfelismerő szoftvereket általában diktálásra szánják, és első használatkor előre megadott szöveg felolvasásával „be kell őket tanítani”, hogy még pontosabb legyen a felismerés. Természetesen a jól artikulált beszéd nagyobb sikerrel íródik át helyesen, s ez igaz a Google gépi transzkribációra is, itt azonban a technológia felhasználási célja alapvető kétségeket ébreszt az egész hasznosságát illetően: hiszen míg diktáláskor tudjuk szabályozni saját magunk artikulációját, addig a videóanyagok gépi átírása éppen ott fog elbukni (akcentusos előadó, elnyelt szavak stb.), ahol szükségünk lenne a segítségére.