Mit is mondott, aranyoskám?

Nyaktörő feliratozás a YouTube-on

A YouTube új auto-cap funkciójától volt hangos a techvilág az elmúlt néhány napban. A lépés mindenképp merész. De vajon mire lehet ezt majd használni?

nyest.hu | 2009. november 26.

Gyakran kerülünk olyan helyzetbe, amikor egy nyelvet (jelen esetben az angolt) viszonylag jól megértünk írott, sőt beszélt formában is, egy hanganyagban mégis egy-egy ponton nem értjük jól, mit mond a megszólaló. Ilyenkor kapóra jönne egy, az adott nyelvben még járatosabb társ, aki kisegít, csak sajnos nem jellemző, hogy a legváratlanabb pillanatokban ilyesvalaki a rendelkezésünkre álljon. Ha hallássérültekre gondolunk, még inkább égető a probléma, hiszen ők eddig igen korlátozottan élvezhették például a videomegosztó szolgáltatásokat. Problémánkkal esetleg fordulhatunk transzkribáló szolgáltatásokhoz is, amelyeknek az igénybevétele viszont rendkívüli módon körülményes, és nem is olcsó. Hiánypótló tehát a Google újabb lépése, miszerint a YouTube videók alatt feliratként bekapcsolható lesz a gépi átírás (transzkripció).

Kérdés, mennyire hasonlít a végső felirat arra, amit ténylegesen mondunk

A Google egyelőre csak néhány felsorolt csatornán kapcsolta be a gépi feliratozás lehetőségét, ahol viszonylag artikuláltabb előadások, interjúk láthatók, mivel a szélesebb körű roll-out előtt szeretnének kapni némi visszajelzést. Azonban még ezeken a csatornákon se látható mindenhol az átírás – feltehetőleg a videó feltöltője szabályozhatja, hogy a funkció elérhető legyen-e. Íme egy dokumentumfilmes példa a National Geographictól, hogy az olvasó is tesztelhesse (már ha kibírja röhögés nélkül): a jobb alsó sarokban lévő menüben lehet bekapcsolni az átírást.

A Google bejelentésében, és máshol is lépten-nyomon hangsúlyozzák, hogy a beszédfelismerő technológia közel sem tökéletes. Ugyanaz a – jogos – mentegetőzés tapasztalható, mint a fordítás és általában véve a nyelvtechnológiai termékek kapcsán mindenhol: hiába jelent már ez is hatalmas technológiai vívmányt, maga az eredmény félkész, sőt ráadásul nevetséges hatást is kelt: az imént linkelt videóban viszonylag kevésszer fordul elő a hibátlanul felismert mondat, gyakoribb a kisebb hibákkal, részleteiben rosszul átírt szöveg, s szintén nem ritka a kifejezetten nevetséges, az eredetire csak nyomokban emlékeztető átírás. Például a „far from the area's designated skirun”-ból 'Gary this is it” lett, ami a lavinabalesetet szenvedő sízőről szóló klipben igazán csattanósan néz ki.

Ennek fényében nem túlzás nagy merészségnek nevezni a Google mostani lépését, ráadásul rögtön rá is tesznek egy lapáttal: az automatikus átírást automatikus fordításnak is alávethetjük, így a humorfaktor akár meg is hatványozódhat.

Persze látni kell, hogy a technológiára mindezek ellenére óriási az igény, érthető tehát, miért veszik fel sorra a nagyhalak a beszédfelismerést termékeik alapfelszerelései közé. A Microsoft a Vistától kezdve, az Apple meg már régebb óta beleépíti a funkciót operációs rendszerébe, és a Google-nál is elérhető volt a technológia, igaz csak az amerikai felhasználóknál: a Google Voice szolgáltatás a hangpostafiókra érkező üzeneteket automatikusan átírja. (Hogy milyen hatékonysággal, az persze megintcsak kérdéses.)

A jelenleg kereskedelmi forgalomban lévő legjobb beszédfelismerő szoftvereket általában diktálásra szánják, és első használatkor előre megadott szöveg felolvasásával „be kell őket tanítani”, hogy még pontosabb legyen a felismerés. Természetesen a jól artikulált beszéd nagyobb sikerrel íródik át helyesen, s ez igaz a Google gépi transzkribációra is, itt azonban a technológia felhasználási célja alapvető kétségeket ébreszt az egész hasznosságát illetően: hiszen míg diktáláskor tudjuk szabályozni saját magunk artikulációját, addig a videóanyagok gépi átírása éppen ott fog elbukni (akcentusos előadó, elnyelt szavak stb.), ahol szükségünk lenne a segítségére.

Hasonló tartalmak:

legutóbbi hozzászólások listája...

Nyelv és politika; Természettudomány; Nyelvtudomány; Oktatás; LEITERJAKAB

Váltás normál nézetre...