Beszédhang és fonéma
Tényleg azt írjuk le, amit hallunk? Olyan a beszédünk, mint egy gyöngysor? Miben hasonlítanak a betűk a hangokra? Van-e a dolgoknak „mögöttes lényeg”-ük? Miért beszélnek a nyelvészek gyakran fonémákról, miért nem lehet egyszerűen hangokról beszélni? Ha van különbség, mi az? És mi köze mindehhez Freudnak vagy Einsteinnek?
Ha az emberi beszédet (bármilyen nyelven szóljon is) láthatóvá tesszük, például a levegő rezgésének hullámformáját, oszcillogramját szemléljük, nem sok hasonlóságot látunk rajta az írásos formában, betűkkel leírt beszédhez. Néhány feltűnő változáson (például egy-egy szüneten) kívül nem veszünk észre éles határvonalakat, külön-külön beszédhangokat. Ha pedig ugyanannak a hangnak, mondjuk a v-nek különböző előfordulásait rögzítjük oszcillogrammokon, alig látunk majd közöttük hasonlóságot. Az, hogy egy-egy konkrét esetben hogyan valósul meg a v, függ a környező hangoktól, a nyelvtani környezetétől (például hogy szó végén vagy szó elején áll-e), és beszélőnként is változik. A beszédhangok gyakorlatilag végtelen változatosságot mutatnak.
(Forrás: Kálmán László, Praat)
Érdekes, hogy a mindennapi élményeink nem ezt tükrözik, csak zajos környezetben vagy erősen beszédhibás beszélők esetében vagyunk bizonytalanok azzal kapcsolatban, hogy milyen hangokat hallunk. A magyar nyelv beszélőinek nem okoz különösebb gondot hallás után betűk sorozatával lejegyezni egy szöveget, míg az oszcillogramokból még hosszú tanulás után is nehéz kibogarászni, hogy milyen hangok követik egymást.
Vagy mégis okoz gondot? Ha azt a szót halljuk, hogy savtól, és így is jegyezzük le, akkor valójában nem azt a hangsort írjuk le, amit hallottunk, hiszen a t előtt a v f-nek hallatszik. Az iskolában megtanultuk, hogy írásunkban a betűk ilyen esetekben nem az elhangzó hangokat jelölik – de akkor mit jelölnek?
Valójában lehet, hogy akkor is v-t írnánk, ha nem tanultuk volna ezt az iskolában, hiszen tudjuk, hogy a sav szó v-re végződik. De ezt csak az tudja, aki ismeri a magyar nyelvet: a nyelvtudásunk alapján tudjuk, hogy az f hang, amit hallunk, itt ugyanazt a funkciót tölti be, mint ugyanennek a tőnek más alakjaiban a v hang, méghozzá azt a funkciót, hogy ő az illető tő utolsó mássalhangzója.
A fonéma szokásos meghatározása éppen ezzel függ össze: fonémának nevezik azt a nyelvi egységet, amely különböző beszédhangokban nyilvánulhat meg, de úgy, hogy ezeknek a megnyilvánulásoknak mind ugyanaz a funkciójuk. Egy fonéma különböző megtestesüléseit a fonéma allofónjainak nevezzük. (Néha szokás úgy is fogalmazni, hogy ezek egymás allofónjai.) Éppen olyan ez, mint az írásban: az a betűt is végtelen sokféleképpen írhatjuk le, de ha nem számítjuk az olvashatatlan változatokat, akkor felismerhető, hogy ezeknek ugyanaz a funkciójuk. Ahogy a fonéma nem kiejtett hang, hanem nyelvi egység, ugyanúgy az a betű úgy általában, mint absztrakció az írás egysége (a fonéma szó mintájára grafémának is nevezik); ebben a hasonlatban a kiejtett beszédhangoknak az egyes leírt a betűk felelnek meg.
A beszédhang és a fonéma megkülönböztetése a 19. század végéről származik, elsőként Jan Niecisław Baudouin de Courtenay (1845–1929) használta; mai értelmezése nagyjából az európai és az amerikai strukturalista iskola szóhasználatának felel meg, közelebbről a Leonard Bloomfieldtől (1887–1949) származó meghatározásnak.
A századforduló gondolkodására jellemzőek voltak azok a modellek, amelyek megkülönböztették a felszíni megnyilvánulásokat a mögöttes (közvetlenül nem megfigyelhető) „lényegtől”. Ezt a gondolkodásmódot fedezhetjük fel a 20. század elejének legbefolyásosabb elméleteinél, például Freudnál (1856–1939) vagy Einsteinnél (1879–1955). Ebben a megközelítésben kézenfekvő volt, hogy a felszínen sokféleképpen hangzó beszédhangoknak, amelyek ugyanakkor valahogy ugyanazt a funkciót töltik be, szintén van egy mögöttes „lényegük”, és ezeket a közvetlenül nem megfigyelhető nyelvi egységeket nevezték fonémáknak.
Szintén jellemző volt a fonéma-fogalom kialakulásának időszakára, hogy a kiejtett szavakat, kifejezéseket úgy fogták fel, mint hangok egymásutánját, mint egy szálra felfűzött gyöngyök sorozatát, vagyis lineárisan, nem pedig úgy, mint egy többszólamú partitúrát. (Mint korábban már írtam erről, sok jelenség magyarázatához elegendő, ha a beszédet egyszólamúnak, gyöngysorszerűnek tekintjük, de sok más jelenség ennek ellentmond.) Mind a beszédhang, mind pedig a fonéma terminusok ezen a felfogáson alapulnak, a gyöngysor elemeire vonatkoznak.
A beszédhangokat írásban olyan szimbólumokkal szoktuk ábrázolni, amelyek nagyjából utalnak a hangzásbeli-képzésbeli sajátosságaikra (ezért az ilyen átírást fonetikai, hangtani átírásnak nevezzük), tehát valójában nem konkrét, egyedi beszédhangokat szoktunk lejegyezni, hanem egyetlen jelöléssel összevonjuk a hasonló beszédhangokat. Ezt megint a betűs hasonlat alapján lehet jól megérteni. Igaz, hogy az a betűt sokféleképpen írjuk, és nincsenek olyan vonások, amelyek minden leírt a betűben közösek, és más betűkben nincsenek meg. Minden a betű szokott tartalmazni egy körbezárt részt, de ez sok más betűre is jellemző; a nagy nyomtatott A betűnek van két lába, a többi a betűnek nincs; a kis írott a betűnek nincs balra nyúló felső szára, a kis nyomtatott a-nak viszont van, és így tovább. Ugyanez igaz egyazon fonéma különböző megtestesüléseire, allofónjaira is. De ahogy a betűk esetében, vannak hasonló csoportok az allofónok között: ahogy hasonlítanak egymásra a nyomtatott nagy A betűk, az írott kis a betűk, a nyomtatott kis a betűk stb., ugyanúgy hasonlítanak egymásra a magyarban a magánhangzók között ejtett v hangok, a szó végén ejtett v hangok vagy a zöngétlen zörejhangok előtt ejtett (és f-nek hangzó) v hangok. A legelterjedtebb fonetikai átírási rendszer az IPA (International Phonetic Alphabet).
A beszédhangok szerinti átírás mindig szögletes zárójelek között áll. Például a [v] beszédhang a felső fogsorral és alsó ajakkal képzett zöngés réshangokra utal, de persze tudjuk, hogy szinte minden kiejtett [v] egy kicsit másképpen hangzik, még ugyanannak a beszélőnek a szájából is. A magyarban a [v] ritkán igazi réshang, mert nem szokott zörejt tartalmazni (inkább csak ha a szó végén áll), nagyon gyakran nem teljesen zöngés (főleg a szó végén nem), és így tovább. Ezeket a sajátosságokat bizonyos esetekben mellékjelekkel lehet érzékeltetni, például a zöngétlenedést a szimbólum alá írt karikával. Különösen nagy eltérések lehetnek különböző nyelvek beszédhangjai között, még akkor is, ha az egyszerűség kedvéért néha ugyanazzal a szimbólummal jelöljük is őket. (Például a hollandban a w-vel írt hang, amit magyar füllel [v]-nek hallunk, és jobb híján így is szoktuk átírni, sosem réshang, mindig zörejmentes, mert képzésekor a felső fogsor épp csak megérinti az alsó ajkat.)
Ahogy említettem, az általános felfogás szerint a beszédhangok a hallható-kiejthető beszéd részei, a fonémák az e mögött meghúzódó absztrakt nyelvi rendszerhez tartoznak, így nem is hallhatóak-kiejthetőek, puszta absztrakciók. Ennek ellenére a fonémákat is hangokra utaló szimbólumokkal jelöljük (általában a legjellemzőbb megtestesülésük alapján), de mindig ferde zárójelek közé írjuk a szimbólumot. Például a többféle módon ejtett magyar [v] beszédhangok mögött sokszor a /v/-nek nevezett fonéma húzódik meg.
Minden fonémának több beszédhang felelhet meg, mindegyiknek többféle megtestesülése van, ahogy a sokféle [v] hang és a /v/ fonéma esetében láttuk. Az is előfordul, hogy, ugyanaz a beszédhang több különböző fonéma allofónja lehet. Például a [v] lehet az /f/-nek nevezett fonéma allofónja is, az olyan szavakban, mint széfből, amelyben a [b] hang előtt nagyjából [v] hangot ejtünk, de a strukturalista nyelvészet szerint ez a hang rendszertanilag az /f/ fonéma allofónja (ebben az esetben a helyesírás is ezt tükrözi). Hasonlóképpen a /v/ fonéma megtestesülhet [f] beszédhangban is, az olyan szavakban, mint a savtól.
Honnan ismerhetjük fel, hogy melyik beszédhang melyik fonéma megtestesülése? Erről már nem teljesen egységesek a vélemények. A klasszikus amerikai strukturalizmus azt az elvet mondta ki, hogy kétféle váltakozás lehet egyazon fonéma allofónjai között. Az egyik esetben az allofónok pozicionális variánsai egymásnak: bizonyos hangtani környezetekben az egyik allofón jelenik meg, más környezetekben a másik. Például a magyarban zöngétlen zörejhang előtt a /v/ fonémának mindig az [f] hangzású allofónja jelenik meg, máshol pedig nagyjából [v] hangzású allofónjai. A másik esetben szabad váltakozás van az allofónok között: az allofónok felcserélhetőek egymással, és az, hogy melyik jelenik meg, nem a hangtani környezettől függ, hanem véletlen, a beszélő egyéni sajátossága, esetleg egy beszélőcsoport szokása. Ilyen szabad váltakozás van a /v/ fonéma zörejt tartalmazó, réshangos ejtése és zörejt nem tartalmazó kiejtése között a szó elején vagy magánhangzók között.
(Forrás: Kálmán László, Praat)
És honnan tudjuk, hogy a magyarban a v és az f két eltérő fonéma megtestesülése is lehet? Onnan, hogy bizonyos környezetekben mind a [v], mind pedig az [f] hang előfordulhat, és nem szabad váltakozás van közöttük, hanem eltérő a funkciójuk (képesek nyelvi egységek megkülönböztetésére), például más szó a volt, és más a folt. A fonémák elkülönítésére legtöbbször ilyen ún. minimálpárokat használhatunk.
A generatív fonológia másképpen használja a fonéma szót, mint elődei. Ott azokat a szimbólumokat nevezik fonémának, amelyek az ún. mögöttes reprezentációkban előfordulhatnak – ezek azok a feltételezett, axiómaszerű kiinduló ábrázolások, amelyekből kiindulva a generatív szabályrendszer a valóban elhangzó hangsorokat generálja (a generativista felfogásról általában itt írtam korábban). Az első részletes generatív fonológiai munka az angol nyelv generatív fonológiai leírása volt, a The Sound Pattern of English, amely 1968-ban jelent meg, Noam Chomsky és Morris Halle írta.
Könnyen belátható, hogy a generatív felfogás sokkal kevésbé korlátozza, hogy milyen fonémákat feltételezhetünk egy-egy nyelvben. Például semmi akadálya annak, hogy feltételezzük: a magyarban a szív ige és a szív főnév „mögöttesen” különböző magánhangzó-fonémákat tartalmaz, és emiatt van az, hogy eltérő a toldalékolásuk (ők sok cigit szívnak, de meg kell a szívnek szakadnia). A strukturalista felfogás szerint ez nem lehetséges, a két szív tőnek azonos fonémákból kell állnia, hiszen ha a magyarban a kétféle í lenne, akkor legalább némely hangtani környezetben eltérő allofónokban kellene megtestesülniük.
Hogyan lehetséges, hogy ennyire eltérő fonéma-felfogások létezhetnek? Úgy, hogy az a meghatározás, amiből kiindultunk, nem teljesen egyértelmű. Mit jelent „azonos funkcióval rendelkezni”? A strukturalista felfogás szerint a magyar -nak/-nek toldalék két alakjában az a és az e magánhangzó nem lehet ugyanannak a fonémának a megtestesülése, mert nem szabad váltakozásban állnak, de nem is szigorúan a hangtani környezet határozza meg az előfordulásukat: például a szív hangalakú tőhöz -nak járul, ha a tő ige (ők szívnak), de -nek akkor, ha a névszói tőről van szó (ennek a szívnek). Pedig valamilyen értelemben mégis ugyanaz a funkciója a két magánhangzónak – és a generatív nyelvtan lehetővé is teszi, hogy egyetlen fonéma allofónjának tekintsük, amit a szabályrendszer hol a-vá, hol pedig e-vé alakít át.
@bibi: és még mindig nem volt elég fonetikus az írásmódja, hisz a d-t is odaírta :)
Munkahelyemen az egyik pinceajtóra azt írta valaki, hogy "Csugd be!"
@El Mexicano: Köszi, igen, tetszett a kihívás.
Ezek szerint tetszett az ötletem. :) Jó lett a cikk.