Principes

De achterliggende principes van het oplijnen van een fonetische transcriptie met een spraakopname.

Algemene Principes voor het Oplijnen

De algemene regels voor het oplijnen zijn:

Als er langer dan 10 ms geen spraakgeluid is moet er een stilte ingevoegd worden (behalve bij plosieven)
Als de transcriptie klopt hoort elk stukje spraak bij een foneem
Alles wat niet bij een ander foneem hoort, hoort bij 'dit' foneem
Probeer elke grens tot op 1 ms nauwkeurig te plaatsen. Als dat onmogelijk is, probeer dan binnen een onnauwkeurigheid van 5 ms te blijven (ongeveer een 'grondtoon periode')

Segmenteren en oplijnen

Het oplijnen gebeurt op spraakfragmenten van "zinslengte". Dit kunnen echte (voorgelezen) zinnen zijn. Maar ook stukken spontane spraak die min of meer overeenkomen met afzonderlijke uitingen, het alfabet of voorgelezen lijsten van losse woorden, lettergrepen of klanken.

De spraakfragmenten worden opgelijnd met bestaande Praat labelfiles. Deze labelfiles bevatten 3 "tiers" met respectievelijk orthografische woorden, fonetisch getranscribeerde lettegrepen (syllaben) en fonemen. De foneemtranscriptie is automatisch verkregen uit de orthografische woorden.

Voor de foneemtranscriptie wordt gebruik gemaakt van dezelfde labels als het Corpus Geschreven Nederlands.

Ieder afzonderlijke spraakfragment heeft een unieke identificatie code. De identificatie codes van de woorden zijn in de woord-tier bijgeschreven. Deze codes mogen beslist niet veranderd worden. Ze zijn essentieel voor de latere oplijning van fonemen met de tekst. Als er een woord toegevoegd moet worden, moet dat zonder code gebeuren (nieuwe codes worden automatisch gegenereerd).

Correcties op de transcriptie en de oplijning

Het is onmogelijk om op grond van alleen de woordelijk uitgeschreven tekst van spraak een correcte fonetische transcriptie te maken. Daarom zullen er ook verschillen zijn tussen de uitspraak in de opnamen en de transcripties in de labelfiles. Bij het oplijnen van de labels met de spraak moeten de labels 'gecorrigeerd' worden. Daarbij is het van belang dat de transcriptie van de zin gebruikt wordt. Als een foneemsegment in isolatie beluisterd wordt klinkt hij bijna altijd anders dan in het woord of de hele zin. Bij correcties moet daarom altijd het hele woord, of liever nog de hele zin, beluisterd worden.

Het oplijnen

Bij het spreken bewegen de verschillende spraakorganen (kaak, tong, lippen, huig, stembanden) niet zo synchroon als gewoonlijk beschreven wordt in de leerboeken. Daardoor is het meestal onmogelijk een grens aan te geven waar de uitspraak van het ene foneem eindigt en die van het volgende begint. Er is een hoorbare overlap tussen de fonemen. Toch moet er 1 enkele grens gezet worden tussen elke twee fonemen.

Voor het zetten van de grens wordt de belangrijkste verandering in het spraaksignaal gezocht. Dit kan een opvallende verandering zijn in de golfvorm door het openen of sluiten van het spraakkanaal. Maar het kan ook een spectrale verandering zijn door b.v., het verplaatsen van de tong. Elke verandering in de structuur van de golfvorm of de spectrale balans (CoG) kan in principe gebruikt worden om een grens tussen twee fonemen te bepalen. Als het maar systematisch is en overeenkomt met hoorbare verschillen.

Voor het oplijnen zijn in principe drie "informatiebronnen" beschikbaar:

het gehoor.
de spectrale balans (CoG)
de golfvorm

Het gehoor

Hoewel het gehoor eigenlijk het beste kriterium is, heeft het een slecht temporeel oplossend vermogen. Het is meestal heel goed mogelijk om te horen welke van twee mogelijke grensposities de beste is. Maar het is bijna onmogelijk om enkel op het oor een grens te vinden. Het oor is gewoon te traag.

De spectrale balans (CoG)

Het spectrum van de spraak is een complete beschrijving. Met enige oefening is het mogelijk spectrogrammen te lezen en zo spraak te "verstaan". Spectrogrammen hebben een beter oplossend vermogen dan het gehoor. Met een spectrogram is het mogelijk om grenzen te zetten met een nauwkeurigheid van ongeveer 10 tot 20 miliseconden. Spectrogrammen lezen is echter tijdrovend. Het lezen vergt grote beeldschermen met hoge beeldresolutie en het "tekenen" van een spectrogram kost zelfs op snelle PC's veel tijd. Het interpreteren van een spectrogram kost ook tijd.

Daarom is hier gekozen voor een simpelere spectrale weergave, de spectrale balans. Dit is de middenfrequentie van het spectrum (eigenlijk het zwaartepunt in semitonen). De spectrale balans wordt aangegeven met de Engelse afkorting CoG (Center of Gravity). De CoG heeft karakteristieke waarden voor de verschillende foneemklassen, hoog voor fricatieven en plosieven (afhankelijk van de plaats van articulatie), gemiddeld voor klinkers, iets lager voor klinkerachtigen, en nog lager voor nasalen.

De spectrale balans heeft ongevere hetzelfde oplossende vermogen als een gewoon spectrum.

De golfvorm

De golfvorm heeft het beste temporele oplossend vermogen. Grenzen kunnen tot op tienden van miliseconden gezet worden (b.v., bij het begin van een foneem na een stilte). Verder hebben alle bewegingen van de spraakorganen een zichtbaar effect op de golfvorm. Het nadeel is dat de golfvorm bijna niet te interpreteren is. Ruwe inschattingen, zoals klinker, fricatief en plosief 'plof', zijn vaak te maken, maar even vaak niet. Meestal zijn er in de golfvorm veel plaatsen aan te wijzen waar een grens tussen twee fonemen zou kunnen zijn. Het spectrum en het gehoor zijn dan nodig om de goede grens uit al deze kandidaten te kiezen.

Werkwijze

Bij het oplijnen van de foneemlabels en hun grenzen met de spraak worden de grenzen gezet op plaatsen waar de golfvorm laat zien dat er iets veranderd aan de spraak. Welke verandering in de golfvorm de grens aangeeft wordt bepaald door de structuur van de golfvorm, de CoG of het gehoor. Het doel is altijd de foneemgrenzen zo te plaatsen dat ieder foneemsegment zo zuiver mogelijk is, terwijl buur-fonemen zo min mogelijk 'besmet' zijn.