Samenvattingen lezingen

Betrouwbaarheidsmaten voor automatische spraakherkenning

Gies Bouwman, AiO Nijmegen

Automatische SpraakHerkenning (ASH) wordt in toenemende mate als een serieuze invoermodaliteit beschouwd door ontwerpers van interactieve dialoogsystemen. Bekende voorbeelden zijn het treinreis informatiesysteem OVIS en diverse opvolgers daarvan. In Nijmegen is de laatste tien jaar stevig aan de weg getimmerd om de accuraatheid van de technologie aan te scherpen, o.a. met uitspraakvariatie modellering en vergroting van robuustheid tegen allerlei vormen van achtergrondlawaai. Desondanks komen de dialoogsystemen bij gebruikers nog steeds over als frustrerende en koppige machines die zich onbewust tonen van hun eigen feilbaarheid. En dat is terecht: spraakherkenners maken vaak fouten en dialoogmanagement systemen zouden erop toegerust moeten zijn dat één van hun componenten iets minder betrouwbaar presteert dan de volledige exactheid die we van computers gewend zijn.

De voor de buitenwereld soms onwaarschijnlijke fouten hebben een gemene deler in een fundamenteel ontwerpprincipe; alle state-of-the-art ASH systemen werken met statistische patroonmodellering en Bayes’ Maximum Likehood principe. Dit zegt zoveel dat de woordreeks die binnen het taakdomein met de grootste kans de akoestische opname gegenereerd zou hebben, wordt gekozen als herkenresultaat. Uit dit principe volgt direct dat een spraakherkenner altijd blij met een oplossing te voorschijn komt, dus ook wanneer je in het Chinees tegen OVIS zou praten…

In deze lezing behandel ik een aantal betrouwbaarheidsmaten die een spraakherkenner automatisch kan uitrekenen en toevoegen aan het herkenresultaat. De maten drukken in kanstermen uit in hoeverre de dialoogmanager staat kan maken op de oplossing. Bijgevolg wordt het mogelijk dat OVIS iets minder vaak strandgasten naar Santpoort stuurt, maar in plaats daarvan zal kunnen opteren voor de vraag: “Pardon, ik weet niet zeker of ik u goed verstaan heb; zei u nou Santpoort of Zandvoort?”

Defining retroflexes: an articulatory class and its phonological representation

Silke Hamann, Zentrum fuer Allgemeine Sprachwissenschaft Berlin

The present study illustrates the insufficiency of traditional definitions of retroflexes as segments with a bent-backwards tongue tip. Instead, four articulatory characteristics are proposed, namely apicality, posteriority, a sublingual cavity, and retraction of the tongue back, the latter being highly controversial. Furthermore, retroflexes are shown to be perceptually characterized by a low third formant, and this perceptual criterion is argued to be the basis for the phonological representation of the retroflex class.

Hoe efficiënt is spraak? Een onderzoek naar de verdeling van variatie en informatie in spraak

Rob van Son, Instituut voor Fonetische Wetenschappen, Amsterdam

Spraak is een efficiënt communicatiemiddel. In het algemeen zal een spreker niet meer moeite doen dan zij/hij nodig acht om begrepen te worden. Een groot deel van de in de literatuur beschreven variatie in uitspraak binnen sprekers, m.n., de gevolgen van klemtoon, assimilatie, coarticulatie en reductie, binnen en tussen spreekstijlen kunnen geïnterpreteerd worden als pogingen om de communicatie zo efficiënt mogelijk te laten verlopen. Vragen naar de mate waarin sprekers in hun uitspraak anticiperen op de reactie van de toehoorders en het verband tussen variatie in de uitpraak van woorden en hun rol bij het begrijpen van de boodschap zijn van fundamenteel belang voor de fonetiek. Er is echter relatief weinig onderzoek naar gedaan waardoor een groot deel van de systematische variatie in de spraak niet goed verklaard kan worden. Dit project onderzocht op welke manier en in welke mate sprekers hun spraakproductie aanpassen in anticipatie op het “begrip” van de luisteraars. De onderlinge (cor-)relaties tussen boodschap en spraakgeluid zijn onderzocht om te achterhalen hoe de verschillende factoren in de structuur van de boodschap gebruikt worden voor het efficiënter maken van de spraakcommunicatie. Het blijkt dat er inderdaad een correlatie gevonden wordt tussen the redundantie van een foneem en de mate van reductie. Deze correlatie wordt gevonden op elk nivo van de uiting. Verder is de variatie in redundantie (belang) van fonemen en hun akoestische reductie gekoppeld aan dezelfde fonetische factoren.

Het belang van de onset-rime structuur in de ontwikkeling van fonologische gevoeligheid

Astrid Geudens & Dominiek Sandra, Universiteit Antwerpen – Centrum voor Psycholinguïstiek

Op dit moment bestaat er een algemene consensus dat de linguïstische eenheden onset (b.v., kl in klok) en rime (b.v., ok in klok) natuurlijke syllabeconstituenten zijn in de gesproken taal en dat ze erg saillant zijn in het klankbewustzijn van jonge kinderen. Ons recent onderzoek met Nederlandstalige kleuters en beginnende lezers stelt het belang van een vaste fonologische onset-rime structuur echter in vraag. In een segmentatietaak waarbij kinderen moesten benoemen welke klanken ze hoorden in CV- en VC-syllaben zoals /fo/ en /of/, presteerden ze veel beter met VCs dan met de omgekeerde CVs. Ze vonden het dus makkelijker een rime-eenheid op te breken (/o/-/f/) dan een CV te splitsen in een onset en een rime (/f/-/o/). Hetzelfde patroon werd gevonden in CVCs. Kinderen segmenteerden /fos/ vaker in /fo/-/s/ dan in /f/-/os/. Ondanks de consensus in de vakliteratuur, leverde deze studie dus geen evidentie op voor het belang van onset-rime eenheden in het expliciete klankbewustzijn (zie Geudens & Sandra, 2003). In een geheugentaak waarbij kleuters en beginnende lezers reeksen syllaben moesten beluisteren en dan herhalen bleek bovendien dat rimes niet vaker werden behouden dan CVs. Bijvoorbeeld, bij het nazeggen van de pseudowoorden /top/ en /rel/ kwam de hercombinatiefout /tel/ niet vaker voor dan /tol/. Deze bevindingen riepen ook vragen op bij de rol van onset-rime constituenten in meer onbewuste, impliciete fonologische processen. Toch bleken de kinderen erg gevoelig voor “rijm” wanneer ze moesten beslissen welke van twee woordparen het meest gelijk klonk (/sof/ en /sot/ of /sof/ en /tof/?). In een dergelijke taak verkozen ze rijmende paren met een gedeelde rime (/sof/-/tof/) boven niet-rijmende paren met een gedeelde CV (/sof/-/sot/) of een gedeeld onset-coda skelet (/sof/-/sef/).

Onze resultaten suggereren dat cohesieverschijnselen in auditieve taken geen vaste onset-rime structuur weerspiegelen en sterk fluctueren in functie van factoren zoals perceptie, articulatie, statische eigenschappen van de stimuli, ervaringen met taalspelletjes, instructie etc. In plaats van gebruik te maken van een vaste fonologische structuur, kunnen kinderen, afhankelijk van deze factoren, een andere voorkeur laten zien om bepaalde segmenten samen te houden. Gevoeligheid voor rijm hoeft niet te wijzen op een gevoeligheid voor onset-rime constituenten.

De invloed van zinscontext op gesproken taalverwerking: een ERP-studie

Dannie van den Brink, Max Planck Instituut, Nijmegen

In gesproken taal worden woorden meestal verwerkt in de context van andere woorden. Het onderzoek voor mijn proefschrift was erop gericht om met behulp van hersenpotentialen (ERPs) meer inzicht te krijgen in gesproken-woordverwerking en de invloed van zinscontextuele informatie hierop. Door doelwoorden in semantisch sturende zinnen te manipuleren in semantische, dan wel syntactische zin en de consequenties hiervan te observeren in het electrofysiologische signaal (o.a. het zichtbaar worden van ERP-componenten zoals de N400, N200, LAN en P600), werden de volgende drie vraagstellingen onderzocht. I Op welk moment wordt zinscontextuele informatie gebruikt in gesproken-woordverwerking? Is dit voor, tijdens of na lexicale selectie van het gesproken woord? II Wat is de temporele relatie tussen lexicale selectie en integratie van de betekenis van een gesproken woord in een hoger-level-representatie van de voorafgaande zin? Volgen deze processen elkaar op of zit er een temporele overlap tussen? III Wat is het tijdsverloop van het gebruik van verschillende soorten zinscontextuele informatie, zoals semantische en syntactische informatie? Volgt de informatieverwerking de incrementele wijze waarop verschillende soorten informatie op verschillende momenten in het spraaksignaal beschikbaar kunnen komen, of is er specifieke syntactische informatie over de woordcategorie nodig voordat semantisch integratie plaats kan vinden?

Uit de resultaten van deze studie blijkt o.a. dat zinscontext al op ongeveer 200 ms na begin van het doelwoord een invloed uitoefent op gesproken-woordverwerking. Daarnaast blijken pogingen tot semantische integratie al plaats te vinden voordat een gesproken woord geselecteerd kan worden op basis van het akoestische signaal. Tenslotte blijkt kennis over de syntactische categorie van een woord niet nodig te zijn voordat semantische integratie plaats kan vinden. De resultaten uit mijn onderzoek kunnen het best verklaard worden door een ‘cascaded’ woordverwerkingsmodel dat uitgaat van een optimaal gebruik van contextuele informatie tijdens gesproken-woordverwerking na bottom-up activatie van een aantal lexicale items op basis van een initiële fonologische analyse van het spraaksignaal (met o.a. parallelle verwerking van semantische en syntactische informatie en semantische integratie van gelimiteerd aantal items dat nog overeenkomt met het akoestische signaal).

Luistervaardigheid in een tweede taal: verstaan of begrijpen?

Petra Poelmans, HIL/ACLC

Een van de voorwaarden om succesvol te kunnen luisteren in een tweede taal is het kunnen begrijpen wat er gezegd wordt. Om dit begrip te bereiken is het noodzakelijk dat de (meeste) woorden die gezegd worden correct worden herkend. In het talenonderwijs wordt met name aandacht besteed aan het begrijpen van de boodschap, terwijl aan het woordelijk verstaan niet al te veel aandacht geschonken wordt. Resultaten op het luisteronderdeel van examens als het Staatsexamen NT2 laten zien dat deze stiefmoederlijk behandeling van versta-vaardigheid niet terecht is. Veel studenten zakken voor het luisteronderdeel terwijl ze wel slagen voor de andere onderdelen. In het, inmiddels afgeronde, promotieonderzoek dat gepresenteerd zal worden, werd een luistertraining ontwikkeld die volledig gericht was op het (woordelijk) verstaan van de spraak zonder gericht aandacht te schenken aan het begrijpen ervan.

Het hoofdonderzoek dat besproken zal worden, bestudeerde het relatieve effect van twee verschillende methoden om luistervaardigheid te trainen in een tweede taal:

(i) focus op verstaan

(ii) focus op begrijpen

Verder zal er ingegaan worden op twee pilotstudies die voorafgaand aan de hoofdonderzoek werden uitgevoerd.