Betrouwbaarheidsmaten
voor automatische spraakherkenning
Gies
Bouwman, AiO Nijmegen
Automatische SpraakHerkenning (ASH) wordt in
toenemende mate als een serieuze invoermodaliteit beschouwd door ontwerpers van
interactieve dialoogsystemen. Bekende voorbeelden zijn het treinreis
informatiesysteem OVIS en diverse opvolgers daarvan. In Nijmegen is de laatste
tien jaar stevig aan de weg getimmerd om de accuraatheid van de technologie aan
te scherpen, o.a. met uitspraakvariatie modellering en vergroting van
robuustheid tegen allerlei vormen van achtergrondlawaai. Desondanks komen de
dialoogsystemen bij gebruikers nog steeds over als frustrerende en koppige
machines die zich onbewust tonen van hun eigen feilbaarheid. En dat is terecht:
spraakherkenners maken vaak fouten en dialoogmanagement systemen zouden erop
toegerust moeten zijn dat één van hun componenten iets minder betrouwbaar
presteert dan de volledige exactheid die we van computers gewend zijn.
De voor
de buitenwereld soms onwaarschijnlijke fouten hebben een gemene deler in een
fundamenteel ontwerpprincipe; alle state-of-the-art ASH systemen werken met
statistische patroonmodellering en Bayes’ Maximum Likehood principe. Dit zegt
zoveel dat de woordreeks die binnen het taakdomein met de grootste kans de
akoestische opname gegenereerd zou hebben, wordt gekozen als herkenresultaat.
Uit dit principe volgt direct dat een spraakherkenner altijd blij met
een oplossing te voorschijn komt, dus ook wanneer je in het Chinees tegen OVIS
zou praten…
In deze
lezing behandel ik een aantal betrouwbaarheidsmaten die een spraakherkenner
automatisch kan uitrekenen en toevoegen aan het herkenresultaat. De maten
drukken in kanstermen uit in hoeverre de dialoogmanager staat kan maken op de
oplossing. Bijgevolg wordt het mogelijk dat OVIS iets minder vaak strandgasten
naar Santpoort stuurt, maar in plaats daarvan zal kunnen opteren voor de vraag:
“Pardon, ik weet niet zeker of ik u goed verstaan heb; zei u nou Santpoort of
Zandvoort?”
Defining
retroflexes: an articulatory class and its phonological representation
Silke Hamann, Zentrum
fuer Allgemeine Sprachwissenschaft Berlin
The present study illustrates the insufficiency of traditional
definitions of retroflexes as segments with a bent-backwards tongue tip.
Instead, four articulatory characteristics are proposed, namely apicality,
posteriority, a sublingual cavity, and retraction of the tongue back, the
latter being highly controversial. Furthermore, retroflexes are shown to be
perceptually characterized by a low third formant, and this perceptual
criterion is argued to be the basis for the phonological representation of the
retroflex class.
Hoe efficiënt is
spraak? Een onderzoek naar de verdeling van variatie en informatie in spraak
Rob van Son, Instituut voor Fonetische Wetenschappen,
Amsterdam
Spraak is een
efficiënt communicatiemiddel. In het algemeen zal een spreker niet meer moeite
doen dan zij/hij nodig acht om begrepen te worden. Een groot deel van de in de
literatuur beschreven variatie in uitspraak binnen sprekers, m.n., de gevolgen
van klemtoon, assimilatie, coarticulatie en reductie, binnen en tussen
spreekstijlen kunnen geïnterpreteerd worden als pogingen om de communicatie zo
efficiënt mogelijk te laten verlopen. Vragen naar de mate waarin sprekers in
hun uitspraak anticiperen op de reactie van de toehoorders en het verband
tussen variatie in de uitpraak van woorden en hun rol bij het begrijpen van de
boodschap zijn van fundamenteel belang voor de fonetiek. Er is echter relatief
weinig onderzoek naar gedaan waardoor een groot deel van de systematische
variatie in de spraak niet goed verklaard kan worden. Dit project onderzocht op
welke manier en in welke mate sprekers hun spraakproductie aanpassen in
anticipatie op het “begrip” van de luisteraars. De onderlinge (cor-)relaties
tussen boodschap en spraakgeluid zijn onderzocht om te achterhalen hoe de
verschillende factoren in de structuur van de boodschap gebruikt worden voor
het efficiënter maken van de spraakcommunicatie. Het blijkt dat er inderdaad
een correlatie gevonden wordt tussen the redundantie van een foneem en de mate
van reductie. Deze correlatie wordt gevonden op elk nivo van de uiting. Verder
is de variatie in redundantie (belang) van fonemen en hun akoestische reductie
gekoppeld aan dezelfde fonetische factoren.
Het belang van de onset-rime structuur in de
ontwikkeling van fonologische gevoeligheid
Astrid
Geudens & Dominiek Sandra, Universiteit Antwerpen – Centrum voor
Psycholinguïstiek
Op
dit moment bestaat er een algemene consensus dat de linguïstische eenheden
onset (b.v., kl in klok) en rime (b.v., ok in klok) natuurlijke syllabeconstituenten zijn in de gesproken taal en
dat ze erg saillant zijn in het klankbewustzijn van jonge kinderen. Ons recent
onderzoek met Nederlandstalige kleuters en beginnende lezers stelt het belang
van een vaste fonologische onset-rime structuur echter in vraag. In een
segmentatietaak waarbij kinderen moesten benoemen welke klanken ze hoorden in
CV- en VC-syllaben zoals /fo/ en /of/, presteerden ze veel beter met VCs dan
met de omgekeerde CVs. Ze vonden het dus makkelijker een rime-eenheid op te
breken (/o/-/f/) dan een CV te splitsen in een onset en een rime (/f/-/o/).
Hetzelfde patroon werd gevonden in CVCs. Kinderen segmenteerden /fos/ vaker in
/fo/-/s/ dan in /f/-/os/. Ondanks de consensus in de vakliteratuur, leverde
deze studie dus geen evidentie op voor het belang van onset-rime eenheden in
het expliciete klankbewustzijn (zie Geudens & Sandra, 2003). In een
geheugentaak waarbij kleuters en beginnende lezers reeksen syllaben moesten
beluisteren en dan herhalen bleek bovendien dat rimes niet vaker werden
behouden dan CVs. Bijvoorbeeld, bij het nazeggen van de pseudowoorden /top/ en
/rel/ kwam de hercombinatiefout /tel/ niet vaker voor dan /tol/. Deze bevindingen
riepen ook vragen op bij de rol van onset-rime constituenten in meer onbewuste,
impliciete fonologische processen. Toch bleken de kinderen erg gevoelig voor
“rijm” wanneer ze moesten beslissen welke van twee woordparen het meest gelijk
klonk (/sof/ en /sot/ of /sof/ en /tof/?). In een dergelijke taak verkozen ze
rijmende paren met een gedeelde rime (/sof/-/tof/) boven niet-rijmende paren
met een gedeelde CV (/sof/-/sot/) of een gedeeld onset-coda skelet
(/sof/-/sef/).
Onze
resultaten suggereren dat cohesieverschijnselen in auditieve taken geen vaste
onset-rime structuur weerspiegelen en sterk fluctueren in functie van factoren
zoals perceptie, articulatie, statische eigenschappen van de stimuli,
ervaringen met taalspelletjes, instructie etc. In plaats van gebruik te maken
van een vaste fonologische structuur, kunnen kinderen, afhankelijk van deze
factoren, een andere voorkeur laten zien om bepaalde segmenten samen te houden.
Gevoeligheid voor rijm hoeft niet te wijzen op een gevoeligheid voor onset-rime
constituenten.
De invloed van zinscontext op gesproken taalverwerking:
een ERP-studie
In gesproken taal worden
woorden meestal verwerkt in de context van andere woorden. Het onderzoek voor
mijn proefschrift was erop gericht om met behulp van hersenpotentialen (ERPs)
meer inzicht te krijgen in gesproken-woordverwerking en de invloed van
zinscontextuele informatie hierop. Door doelwoorden in semantisch sturende
zinnen te manipuleren in semantische, dan wel syntactische zin en de
consequenties hiervan te observeren in het electrofysiologische signaal (o.a.
het zichtbaar worden van ERP-componenten zoals de N400, N200, LAN en P600),
werden de volgende drie vraagstellingen onderzocht. I Op welk moment wordt
zinscontextuele informatie gebruikt in gesproken-woordverwerking? Is dit voor,
tijdens of na lexicale selectie van het gesproken woord? II Wat is de temporele
relatie tussen lexicale selectie en integratie van de betekenis van een
gesproken woord in een hoger-level-representatie van de voorafgaande zin?
Volgen deze processen elkaar op of zit er een temporele overlap tussen? III Wat
is het tijdsverloop van het gebruik van verschillende soorten zinscontextuele
informatie, zoals semantische en syntactische informatie? Volgt de
informatieverwerking de incrementele wijze waarop verschillende soorten
informatie op verschillende momenten in het spraaksignaal beschikbaar kunnen
komen, of is er specifieke syntactische informatie over de woordcategorie nodig
voordat semantisch integratie plaats kan vinden?
Uit de
resultaten van deze studie blijkt o.a. dat zinscontext al op ongeveer 200 ms na
begin van het doelwoord een invloed uitoefent op gesproken-woordverwerking.
Daarnaast blijken pogingen tot semantische integratie al plaats te vinden
voordat een gesproken woord geselecteerd kan worden op basis van het
akoestische signaal. Tenslotte blijkt kennis over de syntactische categorie van
een woord niet nodig te zijn voordat semantische integratie plaats kan vinden.
De resultaten uit mijn onderzoek kunnen het best verklaard worden door een
‘cascaded’ woordverwerkingsmodel dat uitgaat van een optimaal gebruik van
contextuele informatie tijdens gesproken-woordverwerking na bottom-up activatie
van een aantal lexicale items op basis van een initiële fonologische analyse
van het spraaksignaal (met o.a. parallelle verwerking van semantische en
syntactische informatie en semantische integratie van gelimiteerd aantal items
dat nog overeenkomt met het akoestische signaal).
Luistervaardigheid
in een tweede taal: verstaan of begrijpen?
Petra
Poelmans, HIL/ACLC
Een van de voorwaarden om succesvol te kunnen luisteren in een tweede
taal is het kunnen begrijpen wat er gezegd wordt. Om dit begrip te bereiken is
het noodzakelijk dat de (meeste) woorden die gezegd worden correct worden
herkend. In het talenonderwijs wordt met name aandacht besteed aan het
begrijpen van de boodschap, terwijl aan het woordelijk verstaan niet al te veel
aandacht geschonken wordt. Resultaten op het luisteronderdeel van examens als
het Staatsexamen NT2 laten zien dat deze stiefmoederlijk behandeling van
versta-vaardigheid niet terecht is. Veel studenten zakken voor het
luisteronderdeel terwijl ze wel slagen voor de andere onderdelen. In het,
inmiddels afgeronde, promotieonderzoek dat gepresenteerd zal worden, werd een
luistertraining ontwikkeld die volledig gericht was op het (woordelijk)
verstaan van de spraak zonder gericht aandacht te schenken aan het begrijpen
ervan.
Het hoofdonderzoek dat
besproken zal worden, bestudeerde het relatieve effect van twee verschillende
methoden om luistervaardigheid te trainen in een tweede taal:
(i) focus op verstaan
(ii) focus op begrijpen
Verder zal er ingegaan
worden op twee pilotstudies die voorafgaand aan de hoofdonderzoek werden
uitgevoerd.