Programma Dag van de Fonetiek 2000

SAMENVATTINGEN

Vrijdag 26 januari 2001, Sweelinckzaal, Drift 21 te Utrecht

Voordrachten

10:10 Melodische karakteristieken van backchannels in Nederlandse taakgeoriënteerde dialogen

Johanneke Caspers (Universiteit Leiden)

In natuurlijke conversatie komen regelmatig "backchannels" voor: korte optionele uitingen als 'hmhmm' en 'ja', die worden gebruikt door luisteraars om aan te geven dat de boodschap van de huidige spreker tot zover duidelijk is en dat de spreker verder kan gaan. Mijn onderzoeksvraag luidde of backchannels zichzelf melodisch onderscheiden van lexicaal identieke uitingen met een andere functie, zoals bijvoorbeeld het - niet-optionele - antwoord op een ja/nee-vraag. Beide typen uitingen werden opgespoord in een corpus taakgeoriënteerde dialogen ("Map-task"-dialogen), waarna het toonhoogteverloop werd getranscribeerd in het ToDI-systeem ("Transcription of Dutch Intonation"). Resultaten laten zien dat ca. 70% van de backchannels gemarkeerd wordt met een niet-prominente lage toon gevolgd door een hoge grenstoon (getranscribeerd als 'LH%'), terwijl ruim 60% van de niet-backchannels een toonhoogteaccent krijgt. Dit betekent dat er in het onderzochte materiaal een neiging bestaat om backchannels melodisch te onderscheiden van lexicaal identieke niet-backchannels.

10:30 De fonetiek van de gebiedende wijs

Marlon de Graaf & Vincent van Heuven (Universiteit Leiden)

Het Nederlands (als veel andere talen) heeft syntactische constructies om aan te geven dat een zin een mededeling, een vraag, en bevel of een uitroep is. Deze constructies signaleren de bedoeling van de spreker alleen effectief als zij worden gesproken met de bijpassende prosodie, in het bijzonder intonatie. Na onderzoek naar de fonetiek van de vraag (van Heuven & Haan, LIN-2000) onderzoeken we nu de fonetische correlaten van de imperatief. Vier mannen en vier vrouwen spraken ieder twee korte en twee langere zinnen, twee keer als mededeelzin (b.v. Ik neem de trein naar Leiden) en twee keer als imperatief (Neem de trein naar Leiden!), en bovendien alles één keer neutraal, een tweede keer op vriendelijke toon, en een derde keer streng/autoritair. Duuropbouw, toonhoogteverloop en de luidheidscontour werden statistisch geanalyseerd. Imperatieven schuiven langs schaal van 'vriendelijk' naar 'streng' op naar 'streng'; zij doen dat in elke van de drie spreekwijzen. Wij concluderen, in tegenstelling tot Quittart (1925), dat er geen specifieke imperatiefmelodie bestaat; er is 'slechts' sprake van een paralinguistisch verschijnsel.

10:50 De prosodische realisering van drie tekststructurele kenmerken: alinea-indeling, importantie en redundantie

Hanny den Ouden (Katholieke Universiteit Brabant)

In dit onderzoek staat de prosodische realisering van twee aspecten van tekststructuur centraal: de lineaire structuur, d.w.z. de opeenvolging van diverse tekstgedeelten van een tekst, en de hierarchische structuur, d.w.z. de mate van belangrijkheid van de tekstgedeelten ten opzichte van elkaar. In dit onderzoek hebben we een relatief eenvoudige procedure gebruikt om de beide aspecten van tekststructuur te identificeren. Van vier, oorspronkelijk voor de radio uitgesproken teksten (nieuwsberichten en commentaren op de actualiteiten) werden de geschreven versies voorgelegd aan 52 studenten en hen werd gevraagd aan te geven:

Van de gesproken teksten werden pauzeduren tussen de zinnen, F0 maxima en articulatiesnelheid per zin gemeten. De lineaire opeenvolging van alinea's in de teksten werd gemarkeerd door zowel pauzeduur (F (3,117)=21.64, p<.001) als het F0 maximum (F (3,117) =4.11, p<.01). De hierarchische structuur werd op twee manieren gemarkeerd: importantie door pauzeduur (F (3,98) =2.89, p<.05) en redundantie door het F0 maximum (F (3,101) =3.73, p<.025). De drie aspecten van tekststructuur hadden geen effect op articulatiesnelheid.

11:10 Vorm en betekenis van rhythme

L. van Buuren (Universiteit van Amsterdam)

Citaat:
"All languages have their distinctive rhythms
Poetic rhythm is a heightening and an exploitation of the rhythm of a particular language. To be able to speak English, therefore, is to be familiar with the rhythms that English poetry uses."
(Derek Attridge, Poetic Rhythm, Cambridge, 1995, p4).

In April 2000 hield ik een voordracht voor de British Association of Academic Phoneticians getiteld Teaching Rules for English Rhythm. Hierin werden zowel de (fonetische) vorm als de betekenis van het rhythme van de Engelse spreektaal behandeld. Het stuk is te vinden op mijn website(-in-aanbouw) www.linguavox.nl. Afhankelijk van de beschikbare spreektijd wil ik gaarne de hoofdpunten daarin nogmaals ter discussie stellen, en verder enkele stappen zetten in de richting van een rhythmische beschrijving van het Nederlands, het verband tussen spreektaal-, vers- en zang-rhythme, en een theorie over rhythme in het algemeen.

11:30 Als muziek in de oren: baby's en hun moeders

Hester Rozendaal & Jeannette van der Stelt (Universiteit van Amsterdam)

We weten tegenwoordig weer dat de spraakontwikkeling van een baby al voor de geboorte begint. De buikbaby herkent stemmen van ouders, broertjes en zusjes, en van andere bekenden. Je kunt je nog-niet-geboren baby best al wel voorlezen. Na de geboorte hebben die vertrouwde geluiden duidelijk de voorkeur van de baby. Zo klein als ze zijn blijken ze ook al kenmerken van hun moedertaal in het geheugen te hebben opgeslagen. Ze verkiezen de moedertaal boven een vreemde taal, ze verkiezen eerder gehoorde zinnen boven onbekende, en met bekende woorden kan je langer hun aandacht vasthouden dan met onbekende woorden. Communicatie tussen moeder en baby vormt de basis voor het leren spreken van kinderen. Spraakproductie is een ingewikkeld bewegingsproces van stem en articulatie. Maar baby's blijken dat leerproces systematisch aan te pakken. In deze presentatie zullen we ingaan op de "muziek in de duetten van baby's en hun moeders".

11:50 Een datagebaseerde methode voor het modelleren van uitspraakvariatie voor automatische spraakherkenning

Judith Kessens, Helmer Strik & Catia Cucchiarini (Universiteit Nijmegen)

In mijn promotieonderzoek modelleer ik uitspraakvariatie in het Nederlands met als doel het verbeteren van de prestaties van automatische spraakherkenners. Tot nu toe heb ik uitspraakvariatie gemodelleerd die beschreven is in de literatuur. Deze methode van modelleren van uitspraakvariatie wordt ook wel "kennis-gebaseerd" genoemd. Het probleem met kennis-gebaseerde methoden is dat niet alle uitspraakvariatie is onderzocht en beschreven in de literatuur. Dit geldt met name voor minder voorbereide, oftewel spontane spraak, en dit is nu juist het soort spraak die huidige herkenners moeten kunnen herkennen. Om deze reden wil ik een andere methode gebruiken om informatie te verkrijgen over uitspraakvariatie. Deze methode heet ook wel "data-gebaseerd" omdat een grote hoeveelheid spraakdata geanalyseerd wordt om informatie over uitspraakvariatie te verkrijgen. Het doel van dit onderzoek is het bepalen of de voorgestelde "datagebaseerde" methode geschikt is voor het modelleren van uitspraakvariatie in automatische spraakherkenners. Hiertoe zijn "datagebaseerde" uitspraakregels opgesteld die de uitspraakvariatie in het spraakmateriaal beschrijven. Met deze regels zijn varianten gegenereerd die gebruikt zijn tijdens het herkenproces. De resultaten van herkenexperimenten met deze varianten en meer details over de methode zullen tijdens de presentatie gegeven worden.

12:10 Automatische sprekerherkenning

Ronald van Buuren (TNO, Technische Menskunde)

Met behulp van berekeningstechnieken op basis van covariantiematrices (Bimbot et al, 1995) is het mogelijk om onafhankelijk van de inhoud, een spreker te herkennen aan de hand van een fragment spraak. De herkenning vergelijkt het onbekende fragment met een reeks eerder verzamelde en (met de hand) geïdentificeerde fragmenten en kiest hieruit het meest gelijkende. Het criterium wordt berekend uit de "afstand" tussen de covariantiematrices van de bekende fragmenten en het onbekende fragment.

De automatische sprekerherkenning werkt het beste op spraakmateriaal van hoge kwaliteit: bij 400 bekende sprekers wordt een nieuw fragment van één van hen in circa 95% van de gevallen correct herkend. Voor spraakmateriaal met telefoonbandbreedte en achtergrondruis zakt deze score naar circa 60%.

Multimedia-demonstratie op draagbare PC is beschikbaar.

Literatuur

14:00 Leereffecten bij het beluisteren van synthetische spraak

Martine van Zundert & Jacques Terken (IPO/Technische Universiteit Eindhoven)

Mensen die voor het eerst met synthetische spraak worden geconfronteerd hebben vaak problemen om te verstaan wat er wordt gezegd. Dit staat in schril contrast met het vermogen van onderzoekers op het vlak van spraaksynthese, die de synthetische spraak doorgaans goed kunnen verstaan. Er is dus sprake van een leerproces. In de voordracht presenteren we de resultaten van twee experimenten waarin we hebben geprobeerd zicht te krijgen op de aard van de kennis die luisteraars opdoen tijdens blootstelling aan synthetische spraak. In het eerste experiment werd onderzocht of de opgedane kennis overdraagbaar is: als een luisteraar wordt getraind met een specifieke soort synthese, kan hij dan van de opgedane kennis gebruik maken als hij naderhand een andere soort spraaksynthese te horen krijgt? Een tweede experiment ging over de vraag wat precies de aard is van de opgedane kennis over fonetische eigenschappen van de synthetische spraak.

14:20 Verstaanbaarheid na sterke tijdscompressie: natuurlijke vs. synthetische spraak

Esther Janse, Fiona Sely & Eva Sittig (Universiteit Utrecht)

Uit eerder onderzoek is gebleken dat, bij een gelijk spreektempo, de verstaanbaarheid van snel uitgesproken spraak slechter is dan die van achteraf versnelde spraak. Een woorddetectie-onderzoek van Quene & Krull (1999) liet zien dat luisteraars sneller een ongeassimileerd woord konden detecteren in snelle spraak dan een geassimileerd woord, hoewel de geassimileerde vorm natuurlijker was gegeven de spreeksnelheid. Hieruit zou men kunnen afleiden dat woordherkenning en verstaanbaarheid in snelle spraak geholpen worden door meer segmentele redundantie. Als verstaanbaarheid van snelle spraak gebaat is bij segmentele redundantie zou het zo kunnen zijn dat difoonspraak, opgebouwd uit segmenteel redundante bouwstenen, beter bestand is tegen tijdscompressie dan natuurlijke spraak. Om deze hypothese te toetsen werd de verstaanbaarheid van versnelde Fluent Dutch-spraak vergeleken met die van de versnelde natuurlijke spraak van de inspreker van de difonen. Tegengesteld aan de hypothese bleek natuurlijke spraak na sterke versnelling beter verstaanbaar te zijn dan synthetische spraak. Enkele mogelijke verklaringen zullen besproken worden.

14:40 Hierarchische categorisatie van gecoarticuleerde fonemen

Roel Smits (Max Planck Instituut voor Psycholinguistiek, Nijmegen)

Het probleem hoe luisteraars gecoarticuleerde fonemen categoriseren wordt in deze studie geanalyseerd vanuit het perspectief dat luisteraars statistische patroonherkenners zijn. Hierarchische categorisatie-strategieen - waarin de herkenning van een foneem wordt beinvloed door die van een aangrenzend foneem - worden voorgesteld als een efficiente manier om met een aantal akoestische effecten van coarticulatie om te gaan. Vervolgens wordt een experiment besproken waarin de voorgestelde strategieen worden getoetst voor de productie en perceptie van fricatief-klinker syllaben. Op basis van de distributies van akoestische cues in een set van gesproken syllaben /si Si sy Sy/, waar assimilatie plaatsvindt van de klinkerronding naar de fricatief, wordt voorspeld dat de categorisatie van de fricatief afhankelijk is van de waargenomen klinker. Deze voorspelling wordt bevestigd in een luisterexperiment, waarin luisteraars synthetische fricatief-klinker syllaben afkomstig uit een tweedimensionaal stimulus continuum categoriseerden.

15:00 Non-native spraakcommunicatie

Sander van Wijngaarden (TNO Technische Menskunde)

De effectiviteit van spraakcommunicatie wordt soms verminderd doordat één of meer partijen in een conversatie tweede-taaleffecten vertonen. Zij hebben de gebruikte taal op latere leeftijd geleerd, hetgeen een effect heeft op de spraakverstaanbaarheid. Met behulp van verschillende soorten experimenten (verstaanbaarheid van zinnen en nonsenswoorden, letter-guessing) is gezocht naar een kwantitatieve inschatting van de omvang van zulke effecten op de spraakverstaanbaarheid. Hierbij is zowel gekeken naar tweede-taaleffecten bij het spreken ("buitenlands" accent) als het luisteren, in het Nederlands, Duits en Engels.
Op grond van de resultaten blijkt het mogelijk non-native verstaanbaarheidseffecten te vergelijken met andere bronnen van verstaanbaarheidsvermindering, zoals omgevingsgeluid en nagalm; dergelijke kennis kan worden benut bij systeemontwerp van bijvoorbeeld toespreekinstallaties. De relatie tussen "proficiency" en verstaanbaarheid komt eveneens duidelijk naar voren.

Literatuur

15:50 Het stem-tijd continuüm

Gerrit Bloothooft, Peter Pabon & Guus de Krom (Universiteit van Utrecht)

Met fonetografie kunnen we de stem in kaart brengen. Toch doet het platte vlak met assen voor toonhoogte en geluidsdruk onrecht aan de complexiteit van de stemgeving. Zelfs als we met behulp van kleuring informatie over jitter en spectrale helling weergeven geeft de representatie alleen een gemiddeld beeld. Omdat (pathologische) stemkwaliteit zich ook en misschien vooral uit in (beperkingen van) de dynamische mogelijkheden van de stem zou de factor tijd in fonetografieregistratie een belangrijke rol moeten krijgen. In de nieuwste fonetograaf versie worden nu alle directe meetresultaten bewaard. We hebben dan een 'spoor' van akoestische stemkwaliteitsparameters in de tijd. Daardoor is mogelijk om de tijdsdimensie in stemgeving post-hoc te bestuderen. Die tijdsafhankelijkheid is gebruikt om onderzoek te doen naar

a) het herkennen van fonetogrammen met Hidden Markov Modellen,
b) het spoor van overgang van stemregister (stembreuk) in het fonetogram, en
c) aspecten van de start van fonatie ten opzichte van stationaire fonatie (lopend onderzoek).

16:10 Verbeterde toegang tot het TIMIT-spraakcorpus

David Weenink (Universiteit van Amsterdam)

Het TIMIT-spraakcorpus op CDROM is een Amerikaans spraakbestand dat bestaat uit 6300 zinnen uitgesproken door 630 verschillende sprekers. Ongeveer 70% van de sprekers is man en 30% is vrouw. De sprekers stammen uit de 8 belangrijkste dialectregios van de Verenigde Staten. Alle 6300 zinnen zijn gelabeld op zinsnivo, woordnivo en foneemnivo. Voor elk van de 6300 uitgesproken zinnetje staat de informatie in 4 aparte bestanden op de CDROM:

Om de toegang tot de informatie in deze 4x6300 bestanden te verbeteren, hebben we alle, bijna 250.000, fonemen van dit corpus met additionele informatie in een database gezet. In de database zijn van elk foneem een groot aantal gegevens verzameld, waaronder de duur van het foneem, het foneemtype, de foneemcontext, woord- en zinsinformatie, klemtooninformatie en sprekerinformatie. Om het ruwe materiaal te kunnen lezen hebben we verder het computerprogramma praat zo aangepast dat de audio- en labelbestanden van de CDROM gelezen kunnen worden.

16:30 Spraak- en tekstpresentatie voor een draagbaar informatiesysteem

Jacques Terken & Liesbeth Verhelst (IPO/Technische Universiteit Eindhoven)

In het kader van het EU-project COMRIS is een draagbaar informatiesysteem ontwikkeld dat een conferentiebezoeker door middel van gesproken boodschappen van informatie kan voorzien, bijvoorbeeld over aanstaande voordrachten die bij zijn interesse aansluiten. De boodschappen worden ter plekke gegenereerd en daarom wordt spraaksynthese gebruikt. Het apparaat bevat ook een klein schermpje waarop de tekst van boodschap kan worden geprojecteerd, maar niet in een keer: het schermpje moet een aantal keren ververst worden. In de voordracht bespreken we een experiment waarin we hebben onderzocht of de gecombineerde presentatie van spraak en tekst binnen de door de technologie gestelde beperkingen tot een beter begrip van de boodschap leidt dan presentatie van spraak of tekst alleen.

Demonstraties

Fluency Spraaksynthese

Dick van Bergem, Arthur Dirksen, Ludmila Menert (Van Dale Data)

Fluency, sinds november 1999 onderdeel van Van Dale, maakt tekst-naar-spraaksoftware voor het Nederlands. Bezoek onze stand voor een demonstratie van onder andere: