Programma Dag van de Fonetiek

SAMENVATTINGEN

Vrijdag 17 december 1999, Sweelinckzaal, Drift 21 te Utrecht

Voordrachten

10:00 Automatische evaluatie van vloeiendheid in voorgelezen en spontane spraak

Catia Cucchiarini en Helmer Strik (KU Nijmegen)

In het kader van ons onderzoek naar de automatische evaluatie van spreekvaardigheid Nederlands als tweede taal (NT2) zijn verschillende experimenten uitgevoerd waarbij verschillende aspecten van spraakkwaliteit zowel door een Continue-Spraakherkenner (CSH) als door menselijke beoordelaars zijn gescoord [zie o.a., 1, 2].
In deze lezing zullen we rapporteren over twee experimenten, eentje met voorgelezen en eentje met spontane spraak, waarbij de spraak van twee groepen van 60 NT2-leerders op het aspect vloeiendheid door mensen en machine is geëvalueerd. Bij beide experimenten zijn de scores van de CSH vergeleken met de scores die door menselijke beoordelaars zijn toegekend. Vervolgens zijn de data voor voorgelezen spraak vergeleken met die voor spontane spraak. De resultaten laten zien dat automatische scoring van vloeiendheid mogelijk is, hoewel niet alle automatische maten die geschikt blijken te zijn voor voorgelezen spraak even geschikt zijn voor het scoren van vloeiendheid in spontane spraak. Mogelijke verklaringen voor deze bevindingen zullen worden besproken alsmede suggesties voor verder onderzoek.

[1] C. Cucchiarini, H. Strik & L. Boves (2000)
Quantitative assessment of second language learners' fluency by means of automatic speech recognition technology, Journal of the Acoustical Society of America, January 2000.

[2] C. Cucchiarini, H. Strik & L. Boves (2000)
Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech, Speech Communication.

Catia Cucchiarini
A2RT, Dept. of Language & Speech
Univ. of Nijmegen                      Tel.nr.: +31-24-3615785
P.O. Box 9103                          Fax nr.: +31-24-3612907
6500 HD  Nijmegen                      catia@let.kun.nl
The Netherlands                        http://zap.to/catia
 

10:20 Verbetering van consonantidentificatie door het gebruik van klinkertransities in ASH

 Jacques Koreman en Attilio Erriquez (Univ. des Saarlandes)

In de automatische spraakherkenning (ASH) wordt coarticulatie doorgaans behandeld als een ongewenste bron van variatie en wordt vergeten dat ze tegelijkertijd een bron van informatie is.  Zo is uit perceptie-experimenten [1] bekend dat klinkertransities belangrijke informatie over de identiteit van de aangrenzende medeklinker bevatten. Toevoeging van klinkertransities leidt in een automatisch consonantidentificatiesysteem tot een toename in de correcte identificatie van medeklinkers met ruim 2 procentpunten; de identificatie van de articulatieplaats wordt zelfs met bijna 20 procentpunten verbeterd [2].

Desondanks leidt de toevoeging van klinkertransities in een consonantidentificatiesysteem waarin akoestische parameters op fonetische kenmerken worden afgebeeld niet tot een noemenswaardige verbetering van de (al hoge) consonantidentificatie.  Ook het selectieve gebruik van de transities levert niet het gewenste resultaat op.  De meest voor de hand liggende reden is dat de afbeelding van akoestische parameters op fonetische kenmerken de informatie in de transities niet op de juiste manier gebruikt.

[1] Delattre, P., A. Liberman, F. Cooper (1955). "Acoustic loci and
transitional cues for consonants," JASA 27(4), 769-773.
[2] Koreman, J., W.J. Barry en B. Andreeva (1998). "Exploiting transitions
and focussing on linguistic properties for ASR," Proc. ICSLP'98, Sydney.

Jacques Koreman en Attilio Erriquez
         Institut fuer Fonetik, Universitaet des Saarlandes
         Saarbruecken (Duitsland)
         E-mail: jkoreman@coli.uni-sb.de
 

10:40 ASH en dialectafstanden

 Louis ten Bosch (Lerhout &Hauspie, Brussel)

De huidige commerciele spraakherkenningssystemen komen tot een herkenning van 80 tot 95 procent voor dicteertoepassingen na een spreker-adaptatiefase op ruwweg 10-20 minuten spraak van een testspreker. Deze sprekeradaptatie kleurt het spreker-onafhankelijke akoestisch model bij op basis van de spraakkarakteristieken van de testspreker. In het algemeen wordt het testresultaat voor die spreker aanzienlijk verbeterd, zoals bijvoorbeeld in het geval dat die spreker een accent heeft of dialectisch spreekt.
In dit praatje passeren de volgende punten de revue:

(a) het verschil in herkenning voor en na adaptatie
(b) de 'akoestische' afstand tussen twee dialecten
(c) fonologische observaties van Nerbonne en Heeringa voor dialect-afstanden.
De meeste data zullen gebaseerd zijn op het Nederlands.


 

11:00 Transcriptie van spontane spraak: een vergelijking tussen mens en machine

 Judith M. Kessens, Mirjam Wester, Catia Cucchiarini en Helmer Strik (KU Nijmegen)

Het onderzoek dat gepresenteerd zal worden heeft uiteindelijk tot doel om te bepalen in hoeverre een automatische spraakherkenner gebruikt kan worden om automatisch fonetische transcripties te maken.  Het doel van het experiment dat gepresenteerd wordt is om te bepalen of de spraakherkenner gebruikt zou kunnen worden om automatisch uitspraakvarianten te selecteren. Voor dit experiment is spontane spraak gebruikt, die geselecteerd werd uit conversaties tussen mens en machine via de telefoon.  Hiertoe zijn voor 379 woorden (uit 186 uitingen) automatisch uitspraakvarianten gegenereerd, m.b.v. vijf frequent voorkomende, fonologische regels voor het Nederlands die betrekking hebben op deleties en inserties van fonen.

De spraakherkenner en 9 ervaren luisteraars voerden dezelfde taak uit, nl. bepalen welke transcriptie het beste past bij de uitspraak van het woord.

De resultaten laten zien dat het gemiddelde percentage overeenstemming tussen de oordelen van de luisteraars 82% was.  Het gemiddelde percentage overstemming tussen luisteraars en machine was 5% lager, namelijk 77%. Meer gedetailleerde analyses zullen gepresenteerd worden (zie verder [1] en [2]).

[1] J.M. Kessens, M. Wester, C. Cucchiarini & H. Strik, "The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine", Proc. International Conference on Spoken Language Processing, Vol. 6, pp. 2715-2718.

[2] M. Wester & J.M. Kessens "Comparison between Expert Listeners and Continuous Speech Recognizers in selecting Pronunciation Variants", Proceedings of the 14th International Congress of Phonetic Sciences, San Fransisco, USA, august 1999, pp. 723-726.

Judith M. Kessens, Mirjam Wester, Catia Cucchiarini & Helmer Strik, Afdeling Taal & Spraak, A2RT, Katholieke Universiteit Nijmegen,
Postbus 9103, 6500 HD Nijmegen.
tel/fax: (0)24-3612055/3612907
 

11:20 Het automatisch verkrijgen en verifiëren van hypothesen over uitspraakvariatie met behulp van automatische spraakherkenning

Judith M. Kessens, Mirjam Wester en Helmer Strik (KU Nijmegen)

Het modelleren van uitspraakvariatie kan de prestaties van automatische spraakherkenners verbeteren [1].  In [1] hebben wij gebruik gemaakt van fonologische kennis om uitspraakvariatie te beschrijven.  Fonologische kennis heeft echter twee nadelen: 1) veel van de resultaten zijn op laboratorium spraak gebaseerd, waardoor ze misschien niet gelden voor andere soorten spraak zoals bv.  spontane spraak en 2) de kennis over uitspraakvariatie is niet volledig.

Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon.  Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven.  Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.

De methode die wij gebruiken werkt als volgt.  Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden.  Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie.  Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63% [2].  De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn.  Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.

[1] Judith M. Kessens, Mirjam Wester & Helmer Strik (1999). Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation, Speech Communication, 29 (2-4), 193-207.

[2] Mirjam Wester, Judith M. Kessens and Helmer Strik. (1998). Two automatic approaches for analyzing the frequency of connected speech processes in Dutch, Proceedings International Conference on Spoken Language Processing and Student Day, Vol. 7, pp. 3351-3356

Mirjam Wester, Judith Kessens & Helmer Strik A2RT, Afdeling Taal en Spraak, Katholieke Universiteit Nijmegen Postbus 9103, 6500 HD Nijmegen
 

11:40 Akoestische parameters versus fonetische kenmerken voor ASH

Helmer Strik^, Jacques Koreman* & Bistra Andreeva

In automatische spraakherkenning (ASH) worden als akoestische parameters meestal cepstrale parameters gebruikt. Deze cepstrale parameters zijn door ons afgebeeld op 2 sets van fonetische kenmerken, resp. gebaseerd op de kenmerken van IPA (International Phonetic Association) en op die van SPE (Sound Pattern of English).
Door de akoestische parameters op fonetische kenmerken af te beelden is het mogelijk de linguistische informatie in het signaal explicieter te modelleren [1,2]. De resultaten van onze experimenten laten zien dat hierdoor ook de foneemidentificatie verbeterd van 15,6% correct voor cepstrale parameters, naar 42,3% respectievelijk 31,7% voor IPA- en SPE-gebaseerde kenmerken. Bovendien zijn de verwisselingen tussen fonemen fonetisch gezien in het algemeen minder ernstig wanneer fonetische kenmerken gebruikt worden.

[1] J. Koreman, B. Andreeva, W.J. Barry (1998) Do phonetic features help to improve consonant identification in ASR? Proc. ICSLP-98, Sydney.

[2] J. Koreman, B. Andreeva, H. Strik (1999) Acoustic parameters versus phonetic features in ASR. Proceedings of the 14th International Congress of Phonetic Sciences, San Francisco, USA, pp. 719-722.

^ A2RT, Afdeling Taal & Spraak, Katholieke Universiteit Nijmegen
http://lands.let.kun.nl/TSpublic/strik/
* Inst. voor Fonetiek, Univ. Saarbruecken, Duitsland
http://www.coli.uni-sb.de/phonetik/

12:00 Het modelleren van uitspraakvariatie in een Nederlandse spraakherkenner

Judith M. Kessens, Mirjam Wester en Helmer Strik (KU Nijmegen)

In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.

Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie.  Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:

1) Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.

2) Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.

3) Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.

In deze methode kunnen stap 2 en 3 iteratief herhaald worden.

Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1].  Het percentage fout herkende woorden in de uitgangspositie was 12.75%.  Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12% (9% relatief).  Voor meer details zie [2].

[1] H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini & L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int.  Journal of Speech Technology, Vol.  2, No.  2, pp.  119-129.

[2] Judith M. Kessens, Mirjam Wester & Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.

Judith M. Kessens, Mirjam Wester, Helmer Strik, Afdeling Taal & Spraak, A2RT, Katholieke Universiteit Nijmegen, Postbus 9103, 6500 HD Nijmegen. tel/fax: (0)24-3612055/3612907
 

13:20 Postvocale /r/-deletie bestaat: veslag van een ondezoek

 Henk van den Heuvel en Catia Cucchiarini (KU Nijmegen)

De deletie van postvocale /r/ (voor een consonant) in het Nederlands is een weinig onderzocht, maar een inmiddels zeer manifest verschijnsel.  Uit eigen ervaring kunnen we vertellen dat sommige mensen niet meer weten of 'Spijkenisse' en 'slabbetje' met of zonder /r/ (voor resp.  de 'n' en de 't') geschreven moeten worden.  Sterker nog, we zijn zelfs het woord 'slabber' tegengekomen als hypercorrecte afleiding van het meer gangbare diminutief 'slabbetje'.

Naar aanleiding van dit soort observaties hebben we onderzocht of de deletie van postvocale /r/ inderdaad optreedt, en zo ja of ze wordt beinvloed door de volgende factoren:
- type van de voorafgaande vocaal (vol of schwa)
- lengte van de voorafgaande vocaal (kort of lang)
- (lexicale) klemtoon van de voorafgaande vocaal (+ of -)

Het spraakmateriaal bestond uit 450 woorden uit spontaan gesproken zinnen, afkomstig van treininformatiedialogen.  Deze woorden werden zowel door geoefende menselijke transcribenten als door een automatische spraakherkenner beoordeeld op de aanwezigheid van /r/.  In alle categorieen werden gevallen van /r/-deletie geconstateerd.  Bovendien trad /r/-deletie het frequentst op wanneer de voorafgaande vocaal een schwa was.

In de voordracht zullen gedetailleerde resultaten worden gepresenteerd en tevens plannen voor toekomstig onderzoek worden ontvouwd.
 

13:40 /t/-deletie in het Nederlands: wat zegt de spraakherkenner ervan?

Mirjam Wester en Helmer Strik (KU Nijmegen)

Recent is er binnen A2RT een tool ontwikkeld voor automatische transcriptie, die ongeveer net zo goed presteert als een menselijke transcribent als het gaat om het selecteren van uitspraakvarianten [1]. Met behulp van deze tool, is het voorkomen van /t/-deletie in het Nederlands onderzocht.

In het VIOS materiaal (mens-machine interacties via de telefoon [2]) komt 75.442 maal een /t/ voor.  Daarvan worden er 9.690 gedeleerd (12.8%).  Een voorbeeld van een frequent voorkomend woord is: "hoeft".  Het komt 802 keer voor in het materiaal en in 428 van de gevallen wordt de /t/ gedeleerd (53.4%).  In het VIOS materiaal is echter geen informatie over de sprekers voorhanden.  Dit is wel het geval voor het Polyphone corpus (o.a. sexe, regio, leeftijd), en daarom wordt dezelfde procedure uitgevoerd op het Polyphone corpus.

Analyses van de resultaten zullen gepresenteerd worden.  Een vergelijking zal ook gemaakt worden met de bevindingen van Ton Goeman [3].

[1] Judith M. Kessens, Mirjam Wester, Catia Cucchiarini, & Helmer Strik (1998) The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine, Proceedings International Conference on Spoken Language Processing, Sydney, Vol. 6, pp. 2715-2718.

[2] H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini & L. Boves (1997) A spoken dialogue system for the Dutch public transport information service, Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.

[3] Ton Goeman (1999) T-deletie in Nederlandse dialecten, proefschrift VU, Amsterdam.

Mirjam Wester & Helmer Strik A2RT, Afdeling Taal en Spraak, Katholieke Universiteit Nijmegen Postbus 9103, 6500 HD Nijmegen "M.Wester" <M.Wester@let.kun.nl>
 

14:00 De invloed van de auditieve perceptie op de  spraakgeluiden van dove en horende kinderen van 2,5 tot 18 maanden oud

 Ineke van den Dikkenberg-Pot (Univ. van Amsterdam)

Om de invloed van de auditieve perceptie op de spraakproduktie van jonge kinderen te onderzoeken zijn de spraakgeluiden van dove en horende kinderen van 2,5 tot 18 maanden oud longitudinaal onderzocht (in samenwerking met C. Clement).  Eerst is elke uiting geclassificeerd aan de hand van drie mogelijke typen articulatie en vijf mogelijke typen fonatie gebaseerd op een sensomotorische benadering van de geluidsprodukties van jonge kinderen (Koopmans-van Beinum en Van der Stelt, 1986).  Vervolgens zijn alle uitingen met articulatie ingedeeld in drie mogelijke plaatsen van articulatie en zeven mogelijke manieren van articulatie. De resultaten van het onderzoek laten zien dat het gebrek aan auditieve feedback een duidelijke rol gaat spelen vanaf de leeftijd van 6 maanden. Vóór deze leeftijd lijkt de spraakproduktie vooral anatomisch en fysiologisch bepaald, hoewel ook dan al verschillen tussen dove en horende kinderen kunnen worden aangetoond.

Ineke van den Dikkenberg-Pot
Instituut voor Fonetische Wetenschappen
Universiteit van Amsterdam
Herengracht 338
1016 CG Amsterdam
Tel.: 020-525 2196
Email: Ineke.van.den.Dikkenberg-Pot@hum.uva.nl
 

14:20 Genuscongruentie en de auditieve verwerking van samengestelde nomina

Leo Koolen, Vincent J. van Heuven en Wied Ruijssenaars (Univ. Leiden)

Er is nog maar weinig bekend van de herkenning van gesproken samenstellingen. We ondernemen een verkenning voor het Nederlands. Stimulus woorden zijn samenstellingen die bestaan uit twee eenlettergrepige nomina. In de helft van de samenstellingen zijn beide leden van hetzelfde genus; dit zijn zgn. homogene samenstellingen: beide leden zijn "zijdig" (lidwoord is "de") of beide zijn onzijdig (lidwoord is "het"). Iedere homogene samenstelling wordt gematcht door een heterogene samenstelling, waarin het tweede lid vervangen is door een alternatief nomen met tegengesteld genus. Iedere samenstelling is - geblokt over groepen proefpersonen - aangeboden in drie condities:


(i) in combinatie met een passend lidwoord (b.v. "het zijspoor, de zijkant"),
(ii) in combinatie met een neutraal lidwoord "een zijspoor/een zijkant", en
(iii) in combinatie met een conflicterend lidwoord "de zijspoor/het zijkant".

De diverse samenstelling/ lidwoordcondities zijn geblokt aangeboden aan 6 x 4 luisteraars in een lexicale decisietaak ("is dit een bestaand Nederlands woord of niet?"). Percentage correcte beslissingen en de bijbehorende reactietijden zijn gemeten. De resulaten laten zien dat correcte lexicale decisies het snelst zijn wanneer het lidwoord congrueert met beide leden van de samenstelling (en dus ook met het genus van de samenstelling als geheel). De traagste reactietijd wordt gevonden als het lidwoord strijdig is met het genus van beide leden van de samenstelling. Een conflict tussen lidwoord en alleen het eerste lid van de samenstelling is destructiever dan een conflict met alleen het tweede lid (en dus ook met de samenstelling als geheel). Dit effect is totaal onverwacht: Nederlandse luisteraars zouden geleerd moeten hebben dat een lidwoord niet hoeft te kloppen met het eerstvolgende nomen, zeker niet in een proefsituatie met louter samenstellingen waarin altijd nog een tweede nomen volgt. Kennelijk luistert de Nederlander niet verder dan zijn neus lang is.

Leo Koolen & Vincent J. van Heuven & Wied Ruijssenaars*
Fonetisch Laboratorium Universiteit Leiden
*Orthopedagogiek, Universiteit Leiden
 

14:40 Verbetering van difoonsynthese door het toevoegen van context-afhankelijke difonen

 Esther Klabbers en Raymond Veldhuis (IPO, Eindhoven)

Een bekend probleem bij difoonsynthese is het voorkomen van hoorbare discontinuiteiten op difoongrenzen.  Formantsprongen op de overgangen suggereren dat het probleem wordt veroorzaakt door spectrale verschillen. In klinkers is het probleem het grootst.  In een voorgaand experiment (Klabbers & Veldhuis 1998) zijn de resultaten van een luisterexperiment gecorreleerd met een aantal spectrale afstandsmaten, om een objectieve afstandsmaat te vinden die het best de hoorbare discontinuiteiten voorspelt.  De Kullback-Leibler afstandsmaat (KL), afkomstig uit de statistiek, kwam daarbij als beste uit de bus.  Daarna is de difoondatabase uitgebreid met context-afhankelijke difonen.  Om het aantal extra difonen te beperken is de KL-afstand gebruikt om difonen die spectraal dicht bij elkaar liggen te clusteren.  Daardoor is het niet nodig om alle mogelijke difooncombinaties op te nemen maar kan worden volstaan met een kleinere set.  Een tweede luisterexperiment heeft aangetoond dat het aantal hoorbare discontinuiteiten significant is verminderd.

Esther Klabbers
http://www.ipo.tue.nl/ipo/people/eklabber.html
IPO, Center for User-System Interaction
P.O. Box 513, 5600 MB Eindhoven,
the Netherlands
tel: +31-40-2475259
fax: +31-40-2431930
 

15:30 Temporele structuur bij normaal en snel spreektempo

Esther Janse (Univ. Utrecht)

Eén van de redenen voor de slechte verstaanbaarheid van versnelde spraak zou kunnen zijn dat de timing van lineair versnelde spraak afwijkt van de timing van snel uitgesproken spraak.

Bij dit onderzoek stonden de volgende vragen centraal: *Hoe verandert de duur van beklemtoonde en onbeklemtoonde klinkers bij hoger spreektempo? *Welke rol speelt zinsaccent hierbij?

In het Engels blijken beklemtoonde klinkers relatief minder verkort te worden bij hoger spreektempo dan onbeklemtoonde klinkers (van Santen 1994). In dit experiment werd onderzocht of dit voor het Nederlands ook geldt.  De resultaten lieten zien dat de duurratioís beklemtoonde/onbeklemtoonde klinker aanzienlijk groter werden als gevolg van sneller spreektempo.  Het effect van zinsaccent op de klinkerduren wordt kleiner bij hoger spreektempo.

Hieruit blijkt dat de temporele structuur bij sneller spreektempo inderdaad sterk afwijkt van die bij normaal tempo.

Esther Janse
Trans 10
3512 JK Utrecht
UiL OTS
Esther.Janse@let.uu.nl
 

15:50 De relatie tussen waargenomen prominentie en woordklassen

Barbertje Streefkerk en Karijn Helsloot (Univ. van Amsterdam)

Op grond van 1244 losse zinnen uit kranten, bestaande uit 13091 woorden, is de relatie bepaald tussen woordklassen en prominentie oordelen.  De zinnen zijn door verschillende mensen uit heel Nederland voorgelezen.  Tien 'naïeve' luisteraars kregen de taak de met nadruk uitgesproken woorden te markeren.  Als verwacht zijn de functiewoorden niet of nauwelijks als prominent waargenomen, en de inhoudswoorden als prominent.  De verschillende woordklassen laten zich globaal ordenen in een glijdende schaal van niet prominent tot meest prominent.  De resultaten vragen echter om een meer specifieke analyse.  Naast een indeling in woordklassen, zijn er lexicale items, zoals bepaalde partikels, die zich anders gedragen dan items uit dezelfde woordklasse.  Ook is het duidelijk dat woordvolgorde en ritmische alternantie een cruciale rol spelen bij de distributie van prominentie.  De gevonden patronen hebben geleid tot een algoritme dat prominentie automatisch voorspelt.  Dit algoritme kan van nut zijn binnen de spraaksynthese en de spraakherkenning.

Barbertje Streefkerk en Karijn Helsloot
Instituut voor Fonetische Wetenschappen
Herengracht 338
1016 Amsterdam
tel: 020-5252183
 

16:10 Wanneer en waaraan horen we of een spraakuiting een vraag is?

Vincent J. van Heuven & Judith Haan (Univ. Leiden & KU Nijmegen)

Declaratieve vragen zoals "Marina wil haar mandoline verkopen?" verschillen van lexicosyntactisch identieke mededeelzinnen: (i) het accent op het subject is kleiner, (ii) dat op het object is groter, (iii) er is geen toonhoogte-downtrend, en (iv) er is een zinsfinale toonstijging [van Heuven et al., Proc. ESCA Workshop on Prosody & Dialog, 1998]. We vermoeden dus dat het mededeel/vraagonderscheid al voor het zinseinde te horen is. We onderzoeken nu de perceptieve relevantie van (i) t/m (iv). We varieren accent op het subject, evenals dat op het object (beide 0, 3, 6, 9 semi-toon); downtrend is -6, -3, 0 en +3 st/s) en er is wel/geen eindstijging (8 st). In experiment I is elk van de toonpatronen aangeboden in vier "gates": (a) "Marina", (b) "Marina wil haar mando", (c) "Marina wil haar mandoline", (d) "Marina wil haar mandoline verko". Twintig luisteraars beslisten of ze het begin van een vraag of van een mededeling hoorden. In experiment II werd de hele zin aangeboden (128 versies); luisteraars beslisten daar of de uiting een vraag of een mededeling was, en hoe duidelijk het zinstype hoor-baar was (0..10-schaal). Resultaten presenteren we tijdens onze lezing.

Vincent J. van Heuven (HIL/UL) & Judith Haan (CLS/KUN/NWO)
 

16:30 Toonhoogtebewegingen en beurtwisselingen

Johanneke Caspers (Univ. Leiden)

Welke rol speelt spraakmelodie in het beurtwisselingssysteem?  Zijn er aanwijzingen te vinden dat sprekers een accentverlenende stijging gevolgd door vlakke hoge intonatie kunnen gebruiken om aan te geven dat ze hun beurt willen behouden?  Om o.a. deze vraag te kunnen beantwoorden is een verzameling zogenaamde MapTask-dialogen opgenomen (gestuurde, maar spontane conversatie).  Voorlopig is naast een conversatie-analyse (cf. Couper-Kuhlen & Selting 1996) een analyse in `conversational games' voorzien (cf.  Kowtko, Isard & Doherty 1993).  Het materiaal wordt opgesplitst in eenheden begrensd door pauzes langer dan 100 ms; op elke grens wordt bepaald of er al dan niet een beurtwisseling optreedt.  De vorm van het `mogelijk laatste accent' (cf.  Selting 1996) zal worden beschreven (m.b.v. ToDI).  De verwachting is dat een stijgend `mogelijk laatste accent' gevolgd door vlakke hoge intonatie tot aan de grens over het algemeen niet gevolgd zal worden door een beurtwisseling.

Johanneke Caspers
Fonetisch Laboratorium/HIL/Universiteit Leiden
 

Demonstraties (12:20 - 16:50)

Spengi spraaksynthese software

Jan-Roelof de Pijper (IPO, Eindhoven)

Spengi (SPeech ENGine) is de benaming voor het spraaksynthesesysteem dat op het IPO is ontwikkeld en nog steeds in ontwikkeling is.  Spengi is een Phonetics-to-Speech engine, en verwacht dus een fonetische transcriptie als invoer.  De synthese is gebaseerd op difonen en de kwaliteit van de spraak is state-of-the-art, mede door goede prosodische beregeling en geavanceerd gebruik van PSOLA technieken.

Er zijn momenteel drie difoondatabases beschikbaar: een vrouwenstem en een mannenstem voor het Nederlands en een vrouwenstem voor het Brits-Engels.

Spengi is beschikbaar als een API en kan daardoor makkelijk in bijvoorbeeld een C-programma geintegreerd worden.  Verder zijn er twee front-end applicaties beschikbaar voor demonstratie- en onderzoeksdoeleinden: Ipologue is een conventioneel command-line programma (DOS en UNIX); Calipso is een Windows programma.  Beide applicaties zullen op deze dag gedemonstreerd worden.

Beide applicaties kunnen gebruik maken van grafeem-foneemomzetters die ontwikkeld zijn aan de KUN en aan de KUB. Calipso is verder nauw geintegreerd met het signaalbewerkingsprogramma GIPOS.

j.r.d.pijper@tue.nl
040-2475255
 
 

Perspectieven van het fonetogram

Gerrit Bloothooft en Peter Pabon (Univ. Utrecht)

Het fonetogram: registratie en visualisatie van stemomvang en stemkwaliteit.  Een demonstratie tijdens een fase waarin we hard werken om (1) een complete gegevensopslag (incl.  audio) te realiseren in verband met hergebruik van de opnamen als inzichten in bijvoorbeeld akoestische stemparameters wijzigen, (2) een eenvoudige PC versie te realiseren die in de logopedische praktijk te gebruiken is, (3) gegevenspresentatie te verbeteren door toepassing van mediaanwaarden en door (slim) te middelen over grotere grondfrequentie/SPL eenheden, (4) technieken te ontwikkelen om fonetogrammen met elkaar te vergelijken, (5) niet-akoestische parameters toe te voegen, bijvoorbeeld uit het electroglottogram.

Gerrit Bloothooft
Utrecht institute of Linguistics OTS
Email: Gerrit.Bloothooft@let.uu.nl