Tijd: 5 april 2002, 13.30 - 17.00 Plaats: Instituut voor Fonetische Wetenschappen, Herengracht 338, Amsterdam, Collegezaal
13.30 Huishoudelijk deel
13.45 Barbertje Streefkerk (UvA, Amsterdam)
Prominentie:
Akoestische, lexicale en syntactische correlaten
14.15 Tjeerd Andringa (HuQ, Groningen)
Continuiteit
Bewarende Signaal Bewerking (Continuity Preserving Signal
Processing, CPSP)
14.45 Gert Durieux (UIA, Antwerpen)
Klemtoontoekenning
in het Nederlands: 1 of 2 routes?
15.15 pauze
15.45 Mirjam Wester (KUN, Nijmegen)
Automatische
classificatie van spraak door middel van articulatorisch-akoestische
kenmerken
16.15 Judith Kessens (KUN, Nijmegen)
Automatische
fonetische transcriptie
16.45 Afsluiting
17.00 Borrel
Het Instituut voor Fonetische Wetenschappen is te bereiken vanaf
het Centraal Station met de tramlijnen 1, 2 en 5. Uitstappen bij
halte Spui. Uit tram komend rechts aanhouden en bij boekhandel
Atheneum rechtsaf. Dan rechtdoor lopen, over de brug over de Singel.
Vervolgens de brug over Herengracht oversteken. Bij de sigarenwinkel
op de hoek rechtsaf de Herengracht op lopen tot nr 338. (telefoon:
020-5252183)
Per auto is het instituut zo slecht te bereiken dat
pogingen daartoe moeten worden afgeraden. Bovendien is het parkeren
in de binnenstad een groot probleem.
13.45 Prominentie: Akoestische, lexicale en syntactische correlaten
Barbertje Streefkerk (UvA, Amsterdam)
In my talk both acoustical and lexical/syntactic correlates of prominence are discussed. Prominence is defined at the word level and is based on listener judgments. A selection of useful acoustic input features is tested for classification of prominent words, with the help of Feed Forward Nets. Spoken sentences from many different speakers, taken from the Dutch Polyphone corpus of telephone speech, are used. For an independent test set of 1,000 sentences about 79% of the words are correctly classified whether or not as prominent. At the text input level we also developed an algorithm, using linguistic/syntactical features derived from text only, to predict prominence. The prediction agrees with the perceived prominence in 81% of the cases for the independent test set. It can be concluded that, naive listeners are able to mark prominence. The results of this thesis show that acoustical and linguistic correlates of prominence can be determined automatically, and that these acoustical correlates can be used to accurately predict prominence on the basis of only 12 appropriate features. Prominence assignment of naive listeners is valuable because the determined acoustical and linguistic correlates are able to predict prominence. Agreement measures show that prominence prediction is undistinguishable from the prominence assignment of naive listeners.
14.15 Continuiteit Bewarende Signaal Bewerking (Continuity Preserving Signal Processing, CPSP)
Tjeerd Andringa (HuQ, Groningen)
In mijn proefschrift heb ik een signaalanalyse ontwikkeld die geoptimaliseerd is voor onbekende signalen (d.w.z. signalen waarvan geen a priori kennis beschikbaar is). Ik ga er vanuit dat perceptief belangrijke signaalcomponenten tijdens hun bestaan een deel van het basilair membraan domineren. Door de spatiotemporele continuiteit van het basilair membraan te behouden kunnen representaties ontwikkeld worden waarmee het mogelijk is om vast te stellen welke delen van het basilair membraan door een enkele harmonische gedomineerd wordt. Van deze harmonischen is de instantane frequentie met een nauwkeurigheid van 0.5% te schatten. Verder is het mogelijk om van een schoon signaal de meest robuuste signaalcomponenten vast te stellen en deze delen in zeer ruizige situaties (0 dB gebabbel) te identificeren en vervolgens te combineren.
14.45 Klemtoontoekenning in het Nederlands: 1 of 2 routes?
Gert Durieux (UIA, Antwerpen)
Een groot deel van het debat omtrent de verwerving van klemtoonsystemen draait om de vraag of kinderen het klemtoonsysteem van hun moedertaal woord voor woord verwerven, door woorden met hun klemtoonpatroon op te slaan, of juist regels (of constraint rankings) afleiden uit het taalaanbod, en die regels productief toepassen.
In dit praatje wil ik betogen dat tenminste een aantal aspecten van de woord-voor-woord benadering noodzakelijk zijn om de wijze waarop volwassenen met onregelmatige klemtoonpatronen omgaan te verklaren. Het uitgangspunt van de discussie is een psycholinguistisch experiment dat predicties test die vanuit beide benaderingen gemaakt kunnen worden. De rest van het praatje gaat over de mogelijkheid van hybride benaderingen, en bespreekt voor- en nadelen van dergelijke modellen.
15.45 Automatische classificatie van spraak door middel van articulatorisch-akoestische kenmerken
Mirjam Wester (KUN, Nijmegen)
In deze presentatie zal ik ingaan op een onderdeel van mijn proefschrift: Het gebruik van articulatorisch-akoestische kenmerken voor het classificeren van Nederlandse spraakdata.
Allereerst is onderzocht of neurale netten die getraind zijn voor het classificeren van articulatorisch-akoestische kenmerken van Engelse data ook gebruikt kunnen worden om Nederlandse data te classificeren. Neurale netten zijn voor vijf verschillende dimensies getraind, voor Nederlandse data en voor Engelse data: (1) plaats en (2) manier van articulatie, (3) stemhebbendheid, (4) ronding en (5) voor-achter articulatie. De kenmerken `ronding' en `voor-achter' hebben alleen betrekking op vocalen. De articulatorisch-akoestische kenmerken zijn direct afgeleid van de foontranscripties. Bijvoorbeeld de foon /b/ zou de volgende labels krijgen: (1) bilabiaal, (2) plosief, (3) +stem, (4) n.v.t., (5)n.v.t
Meer dan 80% van de Nederlandse data (op frameniveau) werd door een voor het Nederlands getraind systeem voor alle dimensies correct geclassificeerd, behalve voor de dimensie 'plaats van articulatie'. Als een neuraal net getraind op Engelse data voor de classificatie van de Nederlandse data gebruikt wordt, blijken de dimensies 'stem' en 'manier van articulatie' redelijk goed overdraagbaar te zijn van het Engels naar het Nederlands, terwijl opnieuw 'plaats van articulatie' erg slecht geclassificeerd wordt.
Verder heb ik onderzocht hoe goed een nieuwe methode werkt waarbij manier-specifieke training van 'plaats van articulatie' wordt uitgevoerd. De resultaten wijzen uit dat in principe substantiële verbeteringen in de classificatie van 'plaats van articulatie' haalbaar zijn met deze aanpak.
16.15 Judith Kessens (KUN, Nijmegen) Automatische fonetische transcriptie
Judith Kessens (KUN, Nijmegen)
In mijn proefschrift worden twee methodes beschreven die gebruikt kunnen worden om automatische spraakherkenning te verbeteren door het modelleren van uitspraakvariatie. Een essentieel onderdeel van deze methodes is automatische fonetische transcriptie. Het gaat hierbij niet om volledige fonetische transcripties; de transcriptietaak kan het beste beschreven worden als het bepalen welke uitspraak van een aantal mogelijke uitspraken het beste past bij het akoestisch signaal. Door een grote hoeveelheid data automatisch te transcriberen kan belangrijke kwantitatieve informatie verkregen worden (zoals frequentie van voorkomen van een bepaalde uitspraakvariant).
Het eerste doel van dit onderzoek was om uit te vinden in hoeverre de automatische transcripties overeenkomen met transcripties gemaakt door ervaren transcribenten. Een tweede doel was om erachter te komen welke eigenschappen van de herkenner de kwaliteit van de automatische transcripties beinvloeden.
De resultaten laten zien dat de automatische transcripties verschillen van de transcripties die door de menselijke transcribenten zijn gemaakt. De verschillen zijn echter van dien aard dat ze acceptabel kunnen zijn, afhankelijk van het doel waar de transcripties voor gebruikt worden. Verder laten de resultaten zien dat bepaalde eigenschappen van een herkenner invloed hebben op automatische transcriptie. Het blijkt echter niet zo te zijn dat een herkenner die de minste fouten maakt in een onafhankelijke herkentaak ook de beste transcripties maakt.