De Nederlandse Vereniging voor Fonetische Wetenschappen nodigt u uit voor een bijeenkomst in Amsterdam met als thema:

Nieuwe Projecten

Tijd:   28 september 2001, 13.15 - 17.00

Plaats: Instituut voor Fonetische Wetenschappen, 
        Herengracht 338, Amsterdam, 
        Collegezaal

Programma:

13.15 Huishoudelijk deel

13.30 Jeska Buhmann (Gent): Intonatie modellering voor meerdere talen en verschillende tekst-types

14.00 Odette Scharenborg (A2RT, Taal en Spraak, KUN): Een ASR benadering van psycholinguistische modellen voor woordherkenning

14.30 Jie Liang (ULCL, Leiden): An Experimental Neurolinguistic Approach Question Intonation in Standard Chinese (Engelstalige voordracht)

15.00 pauze

15.30 Brigit van der Pas (UiL-OTS, Utrecht): Onset-selectie in getrunceerde kinderuitingen

16.00 Johan de Veth (A2RT, Nijmegen): Automatische spraakherkenning in omgevingen met achtergrondgeluid

16.30 Rob van Son (IFA, Amsterdam): Het IFA corpus

17.00 borrel


Routebeschrijving:

Het Instituut voor Fonetische Wetenschappen is te bereiken vanaf het Centraal Station met de tramlijnen 1, 2 en 5. Uitstappen bij halte Spui. Uit tram komend rechts aanhouden en bij boekhandel Atheneum rechtsaf. Dan rechtdoor lopen, over de brug over de Singel. Vervolgens de brug over Herengracht oversteken. Bij de sigarenwinkel op de hoek rechtsaf de Herengracht op lopen tot nr 338. (telefoon: 020-5252183)
Per auto is het instituut zo slecht te bereiken dat pogingen daartoe moeten worden afgeraden. Bovendien is het parkeren in de binnenstad een groot probleem.


Samenvattingen

13:30 Intonatie modellering voor meerdere talen en verschillende tekst-types

Jeska Buhmann

Om een intonatiemodel voor meerdere talen te ontwikkelen werd eerder al met een datagedreven methode geëxperimenteerd. Deze methode bestaat eruit vijf pitch waarden per syllabe te voorspellen aan de hand van een set features die afgeleid wordt uit de orthografie. Hiervoor wordt een recurrent neuraal netwerk (RNN) gebruikt.

De methode is met succes toegepast om intonatiecontouren van geïsoleerde zinnen in zes verschillende talen te voorspellen. Eén van de doelen van dit project was te experimenteren met grote tekstdocumenten van verschillende teksttypes. De ontwikkelde methode is daarom in de eerste plaats aangepast om met grote tekstdocumenten om te gaan. Vervolgens is er voor drie talen (Engels, Nederlands en Frans) geëxperimenteerd met modellen die enkel getraind zijn op één teksttype, en modellen die getraind zijn op data van meerdere teksttypes. Voor elke taal werden tests uitgevoerd voor vier verschillende teksttypes, namelijk instructies, nieuws, verhalen en technische teksten.

Een tweede uitbreiding ten opzichte van intonatiemodellering voor geïsoleerde zinnen, is het gebruik van HTML-features. In tegenstelling tot geïsoleerde zinnen, zijn de tekstdocumenten afkomstig van het internet. Onderzoek moest uitwijzen of het gebruik van HTML-features, die iets zeggen over de structuur van een tekst (vb. eerste woord in paragraaf), of die aangeven of een woord bijvoorbeeld "bold" of "italic" geschreven is, het eindresultaat positief beïnvloedt.

In de presentatie zal uitleg gegeven worden over de opzet van de verschillende experimenten en de daaruit volgende resultaten.

14:00 Een ASR benadering van psycholinguistische modellen voor woordherkenning

Odette Scharenborg (A2RT, Taal en Spraak, KUN)

Eén van de meest invloedrijke modellen voor de simulatie en verklaring van menselijke spraakperceptie is het Shortlist model. Woordherkenning in Shortlist komt tot stand door de invoer strikt bottom-up te matchen met een intern lexicon. Hoewel Shortlist een groot aantal belangrijke effecten die in psycholinguïstische experimenten zijn vastgesteld kan reproduceren, bevat het model enkele simplificaties waarvan het bekend is dat ze onrealistisch zijn.

Mensen herkennen woorden op basis van het spraakgeluid. Echter, Shortlist kan alleen woorden herkennen als de input van het model uit een reeks van discrete foneemsymbolen bestaat. Dit betekent dat een eerder proces het continue spraaksignaal om moet zetten in een rij van foneemsymbolen. Dit is de eerste belangrijke simplificatie.

Een tweede tekortkoming, die hiermee samenhangt, is dat de identiteit van de fonemen niet per sé correct hoeft te zijn, maar het aantal wel. Als het aantal fonemen fout is, heeft Shortlist de grootste moeite om een match te maken tussen de input foneemreeks en de foneemrepresentaties van de woorden in het lexicon.

Dit onderzoek stelt zich tot doel de symbolische input van Shortlist te vervangen door een interface dat een akoestisch signaal omzet in een reeks fonemen. Deze presentatie gaat in op het onderzoek dat tot nu toe gedaan is om het akoestische signaal om te zetten in een rij van fonemen, waarvan het aantal (zo veel mogelijk) overeenkomt met het aantal fonemen in de interne foneemrepresentatie van het woord in het lexicon van Shortlist.

14:30 An Experimental Neurolinguistic Approach Question Intonation in Standard Chinese

Jie Liang (ULCL, Leiden; Nankai University, China; Xinjiang Normal University, China)

Introduction
The present investigation is inspired by 'Phonetic Correlates of Statement versus Question Intonation in Dutch' ( Van Heuven, V. & J. Hann, 2000). The production data from one of my patients -- Aphasian-7 suggest that the sentence intonations, statement (S) vs question (Q), were severely impaired in Broca's aphasic speech. However, the data from other patients with left-hemisphere brain damage seem less severely impaired.

Issues
Question arises as how the S/Q intonation are impaired in Aphasian-7's speech, or what phonetic correlates that matter in S/Q intonation in Chinese, and whether there are systematic impairment in S/Q intonation after left brain damage, or if it is possible to locate the prosodic features used in sentence production of Chinese in the brain.

Significance
It is said Standard Chinese employs a number of sentence-final question particles, has no specific question intonation, but may raise pitch for questions [1,2]. The present research will throw light on the unsettle problem whether Chinese has specific question intonation or not, what is the primary prosodic cue which Chinese employs in Q intonation. From my previous study, evidence show that segmental phonemes and lexical tones are realized in the different part of the brain, which happens to be consistent with autosegmental theory. Following these data, I would like to know if lexical tones and sentence intonations are realized in different parts of the brain or not, which bears to the prosodic hierarchy since fundamental frequency has be used both on lexical level and sentence level in Chinese.

15:30 Onset-selectie in getrunceerde kinderuitingen

Brigit van der Pas (UiL-OTS, Utrecht)

Kenmerkend voor vroege kindertaalverwerving (rond 2 jaar) is het trunceren van polysyllabische woorden: woorden worden korter uitgesproken dan volwassenen zouden doen. Kinderen lijken met name een voorkeur te hebben voor de beklemtoonde en woordfinale lettergrepen, bijv. away -> [we], olifant -> [olfAnt], animal -> [nimU] (Smith 1973, Fikkert 1994, Pater 1997). Dit proces blijkt een aantal uitermate intrigerende aspecten te hebben. Mijn onderzoek richt zich op verkortingen die (vanuit de optiek van het kind) discontinue selecties zijn uit de volwassen vorm. Er zijn data te vinden waarbij de onset-rijm combinaties van de behouden lettergrepen niet per se opeenvolgend zijn in de volwassen vorm, bijv. konijn -> [kEIn], waar /k/ de voorkeur krijgt over /n/ in onset positie, ondanks het feit dat /k/ in de onbeklemtoonde lettergreep zit. Het doel van dit project is te onderzoeken welke factoren onset-selectie in truncaties beïnvloeden.

Voorgaande studies duiden op de volgende factoren: (1) sonoriteitshiërarchie: evenals in consonantcluster reductie, vertonen kinderen een voorkeur voor een zo min mogelijk sonore consonant in onset positie, d.w.z., stop >> fricatief >> nasaal >> liquidae >> verglijder; (2) plaats van articulatie: labiale en dorsale consonanten hebben de voorkeur boven coronale klanken in de onset; en (3) prominentie: in principe blijven alle segmenten van de beklemtoonde en meest-rechtse lettergrepen behouden, afhankelijk van sonoriteit en plaats van naburige onsets.

Op basis van deze observaties is een verzameling onzin woorden ontworpen waarin sonoriteit, plaats, en prominentie gecontroleerd worden. In een experiment zal aan kinderen vanaf [1;10] deze nonsens woorden worden aangeleerd, in de hoop dat zij vervolgens in hun output zoveel mogelijk truncaties produceren. (Bestaande twee- en driesyllabische woorden zullen als controlewoorden worden toegevoegd). In dit praatje wil ik de pilot resultaten voorleggen en bespreken.

16:00 Automatische spraakherkenning in omgevingen met achtergrondgeluid

Johan de Veth (A2RT, Afd. Taal & Spraak, Nijmegen)

Het gebruik van telecom diensten zoals '118', het nummer dat geraadpleegd kan worden om inlichtingen over telefoonnummers te verkrijgen neemt almaar toe. Daarmee wordt de behoefte groter om te trachten een deel van dergelijke diensten te automatiseren. Een essentiele stap in die automatisering is het gebruik van de computer om te herkennen wat de gebruiker heeft gezegd. Een goede prestatie van de automatische spraakherkenning is onder andere afhankelijk van de aanwezigheid van achtergrondgeluid. Wanneer er achtergrondgeluid aanwezig is tijdens de herkenning, dan 'hoort' de herkenner in feite de combinatie van het achtergrondgeluid en de spraakgeluiden. Wanneer het achtergrondgeluid tevoren bekend is, dan kunnen een of meer modellen getraind worden die de herkenner helpen om spraak en achtergrondgeluid van elkaar te onderscheiden. Maar als het achtergrondgeluid onvoorspelbaar is (wat in de praktijk van mobiele telefonie erg vaak voorkomt), dan is er een onbekende verstoring in de waarnemingen aanwezig. Omdat de spraakklankmodellen die de herkenner gebruikt getraind zijn met spraak zonder die onbekende verstoring, ontstaat er een discrepantie tussen de opnamecondities tijdens training en de opnamecondities tijdens gebruik van de modellen.

In het kader van het Europese onderzoeksproject SMADA (Speech-driven Multi-modal Automatic Directory Assistance) is onder andere onderzoek verricht naar combinaties van verschillende signaalbewerkingstechnieken om de uitvoer van een automatische spraakherkenner minder gevoelig voor achtergrondgeluiden te maken. Daarbij zijn verschillende soorten van achtergrondgeluid bestudeerd. De resultaten van deze studie laten zien wat de mogelijkheden en beperkingen zijn van de verschillende methodes die getest zijn om de discrepantie tussen opnamecondities tijdens training en testen te verkleinen.

16:30 Het IFA corpus

Rob van Son (IFA, Amsterdam)

Het IFA corpus is een middelgroot corpus van ongeveer 50.000 woorden met de hand gelabelde en gesegmenteerde spraak (in totaal ongeveer 5 1/2 uur spraak). De spraak stamt van 8 sprekers, 4 mannen en 4 vrouwen, die ieder meer dan een uur ingesproken hebben in 8 verschillende spreekstijlen, van informeel (spontaan) tot voorgelezen onzinwoordjes. Het gehele corpus is toegankelijk via: http://www.fon.hum.uva.nl/IFAcorpus. Het corpus is beschikbaar voor iedereen onder de GNU General Public License (dwz., Open Source).