De dag van de Fonetiek 2012

Over onderzoek naar
spraak en spraaktechnologie

(http://www.fon.hum.uva.nl/FonetischeVereniging/)

Donderdag 13 december 2012 in de Sweelinckzaal, Drift 21 te Utrecht

Georganiseerd door de Nederlandse Vereniging voor Fonetische Wetenschappen

deelname is gratis, iedereen is welkom

De slides van enkele presentaties zijn door de auteurs hieronder beschikbaar gemaakt

Het programmaboekje in pdf is hier te vinden

Een poster van de Dag van de Fonetiek is hier te vinden

De Dag van de Fonetiek vindt plaats in de Sweelinckzaal op Drift 21 (3512 BR Utrecht). Nummer 21 is niet meer direct toegankelijk, maar alleen te bereiken via de Universiteitsbibliotheek op Drift 27. Nadat u de congierge van de bibliotheek gepasseerd bent, slaat u rechts af de tuin in en volgt u de bordjes naar Drift 21.

Programma

9:30 Ontvangst met koffie

9:55 Opening

10:00-10:40 Sessie 1 - Keynote lezing

10:00 De evolutie van ons spraakvermogen

Bart de Boer

10:40-11:00 Koffie- en theepauze

11:00-12:20 Sessie 2

11:00 An Intonation Clinic for Second Language Learners

Michele Gubian

11:20 Articulation Rate and Syllable Reduction in Spanish and Portuguese

Stefanie Voigt, Anja Schüppert en Charlotte Gooskens

11:40 Ik kan er geen touw aan vastknopen! Hoe gaan Nederlanders om met slordige spraak in vergelijking met Denen?

Martin Kroon, Susan Rosink, Anja Schüppert, Charlotte Gooskens, Nanna H.Hilton en Vincent van Heuven

12:10 Globale en lokale sprekeradaptatie: waarneming van het Engelse /S/-/s/ contrast

Mirjam de Jonge, Paul Iverson, Anita Wagner en James McQueen

12:20-12:35 Algemene Ledenvergadering

12:35-14:00 Lunch

14:00-15:20 Sessie 3

14:00 Predicting perceptual scores of speech intelligibility, articulation and voice quality for speakers with head and neck cancer

Renee Clapham and Rob van Son

14:20 Interacties tussen perceptie en motoriek in spraakontwikkelingsstoornissen: neurocomputationele modellering van gestoorde ontwikkeling

Hayo Terband

14:40 Stemeigenschappen van Nederlandse kinderen met een cochleair implantaat

Daan van de Velde

15:00 De Data Curatie Service van CLARIN-NL

Nelleke Oostdijk, Henk van den Heuvel en Maaske Treurniet (De Data Curatie Service)

15:20-15:40 Koffie- en theepauze

15:40-17:00 Sessie 4

15:40 Glimlachen en fronsen tijdens spraakverstaan

Anne van Leeuwen, Hugo Quené en Jos van Berkum

16:00 Intrinsieke prosodie van klinkers

Constantijn Kaland en Marie Postma

16:20 Parallellen tussen zelfbewaking bij het spreken en identificatie van spraaksegmenten door luisteraars

Sieb Nooteboom en Hugo Quené

16:40 Een nieuw foneem voor het Nederlands?

Holger Mitterer

17:10 Afsluiting en borrel

Abstracts

Keynote lezing

10:00: The evolution of the ability to speak
Bart de Boer // Vrije Universiteit Brussel, Artificial Intelligence Lab

In this lecture I review some of the evidence for when and how speech evolved. This evidence appears to indicate that adaptations to speech started to occur at least 500000 years ago. I will also show how computer models and experiments can help to interpret this evidence: by reconstructing our ancestors' vocal abilities, and by reconstructing how they may have sounded. Finally, I will discuss the relation between evolution of anatomy and the evolution of cognition, arguing that although we have undergone evolutionary selection for anatomy, cognitive adaptations must have been primary.

Over de spreker
Na afronding van het door een VIDI-beurs gesubsidieerde project ``Modeling the evolution of speech'', heeft Bart de Boer in 2011 een ERC-Starting Grant ontvangen voor het onderzoek ``ABACUS: Advancing Behavioral and Cognitive Understanding of Speech''. Hij combineert bioakoestisch onderzoek naar de anatomische eigenschappen van het spraakkanaal, met computationeel en experimenteel onderzoek naar het menselijk spraakverstaan en leervermogen. Bart de Boer is sinds maart 2011 verbonden aan het Artificial Intelligence Lab aan de Vrije Universiteit Brussel.

Presentaties

11.00: An Intonation Clinic for Second Language Learners
Michele Gubian// Centre for Language and Speech Technology, Radboud Universiteit Nijmegen

In this talk I present a project proposal on a novel Computer-Aided Pronunciation Training (CAPT) system that provides corrective feedback on intonation to second language learners. The system can be used to learn the correct placement of lexical stress, but also the correct intonation for a polite request in a foreign language.
Two novelties are introduced with respect to current (experimental) systems. First, the software makes decisions on the adequacy of the learner's input (correct/wrong) based on statistical models built on a corpus of utterances spoken by native speakers. Second, corrective feedback is provided in the form of re-synthesized speech: Either the learner's wrong intonational pattern (F0 contour and segment durations) is corrected and played back in the learner's own voice, or a reference (teacher) voice is manipulated to imitate the learner's intonation mistake. In either case, the advantage is that the learner does not need to isolate his/her intonation mistake by comparing his/her own utterance with the teacher's realization, which involves several distracting dimensions of variation like phonetics, voice quality and rhythm.
Both decision making and speech manipulation are based on a modern statistical methodology called Functional Data Analysis, which allows one to model F0 contours and segment durations automatically and without introducing unwarranted simplifications (e.g. no F0 contour stylization).

11.20: Articulation Rate and Syllable Reduction in Spanish and Portuguese
Stefanie Voigt, Anja Schüppert en Charlotte Gooskens // Center for Language and Cognition Groningen, Rijksuniversiteit Groningen

Jensen (1989) found an asymmetry in mutual intelligibility of South-American Spanish and Portuguese. According to Vaughan and Letowski (1997), Gordon-Salant et al. (2007) and Schüppert et al. (In press) a higher articulation rate shows negative effects on intelligibility.
This study compares canonical articulation rates (number of canonical syllables per second) and phonetic articulation rates (phonetic syllables per second) of European Spanish and Portuguese based on radio podcasts. The results show that Portuguese and Spanish speakers exhibit no difference in canonical articulation rate but the phonetic articulation rates differ among the two languages. By comparing those two measures we found that Portuguese speakers reduce syllables significantly more than Spanish speakers due to vowel elision in post-stressed and final position, which results in longer, but fewer syllables per second.
The results lead to a future experiment where intelligibility scores of European Spanish and Portuguese will be correlated with articulation rate.

11.40: Ik kan er geen touw aan vastknopen! Hoe gaan Nederlanders om met slordige spraak in vergelijking met Denen?
Martin Kroon (1), Susan Rosink (1), Anja Schüppert (2), Charlotte Gooskens (2), Nanna H.Hilton (2) en Vincent van Heuven (2) // 1. Afdeling Taalwetenschap, Rijksuniversiteit Groningen; 2. Center for Language and Cognition Groningen, Rijksuniversiteit Groningen; 3. Phonetics Laboratory, Universiteit Leiden

Door articulatorische beperkingen is snelle, natuurlijke spraak meestal gekenmerkt door minder duidelijke articulatie dan kunstmatig versnelde spraak. Voor het Nederlands is gevonden dat reactietijden in een foneemdetectietaak korter zijn voor kunstmatig versnelde spraak dan voor natuurlijke snelle spraak (Janse 2004). Dit werd gedeeltelijk verklaard door het feit dat snelle spraak meer reductie bevat dan versnelde spraak en daardoor minder verstaanbaar is. Dit patroon is echter niet bevestigd voor het Deens, waar we verstaanbaarheid door middel van een dicteetaak hebben bepaald (Schüppert et al., in press). In het onderzoek met Deens materiaal en proefpersonen vonden we dat de twee soorten van snelle spraak even goed verstaanbaar waren. Dit roept de vraag op of dit verschil in gemeten verstaanbaarheid aan de taak ligt (online foneemdetectie versus offline dicteetaak), of aan de taal (bv. reductie in snelle spraak werkt anders in het Deens dan in het Nederlands). We hebben een experiment opgezet dat deze vraag zal beantwoorden.

12.00: Globale and locale sprekeradaptatie: waarneming van het Engelse /S/--/s/ contrast
Mirjam J.I. de Jonge (1,2), Paul Iverson (3), Anita Wagner(3) en James McQueen (2, 4) // 1. Amsterdam Center for Language and Communication, Universiteit van Amsterdam; 2. Centre for Cognition, Donders Institute for Brain, Cognition and Behaviour, Radboud Universiteit Nijmegen; 3. Department of Speech, Hearing and Phonetic Sciences, University College London; 4. Behavioural Science Institute, Radboud Universiteit Nijmegen

Door anatomische verschillen, afkomst, en andere factoren bestaat grote variatie tussen sprekers, en luisteraars moeten zich kunnen aanpassen aan de eigenaardigheden van sprekers om elkaar zonder problemen te verstaan. In dit onderzoek is het contrast tussen /S/ en /s/ gebruikt om twee soorten sprekeradaptatie te onderzoeken: lexicongebaseerde aanpassing aan een nieuw accent, en spectrumgebaseerde aanpassing aan spraakkanaalgrootte.
Aanpassing aan een kunstmatig accent is onderzocht door mensen te laten luisteren naar passages met gemanipuleerde sibilanten, en daarvoor en daarna hun sibilantcategorisatie te testen. Het bleek dat luisteraars hun categoriegrenzen aanpassen aan het gehoorde accent, maar slechts in geringe mate en alleen als de categorieën anders volledig zouden samenvallen. Om aanpassing aan spraakkanaalgrootte te onderzoeken werd gemeten bij welk spectraal zwaartepunt het omslagpunt tussen /S/ en /s/ lag wanneer de klanken rondom de sibilant eigenschappen hadden van verschillende spraakkanaalgroottes. Informatie over spraakkanaalgrootte verschoof de categoriegrens flink, en beïnvloedde ook auditieve disciminatie van luisteraars. In het EEG waren in de eerste stadia van auditieve verwerking (tot 130 ms) geen sporen van aanpassing te zien terwijl de mismatchnegativiteit wel contextafhankelijk bleek, wat suggereert dat sprekernormering al na 200 ms heeft plaatsgevonden.
Dit onderzoek laat dus zien dat sprekeraanpassing op globaal niveau in relatief vroege stadia van auditieve verwerking plaatsvindt, terwijl subtiele lokale aanpassingen pas worden gedaan wanneer globale verwachtingen tot fouten leiden.

14.00: Predicting perceptual scores of speech intelligibility, articulation and voice quality for speakers with head and neck cancer
Renee Clapham (1,2) and Rob van Son (2) // 1. Amsterdam Center for Language and Communication, Universiteit van Amsterdam; 2. Nederlands Kanker Instituut

Cancer of the head and neck can have a negative effect on a speaker's speech and voice quality. In the clinical situation, a clinician-independent manner to evaluate the perceptual quality a patient's speech and voice quality is sought. To this end, models using input from automatic evaluation tools (e.g. speaker feature sets) were developed to predict perceptual scores for speech intelligibility, articulation and voice quality. The validation corpus contains longitudinal recordings of 55 speakers (before treatment, short-term and long-term follow-up) and perceptual scores completed by 13 raters.
Performance of articulation and speech intelligibility prediction models exceeds that of the average human rater; performance of voice quality prediction model is competitive. Although acoustic features selected for the articulation model overlap with features selected for the speech intelligibility model, the articulation model selects more consonant-related features and the speech intelligibility selects more vowel-related features. The voice quality model selects acoustic features related to phonation and resonance. The models show variable success in tracking trends of an individual speaker between evaluation moments.

14.20: Interacties tussen perceptie en motoriek in spraakontwikkelingsstoornissen: neurocomputationele modellering van gestoorde ontwikkeling
Hayo Terband // Utrecht Institute of Linguistics OTS, Universiteit Utrecht; Centre for Language and Cognition, Universiteit van Groningen

De differentiaaldiagnose tussen de verschillende fonologische en motorische spraakstoornissen vormt één van de hoofdvragen op het gebied van de spraakpathologie bij kinderen. Bij spraakontwikkelingsstoornissen is een grote overlap in symptomatologie eerder regel dan uitzondering en bovendien veranderen de klinische symptomen gedurende de ontwikkeling.
Uit data van spraakexperimenten is gebleken dat er bij kinderen met spraakontwikkelingsstoornissen een nauwe relatie is tussen perceptuele scherpte en productiesymptomen. De huidige studie onderzocht de interactie tijdens de ontwikkeling tussen neurologische tekortkomingen in auditieve en motorische processen door middel van computationele modellering met het DIVA-model.
De computersimulaties laten zien dat bij kinderen met spraakstoornissen de kwaliteit van het fonologisch leren voor een groot deel afhankelijk is van de kwaliteit van de spraakmotoriek. Uit gedragsstudies is gebleken dat door een stoornis in de spraakmotoriek, zoals bij spraakdyspraxie of dysarthrie, ook de ontwikkeling van de fonologie verstoord kan raken. Onze computersimulaties bevestigen dit en laten verder zien dat de zelf-monitoring op basis van auditieve en somatosensorische terugkoppeling daarin een grote rol speelt. De condities waarin dit gebeurt hebben vooral te maken met de mate en de kwaliteit van de zelf-monitoring tijdens de vroege ontwikkeling. Verder blijkt dat ook articulatietempo hierbij van invloed kan zijn.

14.40: Stemeigenschappen van Nederlandse kinderen met een cochleair implantaat
Daan van de Velde // Universiteit Leiden

Sinds enige decennia kan aangeboren of verworven doofheid (in bepaalde gevallen) worden behandeld met cochleaire implantatie (CI). Hoewel een CI gehoor creëert of gedeeltelijk herstelt, wijkt het gehoor uiteraard af van dat van normaalhorende mensen. Uitgaande van een relatie tussen perceptieve en productieve vaardigheden, verwacht je dat de afwijkende hoorsituatie wordt gereflecteerd in de productie. In eerder onderzoek zijn abnormale waarden gevonden voor stemparameters, zoals formantwaarden, jitter en harmoniciteit, maar daarvoor is zelden of nooit gebruik gemaakt van spontane-taalopnames.
In dit onderzoek zijn fragmenten van spontane-taalopnames van 13 vroeggeïmplanteerde (onder 3 jaar), 8 laatgeïmplanteerde (boven 3 jaar) en 12 normaalhorende Nederlandse kinderen geanalyseerd. Opnames waren van 18, 24 en 30 maanden na CI-activatie, dan wel na geboorte (voor normaalhorende kinderen). De volgende metingen en afleidingen zijn verricht: gemiddelde, minimum, maximum, bereik, standaarddeviatie van F0 t/m F3, bandbreedte van F1 t/m F3, jitter en Harmonics-to-Noise Ratio (HNR).
Er waren verschillen tussen vroeggemplanteerde en laatgemplanteerde kinderen in enkele F0-parameters en verschillen tussen vroeggeïmplanteerde en normaalhorende kinderen in F3-parameters. Longitudinale effecten zijn niet gevonden. Deze resultaten geven aan dat het gebrekkige gehoor van CI-gebruikers sommige, maar niet alle stemeigenschappen in spontane taal beïnvloedt en dat late implantatie een ander effect heeft dan vroege.

15.00: De Data Curatie Service van CLARIN-NL
Nelleke Oostdijk, Henk van den Heuvel en Maaske Treurnie//Centre for Language and Speech Technology, Radboud Universiteit Nijmegen
De Data Curatie Service

De data curatie service (DCS) is een project van CLARIN-NL. Binnen CLARIN worden er nieuwe dataverzamelingen gecre\"eerd, maar er zijn ook oude verzamelingen van onderzoeksdata die wat opknapwerk verdienen. Dit noemen we datacuratie en hier houdt de DCS zich mee bezig.
Bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit wordt vanaf oktober 2011 gewerkt aan de data curatie service. De DCS wil een brug vormen tussen onderzoekers met interessant onderzoeksmateriaal en de CLARIN-NL datacentra. Hierbij werken we waar mogelijk samen met onderzoekers en experts. Ongetwijfeld verkeren er onder de leden van de NFVW en onder de bezoekers van deze dag onderzoekers die hier direct belang bij hebben.
In onze bijdrage gaan we in op de achtergrond en doelstellingen van de DCS en onze werkwijze. Tevens laten we voorbeelden zien van uitgevoerde en lopende datacuraties.

15.40: Glimlachen en fronsen tijdens spraakverstaan
Anne van Leeuwen, Hugo Quené en Jos van Berkum // Utrecht Institute of Linguistics OTS, Universiteit Utrecht

We (glim)lachen vaak tijdens het spreken. Expressies zoals een glimlach of een frons voegen extra betekenis toe aan de uiting omdat deze informatie bevatten over de affectieve toestand van de spreker. De vraag is hoe en wanneer de luisteraar deze affectieve informatie integreert met de betekenis van de zin (zie ook Quen\'e et al., 2012) en hoe het perspectief van de spreker deze integratie moduleert. Deze vragen zijn geëxploreerd aan de hand van EEG- en gedragsonderzoek waarbij luisteraars zinnen te horen kregen die fonetisch en semantisch gemanipuleerd waren. Zinnen bevatten ofwel een positief danwel een negatief inhoudswoord en waren fonetisch gemanipuleerd om zo een glimlachende en een fronsende versie te creëren. Daarnaast waren de zinnen in de eerste (ik) of in de derde persoon (hij of ze). Tijdens mijn praatje zal ik de resultaten van deze studie presenteren en bediscussiëren.

16.00: Intrinsieke prosodie van klinkers
Constantijn Kaland en Marie Postma // Tilburg Centre for Cognition and Communication, Universiteit van Tilburg

De relatie tussen vorm en betekenis in taal lijkt niet arbitrair, zoals aangetoond aan de hand van intrinsieke toonhoogte van klinkers (IF0). IF0 correleert negatief met de openheid van de mond bij het uitspreken van de betreffende klinker. De mate van kracht (sterkte, grootte, gewicht, mannelijkheid) die luisteraars associëren met pseudowoorden is groot bij lage-IF0-klinkers en klein bij hoge-IF0-klinkers. Onderzoek naar het effect van intrinsieke eigenschappen van klinkers richt zich met name op IF0. Een andere intrinsieke eigenschap van klinkers is intensiteit (II). II correleert positief met mondopening. In de huidige studie onderzoeken we de effecten van zowel IF0 als II op betekenisvolle associaties van proefpersonen. Associaties zijn verkregen door middel van een leestaak waarin pseudowoorden aan proefpersonen zijn gepresenteerd. Resultaten bevestigen eerder onderzoek naar IF0 en laten zien dat proefpersonen een hoge II met meer kracht associëren dan een lage II. De keuze van `extreme' klinkers (lage/hoge IF0/II) is problematisch in de huidige aanpak, onder andere door de tegengestelde correlatie van IF0 en II met mondopening en verschillen tussen sprekers.

16.20: Parallellen tussen zelfbewaking bij het spreken en identificatie van spraaksegmenten door luisteraars
Sieb Nooteboom en Hugo Quené // Utrecht Institute of Linguistics OTS, Universiteit Utrecht

In deze bijdrage rapporteren we over een experiment waarin we aspecten van de zelfbewaking bij het spreken op een indirecte manier onderzoeken. Luisteraars hebben 291 korte spraakfragmenten geïdentificeerd die beginmedeklinkers bevatten, gesneden uit segmentele versprekingen zoals uitgelokt in eerdere experimenten. Voor ieder versproken segment is er een correct controlesegment van dezelfde spreker. Segmentele versprekingen waren óf niet ontdekt door de spreker, óf vroeg ontdekt zoals blijkt uit een interruptie (wee... beter weten), óf laat ontdekt (weter beten... beter weten). Aantal misidentificaties en reactietijden zijn bepaald. Misidentificatie is iedere afwijking van een eerdere auditieve transcriptie. Aantal misidentificaties is laag (3.1 \%), maar toch significant hoger voor versproken dan voor controlesegmenten, en significant hoger voor laat dan voor vroeg gedetecteerde versprekingen. Reactietijden zijn gemeten voor spraakfragmenten die door de luisteraars unaniem correct waren geïdentificeerd. Deze reactietijden verraden desondanks effecten van variërende perceptieve ambiguïteit. Vroeg gedetecteerde versprekingen en correcte controlefragmenten hebben samen de kortste reactietijden, laat gedetecteerde versprekingen hebben significant langere reactietijden. We speculeren dat vroeg gedetecteerde versprekingen zelfbewaking van innerlijke spraak reflecteren, met als criterium afwijking van de correcte doelklank, en laat gedetecteerde versprekingen zelfbewaking van de articulatie met als criterium conflicterende articulatiebewegingen.

16.40: Een nieuw foneem voor het Nederlands?
Holger Mitterer // Max Planck Instituut voor Psycholinguïstiek, Nijmegen

Ter gelegenheid van mijn aanstaande vertrek na meer dan een decennium gastvrijheid in Nederland is een afscheidscadeau op zijn plaats: een nieuw foneem voor het Nederlands, de glottale stop. Voor het Duits beschouwt men de glottale stop als foneem. De canonieke vorm van Abfahrt (vertrek) is /?abfa:rt/, ook al is [~abfa:rt] (met kraakstem) de meest voorkomende vorm. Uit observatie blijkt dat ``klinkerinitiële'' woorden in het Nederlands ook vaak met kraakstem woorden geproduceerd, ook is er geen fonetische of prosodische reden voor (b.v. [en~afOnd]). Om te onderzoeken hoe vaak dit gebeurt, produceerden Nederlandse en Duitse sprekers 60 zinnen met /n#V/ of /r#V/ cognaatsequenties (b.v., Schwimmer_unter Wasser en zwemmer_onder water). Onafhankelijk van de taal werden rond 20% van de klinkerinitiële woorden met een glottale stop geproduceerd, 60% met glottalisatie, en 20% zonder een glottaal gebaar. Verder zijn het dezelfde items die in beide talen vaak of minder vaak met glottalisatie worden uitgesproken (r = 0.7, p < 0.001). Er is dus geen reden om aan te nemen dat de glottale stop in het Duits wel en in het Nederlands geen foneem is. Op dit moment testen wij de lexicale status van de glottale stop in de perceptie.

12.20 Algemene Ledenvergadering van de Nederlandse Vereniging voor Fonetische Wetenschappen

Donderdag 13 december 2012, 12:20 aan de Drift 21 the Utrecht

Tijdens de lunchpauze van de Dag van de Fonetiek organiseert de vereniging haar algemene ledenvergadering. De agenda kent drie agendapunten:

Financiën

De contributie zal met ingang van 2013 verhoogd worden van 7 naar 10 euro per jaar.

Bestuurssamenstelling

--Van het volgende bestuurslid is de termijn verlopen. Zij stelt zich herkiesbaar: Esther Janse (Radboud Universiteit Nijmegen, MPI).

--Doordat Marc Swerts (Universiteit van Tilburg) zich terugtrekt uit het bestuur en Titia Benders van de Universiteit van Amsterdam naar de Radboud Universiteit is gegaan, wil het bestuur graag versterking van twee nieuwe leden.

--Verkiesbaar stellen zich: Marie Postma-Nilsenova (Universiteit van Tilburg) en Mirjam de Jonge (Universiteit van Amsterdam).

--Andere leden die zich voor het bestuur verkiesbaar willen stellen wordt verzocht dit voor aanvang van de vergadering kenbaar te maken bij de secretaris van de vereniging (titia.benders@let.ru.nl).

Sponsoring fonetisch-getinte bijeenkomsten

--Ter vervanging van de themabijeenkomsten in de zomer, stelt het bestuur per jaar maximaal 500 euro beschikbaar ter ondersteuning van de organisatie van fonetisch-getinte bijeenkomsten. Leden van de vereniging kunnen bij het bestuur een verzoek indienen voor sponsoring. Informatie over het indienen van een aanvraag is te vinden in het programmaboekje en op de website (hier).

Voorstellen voor agendapunten kunt u schriftelijk, of per e-mail, indienen bij de secretaris.

Voor kandidaatstelling voor het bestuur kunt u ook contact opnemen met de secretaris.

Voor informatie over kandidaatstelling en schriftelijk of bij volmacht stemmen voor de bestuursverkiezingen verwijzen wij u naar het Huishoudelijk Regelement (zie: http://www.fon.hum.uva.nl/FonetischeVereniging/Vereniging/Reglement.txt).

Met vriendelijke groet,

Titia Benders, Secretaris van de Nederlandse Vereniging voor Fonetische Wetenschappen