Het IFAcorpus Het IFA corpus is een gesegmenteerd en gelabeld corpus van gesproken Nederlands. Het bevat opnamen van 8 sprekers, 4 mannen en 4 vrouwen. De sprekers varieren in leeftijd van 15 tot 66 jaar. Bij de constructie van dit corpus is geprobeerd zo veel mogelijk de procedures en protocollen van het Corpus Gesproken Nederlands te volgen. Van alle sprekers zijn relevante gegevens zoals leeftijd, scholing, geboorteplaats, rook en drinkgewoonten, medicijngebruik etc. opgenomen in een database. Er zijn meer gegevens opgenomen dan voor sprekers van het CGN. De transliteratie van spraak is gedaan volgens het CGN Protocol voor Ortografische Transcriptie. Alle spraak is ortografisch getranscribeerd. In totaal gaat het hier om 26733 zinnen. Van deze zinnen zijn er 19867 fonetisch getranscribeerd en gesegmenteerd, in totaal ongeveer 50000 woorden (>5 uur). Bijna alle gesegmenteerde zinnen zijn door het CGN consortium voorzien van een POS tags en Lemma's. Het IFAcorpus wijkt in enkele opzichten af van het CGN. Ten eerste is van iedere spreker veel meer materiaal voorhanden, ongeveer 40 minuten per spreker. Ook zijn er veel meer spreekstijlen gebruikt. In totaal zijn opnamen voorhande van 8 spreekstijlen. Van Informele spraak, waarbij elke spreker vertelde over een door haar of hem beleefde reis in aanwezigheid van een interviewer, tot aan voorgelezen lijsten van stereotype en diagnostische woorden, b.v., het alfabet en geisoleerde klinkers. De spraak is verdeeld in een variabel gedeelte, gebaseerd op transcripties van het voor iedere spreker verschillende vakantieverhaal, en een vast gedeelte dat gebaseerd is op twee bestaande narrative teksten: 'De Noordenwind en de Zon', en het sprookje 'Jorinde en Joringel'. Verder is het grootste deel van het IFAcorpus met de hand gesegmenteerd en gelabeld op foneemniveau. Het CGN wordt gedeeltelijk fonemisch getranscribeerd maar zal niet gesegmenteerd worden. De foneem symbolen in het IFAcorpus zijn dezelfde als die voor het CGN gebruikt worden. Alle gegevens van fonemen, syllaben, woorden en zinnen zijn opgeslagen in tabellen die on-line beschikbaar zijn voor (complexe) SQL queries. Kleinere verschillen met het CGN hebben betrekking op de opdeling van het materiaal en media formaat. Het IFAcorpus is opgedeeld in zinnen. Voor de voorgelezen spraak is dit geen probleem. Voor de informele (spontane) spraak is de sprekers gevraagd om zelf een opdeling in zinnen te maken op grond van de transcriptie. De andere spontane spreekstijl in het IFAcorpus, navertelde spraak, is er een opdeling gemaakt op grond van pauzes, grammaticale en prosodische overwegingen. Hierbij is geprobeerd een compromis te vinden tussen het CGN protocol, dwz, segmenteren op pauzes, en het informele en tekstuele materiaal dat wel op zinnen was gesegmenteerd. Hierbij moet opgemerkt worden dat de informele en navertelde spraak in het IFAcorpus gebaseerd is op monologen en daardoor veel regelmatiger dan de multilogen in het CGN. Er moet hier opgemerkt worden dat het indexeren en identificeren van individuele eenheden, b.v., zinnen, woorden en fonemen, in het IFAcorpus afwijkt van de manier waarop dit in het CGN gebeurd. De opnamen van het IFAcorpus zijn allemaal gemaakt in een speciale geluidsarme ruimte met twee verschillende microfoons, een vaste en een "head-mounted" microfoon. Alle opnamen zijn van Audio-CD qualiteit, dwz., 16 bit lineair, 44.1 kHz. Het opslagformat is AIFC. Alle spraakgerelateerde files zijn aangemaakt met Praat. Dit betekent dat de spraak-files en alle afgeleide bestanden converteerbaar zijn naar de formaten die gebruikt worden in het CGN. U kunt het IFAcorpus vinden op URL: http://www.fon.hum.uva.nl/IFAcorpus/ Literatuur: R.J.J.H. van Son, Diana Binnenpoorte, Henk van den Heuvel, and Louis C.W. Pols (2001), 'The IFA Corpus: a Phonemically Segmented Dutch "Open Source" Speech Database' , Proceedings of EUROSPEECH2001, Alborg, Denmark, Vol. 3, 2051-2054. R.J.J.H. van Son Louis C.W. Pols (2001). 'Structure and access of the open source IFA-corpus' Proceedings of the IRCS Workshop on Linguistic Databases. R.J.J.H. van Son & L.C.W. Pols (2001). 'Structure and access of the open source IFA-corpus', Proceedings of the Institute of Phonetic Sciences, Amsterdam, 24, 15-26.