Opdracht 6 In deze opdracht maak je kennis met enkele technieken van automatische spraakherkenning (ASH). Helaas is het niet mogelijk in het kader van dit college een serieuze ASH-opdracht te doen omdat de bewerkingen daarvoor te complex zijn. We beperken ons hier tot een soort bandfilteranalyse (MFCC = mel-frequency-based cepstral coefficients) en een matching van twee uitingen van ongelijke lengte via dynamic time warping (DTW). Spreek (via 'praat') twee keer de reeks '1-2-3-4-5' in, iedere keer anders, b.v. in normaal en snel tempo ingesproken. Maak van beide uitingen een spectro-temporele representatie (via Formant & LPC -, to MFCC...). Selecteer beide MFCC-files en doe een DTW (via To DTW..., match begin en eindposities en selecteer 'no slope restrictions'). Via Paint distances... kun je de afstandenmatrix als een zwart-wit patroon tekenen (hoe witter, hoe korter de afstand), en via Draw path... het best passende pad. Onder de horizontale as kun je het bijpassende oscillogram van de ene uiting tekenen, helaas is het bij mijn weten niet mogelijk langs de verticale as de andere uiting verticaal weer te geven. Bekijk en beredeneer de mate van fit. Het programma gebruikt 24 driehoekige filters waarvan de bandbreedte toeneemt met de frequentie (dat is die mel-schaal). Je kunt deze filters zien door de MFCC te converteren naar Mel filters (To Melfilter...) en dan onder Draw -, Draw filter functions... te kiezen. Een andere manier om DTW te toetsen is om twee uitingen met elkaar te vergelijken die slechts gedeeltelijk matchen, b.v. de gesproken getallenreeks 1-2-3-4-5 en de reeks 2-5. Worden twee aan twee vergelijkbare getallen inderdaad gematcht, wat gaat er evt. fout en waarom en beschrijf je wederwaardigheden in een kort verslag, geĂ¯llustreerd met de afstandenmatrices en het best passende pad. Lever je rapport in met illustraties, alles in PDF formaat. |