UNI-MB - logo
UMNIK - logo
 
(UM)
  • Podatkovno vodena metoda prenosa večjezičnih akustičnih modelov razpoznavalnika govora na nov jezik : doktorska disertacija
    Žgank, Andrej
    V doktorski disertaciji smo se posvetili razpoznavanju govora s križnojezičnimi akustičnimi modeli. Glavna prednost takšnega pristopa je, da lahko izdelamo akustične modele za jezik, za katerega ... imamo na voljo zelo omejen nabor posnetkov, ki je premajhen, da bi ga uporabili za klasično učenje prikritih modelov Markova. Najprej smo definirali podatkovno voden pristop za generiranje fonetičnih razredov, ki jih uporabljamo v fonetičnem odločitvenem drevesu pri vezavi stanj kontekstno odvisnih akustičnih modelov. Podobnost fonemov izračunamo na osnovi matrike zamenjav fonemov, ki jo dobimo z razpoznavalnikom fonemov. Takšen podatkovno voden princip generiranja fonetičnih razredov je še posebej primeren za večjezično razpoznavanje govora, možno pa ga je uporabiti tudi v enojezičnem razpoznavalniku govora. Nato smo definirali podatkovno voden pristop križnojezičnega razpoznavanja govora, kjer smo podobnost med izvornimi jeziki in ciljnim jezikom ugotavljali na subfonemskem nivoju. Pri prenosu na ciljni jezik smo uporabljali večjezične kontekstno odvisne akustične modele, ki imajo zmožnost generaliziranja akustičnega prostora. Za izračun podobnosti med izvornimi akustičnimi modeli in ciljnim jezikom smo uporabili pristop na osnovi matrike zamenjav subfonemov, ki jo izračunamo na majhnem razvojnem naboru posnetkov v ciljnem jeziku. Definirali smo kriterij za izločitev redkih izvornih kandidatov, ki dodatno prečisti nabor izvornih akustičnih modelov. Na takšen način zmanjšamo vpliv tistih akustičnih modelov, ki so se v naboru izvornih kandidatov pojavili zaradi napak pri razpoznavanju subfonemov, in ne zaradi podobnosti s ciljnim jezikom. Definirane podatkovno vodene pristope smo ovrednotili z razpoznavanjem govora na telefonskih bazah SpeechDat(II). V naboru smo imeli vključene slovenski, nemški in španski jezik s 1000 govorci za posamičen jezik. Metodo za podatkovno vodeno generiranje fonetičnih razredov smo najprej analizirali za primer slovenskega jezika. Doseženi rezultati so bili delno boljši, delno pa primerljivi z rezultati na osnovi ekspertnih fonetičnih razredov. Tudi v večjezičnem okolju daje podatkovno vodeno generiranje fonetičnih rezultatov bistveno boljše rezultate kot ekspertno tvorjeni fonetični razredi. Križnojezični razpoznavalnik govora na osnovi večjezičnih konteksno odvisnih akustičnih modelov smo tvorili z definiranim postopkom na osnovi subfonemske matrike zamenjav. Dobljene rezultate smo primerjali z dvema klasičnima postopkoma za križnojezično razpoznavanje govora - s postopkom na osnovi tabele IPA in s postopkom na osnovi matrike zamenjav fonemov. Rezultati eksperimentov kažejo, da s križnojezičnim postopkom na osnovi subfonemske matrike zamenjav dosežemo izboljšanje razpoznavanja govora za ciljni jezik. Z vključitvijo kriterija za izločitev redkih izvornih kandidatov smo dosegli nadaljnje izboljšanje rezultatov razpoznavanja govora.
    Type of material - dissertation ; adult, serious
    Publication and manufacture - Maribor : [A. Žgank], 2003
    Language - slovenian
    COBISS.SI-ID - 128273664

Library Call number – location, accession no. ... Copy status
Library of Technical Faculties, Maribor pisarna A-003 (FERI) DD ŽGANK A. PODATKOVNO available - reading room
University of Maribor Library Skladišče II 57688 available - reading room
loading ...
loading ...
loading ...