UNI-MB - logo
UMNIK - logo
 
(UM)
  • Avtomatsko razpoznavanje govora za pregibni jezik z uporabo morfoloških jezikovnih modelov s kontekstno odvisno strukturo : doktorska disertacija
    Donaj, Gregor
    V nalogi smo se posvetili jezikovnemu modeliranju za avtomatsko razpoznavanje govora z velikim slovarjem besed. Pri takšnem razpoznavanju je še vedno velika težava pravilnost razpoznavanja ... izgovorjenih besed. Ta je še posebej izrazita pri morfološko kompleksnejših jezikih, kot je slovenščina. Za delovanje sistema razpoznavanja tekočega govora potrebujemo jezikovne modele. Da lahko zgradimo primeren jezikovni model, potrebujemo ustrezno velike učne množice podatkov, ki morajo pri morfološko kompleksnejših jezikih biti še večje. Sodobni razpoznavalniki govora za slovenščino delajo več napak kot razpoznavalniki za druge jezike. Pogost problem so napačno razpoznane končnice besed. To kaže, da je smiselno razmišljati o vključevanju oblikoskladenjskih informacij v jezikovno modeliranje, če hočemo zmanjšati število napak. V doktorski nalogi predstavljamo zasnovo sistema, ki ob običajnih n-gramskih besednih jezikovnih modelih uporablja tudi modele, ki vključujejo informacije o besedni vrsti in slovničnih kategorijah prepoznanih besed. Imenujemo jih morfološki modeli. Razvili smo algoritem, ki na osnovi rezultatov perpleksnosti na razvojni množici določa najprimernejšo strukturo takšnih modelov glede na besedne vrste konteksta besede, ki jo ocenjujemo. Pravimo, da imajo modeli kontekstno odvisno strukturo. Implementirali smo jih kot faktorizirane jezikovne modele. V teh modelih se soočamo z veliko množico različnih možnih kontekstov besede in za vsak kontekst gradimo strukturo modelov ločeno. Pri tem lahko uporabimo le majhen del učne množice. Zato prihaja tudi tukaj do pomanjkanja učnih podatkov, kljub temu da imamo manjše zahteve po velikosti učne množice. Zato smo razvili pristope združevanja različnih kontekstov. Zaradi velikega števila možnih kontekstov in veliko različnih možnosti struktur modelov smo razvili tudi pristope za omejeno iskanje možnih struktur modelov na podlagi postopne gradnje njihovih struktur in sprotnega ocenjevanja. Sistem razpoznavanja je zasnovan v obliki dvoprehodnega algoritma, kjer v drugem prehodu uporabljamo v okviru doktorske disertacije razvite modele. Razvili smo tudi postopek za hitro optimizacijo uteži modelov in postopek dinamičnega uteževanja glede na kontekst besede. Uspešnost razpoznavanja z razvitimi modeli in brez njih smo testirali na slovenski govorni bazi Broadcast News.
    Type of material - dissertation ; adult, serious
    Publication and manufacture - Maribor : [G. Donaj], 2015
    Language - slovenian
    COBISS.SI-ID - 18693910

Library Call number – location, accession no. ... Copy status
Library of Technical Faculties, Maribor pisarna A-003 (FERI) DD DONAJ G. Avtomatsko available - reading room
University of Maribor Library Skladišče II 90000 available - reading room
loading ...
loading ...
loading ...