VSE knjižnice (vzajemna bibliografsko-kataložna baza podatkov COBIB.SI)
  • Avtomatsko razpoznavanje govora za pregibni jezik z velikim slovarjem besed z uporabo podbesednih modelov osnova-končnica : doktorska disertacija
    Rotovnik, Tomaž, telekomunikacije
    V nalogi smo se posvetili gradnji razpoznavalnika za tekoči slovenski govor. Pri sistemu razpoznavanja tekočega govora z velikim slovarjem besed je razpoznavanje časovno zelo zahtevno. Trenutno so ... vrhunski sistemi razpoznavanja govora sposobni uporabljati slovar velikosti od 20000 do 60000 besed. Ti sistemi so bili večinoma razviti za angleški jezik, ki spada med nepregibne jezike. Slovenski jezik spada, tako kot drugi slovanski jeziki, medpregibne jezike. Njegova bogata morfologija zato predstavlja velik problem pri razpoznavanju govora z velikim slovarjem besed. Slovenski jezik potrebuje v primerjavi z angleškim desetkrat večji slovar za enako stopnjo pokritosti besedilnega korpusa, omejitev velikosti slovarja pa povzroča visoko stopnjo pojavljanja besed, ki jih ni v slovarju (besede OOV), te pa neposredno vplivajo na uspešnost razpoznavanja. V slovenskem jeziku je veliko različnih besednih oblik tvorjenih iz skupne osnove. V nalogi smo predstavili novi algoritem razcepa na osnovi lem, ki deli besede na podbesedni enoti: osnovo inkončnico. Pri tem se besede najprej delijo v skupine na osnovi skupne leme. Za posamezno skupino besed se nato uporabi algoritem razcepa na osnovi lem, ki se mu lahko s parametrom nivo _razcepa določi minimalna dolžina osnove ter število različnih osnov. Pri razcepu besed na podbesedne enote je potrebno deliti tudi ustrezne fonetične transkripcije besed. Pripis transkripcij podbesednim enotam ni vedno trivialen proces, saj je lahko število črk v besedi različno od števila fonemov transkripcije. Problem smo odpravili s predstavitvijo novega algoritma poravnave z uporabo razdalje ureditve. Značilnosti pregibnih jezikov smo uporabili pri zasnovi razpoznavalnika z novim iskalnim algoritmom z omejevanjem vrstnega reda ter ločenima jezikovnima modeloma. Iskalni algoritem je izkoristil dobre lastnosti uporabe podbesednih modelov (zmanjšanje besed OOV) in jih združil z dobrimi lastnostmi uporabe besednih modelov (dolžina upoštevanega konteksta). Iskalni algoritem omogoča tudi učinkovitejše omejevanje iskalnega prostora pri uporabi podbesednih modelov. Za v nalogi predstavljene iskalne algoritme smo določili tudi zgornjo mejo iskalnega prostora. Z uporabo modelov osnova-končnica smo izboljšali natančnost razpoznavanja ob enaki velikosti iskalnega prostora, kot smo ga dosegli s standardnim iskalnim algoritmom in besednimi modeli. Rezultati eksperimentov so bili ovrednoteni nad slovensko govorno bazo SNABI.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [T. Rotovnik], 2004
    Jezik - slovenski
    COBISS.SI-ID - 218843648

Knjižnica/institucija Kraj Akronim Za izposojo Druga zaloga
Centralna tehniška knjižnica Univerze v Ljubljani Ljubljana CTK na dom 1 izv.
Knjižnica tehniških fakultet, Maribor Maribor KTFMB v čitalnico 1 izv.
Narodna in univerzitetna knjižnica, Ljubljana Ljubljana NUK v čitalnico 1 izv.
Univerzitetna knjižnica Maribor Maribor UKM v čitalnico 1 izv.
loading ...
loading ...
loading ...