NUK - logo
Narodna in univerzitetna knjižnica, Ljubljana (NUK)
Naročanje gradiva za izposojo na dom
Naročanje gradiva za izposojo v čitalnice
Naročanje kopij člankov
Urnik dostave gradiva z oznako DS v signaturi
  • Avtomatsko razpoznavanje govora za pregibni jezik z velikim slovarjem besed z uporabo podbesednih modelov osnova-končnica : doktorska disertacija
    Rotovnik, Tomaž, telekomunikacije
    V nalogi smo se posvetili gradnji razpoznavalnika za tekoči slovenski govor. Pri sistemu razpoznavanja tekočega govora z velikim slovarjem besed je razpoznavanje časovno zelo zahtevno. Trenutno so ... vrhunski sistemi razpoznavanja govora sposobni uporabljati slovar velikosti od 20000 do 60000 besed. Ti sistemi so bili večinoma razviti za angleški jezik, ki spada med nepregibne jezike. Slovenski jezik spada, tako kot drugi slovanski jeziki, medpregibne jezike. Njegova bogata morfologija zato predstavlja velik problem pri razpoznavanju govora z velikim slovarjem besed. Slovenski jezik potrebuje v primerjavi z angleškim desetkrat večji slovar za enako stopnjo pokritosti besedilnega korpusa, omejitev velikosti slovarja pa povzroča visoko stopnjo pojavljanja besed, ki jih ni v slovarju (besede OOV), te pa neposredno vplivajo na uspešnost razpoznavanja. V slovenskem jeziku je veliko različnih besednih oblik tvorjenih iz skupne osnove. V nalogi smo predstavili novi algoritem razcepa na osnovi lem, ki deli besede na podbesedni enoti: osnovo inkončnico. Pri tem se besede najprej delijo v skupine na osnovi skupne leme. Za posamezno skupino besed se nato uporabi algoritem razcepa na osnovi lem, ki se mu lahko s parametrom nivo _razcepa določi minimalna dolžina osnove ter število različnih osnov. Pri razcepu besed na podbesedne enote je potrebno deliti tudi ustrezne fonetične transkripcije besed. Pripis transkripcij podbesednim enotam ni vedno trivialen proces, saj je lahko število črk v besedi različno od števila fonemov transkripcije. Problem smo odpravili s predstavitvijo novega algoritma poravnave z uporabo razdalje ureditve. Značilnosti pregibnih jezikov smo uporabili pri zasnovi razpoznavalnika z novim iskalnim algoritmom z omejevanjem vrstnega reda ter ločenima jezikovnima modeloma. Iskalni algoritem je izkoristil dobre lastnosti uporabe podbesednih modelov (zmanjšanje besed OOV) in jih združil z dobrimi lastnostmi uporabe besednih modelov (dolžina upoštevanega konteksta). Iskalni algoritem omogoča tudi učinkovitejše omejevanje iskalnega prostora pri uporabi podbesednih modelov. Za v nalogi predstavljene iskalne algoritme smo določili tudi zgornjo mejo iskalnega prostora. Z uporabo modelov osnova-končnica smo izboljšali natančnost razpoznavanja ob enaki velikosti iskalnega prostora, kot smo ga dosegli s standardnim iskalnim algoritmom in besednimi modeli. Rezultati eksperimentov so bili ovrednoteni nad slovensko govorno bazo SNABI.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [T. Rotovnik], 2004
    Jezik - slovenski
    COBISS.SI-ID - 218843648

Rezervirajte gradivo na želenem mestu prevzema.

Mesto prevzema Status gradiva Rezervacija
Časopisna čitalnica
prosto - za čitalnico
Velika čitalnica
prosto - za čitalnico
Signatura – lokacija, inventarna št. ... Status izvoda
GS II 0000606420 glavno skladišče GS II 606420 glavno skladišče prosto - za čitalnico
loading ...
loading ...
loading ...