(UM)
-
Zaznavanje aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora : doktorska disertacijaVlaj, DamjanV doktorski disertaciji obravnavamo problematiko zaznavanja aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora. Cilj predstavljene doktorske disertacije je definiranje, ... implementacija in vrednotenje uspešnosti novega algoritma za zaznavanje aktivnosti govora (algoritem VAD). Algoritem V AD, predlagan v doktorski disertaciji, temelji na Gaussovih modelih porazdelitve verjetnosti (modelih GMM). Modeli GMM so bili naučeni na značilkah MFCC_specE_D_A, ki smo jih določili iz frekvenčnega spektra, spremenjenega z vpeljavo nelineame funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter, in na vrednosti energijskega koeficienta, pridobljenega iz nelineamo spremenjenega frekvenčnega spektra. Osnovni namen vpeljave ne linearne funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter je bil izboljšanje zaznavanja vokalov, dvoglasnikov in polglasnikov v govornem signalu. Z vpeljavo nelinearne funkcije v frekvenčni spekter govorne ga signala smo poudarili prisotnost vokalov, dvoglasnikov in polglasnikov v frekvenčnem spektru, z njo pa smo tudi zmanjšali uspešnost zaznavanja konzonantov. Problem slabšega zaznavanja konzonantov v govornem signalu smo odpravili z vpeljavo kriterija podaljška in kriterija predhodnega nastopa. S kriterijem podaljška odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na koncu besede, in konzonantov, ki se pojavijo na sredini besede. S kriterijem predhodnega nastopa odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na začetku besede, in konzonantov, ki se pojavijo na sredini besede. Vključitev obeh kriterijev na konec osnovne odločitve V AD je doprinesla tako k boljši uspešnosti zaznavanja aktivnosti govora kot tudi k boljšemu avtomatskemu razpoznavanju govora. Da sta kriterij podaljška in kriterij predhodnega nastopa doprinesla k prej omenjenim boljšim rezultatom, smo zastavili postopek določitve optimalnih vrednosti za kriterij podaljška in kriterij predhodnega nastopa. To smo izvedli na osnovi analize dolžine fonemov. Za analizo dolžine trajanja fonemov smo uporabili bazo izgovarjav Aurora 2, in sicer samo čiste posnetke te baze izgovarjav. Pri analizi dolžine fonemov smo določili 6 skupin fonemov, ki so bile razdeljene glede na njihovo pojavljanje v besedi (na začetku, na sredini ip na koncu besede). To je bilo izvedeno tako za množico vokalov, dvoglasnikov in polglasnikov, kot tudi za množico konzonantov. Analiza dolžine fonemov nam je koristila pri določanju konstant GovorniOkvir, Podaljšek in PredhodniNastop. Konstanti GovorniOkvir in Podaljšek se uporabljata v kriteriju podaljška predhodnega nastopa. Osnovna ideja tega postopka je bila zmanjšati potrebno število eksperimentov pri iskanju optimalnih vrednosti konstant GovorniOkvir, Podaljšek in PredhodniNastop. Algoritem VAD na osnovi modelov GMM je vseboval dva modela. Model GMM, ki je predstavljal model govora, smo naučili ob prisotnosti vokalov, dvo glasnikov in polglasnikov v govornem signalu. Za model tišine pa smo uporabili prisotnost konzonantov v govornem signalu in preostali šumni del posnetka. Z vključitvijo kriterija podaljška in kriterija predhodnega nastopa na konec osnovne odločitve V AD na osnovi modelov GMM smo dosegli boljše rezultate zaznavanja aktivnosti govora. Kot so pokazali eksperimenti avtomatskega razpoznavanja govora, je uporaba obeh kriterijev doprinesla k boljšemu avtomatskemu razpoznavanju govora, in to še posebej, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govomim signalom baze izgovarjav Aurora 2. V doktorski disertaciji smo izvedli primerjavo sedmih algoritmov V AD. Eksperimente smo izvedli na osnovi zaznavanja aktivnosti govora in na osnovi avtomatskega razpoznavanja govora na bazah izgovarjav Aurora 2 in Aurora 3. Pri avtomatskem razpoznavanju govora smo uporabili strategijo odstranjevanja šumnih okvirov v kombinaciji s posameznimi algoritmi V AD. Na ta način smo lahko ocenili uspešnost delovanja posameznega algoritma V AD s stališča avtomatskega razpoznavanja govora. Pri testih zaznavanja aktivnosti govora smo prišli do zaključka, da se najmanjši odstotek vseh napak zaznavanja aktivnosti govora pri večini razmerij med signalom in šumom pojavi prav pri predlaganem algoritmu V AD na osnovi modelov GMM, pri katerem smo spremenili frekvenčni spekter z vpeljavo ne linearne funkcije in optimalno izbranimi konstantami za kriterij podaljška in kriterij predhodnega nastopa. Pri eksperimentih avtomatskega razpoznavanja govora na bazi izgovarjav Aurora 2 je algoritem V AD na osnovi modelov GMM z nelinearno spremenjenim frekvenčnim spektrom dosegel najboljše skupno relativno izboljšanje uspešnosti avtomatskega razpoznavanja govora, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govornim signalom. Ko pa uporabimo za vrednotenje realno bazo izgovorjav, kot je Aurora 3, je zelo pomembno, da je učno okolje za učenje modelov za algoritem V AD na osnovi modelov GMM kar se da na široko zastavljeno oziroma prilagojeno na značilnosti okolja, v katerem bomo uporabljali algoritem V AD. Tako smo precej izboljšali rezultate avtomatskega razpoznavanja govora, ko smo modele GMM naučili na čisto specifično okolje, kar se je posebej pokazalo na nemški bazi izgovarjav SpeechDat Car.Vrsta gradiva - disertacija ; neleposlovje za odrasleZaložništvo in izdelava - Maribor : [D. Vlaj], 2007Jezik - slovenskiCOBISS.SI-ID - 234006784
Avtor
Vlaj, Damjan
Drugi avtorji
Kačič, Zdravko
Teme
Avtomatsko razpoznavanje govora |
Disertacije |
zaznavanje aktivnosti govora |
govorni signali |
procesiranje |
kriterij podaljška |
kriterij predhodnega nastopa
Knjižnica | Signatura – lokacija, inventarna št. ... | Status izvoda |
---|---|---|
Knjižnica tehniških fakultet, Maribor | pisarna A-003 (FERI) DD VLAJ D. Zaznavanje | prosto - za čitalnico |
Univerzitetna knjižnica Maribor | Skladišče II 66082 | prosto - za čitalnico |
Vnos na polico
Trajna povezava
- URL:
Faktor vpliva
Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.
Leto | Faktor vpliva | Izdaja | Kategorija | Razvrstitev | ||||
---|---|---|---|---|---|---|---|---|
JCR | SNIP | JCR | SNIP | JCR | SNIP | JCR | SNIP |
Baze podatkov, v katerih je revija indeksirana
Ime baze podatkov | Področje | Leto |
---|
Povezave do osebnih bibliografij avtorjev | Povezave do podatkov o raziskovalcih v sistemu SICRIS |
---|---|
Vlaj, Damjan | 22290 |
Kačič, Zdravko | 06821 |
Vir: Osebne bibliografije
in: SICRIS
Izberite prevzemno mesto:
Prevzem gradiva po pošti
Naslov za dostavo:
Med podatki člana manjka naslov.
Storitev za pridobivanje naslova trenutno ni dostopna, prosimo, poskusite še enkrat.
S klikom na gumb "V redu" boste potrdili zgoraj izbrano prevzemno mesto in dokončali postopek rezervacije.
S klikom na gumb "V redu" boste potrdili zgoraj izbrano prevzemno mesto in naslov za dostavo ter dokončali postopek rezervacije.
S klikom na gumb "V redu" boste potrdili zgoraj izbrani naslov za dostavo in dokončali postopek rezervacije.
Obvestilo
Trenutno je storitev za avtomatsko prijavo in rezervacijo nedostopna. Gradivo lahko rezervirate sami na portalu Biblos ali ponovno poskusite tukaj kasneje.
Gesla v Splošnem geslovniku COBISS
Izbira mesta prevzema
Gradivo iz matične enote je brezplačno. Če je gradivo na mesto prevzema dostavljeno iz drugih enot, lahko knjižnica to storitev zaračuna.
Mesto prevzema | Status gradiva | Rezervacija |
---|
Rezervacija v teku
Prosimo, počakajte trenutek.
Rezervacija je uspela.
Rezervacija ni uspela.
Rezervacija...
Članska izkaznica:
Mesto prevzema: