Zaznavanje aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora : doktorska disertacija

(UM)

Zaznavanje aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora : doktorska disertacija

Vlaj, Damjan

V doktorski disertaciji obravnavamo problematiko zaznavanja aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora. Cilj predstavljene doktorske disertacije je definiranje, ... implementacija in vrednotenje uspešnosti novega algoritma za zaznavanje aktivnosti govora (algoritem VAD). Algoritem V AD, predlagan v doktorski disertaciji, temelji na Gaussovih modelih porazdelitve verjetnosti (modelih GMM). Modeli GMM so bili naučeni na značilkah MFCC_specE_D_A, ki smo jih določili iz frekvenčnega spektra, spremenjenega z vpeljavo nelineame funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter, in na vrednosti energijskega koeficienta, pridobljenega iz nelineamo spremenjenega frekvenčnega spektra. Osnovni namen vpeljave ne linearne funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter je bil izboljšanje zaznavanja vokalov, dvoglasnikov in polglasnikov v govornem signalu. Z vpeljavo nelinearne funkcije v frekvenčni spekter govorne ga signala smo poudarili prisotnost vokalov, dvoglasnikov in polglasnikov v frekvenčnem spektru, z njo pa smo tudi zmanjšali uspešnost zaznavanja konzonantov. Problem slabšega zaznavanja konzonantov v govornem signalu smo odpravili z vpeljavo kriterija podaljška in kriterija predhodnega nastopa. S kriterijem podaljška odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na koncu besede, in konzonantov, ki se pojavijo na sredini besede. S kriterijem predhodnega nastopa odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na začetku besede, in konzonantov, ki se pojavijo na sredini besede. Vključitev obeh kriterijev na konec osnovne odločitve V AD je doprinesla tako k boljši uspešnosti zaznavanja aktivnosti govora kot tudi k boljšemu avtomatskemu razpoznavanju govora. Da sta kriterij podaljška in kriterij predhodnega nastopa doprinesla k prej omenjenim boljšim rezultatom, smo zastavili postopek določitve optimalnih vrednosti za kriterij podaljška in kriterij predhodnega nastopa. To smo izvedli na osnovi analize dolžine fonemov. Za analizo dolžine trajanja fonemov smo uporabili bazo izgovarjav Aurora 2, in sicer samo čiste posnetke te baze izgovarjav. Pri analizi dolžine fonemov smo določili 6 skupin fonemov, ki so bile razdeljene glede na njihovo pojavljanje v besedi (na začetku, na sredini ip na koncu besede). To je bilo izvedeno tako za množico vokalov, dvoglasnikov in polglasnikov, kot tudi za množico konzonantov. Analiza dolžine fonemov nam je koristila pri določanju konstant GovorniOkvir, Podaljšek in PredhodniNastop. Konstanti GovorniOkvir in Podaljšek se uporabljata v kriteriju podaljška predhodnega nastopa. Osnovna ideja tega postopka je bila zmanjšati potrebno število eksperimentov pri iskanju optimalnih vrednosti konstant GovorniOkvir, Podaljšek in PredhodniNastop. Algoritem VAD na osnovi modelov GMM je vseboval dva modela. Model GMM, ki je predstavljal model govora, smo naučili ob prisotnosti vokalov, dvo glasnikov in polglasnikov v govornem signalu. Za model tišine pa smo uporabili prisotnost konzonantov v govornem signalu in preostali šumni del posnetka. Z vključitvijo kriterija podaljška in kriterija predhodnega nastopa na konec osnovne odločitve V AD na osnovi modelov GMM smo dosegli boljše rezultate zaznavanja aktivnosti govora. Kot so pokazali eksperimenti avtomatskega razpoznavanja govora, je uporaba obeh kriterijev doprinesla k boljšemu avtomatskemu razpoznavanju govora, in to še posebej, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govomim signalom baze izgovarjav Aurora 2. V doktorski disertaciji smo izvedli primerjavo sedmih algoritmov V AD. Eksperimente smo izvedli na osnovi zaznavanja aktivnosti govora in na osnovi avtomatskega razpoznavanja govora na bazah izgovarjav Aurora 2 in Aurora 3. Pri avtomatskem razpoznavanju govora smo uporabili strategijo odstranjevanja šumnih okvirov v kombinaciji s posameznimi algoritmi V AD. Na ta način smo lahko ocenili uspešnost delovanja posameznega algoritma V AD s stališča avtomatskega razpoznavanja govora. Pri testih zaznavanja aktivnosti govora smo prišli do zaključka, da se najmanjši odstotek vseh napak zaznavanja aktivnosti govora pri večini razmerij med signalom in šumom pojavi prav pri predlaganem algoritmu V AD na osnovi modelov GMM, pri katerem smo spremenili frekvenčni spekter z vpeljavo ne linearne funkcije in optimalno izbranimi konstantami za kriterij podaljška in kriterij predhodnega nastopa. Pri eksperimentih avtomatskega razpoznavanja govora na bazi izgovarjav Aurora 2 je algoritem V AD na osnovi modelov GMM z nelinearno spremenjenim frekvenčnim spektrom dosegel najboljše skupno relativno izboljšanje uspešnosti avtomatskega razpoznavanja govora, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govornim signalom. Ko pa uporabimo za vrednotenje realno bazo izgovorjav, kot je Aurora 3, je zelo pomembno, da je učno okolje za učenje modelov za algoritem V AD na osnovi modelov GMM kar se da na široko zastavljeno oziroma prilagojeno na značilnosti okolja, v katerem bomo uporabljali algoritem V AD. Tako smo precej izboljšali rezultate avtomatskega razpoznavanja govora, ko smo modele GMM naučili na čisto specifično okolje, kar se je posebej pokazalo na nemški bazi izgovarjav SpeechDat Car.

Vrsta gradiva - disertacija ; neleposlovje za odrasle

Založništvo in izdelava - Maribor : [D. Vlaj], 2007

Jezik - slovenski

COBISS.SI-ID - 234006784

Išči dalje

Zaloga
Zaloga v drugih knjižnicah

Knjižnica	Signatura – lokacija, inventarna št. ...	Status izvoda
Knjižnica tehniških fakultet, Maribor	pisarna A-003 (FERI) DD VLAJ D. Zaznavanje	prosto - za čitalnico
Univerzitetna knjižnica Maribor	Skladišče II 66082	prosto - za čitalnico

Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.

Leto	Faktor vpliva		Izdaja		Kategorija		Razvrstitev
Leto	JCR	SNIP	JCR	SNIP	JCR	SNIP	JCR	SNIP

Povezave do osebnih bibliografij avtorjev	Povezave do podatkov o raziskovalcih v sistemu SICRIS
Vlaj, Damjan	22290
Kačič, Zdravko	06821

Vir: Osebne bibliografije in: SICRIS

Gradivo iz matične enote je brezplačno. Če je gradivo na mesto prevzema dostavljeno iz drugih enot, lahko knjižnica to storitev zaračuna.

Mesto prevzema	Status gradiva	Rezervacija

Naloži sliko

Vnos na polico

Dodajanje gradiva na polico je uspelo.

Dodajanje gradiva na polico je spodletelo.

Dodajanje gradiva na polico ni bilo potrebno.

Trajna povezava

E-pošta

Faktor vpliva

Izberite knjižnično izkaznico:

Baze podatkov, v katerih je revija indeksirana

Izberite prevzemno mesto:

Prevzem gradiva po pošti

Obvestilo

Citiranje

Gesla v Splošnem geslovniku COBISS

Izbira mesta prevzema

Rezervacija je uspela.

Rezervacija ni uspela.

Rezervacija...

Bibliografski podatki

Število izposoj

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Tema