Akademska digitalna zbirka SLovenije - logo
(UM)
  • Zaznavanje aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora : doktorska disertacija
    Vlaj, Damjan
    V doktorski disertaciji obravnavamo problematiko zaznavanja aktivnosti govora v sistemih porazdeljenega avtomatskega razpoznavanja govora. Cilj predstavljene doktorske disertacije je definiranje, ... implementacija in vrednotenje uspešnosti novega algoritma za zaznavanje aktivnosti govora (algoritem VAD). Algoritem V AD, predlagan v doktorski disertaciji, temelji na Gaussovih modelih porazdelitve verjetnosti (modelih GMM). Modeli GMM so bili naučeni na značilkah MFCC_specE_D_A, ki smo jih določili iz frekvenčnega spektra, spremenjenega z vpeljavo nelineame funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter, in na vrednosti energijskega koeficienta, pridobljenega iz nelineamo spremenjenega frekvenčnega spektra. Osnovni namen vpeljave ne linearne funkcije na osnovi minimalne in maksimalne statistike v frekvenčni spekter je bil izboljšanje zaznavanja vokalov, dvoglasnikov in polglasnikov v govornem signalu. Z vpeljavo nelinearne funkcije v frekvenčni spekter govorne ga signala smo poudarili prisotnost vokalov, dvoglasnikov in polglasnikov v frekvenčnem spektru, z njo pa smo tudi zmanjšali uspešnost zaznavanja konzonantov. Problem slabšega zaznavanja konzonantov v govornem signalu smo odpravili z vpeljavo kriterija podaljška in kriterija predhodnega nastopa. S kriterijem podaljška odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na koncu besede, in konzonantov, ki se pojavijo na sredini besede. S kriterijem predhodnega nastopa odpravimo nepravilno zaznavanje konzonantov, ki se pojavijo na začetku besede, in konzonantov, ki se pojavijo na sredini besede. Vključitev obeh kriterijev na konec osnovne odločitve V AD je doprinesla tako k boljši uspešnosti zaznavanja aktivnosti govora kot tudi k boljšemu avtomatskemu razpoznavanju govora. Da sta kriterij podaljška in kriterij predhodnega nastopa doprinesla k prej omenjenim boljšim rezultatom, smo zastavili postopek določitve optimalnih vrednosti za kriterij podaljška in kriterij predhodnega nastopa. To smo izvedli na osnovi analize dolžine fonemov. Za analizo dolžine trajanja fonemov smo uporabili bazo izgovarjav Aurora 2, in sicer samo čiste posnetke te baze izgovarjav. Pri analizi dolžine fonemov smo določili 6 skupin fonemov, ki so bile razdeljene glede na njihovo pojavljanje v besedi (na začetku, na sredini ip na koncu besede). To je bilo izvedeno tako za množico vokalov, dvoglasnikov in polglasnikov, kot tudi za množico konzonantov. Analiza dolžine fonemov nam je koristila pri določanju konstant GovorniOkvir, Podaljšek in PredhodniNastop. Konstanti GovorniOkvir in Podaljšek se uporabljata v kriteriju podaljška predhodnega nastopa. Osnovna ideja tega postopka je bila zmanjšati potrebno število eksperimentov pri iskanju optimalnih vrednosti konstant GovorniOkvir, Podaljšek in PredhodniNastop. Algoritem VAD na osnovi modelov GMM je vseboval dva modela. Model GMM, ki je predstavljal model govora, smo naučili ob prisotnosti vokalov, dvo glasnikov in polglasnikov v govornem signalu. Za model tišine pa smo uporabili prisotnost konzonantov v govornem signalu in preostali šumni del posnetka. Z vključitvijo kriterija podaljška in kriterija predhodnega nastopa na konec osnovne odločitve V AD na osnovi modelov GMM smo dosegli boljše rezultate zaznavanja aktivnosti govora. Kot so pokazali eksperimenti avtomatskega razpoznavanja govora, je uporaba obeh kriterijev doprinesla k boljšemu avtomatskemu razpoznavanju govora, in to še posebej, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govomim signalom baze izgovarjav Aurora 2. V doktorski disertaciji smo izvedli primerjavo sedmih algoritmov V AD. Eksperimente smo izvedli na osnovi zaznavanja aktivnosti govora in na osnovi avtomatskega razpoznavanja govora na bazah izgovarjav Aurora 2 in Aurora 3. Pri avtomatskem razpoznavanju govora smo uporabili strategijo odstranjevanja šumnih okvirov v kombinaciji s posameznimi algoritmi V AD. Na ta način smo lahko ocenili uspešnost delovanja posameznega algoritma V AD s stališča avtomatskega razpoznavanja govora. Pri testih zaznavanja aktivnosti govora smo prišli do zaključka, da se najmanjši odstotek vseh napak zaznavanja aktivnosti govora pri večini razmerij med signalom in šumom pojavi prav pri predlaganem algoritmu V AD na osnovi modelov GMM, pri katerem smo spremenili frekvenčni spekter z vpeljavo ne linearne funkcije in optimalno izbranimi konstantami za kriterij podaljška in kriterij predhodnega nastopa. Pri eksperimentih avtomatskega razpoznavanja govora na bazi izgovarjav Aurora 2 je algoritem V AD na osnovi modelov GMM z nelinearno spremenjenim frekvenčnim spektrom dosegel najboljše skupno relativno izboljšanje uspešnosti avtomatskega razpoznavanja govora, ko so bili akustični modeli naučeni z mešanim (čistim in šumnim) govornim signalom. Ko pa uporabimo za vrednotenje realno bazo izgovorjav, kot je Aurora 3, je zelo pomembno, da je učno okolje za učenje modelov za algoritem V AD na osnovi modelov GMM kar se da na široko zastavljeno oziroma prilagojeno na značilnosti okolja, v katerem bomo uporabljali algoritem V AD. Tako smo precej izboljšali rezultate avtomatskega razpoznavanja govora, ko smo modele GMM naučili na čisto specifično okolje, kar se je posebej pokazalo na nemški bazi izgovarjav SpeechDat Car.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [D. Vlaj], 2007
    Jezik - slovenski
    COBISS.SI-ID - 234006784

Knjižnica Signatura – lokacija, inventarna št. ... Status izvoda
Knjižnica tehniških fakultet, Maribor pisarna A-003 (FERI) DD VLAJ D. Zaznavanje prosto - za čitalnico
Univerzitetna knjižnica Maribor Skladišče II 66082 prosto - za čitalnico
loading ...
loading ...
loading ...