VSE knjižnice (vzajemna bibliografsko-kataložna baza podatkov COBIB.SI)
  • Večločljivostno izločanje značilk pri razpoznavanju emocij v govoru : doktorska disertacija : [doctoral dissertation]
    Zelenik, Aleš
    V doktorski nalogi obravnavamo problematiko prepoznave emocionalnega govora iz avdio posnetkov. V okviru naloge je za izločanje značilk uporabljenih več različnih širin kratkočasovnih procesnih oken, ... z namenom pridobitve optimalne širine in doseganje najvišje stopnje prepoznave. V dosedanjih raziskavah se največkrat pojavljajo procesna okna širine 20 in 100ms [6], kjer uporaba krajšega okna omogoča boljšo časovno ločljivost, a slabšo frekvenčno ločljivost, medtem ko daljša okna dvignejo frekvenčno ločljivost in poslabšajo časovno ločljivost. V tej točki je definiran nov postopek, ki združi prednosti uporabe ožjih in širših oken in izkorišča prednosti dinamičnega prilagajanja časovne in frekvenčne ločljivosti pri posameznih značilkah. Postopek, poimenovan ESRA, definira koncept večločljivostnega izločanja, izbire in uporabe značilk in pri tem poskrbi za uporabo večločljivostnega koncepta pri razpoznavanju končnih razredov, kjer se za procesiranje uporabi del akustičnega signala, ki vsebuje zvočni govor. Dodatno višanje nivoja uspešnosti prepoznave je doseženo z uporabo normalizacije uporabljenih značilk ter glajenja vrednosti značilk v postprocesiranju. Dodana vrednost pri postopku optimizacije uspešnosti razpoznave je v definiranju algoritma zamenjave končnih razredov, s katerim je bilo doseženo zvišanje uspešnosti najoptimalnejših rezultatov prepoznavanja emocionalnih posnetkov. Za vrednotenje vpliva algoritma na optimizacijo nivoja razpoznave emocionalnega govora sta uporabljeni dve različni območji poimenovani kratko- in dolgočasovno območje, na podlagi katerih poteka izločanje in ocenjevanje od emocij odvisnih značilk govora, z namenom njihove uporabe pri razpoznavanju emocij v govoru. Pri tem sta za potrditev delovanja algoritma uporabljena dva načina generiranja podsetov značilk ter za klasifikacijo štirje različni klasifikatorji (MLP, RF, KNN, GMM). Uporabljeni emocionalni posnetki so del emocionalne govorne baze Interface [18], ki vsebuje igrane posnetke osnovnih šestih emocionalnih razredov (Ekman-ovih velikih šest) in nevtralni govor. Najvišja dosežena uspešnost prepoznave večločljivostnega pristopa je znašala 88,6%, kar je za 3,8% presegalo najboljšo uspešnost enonivojskega pristopa oziroma je bila uspešnost prepoznave za 24,9% višja v relativnem smislu. Podane so primerjave z rezultati uspešnosti dosedanjih raziskav na uporabljeni bazi.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [A. Zelenik], 2013
    Jezik - slovenski
    COBISS.SI-ID - 266300928

    Povezava(-e):

    Digitalna knjižnica Univerze v Mariboru – DKUM
    Digitalna knjižnica Slovenije - dLib.si

    Dostop z namenskih računalnikov v prostorih NUK



Knjižnica/institucija Kraj Akronim Za izposojo Druga zaloga
Knjižnica tehniških fakultet, Maribor Maribor KTFMB v čitalnico 1 izv.
Narodna in univerzitetna knjižnica, Ljubljana Ljubljana NUK v čitalnico 1 izv.
ni za izposojo 1 izv.
Univerzitetna knjižnica Maribor Maribor UKM v čitalnico 1 izv.
loading ...
loading ...
loading ...