UNI-MB - logo
UMNIK - logo
 
(UM)
  • Večločljivostno izločanje značilk pri razpoznavanju emocij v govoru : doktorska disertacija : [doctoral dissertation]
    Zelenik, Aleš
    V doktorski nalogi obravnavamo problematiko prepoznave emocionalnega govora iz avdio posnetkov. V okviru naloge je za izločanje značilk uporabljenih več različnih širin kratkočasovnih procesnih oken, ... z namenom pridobitve optimalne širine in doseganje najvišje stopnje prepoznave. V dosedanjih raziskavah se največkrat pojavljajo procesna okna širine 20 in 100ms [6], kjer uporaba krajšega okna omogoča boljšo časovno ločljivost, a slabšo frekvenčno ločljivost, medtem ko daljša okna dvignejo frekvenčno ločljivost in poslabšajo časovno ločljivost. V tej točki je definiran nov postopek, ki združi prednosti uporabe ožjih in širših oken in izkorišča prednosti dinamičnega prilagajanja časovne in frekvenčne ločljivosti pri posameznih značilkah. Postopek, poimenovan ESRA, definira koncept večločljivostnega izločanja, izbire in uporabe značilk in pri tem poskrbi za uporabo večločljivostnega koncepta pri razpoznavanju končnih razredov, kjer se za procesiranje uporabi del akustičnega signala, ki vsebuje zvočni govor. Dodatno višanje nivoja uspešnosti prepoznave je doseženo z uporabo normalizacije uporabljenih značilk ter glajenja vrednosti značilk v postprocesiranju. Dodana vrednost pri postopku optimizacije uspešnosti razpoznave je v definiranju algoritma zamenjave končnih razredov, s katerim je bilo doseženo zvišanje uspešnosti najoptimalnejših rezultatov prepoznavanja emocionalnih posnetkov. Za vrednotenje vpliva algoritma na optimizacijo nivoja razpoznave emocionalnega govora sta uporabljeni dve različni območji poimenovani kratko- in dolgočasovno območje, na podlagi katerih poteka izločanje in ocenjevanje od emocij odvisnih značilk govora, z namenom njihove uporabe pri razpoznavanju emocij v govoru. Pri tem sta za potrditev delovanja algoritma uporabljena dva načina generiranja podsetov značilk ter za klasifikacijo štirje različni klasifikatorji (MLP, RF, KNN, GMM). Uporabljeni emocionalni posnetki so del emocionalne govorne baze Interface [18], ki vsebuje igrane posnetke osnovnih šestih emocionalnih razredov (Ekman-ovih velikih šest) in nevtralni govor. Najvišja dosežena uspešnost prepoznave večločljivostnega pristopa je znašala 88,6%, kar je za 3,8% presegalo najboljšo uspešnost enonivojskega pristopa oziroma je bila uspešnost prepoznave za 24,9% višja v relativnem smislu. Podane so primerjave z rezultati uspešnosti dosedanjih raziskav na uporabljeni bazi.
    Type of material - dissertation ; adult, serious
    Publication and manufacture - Maribor : [A. Zelenik], 2013
    Language - slovenian
    COBISS.SI-ID - 266300928

Library Call number – location, accession no. ... Copy status
Library of Technical Faculties, Maribor pisarna A-003 (FERI) DD ZELENIK A. Večločljivostno available - reading room
University of Maribor Library Skladišče II 84793 available - reading room
loading ...
loading ...
loading ...