NUK - logo
Narodna in univerzitetna knjižnica, Ljubljana (NUK)
Naročanje gradiva za izposojo na dom
Naročanje gradiva za izposojo v čitalnice
Naročanje kopij člankov
Urnik dostave gradiva z oznako DS v signaturi
  • Časovno in pomnilniško optimalna struktura večjezičnega in poliglotskega sintetizatorja govora - arhitektura s končnimi stroji : doktorska disertacija
    Rojc, Matej, 1972-
    Glavni cilj disertacije je zasnova nove arhitekture TTS-sistema, ki temelji na konkatenacijski sintezi govora in končnih strojih. V predstavljeni nalogi smo pokazali, da je mogoče s končnimi stroji ... predstaviti vse procese TTS-sistema od procesiranja vhodnega teksta pa do akustičnega procesiranja. Pri tem smo modele odločitvenih in regresijskih dreves ter jezikovne modele prevedli v pripadajoče utežene končne pretvornike in pokazali, da je mogoče takšne modele tudi učinkovito združevati in povečati uspešnost npr. modeliranja napovedovanja prozodičnih mej, stopnje poudarjenosti zlogov ali intonacijskih dogodkov. V nalogi predlagamo razvoj večjezičnega uteženega tokenizatorja, ki temelji na končnih strojih in ga zgradimo z naborom regularnih izrazov. V okviru tokenizatorja predlagamo tudi vključitev črkovalnika, ki odpravlja napake črkovanja v vhodnem tekstu. Na nivoju večjezičnega procesiranja teksta predlagamo rešitev razširitve števil za fleksijske jezike, kot je na primer slovenščina. Definirali smo tudi več baznih končnih pretvornikov, kot so pretvornik faktorizacije, pretvornik za zamenjavo dekad itd. Slovar, ki opisuje pretvorbo med osnovnimi imeni števil in njihovo semantično vrednostjo v obliki vsote produktov potenc baze, smo tudi predstavili s končnim pretvornikom. Dodali smo več pravil, potrebnih pri razširitvi števil v pripadajočo besedno obliko. Predlagamo tudi postopek pretvorbe posebnih znakov in okrajšav v besedno obliko na osnovi končnih pretvornikov. Vse jezikovne vire (morfološki slovar, fonetični slovar in fonetični slovar lastnih imen) smo predstavili s končnimi pretvorniki. Pri tem smo uvedli nov postopek kodiranja morfološkega slovarja z uporabo HRG-struktur. V nalogi predlagamo nov postopek oblikoslovnega označevanja, pri katerem vključujemo na začetku uporabo morfoloških slovarjev, nato napovedovalnik v primeru neznanih besed, kontekstno popravo, ki se izvaja s kontekstnimi pravili, in na koncu pravila lokalne slovnice za post-procesiranje napak, ki so prisotne na izhodu kontekstnega označevanja. Celoten postopek oblikoslovnega označevanja je predstavljen s končnimi stroji. V okviru grafemsko-fonemske pretvorbe predlagamo kaskadno povezavo več nivojev pretvorb. Znotraj tega modula predstavimo fonetične slovarje s končnimi pretvorniki, zgradimo odločitvena drevesa za določanje grafemsko-fonemske pretvorbe neznanih besed ter definiramo modele določanja pravilnih transkripcij homografov v tekstu. Na koncu vpeljemo še pravila post-procesiranja, ki popravljajo foneme transkripcij na prehodih besed. V okviru grafemsko-fonemske pretvorbe smo izvedli nov postopek pretvorbe modela določanja pravilne transkripcije homografov, predstavljenega z odločitvenimi drevesi, v pripadajoče končne pretvornike. Izvedli smo tudi nov postopek gradnje večjezičnega zlogovalnika s končnimi pretvorniki, učenega z odločitvenimi drevesi. Zaradi velike pogostosti tujih besed v tekstu primarnega jezika smo v okviru naloge razvili postopek poliglotske grafemsko-fonemske pretvorbe delov teksta v sekundarnem jeziku. Na celotnem tekstu uporabimo prozodiko primarnega jezika. V okviru analize baze govora za sintezo smo vpeljali postopke analiz, ki zmanjšajo potreben čas analize. V okviru segmentacije baze na akustične enote predlagamo tudi vpeljavo mere zaupanja, s pomočjo katere ekspert preveri problematične meje akustičnih enot. Uvedli smo avtomatsko določanje prozodičnih mej v bazi, stopenj poudarjenosti besed in intonacijskih dogodkov. Izvedli smo tudi obsežno analizo trajanja segmentov in pavz. Na osnovi baze za sintezo in pripadajoče analize smo zgradili odločitvena drevesa in jezikovne modele (N-grame) za napovedovanje prozodičnih mej, stopenj poudarjenosti zlogov ter intonacijskih dogodkov. Tako smo za napovedovanje stopenj poudarjenosti zlogov in intonacijskih dogodkov vpeljali novo metodo, po kateri najprej prevedemo odločitveno drevo in jezikovni model v pripadajoča utežena končna pretvornika, nato pa ju združimo v en model s kompozicijo. Pri akustični prozodiki smo naučili regresijska drevesa za napovedovanje trajanja segmentov, pavz in akustičnih parametrov tilt za generiranje krivulj osnovne frekvence. Pri tem predlagamo predstavitev modelov regresijskih dreves z uteženim končnim pretvornikom. Da bi omejili iskalni prostor enot v modulu izbire enote med sintezo, smo predlagali postopek kontrukcije baze z dvema pristopoma grozdenja enot baze za sintezo. Pri tem lahko omejimo velikost grozdov na določeno število kandidatov enot. Postopek za trifone tudi uspešno odpravlja problem nevidenih trifonov. V okviru akustičnega modula predstavljamo harmonsko-šumni model sinteze. Pri tem smo na nivoju analize, v katerem določamo parametre HNM-modela, predlagali vpeljavo modulirane Gaussove valčne transformacije (MGWT) za natančno določanje maksimalne frekvence zvočnosti v govornem signalu. V okviru disertacije smo razvili obsežno množico orodij in knjižnic pod skupnim imenom HAL (Human and Language), s pomočjo katerih smo razvili potrebne jezikovne vire in demonstrirali uspešnost in učinkovitost predlaganih rešitev znotraj arhitekture TTS-sistema PLATOS. Verjamemo, da bo zgrajena programska struktura, podprta z mnogimi jezikovnimi viri, predstavljala odlično testno okolje za generiranje in testiranje novih idej ter nadaljnje nadgrajevanje TTS-sistema PLATOS in ASR-sistema SPREAD.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [M. Rojc], 2003
    Jezik - slovenski
    COBISS.SI-ID - 8093462

Rezervirajte gradivo na želenem mestu prevzema.

Mesto prevzema Status gradiva Rezervacija
Časopisna čitalnica
prosto - za čitalnico
Velika čitalnica
prosto - za čitalnico
Signatura – lokacija, inventarna št. ... Status izvoda
GS II 0000547956 glavno skladišče GS II 547956 glavno skladišče prosto - za čitalnico
loading ...
loading ...
loading ...