UNI-MB - logo
UMNIK - logo
 
(UM)
  • Adaptacija jezikovnega modela na vsebinsko specifično besedišče : doktorska disertacija
    Sepesy Maučec, Mirjam
    Naloga zadeva jezikovno modeliranje pri razpoznavanju tekočega govora z velikim slovarjem. Naravni jezik je zelo zapleten fenomen, ki ga najuspešneje modeliramo s statističnimi jezikovnimi modeli. ... Parametre modelov določimo s statistično analizo obsežnih besedilnih zbirk, ki predstavljajo vzorec naravnega jezia. Z modeli nato ocenjujemo verjetnosti poljubnih nizov besed. Disertacija se posveča tehnikam, primernim za modeliranje slovenskega jezika. V preteklosti so bile razvite in ovrednotene številne metode za modeliranje angleškega jezika. Le-te se veliko slabše obnesejo pri modeliranju slovenskega jezika. Največ težav povzročajo nove besedne oblike, ki so posledica pregibanja. Pričujoče delo vsebuje tudi analizo oblikoslovne strukture slovenskega jezika. Na kratko je opisan splošni koncept tvorbe besednih oblik. Sledi poglobljen opis posameznih načinov pregibanj. V poenostavljenem modelu slovenske besede razlikujemo dva sestavna dela: osnovo in končnico. Osnova določa pomen besede, končnica pa njene slovnične lastnosti. Izhajajoč iz analize pregibanja definiramo novo izeljanko N-gramskih modelov. Ocene verjetnosti besed zamenjamo z ocenami verjetnosti osnov in končnic. Optimalno množico končnic določimo s podatkovno vodenim algoritmom. Množico končnic nato uporabimo pri razcepljanju posameznih besednih oblik. Z novim modelom uspešno rešujemo problem razpršenosti podatkov, kar dokazuje večja pokritost učnega korpusa in zmanjšanje deleža novih besed v testnem vzorcu. Dobljeni rezultati so primerljivi z rezultati besednih modelov angleškega jezika. MOdel splošnega jezika, ki smo ga zgradili v prvem delu disertacije, predstavlja osnovo za adaptacijo na vsebinsko specifično besedišče. Večina sistemov za razpoznavanje govora je namenjenih opravljanju vnaprej določenih nalog, ki so po vsebini omejene. V teh primerih se najbolje obnesejo jezikovni modeli, učeni na besedilnih zbirkah iz ciljnega okolja. Takšne besedilne zbirke so običajno po velikosti zelo omejene. Predstavljajo le vzorec, ki je za učenje jezikovnih modelov premajhen. Uporabimo ga kot osnovo za izločanje podobnih dokumentov iz učnega korpusa. Pri tem uporabimo klasifikatorje, definirane na področju zajemanja informacij (na primer TFIDF klasifikator ali naivni Bavesov klasifikator). Uspešnost klasifikacije dokumenta v vsebinske kategorije je tesno povezana s predstavitvijo dokumentov. Pri angleškem jeziku se je uveljavila predstavitev z vrečo besed, ki se je pri slovenskem jeziku pokazala kot premalo robustna. Kot atribute predstavitve dokumentov predlagamo uporabo razredov istopomenskih besed, ki jih tvorimo s pomočjo mehke primerjalne funkcije in drevesnega združevanja. Mehka primerjalna funkcija uspešno rešuje problem premen morfemov v osnovah besed, ki se pojavljajo pri določenih besednih oblikah. Z novimi atributi smo dosegli uspešnost klasifikacije dokumentov v slovenksem jeziku, primerljivo s klasifikacijo dokumentov v angleškem jeziku. Analizirali smo uspešnost adaptacije pri uporabi sestavljenih modelov. Ocena verjetnosti sestavljenega modela je vsota utežnih ocen verjetnosti splošnega in vsebinsko specifičnih modelov. Izkaže se, da je, razen modela splošnega jezika, smiselno uporabiti dva semantična nivoja vsebinsko specifičnih modelov. Disertacija zajema poskuse na besedilnem korpusu Broadcast News za angleški jezik in besedilnem korpusu Večer za slovenski jezik. Tehnike, ki jih predlagamo v disertaciji, so uporabne tudi pri modeliranju drugih pregibnih jezikov, za katere so značilne besedne oblike sestavljene iz osnov in končnic. V pričujočem delu smo se omejili zgolj na uporabo besedilnih zbirk, brez dodatnih, jezikovno odvisnih virov znanja.
    Vrsta gradiva - disertacija
    Založništvo in izdelava - Maribor : [M. Sepesy Maučec], 2001
    Jezik - slovenski
    COBISS.SI-ID - 6969622

Knjižnica Signatura – lokacija, inventarna št. ... Status izvoda
Knjižnica tehniških fakultet, Maribor pisarna A-003 (FERI) DD SEPESY MAUČEC M. ADAPTACIJA prosto - za čitalnico
Univerzitetna knjižnica Maribor Skladišče II 53519 prosto - za čitalnico
loading ...
loading ...
loading ...