Narodna in univerzitetna knjižnica, Ljubljana (NUK)
-
Adaptacija jezikovnega modela na vsebinsko specifično besedišče : doktorska disertacijaSepesy Maučec, MirjamNaloga zadeva jezikovno modeliranje pri razpoznavanju tekočega govora z velikim slovarjem. Naravni jezik je zelo zapleten fenomen, ki ga najuspešneje modeliramo s statističnimi jezikovnimi modeli. ... Parametre modelov določimo s statistično analizo obsežnih besedilnih zbirk, ki predstavljajo vzorec naravnega jezia. Z modeli nato ocenjujemo verjetnosti poljubnih nizov besed. Disertacija se posveča tehnikam, primernim za modeliranje slovenskega jezika. V preteklosti so bile razvite in ovrednotene številne metode za modeliranje angleškega jezika. Le-te se veliko slabše obnesejo pri modeliranju slovenskega jezika. Največ težav povzročajo nove besedne oblike, ki so posledica pregibanja. Pričujoče delo vsebuje tudi analizo oblikoslovne strukture slovenskega jezika. Na kratko je opisan splošni koncept tvorbe besednih oblik. Sledi poglobljen opis posameznih načinov pregibanj. V poenostavljenem modelu slovenske besede razlikujemo dva sestavna dela: osnovo in končnico. Osnova določa pomen besede, končnica pa njene slovnične lastnosti. Izhajajoč iz analize pregibanja definiramo novo izeljanko N-gramskih modelov. Ocene verjetnosti besed zamenjamo z ocenami verjetnosti osnov in končnic. Optimalno množico končnic določimo s podatkovno vodenim algoritmom. Množico končnic nato uporabimo pri razcepljanju posameznih besednih oblik. Z novim modelom uspešno rešujemo problem razpršenosti podatkov, kar dokazuje večja pokritost učnega korpusa in zmanjšanje deleža novih besed v testnem vzorcu. Dobljeni rezultati so primerljivi z rezultati besednih modelov angleškega jezika. MOdel splošnega jezika, ki smo ga zgradili v prvem delu disertacije, predstavlja osnovo za adaptacijo na vsebinsko specifično besedišče. Večina sistemov za razpoznavanje govora je namenjenih opravljanju vnaprej določenih nalog, ki so po vsebini omejene. V teh primerih se najbolje obnesejo jezikovni modeli, učeni na besedilnih zbirkah iz ciljnega okolja. Takšne besedilne zbirke so običajno po velikosti zelo omejene. Predstavljajo le vzorec, ki je za učenje jezikovnih modelov premajhen. Uporabimo ga kot osnovo za izločanje podobnih dokumentov iz učnega korpusa. Pri tem uporabimo klasifikatorje, definirane na področju zajemanja informacij (na primer TFIDF klasifikator ali naivni Bavesov klasifikator). Uspešnost klasifikacije dokumenta v vsebinske kategorije je tesno povezana s predstavitvijo dokumentov. Pri angleškem jeziku se je uveljavila predstavitev z vrečo besed, ki se je pri slovenskem jeziku pokazala kot premalo robustna. Kot atribute predstavitve dokumentov predlagamo uporabo razredov istopomenskih besed, ki jih tvorimo s pomočjo mehke primerjalne funkcije in drevesnega združevanja. Mehka primerjalna funkcija uspešno rešuje problem premen morfemov v osnovah besed, ki se pojavljajo pri določenih besednih oblikah. Z novimi atributi smo dosegli uspešnost klasifikacije dokumentov v slovenksem jeziku, primerljivo s klasifikacijo dokumentov v angleškem jeziku. Analizirali smo uspešnost adaptacije pri uporabi sestavljenih modelov. Ocena verjetnosti sestavljenega modela je vsota utežnih ocen verjetnosti splošnega in vsebinsko specifičnih modelov. Izkaže se, da je, razen modela splošnega jezika, smiselno uporabiti dva semantična nivoja vsebinsko specifičnih modelov. Disertacija zajema poskuse na besedilnem korpusu Broadcast News za angleški jezik in besedilnem korpusu Večer za slovenski jezik. Tehnike, ki jih predlagamo v disertaciji, so uporabne tudi pri modeliranju drugih pregibnih jezikov, za katere so značilne besedne oblike sestavljene iz osnov in končnic. V pričujočem delu smo se omejili zgolj na uporabo besedilnih zbirk, brez dodatnih, jezikovno odvisnih virov znanja.Vrsta gradiva - disertacija ; neleposlovje za odrasleZaložništvo in izdelava - Maribor : [M. Sepesy Maučec], 2001Jezik - slovenskiCOBISS.SI-ID - 6969622
Avtor
Sepesy Maučec, Mirjam
Drugi avtorji
Kačič, Zdravko
Teme
Slovenščina |
Jezikovno modeliranje |
Jezikovno modeliranje |
Metode |
jezikovni modeli |
N-gramski model |
perpleksnost |
govor |
besedilne zbirke |
angleščina |
slovenščina |
pregibanje |
adaptacija
Rezervirajte gradivo na želenem mestu prevzema.
Mesto prevzema |
Status gradiva | Rezervacija |
---|---|---|
Časopisna čitalnica |
prosto - za čitalnico
|
|
Velika čitalnica |
prosto - za čitalnico
|
Signatura – lokacija, inventarna št. ... |
Status izvoda |
---|---|
GS II 0000528172 glavno skladišče GS II 528172 glavno skladišče |
prosto - za čitalnico
|
Vnos na polico
Trajna povezava
- URL:
Faktor vpliva
Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.
Leto | Faktor vpliva | Izdaja | Kategorija | Razvrstitev | ||||
---|---|---|---|---|---|---|---|---|
JCR | SNIP | JCR | SNIP | JCR | SNIP | JCR | SNIP |
Baze podatkov, v katerih je revija indeksirana
Ime baze podatkov | Področje | Leto |
---|
Povezave do osebnih bibliografij avtorjev | Povezave do podatkov o raziskovalcih v sistemu SICRIS |
---|---|
Sepesy Maučec, Mirjam | 18168 |
Kačič, Zdravko | 06821 |
Vir: Osebne bibliografije
in: SICRIS
Izberite prevzemno mesto:
Prevzem gradiva po pošti
Naslov za dostavo:
Med podatki člana manjka naslov.
Storitev za pridobivanje naslova trenutno ni dostopna, prosimo, poskusite še enkrat.
S klikom na gumb "V redu" boste potrdili zgoraj izbrano prevzemno mesto in dokončali postopek rezervacije.
S klikom na gumb "V redu" boste potrdili zgoraj izbrano prevzemno mesto in naslov za dostavo ter dokončali postopek rezervacije.
S klikom na gumb "V redu" boste potrdili zgoraj izbrani naslov za dostavo in dokončali postopek rezervacije.
Obvestilo
Trenutno je storitev za avtomatsko prijavo in rezervacijo nedostopna. Gradivo lahko rezervirate sami na portalu Biblos ali ponovno poskusite tukaj kasneje.
Gesla v Splošnem geslovniku COBISS
Izbira mesta prevzema
Gradivo iz matične enote je brezplačno. Če je gradivo na mesto prevzema dostavljeno iz drugih enot, lahko knjižnica to storitev zaračuna.
Mesto prevzema | Status gradiva | Rezervacija |
---|
Rezervacija v teku
Prosimo, počakajte trenutek.
Rezervacija je uspela.
Rezervacija ni uspela.
Rezervacija...
Članska izkaznica:
Mesto prevzema:
Naročanje gradiva za izposojo v čitalnice
Naročanje kopij člankov
Urnik dostave gradiva z oznako DS v signaturi