-
Adaptacija jezikovnega modela na vsebinsko specifično besedišče : doktorska disertacijaSepesy Maučec, MirjamNaloga zadeva jezikovno modeliranje pri razpoznavanju tekočega govora z velikim slovarjem. Naravni jezik je zelo zapleten fenomen, ki ga najuspešneje modeliramo s statističnimi jezikovnimi modeli. ... Parametre modelov določimo s statistično analizo obsežnih besedilnih zbirk, ki predstavljajo vzorec naravnega jezia. Z modeli nato ocenjujemo verjetnosti poljubnih nizov besed. Disertacija se posveča tehnikam, primernim za modeliranje slovenskega jezika. V preteklosti so bile razvite in ovrednotene številne metode za modeliranje angleškega jezika. Le-te se veliko slabše obnesejo pri modeliranju slovenskega jezika. Največ težav povzročajo nove besedne oblike, ki so posledica pregibanja. Pričujoče delo vsebuje tudi analizo oblikoslovne strukture slovenskega jezika. Na kratko je opisan splošni koncept tvorbe besednih oblik. Sledi poglobljen opis posameznih načinov pregibanj. V poenostavljenem modelu slovenske besede razlikujemo dva sestavna dela: osnovo in končnico. Osnova določa pomen besede, končnica pa njene slovnične lastnosti. Izhajajoč iz analize pregibanja definiramo novo izeljanko N-gramskih modelov. Ocene verjetnosti besed zamenjamo z ocenami verjetnosti osnov in končnic. Optimalno množico končnic določimo s podatkovno vodenim algoritmom. Množico končnic nato uporabimo pri razcepljanju posameznih besednih oblik. Z novim modelom uspešno rešujemo problem razpršenosti podatkov, kar dokazuje večja pokritost učnega korpusa in zmanjšanje deleža novih besed v testnem vzorcu. Dobljeni rezultati so primerljivi z rezultati besednih modelov angleškega jezika. MOdel splošnega jezika, ki smo ga zgradili v prvem delu disertacije, predstavlja osnovo za adaptacijo na vsebinsko specifično besedišče. Večina sistemov za razpoznavanje govora je namenjenih opravljanju vnaprej določenih nalog, ki so po vsebini omejene. V teh primerih se najbolje obnesejo jezikovni modeli, učeni na besedilnih zbirkah iz ciljnega okolja. Takšne besedilne zbirke so običajno po velikosti zelo omejene. Predstavljajo le vzorec, ki je za učenje jezikovnih modelov premajhen. Uporabimo ga kot osnovo za izločanje podobnih dokumentov iz učnega korpusa. Pri tem uporabimo klasifikatorje, definirane na področju zajemanja informacij (na primer TFIDF klasifikator ali naivni Bavesov klasifikator). Uspešnost klasifikacije dokumenta v vsebinske kategorije je tesno povezana s predstavitvijo dokumentov. Pri angleškem jeziku se je uveljavila predstavitev z vrečo besed, ki se je pri slovenskem jeziku pokazala kot premalo robustna. Kot atribute predstavitve dokumentov predlagamo uporabo razredov istopomenskih besed, ki jih tvorimo s pomočjo mehke primerjalne funkcije in drevesnega združevanja. Mehka primerjalna funkcija uspešno rešuje problem premen morfemov v osnovah besed, ki se pojavljajo pri določenih besednih oblikah. Z novimi atributi smo dosegli uspešnost klasifikacije dokumentov v slovenksem jeziku, primerljivo s klasifikacijo dokumentov v angleškem jeziku. Analizirali smo uspešnost adaptacije pri uporabi sestavljenih modelov. Ocena verjetnosti sestavljenega modela je vsota utežnih ocen verjetnosti splošnega in vsebinsko specifičnih modelov. Izkaže se, da je, razen modela splošnega jezika, smiselno uporabiti dva semantična nivoja vsebinsko specifičnih modelov. Disertacija zajema poskuse na besedilnem korpusu Broadcast News za angleški jezik in besedilnem korpusu Večer za slovenski jezik. Tehnike, ki jih predlagamo v disertaciji, so uporabne tudi pri modeliranju drugih pregibnih jezikov, za katere so značilne besedne oblike sestavljene iz osnov in končnic. V pričujočem delu smo se omejili zgolj na uporabo besedilnih zbirk, brez dodatnih, jezikovno odvisnih virov znanja.Type of material - dissertation ; adult, seriousPublication and manufacture - Maribor : [M. Sepesy Maučec], 2001Language - slovenianCOBISS.SI-ID - 6969622
Author
Sepesy Maučec, Mirjam
Other authors
Kačič, Zdravko
Topics
jezikovni modeli |
N-gramski model |
perpleksnost |
združevanje besed |
mehka logika |
adaptacija |
jezikovno modeliranje |
doktorske disertacije |
language model |
N-gram model |
perplexity |
word clustering |
fuzzy logic |
adaptation |
language modelling
Call number – location, accession no. ... |
Copy status | Reservation |
---|---|---|
čitalnica Dd 0000000004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10233088 čitalnica Dd 004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10233088 |
available - reading room
|
|
čitalnica Dd 0000000004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10201675 čitalnica Dd 004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10201675 |
available - reading room
|
Shelf entry
Permalink
- URL:
Impact factor
Access to the JCR database is permitted only to users from Slovenia. Your current IP address is not on the list of IP addresses with access permission, and authentication with the relevant AAI accout is required.
Year | Impact factor | Edition | Category | Classification | ||||
---|---|---|---|---|---|---|---|---|
JCR | SNIP | JCR | SNIP | JCR | SNIP | JCR | SNIP |
Select the library membership card:
DRS, in which the journal is indexed
Database name | Field | Year |
---|
Links to authors' personal bibliographies | Links to information on researchers in the SICRIS system |
---|---|
Sepesy Maučec, Mirjam | 18168 |
Kačič, Zdravko | 06821 |
Select pickup location:
Material pickup by post
Notification
Subject headings in COBISS General List of Subject Headings
Select pickup location
Pickup location | Material status | Reservation |
---|
Please wait a moment.