Adaptacija jezikovnega modela na vsebinsko specifično besedišče : doktorska disertacija

Regional and Study Library, Murska Sobota - all departments (SIKMS)

Adaptacija jezikovnega modela na vsebinsko specifično besedišče : doktorska disertacija

Sepesy Maučec, Mirjam

Naloga zadeva jezikovno modeliranje pri razpoznavanju tekočega govora z velikim slovarjem. Naravni jezik je zelo zapleten fenomen, ki ga najuspešneje modeliramo s statističnimi jezikovnimi modeli. ... Parametre modelov določimo s statistično analizo obsežnih besedilnih zbirk, ki predstavljajo vzorec naravnega jezia. Z modeli nato ocenjujemo verjetnosti poljubnih nizov besed. Disertacija se posveča tehnikam, primernim za modeliranje slovenskega jezika. V preteklosti so bile razvite in ovrednotene številne metode za modeliranje angleškega jezika. Le-te se veliko slabše obnesejo pri modeliranju slovenskega jezika. Največ težav povzročajo nove besedne oblike, ki so posledica pregibanja. Pričujoče delo vsebuje tudi analizo oblikoslovne strukture slovenskega jezika. Na kratko je opisan splošni koncept tvorbe besednih oblik. Sledi poglobljen opis posameznih načinov pregibanj. V poenostavljenem modelu slovenske besede razlikujemo dva sestavna dela: osnovo in končnico. Osnova določa pomen besede, končnica pa njene slovnične lastnosti. Izhajajoč iz analize pregibanja definiramo novo izeljanko N-gramskih modelov. Ocene verjetnosti besed zamenjamo z ocenami verjetnosti osnov in končnic. Optimalno množico končnic določimo s podatkovno vodenim algoritmom. Množico končnic nato uporabimo pri razcepljanju posameznih besednih oblik. Z novim modelom uspešno rešujemo problem razpršenosti podatkov, kar dokazuje večja pokritost učnega korpusa in zmanjšanje deleža novih besed v testnem vzorcu. Dobljeni rezultati so primerljivi z rezultati besednih modelov angleškega jezika. MOdel splošnega jezika, ki smo ga zgradili v prvem delu disertacije, predstavlja osnovo za adaptacijo na vsebinsko specifično besedišče. Večina sistemov za razpoznavanje govora je namenjenih opravljanju vnaprej določenih nalog, ki so po vsebini omejene. V teh primerih se najbolje obnesejo jezikovni modeli, učeni na besedilnih zbirkah iz ciljnega okolja. Takšne besedilne zbirke so običajno po velikosti zelo omejene. Predstavljajo le vzorec, ki je za učenje jezikovnih modelov premajhen. Uporabimo ga kot osnovo za izločanje podobnih dokumentov iz učnega korpusa. Pri tem uporabimo klasifikatorje, definirane na področju zajemanja informacij (na primer TFIDF klasifikator ali naivni Bavesov klasifikator). Uspešnost klasifikacije dokumenta v vsebinske kategorije je tesno povezana s predstavitvijo dokumentov. Pri angleškem jeziku se je uveljavila predstavitev z vrečo besed, ki se je pri slovenskem jeziku pokazala kot premalo robustna. Kot atribute predstavitve dokumentov predlagamo uporabo razredov istopomenskih besed, ki jih tvorimo s pomočjo mehke primerjalne funkcije in drevesnega združevanja. Mehka primerjalna funkcija uspešno rešuje problem premen morfemov v osnovah besed, ki se pojavljajo pri določenih besednih oblikah. Z novimi atributi smo dosegli uspešnost klasifikacije dokumentov v slovenksem jeziku, primerljivo s klasifikacijo dokumentov v angleškem jeziku. Analizirali smo uspešnost adaptacije pri uporabi sestavljenih modelov. Ocena verjetnosti sestavljenega modela je vsota utežnih ocen verjetnosti splošnega in vsebinsko specifičnih modelov. Izkaže se, da je, razen modela splošnega jezika, smiselno uporabiti dva semantična nivoja vsebinsko specifičnih modelov. Disertacija zajema poskuse na besedilnem korpusu Broadcast News za angleški jezik in besedilnem korpusu Večer za slovenski jezik. Tehnike, ki jih predlagamo v disertaciji, so uporabne tudi pri modeliranju drugih pregibnih jezikov, za katere so značilne besedne oblike sestavljene iz osnov in končnic. V pričujočem delu smo se omejili zgolj na uporabo besedilnih zbirk, brez dodatnih, jezikovno odvisnih virov znanja.

Type of material - dissertation ; adult, serious

Publication and manufacture - Maribor : [M. Sepesy Maučec], 2001

Language - slovenian

COBISS.SI-ID - 6969622

Keep searching

Holdings
Availability in other libraries

Call number – location, accession no. ...	Copy status	Reservation
čitalnica Dd 004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10233088	available - reading room
čitalnica Dd 004 SEPESY Maučec, Mirjam Adaptacija ... IN: 10201675	available - reading room

Access to the JCR database is permitted only to users from Slovenia. Your current IP address is not on the list of IP addresses with access permission, and authentication with the relevant AAI accout is required.

Year	Impact factor		Edition		Category		Classification
Year	JCR	SNIP	JCR	SNIP	JCR	SNIP	JCR	SNIP

Links to authors' personal bibliographies	Links to information on researchers in the SICRIS system
Sepesy Maučec, Mirjam	18168
Kačič, Zdravko	06821

Source: Personal bibliographies and: SICRIS

The material from the parent unit is free. If the material is delivered to the pickup location from another unit, the library may charge you for this service.

Pickup location	Material status	Reservation

Upload image

Shelf entry

Adding material to shelf was successful.

Adding material to shelf failed.

It was not necessary to add the material to the shelf.

Permalink

E-mail

Impact factor

Select the library membership card:

DRS, in which the journal is indexed

Select pickup location:

Material pickup by post

Notification

Citations

Subject headings in COBISS General List of Subject Headings

Select pickup location

Reservation was successful.

Reservation failed.

Reservation...

Bibliographic data

Number of loans

Loan was successful

Loan failed

Loan was successful

Loan failed

Loan was successful

Loan failed

Loan was successful

Loan failed

Theme