Akademska digitalna zbirka SLovenije - logo
E-resources
Peer reviewed Open access
  • Modeli za predikcijo obliko...
    Šnajder, Jan

    Slovenscina 2.0, 12/2013, Volume: 1, Issue: 2
    Journal Article

    Morfološka analiza je predpogoj za številne naloge pri računalniški obdelavi jezika. Pri oblikoslovno bogatih jezikih, kot je hrvaščina, temelji morfološka analiza navadno na morfološkem leksikonu, ki vsebuje seznam lem in njihove oblikoslovne paradigme. Vendar pa mora uporaben morfološki analizator znati ustrezno razčleniti tudi besede, ki jih ni v leksikonu. V prispevku se lotevamo avtomatskega prepoznavanja ustrezne oblikoslovne paradigme pri še neznanih hrvaških besedah. Problem obravnavamo z nadzorovanim strojnim učenjem, kjer na osnovi vrste besednih in korpusnih značilk klasifikator naučimo predvidevati, ali je določen par lema–paradigma ustrezen. Pare lema–paradigma smo generirali s pomočjo ročno izdelane oblikoslovne gramatike. Namen prispevka je analizirati postopke strojnega učenja pri obravnavi tega problema: testirali smo bogat nabor značilk in ocenili natančnost klasifikacije z uporabo različnih podmnožic značilk. Pokažemo, da je zadovoljivo natančnost klasifikacije (92 %) mogoče doseči z metodo SVM in z uporabo kombinacije besednih in korpusnih značilk. Dosežena natančnost za posamezno besedo v našem modelu je 70 %, vrednost F1 je 53 %, kar je bistveno boljše kot rezultat, ki upošteva samo pogostost pojavitev. Članek zaključimo s smernicami za nadaljnje delo.