UNI-MB - logo
UMNIK - logo
 
(UM)
  • Statistično modeliranje slovenskega jezika z uporabo osnovnih enot manjših od besede [Elektronski vir]
    Sepesy Maučec, Mirjam ; Rotovnik, Tomaž, telekomunikacije
    V članku obravnavamo statistično modeliranje slovenskega jezika. Opišemo bistvene razlike med modeliranjem slovenskega in angleškega jezika. Osnovna razlika je v pregibanju besed. Posledica je velik ... delež neznanih besed v novih besedilih. Pregibanje povzroča težave tudi pri vsebinski adaptaciji modelov, predvsem pri klasifikaciji besedil v vsebinske sklope. Pri modeliranju splošnega jezika predlagamo uporabo dveh manjših osnovnih enot: osnovo in končnico. Pri klasifikaciji besedil v vsebinske sklope pa je smiselno uporabiti bolj splošne (npr. lemam podobne) enote. V obeh primerih predlagamo podatkovno vodene postopke. Vse predlagane metode smo praktično preizkusili na korpusu Večer. Jezikovne modele smo vključili v razpoznavalnik tekočega slovenskega govora. V primerjavi z besednimi modeli smo dosegli vidno izboljšanje.
    Vrsta gradiva - e-članek
    Leto - 2003
    Jezik - slovenski
    COBISS.SI-ID - 7854102