Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na ...označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.
Predstavljamo metodo za luščenje definicij iz specializiranih korpusov. Metoda je bila razvita za slovenščino in angleščino, sestavljajo pa jo trije pristopi: v prvem definicije luščimo z ...leksikoskladenjskimi vzorci, drugi uporablja avtomatsko izluščeno terminologijo, tretji pa lušči stavke, v katerih se nahajata pojem in njegova nadpomenka iz semantičnega leksikona wordnet. Metodologijo smo preizkusili na primeru področja jezikovnih tehnologij. Za namene modeliranja izbranega področja smo zgradili primerljivi slovensko-angleški Korpus jezikovnih tehnologij, izluščene kandidate pa smo uporabili pri gradnji Glosarja jezikovnih tehnologij. Celotno metodologijo smo strnili v prosto dostopen delotok, implementiran v spletnem okolju za gradnjo delotokov Clowdflows. V delotok lahko uporabnik prek spleta naloži korpus v različnih formatih, ga jezikoslovno označi, izlušči terminologijo in kandidate za definicije ter rezultate vizualizira ali shrani.
Trends in E-Tools and Resources for Translators and Interpreters offers a collection of contributions from key players in the field of translation and interpreting that accurately outline some of the ...most cutting-edge technologies in this field.