Akademska digitalna zbirka SLovenije - logo
(UL)
  • Ročno označeni korpusi Janes za učenje jezikovnotehnoloških orodij in jezikoslovne raziskave
    Čibej, Jaka, prevodoslovje, računalništvo ...
    V tem poglavju najprej predstavimo splošni postopek in delotok izdelave ročno označenih korpusov (od priprave podatkov, izdelovanja smernic za označevanje, dela z označevalno platformo in poteka ... označevalne kampanje do pretvorbe v končni format ter objave in distribucije), pri čemer se podrobneje posvetimo največjima tako nastalima korpusoma Janes-Norm (približno 185.000 pojavn-ic) in Janes-Tag (približno 75.000 pojavnic), katerih glavni namen je izboljšava jezikovnotehnoloških orodij za tokenizacijo, stavčno segmentacijo, normal-izacijo, lematizacijo in oblikoskladenjsko označevanje. Drugi del poglavja poda pregled vseh ročno označenih korpusov Janes: poleg že omenjenih Janes-Norm in Janes-Tag še Janes-Syn (skladnja v RPK), Janes-Kratko (pojavi krajšanja v RPK), Janes-Vejica (raba vejice v RPK), Janes-Preklop (preklapljanje koda v RPK) in Janes-Geo (raba nestandardnih jezikovnih prvin v RPK v odvisnosti od regionalnega izvora uporabnikov). V njem na kratko predstavimo vsebino in strukturo vsakega korpusa ter opišemo njegov predvideni namen
    Type of material - article, component part
    Publish date - 2018
    Language - slovenian
    COBISS.SI-ID - 66905698