UP - logo
E-viri
Recenzirano Odprti dostop
  • Gigafida in slWaC: tematska...
    Logar Berginc, Nataša; Ljubešić, Nikola

    Slovenscina 2.0, 12/2013, Letnik: 1, Številka: 1
    Journal Article

    V prispevku analiziramo dvoje: (a) vključevanje besedil z interneta v obstoječe referenčne korpuse, ki ga soočamo z obstojem spletnih korpusov, ter (b) dva najnovejša korpusa slovenščine: korpus Gigafida, ki ga pretežno sestavljajo tiskana besedila, v manjši meri pa tudi spletna, in korpus slWaC, ki je v celoti sestavljen iz spletnih besedil. Najprej ugotavljamo podobnosti in razlike med njima z metodo tematskega modeliranja, nato pa isto metodo apliciramo še na posamezne taksonomske kategorije Gigafide. Prvi del analize je pokazal, da je ravnanje sestavljalcev referenčnih korpusov v zvezi z vključevanjem internetnih besedil v korpuse, ki naj bi kazali celovito podobo nekega jezika, trenutno še neenotno, če pa se zanj že odločijo, je nabor vključenih žanrov praviloma širok. Drugi del analize je pokazal dokajšnjo tematsko različnost Gigafide in slWaCa ter izpostavil najznačilnejše teme, ki jih pokriva vsak od šestih Gigafidinih delov.