DIKUL - logo
(UL)
  • Korpusna analiza in prepoznavanje regionalnih jezikovnih različic v spletni slovenščini : doktorska disertacija
    Čibej, Jaka, prevodoslovje, računalništvo
    V disertaciji predstavljamo raziskavo, ki uporablja korpusni pristop za proučevanje nestandardnih jezikovnih prvin v regionalnih jezikovnih različicah v spletni slovenščini, natančneje v slovenskih ... tvitih. Predstavimo postopek določanja metapodatkov o regionalni pripadnosti uporabnikov Twitterja na podlagi tvitov z geolokacijo in metode metanja žarka. Nadaljujemo z opisom gradnje in označevanja ročno označenega korpusa tvitov JANES-Geo, ki vsebuje več kot 260 uporabnikov Twitterja iz devetih različnih regij: primorske, rovtarske, gorenjske, dolenjske, ljubljanske, štajerske, koroške, mariborske in panonske. Za namene jezikoslovne analize razvijemo tipologijo nestandardnih jezikovnih prvin v spletni slovenščini s šestimi krovnimi kategorijami (izpusti, transformacije, oblikoslovje, besedišče, različice besed, drugo) in več kot 600 oznakami. Nadaljujemo s statistično-jezikoslovno analizo nestandardnih jezikovnih prvin v ročno označenem korpusu na različnih nivojih (zapis, besedišče, oblikoslovje), pri kateri primerjamo pogostost zaznanih nestandardnih jezikovnih prvin med uporabniki iz devetih regij. Na podlagi rezultatov analize določimo nabor značilk, ki jih uporabimo pri preizkusu metod strojnega učenja za razvoj modela za klasifikacijo uporabnikov Twitterja po geografski pripadnosti na podlagi njihovih tvitov. Uporabnike Twitterja poskušamo tudi gručiti ne glede na njihovo geografsko pripadnost in ugotoviti, ali se ta odseva v dobljenih gručah. Podrobneje pregledamo porazdelitev značilk in nazadnje statistično analiziramo še vpliv tematike tvitov in interakcije med uporabniki na količino nestandardnih prvin v tvitih. Raziskavo sklenemo s predlogi za nadaljnje delo pri raziskovanju regionalnih jezikovnih različic v spletni slovenščini.
    Type of material - dissertation ; adult, serious
    Publication and manufacture - Ljubljana : [J. Čibej], 2021
    Language - slovenian
    COBISS.SI-ID - 83761667

Library Call number – location, accession no. ... Copy status
National and University Library, Ljubljana GS II 743039 glavno skladišče available - reading room
Faculty of Arts, Lj. OHK - Germanistika
 Diss ČIBEJ J. Korpusna
available - reading room
Faculty of Arts, Lj. OHK - Germanistika
 DissCD ČIBEJ J. Korpusna
available - reading room
loading ...
loading ...
loading ...