VSE knjižnice (vzajemna bibliografsko-kataložna baza podatkov COBIB.SI)
  • Razvrščanje besed s pomočjo gručenja [Elektronski vir] = Word categorization using clustering : magistrsko delo
    Arčon, Tjaša
    Opisovanje temeljnih značilnosti jezika in s tem povezano oblikovanje tradicionalnih slovničnih pojmov se je skozi zgodovino spreminjalo v skladu z različnimi jezikoslovnimi tradicijami in glede na ... značilnosti posameznega jezika, vendar pa sta starogrška in latinska tradicija še danes podlaga za določanje in označevanje besednih vrst v večini jezikov. Tako so nabori besednih vrst in s tem glavne lastnosti jezikov pod vplivom uveljavljenih, zgodovinsko pogojenih jezikovnih pojmov in se ne naslanjajo izključno na strukturo in organizacijo jezika, ki je dejansko v rabi, kar je lahko v mnogih jezikih, med njimi tudi v slovenščini, problematično. V magistrski nalogi razvrstimo besede v skupine na osnovi njihove podobnosti, ki se izraža v dejansko rabljenem jeziku. Analizo besed izvedemo na slovenskem jezikovnem korpusu. Kot orodje za razvrščanje besed uporabimo nenadzorovano strojno učenje, torej sistemu ne podamo nobenega dodatnega jezikovnega znanja o besednih vrstah, ampak ta besede razvršča na osnovi njihove podobnosti v korpusu, saj se želimo v čim večji meri izogniti vplivu uveljavljenih kategorizacij besed na razvrščanje. Za razvrščanje besed preizkusimo različne postopke gručenja. Kot vhod v postopke gručenja nam služi podobnost med besedami, ki jo izračunamo na podlagi oblikoslovne, distribucijsko-skladenjske in semantične narave značilnosti posameznih besed v korpusu. Uporabimo različne kombinacije teh kriterijev. Sledi interpretacija dobljenih razvrstitev besed in njihova primerjava z že uveljavljenimi kategorizacijami besednih vrst. S postopki strojnega učenja ugotovimo, da sta za razvrščanje besed izmed treh uporabljenih algoritmov gručenja najprimernejše delitveno gručenje (postopki gručenja k-medoidov in k-voditeljev) in aglomerativno hierarhično gručenje z uporabo Wardove metode, medtem ko je gručenje DBSCAN manj primerno. Nadaljnja analiza nam razkrije, da so pri iskanju podobnosti med besedami v naši nalogi pomembni predvsem distribucijsko-skladenjski in semantični kriteriji, manj oblikoslovni kriteriji. Kljub temu končne razvrstitve besed ocenimo za nezadovoljive, saj nam optimalno število gruč in dobljeni nabori besed pokažejo precej samosvojo naravo združevanja v gruče v primerjavi z uveljavljenimi kategorizacijami, s čimer ne moremo zadovoljivo pojasniti, katere besede so si v slovenščini podobne in katera uveljavljena kategorizacija je najbližja razvrstitvi na osnovi dejanske rabe besed v besedilu. Čeprav rezultati ne privedejo do zaključkov, s katerimi bi lahko dodatno razjasnili združevanje besed v slovenščini in tako prispevali k rešitvi problema neenotnosti kategorizacije besednih vrst, nam ugotovitve služijo kot napotek za nadaljnje raziskovanje.
    Vrsta gradiva - magistrsko delo ; neleposlovje za odrasle
    Založništvo in izdelava - Ljubljana : [T. Arčon], 2024
    Jezik - slovenski
    COBISS.SI-ID - 209435651