-
Razvrščanje besed s pomočjo gručenja [Elektronski vir] = Word categorization using clustering : magistrsko deloArčon, TjašaOpisovanje temeljnih značilnosti jezika in s tem povezano oblikovanje tradicionalnih slovničnih pojmov se je skozi zgodovino spreminjalo v skladu z različnimi jezikoslovnimi tradicijami in glede na ... značilnosti posameznega jezika, vendar pa sta starogrška in latinska tradicija še danes podlaga za določanje in označevanje besednih vrst v večini jezikov. Tako so nabori besednih vrst in s tem glavne lastnosti jezikov pod vplivom uveljavljenih, zgodovinsko pogojenih jezikovnih pojmov in se ne naslanjajo izključno na strukturo in organizacijo jezika, ki je dejansko v rabi, kar je lahko v mnogih jezikih, med njimi tudi v slovenščini, problematično. V magistrski nalogi razvrstimo besede v skupine na osnovi njihove podobnosti, ki se izraža v dejansko rabljenem jeziku. Analizo besed izvedemo na slovenskem jezikovnem korpusu. Kot orodje za razvrščanje besed uporabimo nenadzorovano strojno učenje, torej sistemu ne podamo nobenega dodatnega jezikovnega znanja o besednih vrstah, ampak ta besede razvršča na osnovi njihove podobnosti v korpusu, saj se želimo v čim večji meri izogniti vplivu uveljavljenih kategorizacij besed na razvrščanje. Za razvrščanje besed preizkusimo različne postopke gručenja. Kot vhod v postopke gručenja nam služi podobnost med besedami, ki jo izračunamo na podlagi oblikoslovne, distribucijsko-skladenjske in semantične narave značilnosti posameznih besed v korpusu. Uporabimo različne kombinacije teh kriterijev. Sledi interpretacija dobljenih razvrstitev besed in njihova primerjava z že uveljavljenimi kategorizacijami besednih vrst. S postopki strojnega učenja ugotovimo, da sta za razvrščanje besed izmed treh uporabljenih algoritmov gručenja najprimernejše delitveno gručenje (postopki gručenja k-medoidov in k-voditeljev) in aglomerativno hierarhično gručenje z uporabo Wardove metode, medtem ko je gručenje DBSCAN manj primerno. Nadaljnja analiza nam razkrije, da so pri iskanju podobnosti med besedami v naši nalogi pomembni predvsem distribucijsko-skladenjski in semantični kriteriji, manj oblikoslovni kriteriji. Kljub temu končne razvrstitve besed ocenimo za nezadovoljive, saj nam optimalno število gruč in dobljeni nabori besed pokažejo precej samosvojo naravo združevanja v gruče v primerjavi z uveljavljenimi kategorizacijami, s čimer ne moremo zadovoljivo pojasniti, katere besede so si v slovenščini podobne in katera uveljavljena kategorizacija je najbližja razvrstitvi na osnovi dejanske rabe besed v besedilu. Čeprav rezultati ne privedejo do zaključkov, s katerimi bi lahko dodatno razjasnili združevanje besed v slovenščini in tako prispevali k rešitvi problema neenotnosti kategorizacije besednih vrst, nam ugotovitve služijo kot napotek za nadaljnje raziskovanje.Vrsta gradiva - magistrsko delo ; neleposlovje za odrasleZaložništvo in izdelava - Ljubljana : [T. Arčon], 2024Jezik - slovenskiCOBISS.SI-ID - 209435651
Avtor
Arčon, Tjaša
Drugi avtorji
Robnik Šikonja, Marko |
Krek, Simon, 1967-
Teme
Jezikoslovje |
Korpusi (jezikoslovje) |
Besedne vrste |
Univerzitetna in visokošolska dela |
gručenje |
jezikovne značilnosti |
podobnost |
posploševanje |
strojno učenje |
word classes |
clustering |
linguistic features |
similarity |
generalization |
machine learning

Vnos na polico
Trajna povezava
- URL:
Faktor vpliva
Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.
Leto | Faktor vpliva | Izdaja | Kategorija | Razvrstitev | ||||
---|---|---|---|---|---|---|---|---|
JCR | SNIP | JCR | SNIP | JCR | SNIP | JCR | SNIP |
Faktor vpliva
Baze podatkov, v katerih je revija indeksirana
Ime baze podatkov | Področje | Leto |
---|
Povezave do osebnih bibliografij avtorjev | Povezave do podatkov o raziskovalcih v sistemu SICRIS |
---|---|
Arčon, Tjaša | ![]() |
Robnik Šikonja, Marko | 15295 |
Krek, Simon, 1967- | 26166 |
Izberite prevzemno mesto:
Prevzem gradiva po pošti
Obvestilo
Gesla v Splošnem geslovniku COBISS
Izbira mesta prevzema
Mesto prevzema | Status gradiva | Rezervacija |
---|
Prosimo, počakajte trenutek.