Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci ...tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.
Uporabniki imajo moznost, da preverijo pomen dolocene besede, prav tako pa lah- ko prispevajo nova gesla oz. geselske clanke. Videti je, da je prav zato Razvezani jezik se posebej dragocen, saj ...omogoca, da se v leksikalno bazo shranjujejo neologizmi in nove besede. V zgodovini slovenskega jezika se govorcem prvic ponuja taksna mo- znost - uporabniki lahko polnijo leksikalno bazo s slengovskimi in narecnimi izrazi, izposojenkami, besednimi igrami ipd., skratka z »vsakodnevno govorico, ki odseva tudi odklone od kodificiranega« (DoBrovoljc in jakoP 2011: 13); jezik je opredeljen kot igra, kar nakazuje distanco do jezikovne tradicije. V tem smislu se zdi, da je resena zagata povprecnega slovarja, »ki se malo in slabo ozira na govorce in govorke« (sTaBej 2009: 115). Vecina geselskih besed so prevzeti izrazi s se ne ustaljeno rabo v slovensci- ni, pri precej izrazih je poudarek na njihovi preneseni rabi, upostevana je raba v rekih, pregovorih, kletvicah; znacilnost slovarja so foneticni zapisi. Gesla prihajajo tako iz tradicije kot iz popularne kulture, iz sveta politike, sporta, zabave ipd. Z leksikografskega stalisca so geselski clanki v razlagalnih slovarjih sestavlje - ni iz stirih vecjih delov: glave, zaglavja3, pomenskega dela (razlage z ilustrativnim gradivom) in gnezda, vsebujejo pa lahko tudi podgesla. V glavi geselskega clanka sta geslo ali iztocnica, njegove osnovne oblike in slovnicni kvalifikator, ki oznacuje besedno vrsto. Zaglavje vsebuje ostale kvalifikatorje, podatke o intonaciji in poseb- nostih gesla. V pomenskem delu je razlaga gesla, ki je lahko polno pomenska oz. funkcijska, nepolna ali posredna. Glede na to, ali je beseda eno- ali vecpomenska, je razlaga razclenjena na pomenske oddelke, ki so oznaceni z arabskimi stevilkami, podpomene pa locuje znak //. Sledi ilustrativno gradivo, ki z zgledi - citati ali iztrz- ki (abstrahiranimi zvezanimi) - dopolnjuje pomensko razlago. Geselski clanek ima lahko tudi gnezdo, v katerem je zbrano posebno gradivo: v frazeoloskem gnezdu preneseno rabljene zveze, reki, pregovori ipd. in v terminoloskem gnezdu strokovni izrazi. Ponekod ob koncu clanka najdemo se stilno-plastne kvalifikatorje, ki povedo, v katerih zvrsteh ali vrstah besedila se obravnavana slovarska iztocnica uporablja. Poleg tega poznamo se pomenske, terminoloske, ekspresivne, casovno-frekvencne in intonativne kvalifikatorje, ki se lahko pojavijo na razlicnih mestih v slovarskem sestavku. Gre za nekaksno klasicno obliko geselskih clankov, ki se seveda razlikuje od slovarja do slovarja (SSKJ 1994: XXI-XXVII, SP 2001: 213-31). Spletna baza Razvezanega jezika je zastavljena nekoliko drugace: poleg iztoc- nice ima pisec na voljo eno skupno polje, ki ga uredi po lastni presoji, zaradi cesar so clanki heterogeni.4 Vsem geselskim sestavkom je skupno geslo in pomenski del (obstajajo pa tudi »skrbine«, pomanjkljivi vnosi), od pisca pa je odvisno, kaj in koliko gradiva vsebuje clanek. Kompleksnost in zaporedje elementov v pomenskem delu nista vnaprej dolocena in sta prepuscena piscu. Najpogosteje se pojavljata razlaga in ilustrativno gradivo; srecujemo oba primera, tako razlaga-primer rabe kot primer rabe-razlaga. Tu so se drugi elementi, ki se pojavljajo povsem arbitrarno: etimologija oziroma nastanek besede, podatki o intonaciji in izgovorjavi, sinonimi (ki jih uvajajo besede sinonimi, sopomenke ali pa so navedeni prosto; locujejo jih vejice ali podpi- cja), vir, razlicni kvalifikatorji se pojavljajo razmeroma redko, najdemo pa tudi ka- zalke, ki napeljujejo na druge iztocnice (glej tudi ali pa je hiperpovezava neposredno navedena). Tudi vrstni red je povsem poljuben: elementi se lahko pojavijo na zacetku, na koncu, med razlago in primerom oziroma primerom in razlago, med posameznimi pomeni ali med primeri. Za metajezik v Razvezanem jeziku so znacilne stevilne posebnosti: v nasprotju z razlagalnimi slovarji, kjer so posamezni deli geselskega clanka loceni, se tip infor- macij in z njimi povezan metajezik v kolaborativnih slovarjih nahajajo v poljubnem vrstnem redu in se med seboj prepletajo. Vrstni red informacij je popolnoma prost in odvisen od posameznega pisca. Prav tako lahko en stavek vsebuje vec razlicnih informacij (slovnicne, stilne itd.). Bistvena razlika je tudi v tem, da se v kolaborativ- nih slovarjih prepleta tako znanstveni kot spontani metajezik oziroma da v njih poleg metajezika najdemo tudi epijezikovne ali metadiskurzivne rabe. Poleg metajezikov- nih izrazov v razlagah in kvalifikatorjih med najzanimivejse sodijo metadiskurzivni komentarji, ki se nanasajo na ze obstojeci zapis, in metaenonciativni komentarji, ki se nanasajo na piscev lastni clanek; oboji kazejo na piscevo distanco do danih razlag. Prav zaradi slednjega bi lahko rekli, da je metajezik v Razvezanem jeziku v primerjavi z obstojecimi razlagalnimi slovarji bogatejsi, ceprav je manj strukturiran in nesistematicen.
The paper presents a brief overview of the history of the corpus approach in Slovenian language studies & the existing corpora of the Slovenian language. These corpora have provided an incentive for ...a series of thorough linguistic studies, both monolingual & contrastive; at the same time they are becoming an indispensable part of general linguistic research, especially in the field of lexical or lexicosemantic studies. In the second part of the paper, a case study illustrates one of the procedures in lexical corpus analysis: using selected examples, we demonstrate how it is possible to track changes in the lexis of the Slovenian language in the last decade of the twentieth century. Tables, Figures, References. Adapted from the source document