Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci ...tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.
Uporabniki imajo moznost, da preverijo pomen dolocene besede, prav tako pa lah- ko prispevajo nova gesla oz. geselske clanke. Videti je, da je prav zato Razvezani jezik se posebej dragocen, saj ...omogoca, da se v leksikalno bazo shranjujejo neologizmi in nove besede. V zgodovini slovenskega jezika se govorcem prvic ponuja taksna mo- znost - uporabniki lahko polnijo leksikalno bazo s slengovskimi in narecnimi izrazi, izposojenkami, besednimi igrami ipd., skratka z »vsakodnevno govorico, ki odseva tudi odklone od kodificiranega« (DoBrovoljc in jakoP 2011: 13); jezik je opredeljen kot igra, kar nakazuje distanco do jezikovne tradicije. V tem smislu se zdi, da je resena zagata povprecnega slovarja, »ki se malo in slabo ozira na govorce in govorke« (sTaBej 2009: 115). Vecina geselskih besed so prevzeti izrazi s se ne ustaljeno rabo v slovensci- ni, pri precej izrazih je poudarek na njihovi preneseni rabi, upostevana je raba v rekih, pregovorih, kletvicah; znacilnost slovarja so foneticni zapisi. Gesla prihajajo tako iz tradicije kot iz popularne kulture, iz sveta politike, sporta, zabave ipd. Z leksikografskega stalisca so geselski clanki v razlagalnih slovarjih sestavlje - ni iz stirih vecjih delov: glave, zaglavja3, pomenskega dela (razlage z ilustrativnim gradivom) in gnezda, vsebujejo pa lahko tudi podgesla. V glavi geselskega clanka sta geslo ali iztocnica, njegove osnovne oblike in slovnicni kvalifikator, ki oznacuje besedno vrsto. Zaglavje vsebuje ostale kvalifikatorje, podatke o intonaciji in poseb- nostih gesla. V pomenskem delu je razlaga gesla, ki je lahko polno pomenska oz. funkcijska, nepolna ali posredna. Glede na to, ali je beseda eno- ali vecpomenska, je razlaga razclenjena na pomenske oddelke, ki so oznaceni z arabskimi stevilkami, podpomene pa locuje znak //. Sledi ilustrativno gradivo, ki z zgledi - citati ali iztrz- ki (abstrahiranimi zvezanimi) - dopolnjuje pomensko razlago. Geselski clanek ima lahko tudi gnezdo, v katerem je zbrano posebno gradivo: v frazeoloskem gnezdu preneseno rabljene zveze, reki, pregovori ipd. in v terminoloskem gnezdu strokovni izrazi. Ponekod ob koncu clanka najdemo se stilno-plastne kvalifikatorje, ki povedo, v katerih zvrsteh ali vrstah besedila se obravnavana slovarska iztocnica uporablja. Poleg tega poznamo se pomenske, terminoloske, ekspresivne, casovno-frekvencne in intonativne kvalifikatorje, ki se lahko pojavijo na razlicnih mestih v slovarskem sestavku. Gre za nekaksno klasicno obliko geselskih clankov, ki se seveda razlikuje od slovarja do slovarja (SSKJ 1994: XXI-XXVII, SP 2001: 213-31). Spletna baza Razvezanega jezika je zastavljena nekoliko drugace: poleg iztoc- nice ima pisec na voljo eno skupno polje, ki ga uredi po lastni presoji, zaradi cesar so clanki heterogeni.4 Vsem geselskim sestavkom je skupno geslo in pomenski del (obstajajo pa tudi »skrbine«, pomanjkljivi vnosi), od pisca pa je odvisno, kaj in koliko gradiva vsebuje clanek. Kompleksnost in zaporedje elementov v pomenskem delu nista vnaprej dolocena in sta prepuscena piscu. Najpogosteje se pojavljata razlaga in ilustrativno gradivo; srecujemo oba primera, tako razlaga-primer rabe kot primer rabe-razlaga. Tu so se drugi elementi, ki se pojavljajo povsem arbitrarno: etimologija oziroma nastanek besede, podatki o intonaciji in izgovorjavi, sinonimi (ki jih uvajajo besede sinonimi, sopomenke ali pa so navedeni prosto; locujejo jih vejice ali podpi- cja), vir, razlicni kvalifikatorji se pojavljajo razmeroma redko, najdemo pa tudi ka- zalke, ki napeljujejo na druge iztocnice (glej tudi ali pa je hiperpovezava neposredno navedena). Tudi vrstni red je povsem poljuben: elementi se lahko pojavijo na zacetku, na koncu, med razlago in primerom oziroma primerom in razlago, med posameznimi pomeni ali med primeri. Za metajezik v Razvezanem jeziku so znacilne stevilne posebnosti: v nasprotju z razlagalnimi slovarji, kjer so posamezni deli geselskega clanka loceni, se tip infor- macij in z njimi povezan metajezik v kolaborativnih slovarjih nahajajo v poljubnem vrstnem redu in se med seboj prepletajo. Vrstni red informacij je popolnoma prost in odvisen od posameznega pisca. Prav tako lahko en stavek vsebuje vec razlicnih informacij (slovnicne, stilne itd.). Bistvena razlika je tudi v tem, da se v kolaborativ- nih slovarjih prepleta tako znanstveni kot spontani metajezik oziroma da v njih poleg metajezika najdemo tudi epijezikovne ali metadiskurzivne rabe. Poleg metajezikov- nih izrazov v razlagah in kvalifikatorjih med najzanimivejse sodijo metadiskurzivni komentarji, ki se nanasajo na ze obstojeci zapis, in metaenonciativni komentarji, ki se nanasajo na piscev lastni clanek; oboji kazejo na piscevo distanco do danih razlag. Prav zaradi slednjega bi lahko rekli, da je metajezik v Razvezanem jeziku v primerjavi z obstojecimi razlagalnimi slovarji bogatejsi, ceprav je manj strukturiran in nesistematicen.
The paper presents a brief overview of the history of the corpus approach in Slovenian language studies & the existing corpora of the Slovenian language. These corpora have provided an incentive for ...a series of thorough linguistic studies, both monolingual & contrastive; at the same time they are becoming an indispensable part of general linguistic research, especially in the field of lexical or lexicosemantic studies. In the second part of the paper, a case study illustrates one of the procedures in lexical corpus analysis: using selected examples, we demonstrate how it is possible to track changes in the lexis of the Slovenian language in the last decade of the twentieth century. Tables, Figures, References. Adapted from the source document
In the last decade, corpus linguistics has finally established itself as a separate research starting point, strictly empirical in nature; in the last few years its status of a separate research ...starting point has emerged in Slovenia as well. Corpora are, of course, a necessary prerequisite for this development, therefore coprus building marked the second half of the 1990s. Inthis process the corpora compiled within the framework of the MULTEXT-EAST project played a pioneer role. Today two monolingual corpora are available forthe Slovenian language, the 100-million-word reference corpus of the Slovenian language, the FIDA Corpus, and a larger non-reference corpus, Nova beseda, of just over 160-million words. At the same time, a very large 300-million-word reference corpus FidaPLUS is being built. Additionally, parallel corpora, so far only combining Slovenian and English, have been created. These corpora presented the starting point for a series of corpus-based linguistic studies carried out in the last few years. Just as the pre-computer Survey of English Usage was a turning point in the linguisticdescription of English, the collectiona of materials compiled for the design of the Slovar slovenskega knjižnega jezika (1970-1991)(Engl. Dictionary of the Standard Slovenian Language), was a turning point for Slovenian lexicosemantic descriptions since it enabled a thorough description of the Slovenian language on the basis of data on textual reality. In the 1960s, when the concept of the new monolingual dictionary was fully formed, lexical descriptions based on materials collected for that purpose, which rejected descriptions of linguistic elements not based on real language use and exceeded the normative approach to language description, were designed. However, no computer-assisted language data processing was initiated within the framework of Slovenian studies, even though this was one of its explicitlystated goals. This meant that Slovenia language studies only began to focus on language technologie in the second half of the 1990s; but at that time its involvement was very active. The impact of corpus linguistics in Slovenia has been quite noticeable in this last decade, above all after the year 2000, with the appearance of the first integral corpus linguistic studies. In the field of Slovenian studies, corpora have, on the other hand, become an independent starting point for linguistic analyses, and, on the other hand, indespensable in various types of language studies as material foranalysis. Corpus data is practically limitless; its analysis is an ongoing challenge, especially when it surpasses the limits of the expected and defies our intuitive perception of language reality. The results of corpus analyses of the Slovenian language are exciting as they reveal the exceptional creativity and vitality of the Slovenian discourse community.