Prispevek predstavlja izdelavo korpusa Trendi, prvega spremljevalnega korpusa za slovenščino. Trenutna različica Trendi 2023-02 pokriva besedila od januarja 2019 do konca februarja 2023, vsebuje pa ...že več kot 700 milijonov pojavnic oz. več kot 586 milijonov besed. Namen korpusa je, da tako strokovni kot nestrokovni javnosti ponudi podatke o aktualni jezikovni rabi in omogoči spremljanje pojavljanja novih besed ter upadanja ali naraščanja rabe že obstoječih. Poleg same vsebine predstavimo tudi metodologijo in načela izdelave korpusa. Drugi del prispevka opisuje razvoj algoritma za avtomatsko kategorizacijo besedil z novičarskih portalov, ki je bil pripravljen za potrebe korpusa Trendi in tudi drugih korpusov s tovrstnimi besedili. Za namene algoritma je bil izdelan nabor 13 tematskih kategorij, ki so v veliki meri prekrivne z mednarodnimi standardi in kategorijami v primerljivih korpusih drugih jezikov. Na besedilih, označenih s kategorijami, smo naučili več različnih jezikovnih modelov in z najprimernejšim dosegli visoko zanesljivost določevanja tematike besedilom.
Slovarji so uporabnikom pogosto ponujeni (tudi) prek slovarskih portalov, ki združujejo različne slovarje in pogosto tudi ostale referenčne vire. Portali so odgovor na potrebe sodobnega slovarskega ...uporabnika, ki je vajen hkratnega dostopa do različnih vrst informacij na enem mestu. Slovarski portali so že nekaj časa prisotni tudi v slovenskem prostoru, vendar pa se je šele nedavno vzpostavljeni portal Fran Inštituta za slovenski jezik Frana Ramovša ZRC SAZU prvi osredotočil samo na (sicer lastne) enojezične slovarske vire in tako povzročil pomemben premik v rabi enojezičnih slovarjev pri nas. V prispevku najprej pregledamo nekatere tuje in slovenske slovarske portale, nato pa se osredotočimo na pregled ter evalvacijo portala Fran. Preverili smo način predstavljanja slovarskih informacij z vidika preglednosti in jasnosti, preizkusili različne možnosti iskanj ter ocenili funkcionalnosti portala in pomoč uporabnikom. Evalvacijo smo opravili tudi z vidika dognanj študij slovarskih uporabnikov. V zaključku prispevka povzamemo glavne ugotovitve in podamo razmisleke o pomenu portala za prihodnost slovenske leksikografije.
Collocations play a very important role in language description, especially in identifying meanings of words. Modern lexicography’s inevitable part of meaning deduction are lists of collocates ranked ...by some statistical measurement. In the paper, we present a comparison between two approaches to the ranking of collocates: (a) the logDice method, which is dominantly used and frequency-based, and (b) the fastText word embeddings method, which is new and semantic-based. The comparison was made on two Slovene datasets, one representing general language headwords and their collocates, and the other representing headwords and their collocates extracted from a language for special purposes corpus. In the experiment, two methods were used: for the quantitative part of the evaluation, we used supervised machine learning with the area-under-the-curve (AUC) ROC score and support-vector machines (SVMs) algorithm, and in the qualitative part the ranking results of the two methods were evaluated by lexicographers. The results were somewhat inconsistent; while the quantitative evaluation confirmed that the machine-learning-based approach produced better collocate ranking results than the frequency-based one, lexicographers in most cases considered the listings of collocates of both methods very similar.
V prispevku predstavljamo rešitve za prepoznavanje in označevanje zaznamovanega besedišča v okviru koncepta odzivnega Slovarja sopomenk sodobne slovenščine. Ker gre za prvi tovrstni projekt, so ...pripravljene rešitve v veliki meri inovativne, umeščene pa v okvir problematike avtomatske strojne izdelave slovarja, njegove odprtosti in vključenosti uporabniške skupnosti. Prispevek prikazuje postopek prepoznavanja sovražnega in grobega besedišča ter pripis oznak, opozorilnih ikon in daljših pojasnil. Ukvarjamo se tako s tehničnimi kot vsebinskimi vprašanji označevanja. Vsebinsko oznake temeljijo na sporočanjskem namenu in učinku, pri čemer je njihovo bistvo informacija o možnih posledicah rabe, pri tehničnih rešitvah pa veliko pozornost posvečamo digitalnemu mediju in vizualizaciji rešitev v njem. Ker je odzivnost eden ključnih konceptov slovarja, se pri rešitvah glede označevanja zavedamo pomembnosti sodelovanja z uporabniško skupnostjo, zato tudi pri dodajanju oznak predlagamo rešitve za sodelovanje s skupnostjo. Izhodiščni konferenčni prispevek je bil razširjen v vseh poglavjih, dodano pa je povsem novo poglavje o obdelavi večpomenskih iztočnic, njihovi pomenski členitvi in pomenskem opisovanju z zgledi pomenov z negativno zaznamovanostjo.
In this paper, we define the notion of collocation for the purpose of its use in machine-readable language resources, which will be used in the creation of electronic dictionaries and language ...applications for Slovene. Based on theoretical and lexicographically-driven studies we define collocation as a lexical phenomenon, defined by three key aspects: statistical, syntactic, and semantic. We take lexicographic relevance as a point of departure for defining collocations within the typology of word combinations, as well as for distinguishing them from free combinations. Free combinations are (frequent) syntactically valid word combinations without lexicographic value and consequently there is no need for the description of their meaning, or syntactic role. Next, we distinguish collocations from all multiword lexical units (compounds, phraseological units and lexico-grammatical units) using the lexicographic view that multiword lexical units, whose meaning is not a sum of its parts, require a description of their meaning whereas collocations do not. In the final part, we return to the three aspects of collocation and their role in automatic extraction of collocational information from corpora. Semantic criterion or dictionary relevance of extracted collocations has particularly exposed the problem of semantically broad collocates such as certain types of adverbs, adjectives and verbs, and word which feature in different syntactic roles (e.g. pronouns and adjuncts). We discuss a particular issue of collocations related to proper names and the decisions about their inclusion into the dictionary based on the evaluation of lexicographers.
V leksikogramatični raziskavi so predstavljeni rezultati analiz struktur s prislovi, ki so bile izvedene v okviru temeljnega raziskovalnega projekta Kolokacije kot temelj jezikovnega opisa: ...semantični in časovni vidiki (KOLOS; J6-8255). Na podlagi rezultatov predhodno izvedene pilotne množičenjske naloge, v kateri so označevalci jezikoslovci ocenjevali avtomatsko izluščene kolokacijske kandidate iz korpusa Gigafida in se opredeljevali do tega, kaj je in kaj ni slovarsko relevantna kolokacija, smo analizirali vse kolokacijsko produktivne strukture s prislovi. Namen analiziranja je bil opredeliti kolokacijo kot semantično relevantno sopojavitev dveh (ali več) besed ter s tem tudi razliko med slovarsko relevantnimi kolokacijami in statistično prepoznanimi oz. šibkejšimi kolokacijami, ki ne opravljajo semantične funkcije in so posledično nerelevantne za kolokacijski slovar.
Analize struktur s prislovi so pokazale, da se je o semantični relevantnosti in slovarski vključenosti pri posameznih primerih kolokacijskih kandidatov ali tipih kolokatorjev treba odločati na ravni posamezne strukture. Tovrstni primer so prislovi, ki lahko nastopajo v vlogi intenzifikatorja (tip kar pošteno načeti) ali pa semantično manj relevantni vlogi poudarnosti oz. členkovnosti (tip kar prekiniti). Podobne jezikoslovne obravnave so potrebne širše skupine števniškosti, kot je kratnost ali zaporedje (zaporednostni prislovi), ki jih zaradi raznolike semantične relevantnosti ne moremo strukturno omejiti (četrtič doktorirati proti stokrat povedati).
Podatki, pridobljeni na podlagi opravljenih analiz, bodo omogočali podrobnejše ali nadaljnje analize, predvsem pa celovit opis vsake kolokacijske strukture in njene kolokativnosti. Na podlagi identificiranih napak zaradi avtomatskega označevanja strukture pa bo mogoče nadgraditi obstoječe vzorce za luščenje in predvsem izboljšati avtomatsko luščenje za problematične strukture. Podatki bodo zelo uporabni tudi pri nadaljnjem vključevanju in obravnavi novih struktur, prvotno izločenih zaradi precejšnjega šuma. Vse ugotovitve bo mogoče implementirati v leksikografski delotok in na ta način izboljšati podatke (stopenjskost gesel) v slovarju. Učno množico s 17.576 kandidati bo mogoče uporabiti tudi v drugih dejavnostih projekta KOLOS: za uvrščanje kolokatorjev v gruče, primerjavo sopomenk s kolokacijami in nenazadnje za proučevanje kolokacijskih trendov skozi čas.
Dr. Paweł Rutkowski is head of the Section for Sign Linguistics at the University of Warsaw. He is a general linguist and a specialist in the field of syntax of natural languages, carrying out ...research on Polish Sign Language (polski język migowy — PJM). He has been awarded a number of prizes, grants and scholarships by such institutions as the Foundation for Polish Science, Polish Ministry of Science and Higher Education, National Science Centre, Poland, Polish–U.S. Fulbright Commission, Kosciuszko Foundation and DAAD.Dr. Rutkowski leads the team developing the Corpus of Polish Sign Language and the Corpus-based Dictionary of Polish Sign Language, the first dictionary of this language prepared in compliance with modern lexicographical standards. The dictionary is an open-access publication, available freely at the following address: www.slownikpjm.uw.edu.pl/en/.This interview took place at eLex 2017, a biennial conference on electronic lexicography, where Dr. Rutkowski was awarded the Adam Kilgarriff Prize and gave a keynote address entitled Sign language as a challenge to electronic lexicography: The Corpus-based Dictionary of Polish Sign Language and beyond. The interview was conducted by Dr. Victoria Nyst from Leiden University, Faculty of Humanities, and Dr. Iztok Kosem from the University of Ljubljana, Faculty of Arts.
The paper is based on a survey conducted within the framework of the basic research project Collocations as a Basis for Language Description: Semantic and Temporal Perspectives (KOLOS; J6-8255). It ...presents a qualitative analysis of a user evaluation of the interface of the Collocations Dictionary of Modern Slovene (CDS). It discusses an alternative perspective—the user's point of view—on problematic aspects of individual dictionary features, which require further lexicographic analysis and discussion. The collocations user study presents a model of the process of user evaluation; its findings are significant primarily for determining problems encountered by users. They also serve as a useful basis for methodology improvements in future, comparable lexicographic user studies and analyses.
Prispevek izhaja iz projekta snovanja novega velikega slovensko-madžarskega slovarja, pri katerem je bila za namene priprave koncepta potrebna tudi analiza obstoječih dvojezičnih virov za ta ...jezikovni par. Tako prispevek najprej ponudi krajši zgodovinski pregled slovensko-madžarskega slovaropisja, od prvih zbirk narečnih besed, glosarjev do frazeoloških zbirk in slovarjev. Sledi pregled dvojezičnih slovarjev za jezikovni par slovenščina-madžarščina in madžarščina-slovenščina. Prispevek se nato osredotoči na primerjavo treh najpogosteje uporabljanih slovensko-madžarskih slovarjev, in sicer slovensko-madžarskega dela slovarja Elizabete Bernjak iz leta 1995, Slovensko-madžarskega slovarja Jožeta Hradila iz leta 1996 ter slovensko-madžarskega dela Hradilovega navzkrižnega slovarja iz leta 2012. Slovarji so primerjani z vidika obsega, geslovnika, predstavitve iztočnic, zaglavja ipd. Primerjani so tudi različni elementi slovarske mikrostrukture, od prevedkov do ponazarjalnega gradiva. Nato je opravljena kratka študija izrazja, ki ga najdemo v e-zbirkah izrazov in ki naj bi odsevalo potrebe izobraževalnih ustanov na dvojezičnem območju. Temu sledi pregled izbranih primerov dobrih praks sodobne dvojezične leksikografije, kot je pri nas npr. Veliki angleško-slovenski slovar Oxford-DZS, v tujini pa dvojezični slovarji založb Oxford in Collins. Pri pregledu predvsem izpostavimo elemente, ki najbolje kažejo sodobne pristope izkoriščanja prednosti digitalnega medija in so posledično najbolj relevantni za snovanje Velikega slovensko-madžarskega slovarja.