Dictionary of Modern Slovene Gantar, Polona
Rasprave Instituta za hrvatski jezik i jezikoslovlje,
10/2020, Letnik:
46, Številka:
2
Journal Article
Recenzirano
Odprti dostop
The ability to process language data has become fundamental to the development of technologies in various areas of human life in the digital world. The development of digitally readable linguistic ...resources, methods, and tools is, therefore, also a key challenge for the contemporary Slovene language. This challenge has been recognized in the Slovene language community both at the professional and state level and has been the subject of many activities over the past ten years, which will be presented in this paper.
The idea of a comprehensive dictionary database covering all levels of linguistic description in modern Slovene, from the morphological and lexical levels to the syntactic level, has already formulated within the framework of the European Social Fund’s Communication in Slovene (2008-2013) project; the Slovene Lexical Database was also created within the framework of this project. Two goals were pursued in designing the Slovene Lexical Database (SLD): creating linguistic descriptions of Slovene intended for human users that would also be useful for the machine processing of Slovene. Ever since the construction of the first Slovene corpus, it has become evident that there is a need for a description of modern Slovene based on real language data, and that it is necessary to understand the needs of language users to create useful language reference works. It also became apparent that only the digital medium enables the comprehensiveness of language description and that the design of the database must be adapted to it from the start. Also, the description must follow best practices as closely as possible in terms of formats and international standards, as this enables the inclusion of Slovene into a wider network of resources, such as Open Linked Data, babelNet and ELExIS. Due to time pressures and trends in lexicography, procedures to automate the extraction of linguistic data from corpora and the inclusion of crowdsourcing into the lexicographic process were taken into consideration.
Following the essential idea of creating an all-inclusive digital dictionary database for Slovene, a few independent databases have been created over the past two years: the Collocations Dictionary of Modern Slovene, and the automatically generated Thesaurus of Modern Slovene, both of which also exist as independent online dictionary portals. One of the novelties that we put forward together with both dictionaries is the ‘responsive dictionary’ concept, which includes crowdsourcing methods. Ultimately, the Digital Dictionary Database provides all (other) levels of linguistic description: the morphological level with the Sloleks database upgrade, the phraseological level with the construction of a multi-word expressions lexicon, and the syntactic level with the formalization of Slovene verb valency patterns. Each of these databases contains its specific language data that will ultimately be included in the comprehensive Slovene Digital Dictionary Database, which will represent basic linguistic descriptions of Slovene both for the human and machine user.
Ideja sveobuhvatne rječničke baze koja uključuje sve razine jezičnoga opisa suvremenoga slovenskog jezika od morfološke i leksičke do sintaktičke prvotno je formulirana u okviru projekta
Sporazumijevanje na slovenskomu jeziku
(2008. – 2013.). U cilju ostvarenja ideje o stvaranju sveobuhvatne digitalne rječničke baze stvorene su dvije neovisne baze podataka:
Kolokacijski rječnik suvremenoga slovenskoga jezika
i automatski generiran
Tezaurus modernoga slovenskoga jezika
. Jedna od novina u obama rječnicima koncept je responzivnoga rječnika, koji uključuje masovnu podršku.
Digitalna rječnička baza
sadržava sve razine jezičnoga opisa: morfološku nadograđenu
Sloleksom
, izraznu s opisom konstrukcija višerječnih jedinica te sintaktičku s formalizacijom modela glagolskih valencija. Svaka od postojećih baza podataka sadržava specifične jezične podatke koji će biti uključeni u sveobuhvatnu
Slovensku digitalnu rječničku bazu podataka
, koja će sadržavati temeljni jezikoslovni opis slovenskoga jezika čiji korisnici mogu biti ljudi i strojevi.
Ko je bil konec maja 2013 objavljen Predlog za izdelavo Slovarja sodobnega slovenskega jezika, se je tako na strokovnih forumih kot v medijih razvila debata o tem, ali naj novi slovar slovenskega ...jezika sledi leksikografski tradiciji, kot se je oblikovala s Slovarjem slovenskega knjižnega jezika, ali naj se od te tradicije oddalji. Ker so se ob tem oblikovali različni pogledi na razumevanje slovarske tradicije kot tudi na vključevanje sodobnih slovarskih praks, želimo v prispevku na podlagi analize zasnove SSKJ in SNB ter s prispevki, ki se kakorkoli nanašajo na koncept bodočega slovarja slovenskega jezika, ugotoviti, katere elemente leksikografske teorije in prakse lahko pojmujemo kot tradicionalne ter katere so predlagane novosti v slovenski leksikografiji. Vzporedno predlagamo tudi zasnovo novega slovarja v ključnih segmentih, tj. z vidika uporabnika, medija in uporabe jezikovnotehnološkega znanja, ki bi zadostila opisu sodobnega slovenskega jezika, ki kar v največji meri zadovoljuje potrebe jezikovne skupnosti v današnjem času in okoliščinah.
V prispevku je opisana zasnova pomenskih shem, kot smo jih oblikovali v Leksikalni bazi za slovenscino v okviru projekta Sporazumevanje v slovenskem jeziku, in sicer za posredovanje ...leksikalnogramaticnih podatkov v slovarju v obliki stavcnih razlag in za strojno procesiranje slovenscine. Zasnova tovrstnih opisov izliaja iz dveh teoreticnih modelov: evociranja pomenov besed na podlagi t. i. shemske semantike v projektu Framenet (Fillmore idr. 2003) in na podlagi opisov stcn'cnih vzorcev po teoriji jezikovnih konvencij in moznosti njihove izrabe v projektu Corpus Pattern Analysis (Patrick Hanks 1994, 2004; Hanks in Pustojevsky 2005). Obe izhodisci smo pri oblikovanju pomenskih shem nadgradili z upostevanjem posebnosti slovenscine in glede na namebnost slovarske baze. Pri analizi prostorske informacije, kot je v stavcno oblikovanih pomenskih shemah razvidna iz semanticnih tipov, ki jih razumemo kot abstraktne zastopnike tipicnih leksikalnih zapolnitev na posameznih vezljivostnih mestih dolocenega glagolskega pomena, npr. ce PREDMET zaradi sile teznosti pade na nek PROSTOR ali POVRSINO, prileti tja iz zraka ali z visine, sino se osredotocili na tiste glagole oz. njihove pomene, pri katerih je mogoce na podlagi korpusne analize in z analizo besednih skic v orodju Sketch Engine (Kilgarriff idr. 2004) ugotoviti prostorsko determiniranost pomena. Logika pomenskega opisa, kot jo predstavlja Framenet (Fillmore in Sue B. T. Atkins 1998; Charles Fillmore idr. 2003),2 temelji na ugotavljanju potrebnih (jedmih in nejedmih) shemskih elementov za evociranje posameznih pomenov besede, ki jih je nato na podlagi skupnih oz. razlikovalnih elementov mogoce zdmzevati v semanticne okvirje oz. sheme. Tako npr. shema »Staranje« (ang. Aging) med drugimi vkljucuje glagolapostarati se, starati se ter pridevnik ostarel (ang. age, aging immature). Obvezni alijedmi element te skupine je »entiteta«, ki je podvrzena staranju, nejedrni, torej opcijski dementi pa so laliko se: »okoliscine«, »nacin«, »lokacija«, »rezultat« in »cas«. Ce skusamo pravilo zelo poenostavljeno prenesti na slovenski zgled, bi npr. v povedi: Pretirano je kadila, njen obraz se je hi poma postar ab zvezo njen obraz oznacili za »entiteto«, hipoma za »nacin«, pretirano je kadila pa za »okoliscine«, v katerih je entiteta podvrzena procesa staranja. Dokumentacija shemskih elementov po vzor Frameneta predvideva tudi opis njihove skladenjske realizacije.3 4 Kot pravita Atkins in Rundell (2008: 145), je framenetovski pristop najbolj primeren za raziskovanje obnasanja besed na podlagi korpusnih podatkov, ker omogoda dosledno analizo besedilnega okolja, likrati pa ne spregleda nobenega kljucnega pomenskega dejstva. Vprvi fazi izdelave LBS smo semanticne tipe zapisovali brez enotne taksonomije, saj gre za postopek, ki gaje potrebno resevati induktivno, tj. od posameznega (konkretnega kolokatorja) k skupnemu oz. abstraktnemu pomenskemu zastopniku. Poleg legaje bilo mogoce pricakovati, da bodo na zacetku abstraktni pomenski zastopniki zapisani z razlicnimi izrazi, saj je posamezne skupne pomenske imenovalce mogoce izraziti na vec nacin V dmgi fazi izdelave LBS sino zato posamezne semanticne tipe poenotili in izdelali stiristopenjsko taksonomijo. Kot hierarhicno najvisje smo dolocili t. i. (1) pomensko polje, ki vsebuje posamezne pomenske razrede, in sicer (1.1) pomenske tipe, (1.2) pomenske podtipe, (1.3) kolokatorske tipe in (1.4) konkretne kolokatorje. POMENSKA POLJA zastopajo vrimje pomenske kategorije, ki sluzijo zdmzevanju osnovnih pomenskih tipov. Ob zakljucku LBS so bila taka pomenska polja tri: (1) zivo bitje, (2) konkretna entiteta in (3) abstraktna entiteta. POMENSKI TIPI predstavljajo samostojne pomenske kategorije znotraj pomenskih polj in smo jih v pomenski shemi uporabljali za oznacevanje udelezencev, kadar besedilnih realizacij ni bilo mogoce natancneje opredeliti. POMENSKI PODTIPI dolocajo relativno samostojne pomenske skupine znotraj pomenskega tipa, KOLOKATORSKI TIPI pa natancneje opredeljujejo pomenske tipe ah podtipe, in sicer s konkretnejsimi predstavniki, ki pa so se vedno zastopniki vecje skupine sorodnih primerkov, medtem ko predstavljajo KOLOKATORJI v vlogi semanticni tipov konkretne leksikalne zapolnitve na udelezenskih mestih. Z njimi smo oznacejevali udelezence pri posameznih pomenih besede, kjer je realizacija pomena vezana na konkretno leksikalno zapolnitev. Taksonomijo semanticni tipov s prostorskim pomenom v pomenskih shemah LBS prikazuje Tabela 1. V LBS so glagoli oz. posamezni glagolski pomeni s prostorsko komponento obravnavani na tri nacine (a) v svoji udelezenski zgradbi, izrazeni v pomenski shemi, laliko vsebujejo semanticni tip, ki oznac prostorski pomen (gl. Labelo 1), ali pa je (b) prostorska komponenta vkljucena v stavcne vzorce, ki predstavljajo razlicne skladenj ske realizacije osnovnega stavcne vzorca v pomenski shemi, zdmzene pod skupni »prostorski« imenovalec: SMER ali LOKACIJA, npr. ce ZIVAL ali CLOVEK bega po PROSTORU, se po njem premika v razlicnih smereh, nmadno zato, ker je preplasen ali zmeden. Tretja (c) moznost je vkljucitev prostorske komponente v t. i. scenarijski del stavcn oblikovane pomenske sheme, ki prinasa tiste pomenske vsebine, ki pridejo do izraza v konkretnih sporocanj skill situacijah oz. v odnosu do in med udelezenci sporocanj a. Glede na to, da pomenska shema za posamezni glagolski pomen vkljucuje najsirsi stavcni vzorce, tj. tako skladenjsko in pomensko obvezna kot neobvezna dolocila in dopolnila, izrazena vsaj v vecini realnih besedilnih realizacij, je logicno, da se bodo v pomenski shemi zabelezeni semanticni tipi s pomenom prostora realizirali tudi na ravni stavcni vzorcev in se potrjevali s kolokacijami, ki vkljucujej besede s prostorskim leksikalnim pomenom, npr. begati po cem begati po hodnikih, sobi.
V prispevku predstavljamo rešitve za prepoznavanje in označevanje zaznamovanega besedišča v okviru koncepta odzivnega Slovarja sopomenk sodobne slovenščine. Ker gre za prvi tovrstni projekt, so ...pripravljene rešitve v veliki meri inovativne, umeščene pa v okvir problematike avtomatske strojne izdelave slovarja, njegove odprtosti in vključenosti uporabniške skupnosti. Prispevek prikazuje postopek prepoznavanja sovražnega in grobega besedišča ter pripis oznak, opozorilnih ikon in daljših pojasnil. Ukvarjamo se tako s tehničnimi kot vsebinskimi vprašanji označevanja. Vsebinsko oznake temeljijo na sporočanjskem namenu in učinku, pri čemer je njihovo bistvo informacija o možnih posledicah rabe, pri tehničnih rešitvah pa veliko pozornost posvečamo digitalnemu mediju in vizualizaciji rešitev v njem. Ker je odzivnost eden ključnih konceptov slovarja, se pri rešitvah glede označevanja zavedamo pomembnosti sodelovanja z uporabniško skupnostjo, zato tudi pri dodajanju oznak predlagamo rešitve za sodelovanje s skupnostjo. Izhodiščni konferenčni prispevek je bil razširjen v vseh poglavjih, dodano pa je povsem novo poglavje o obdelavi večpomenskih iztočnic, njihovi pomenski členitvi in pomenskem opisovanju z zgledi pomenov z negativno zaznamovanostjo.
In this paper, we define the notion of collocation for the purpose of its use in machine-readable language resources, which will be used in the creation of electronic dictionaries and language ...applications for Slovene. Based on theoretical and lexicographically-driven studies we define collocation as a lexical phenomenon, defined by three key aspects: statistical, syntactic, and semantic. We take lexicographic relevance as a point of departure for defining collocations within the typology of word combinations, as well as for distinguishing them from free combinations. Free combinations are (frequent) syntactically valid word combinations without lexicographic value and consequently there is no need for the description of their meaning, or syntactic role. Next, we distinguish collocations from all multiword lexical units (compounds, phraseological units and lexico-grammatical units) using the lexicographic view that multiword lexical units, whose meaning is not a sum of its parts, require a description of their meaning whereas collocations do not. In the final part, we return to the three aspects of collocation and their role in automatic extraction of collocational information from corpora. Semantic criterion or dictionary relevance of extracted collocations has particularly exposed the problem of semantically broad collocates such as certain types of adverbs, adjectives and verbs, and word which feature in different syntactic roles (e.g. pronouns and adjuncts). We discuss a particular issue of collocations related to proper names and the decisions about their inclusion into the dictionary based on the evaluation of lexicographers.
The ability to process language data has become fundamental to the development of technologies in various areas of human life in the digital world. The development of digitally readable linguistic ...resources, methods, and tools is, therefore, also a key challenge for the contemporary Slovene language. This challenge has been recognized in the Slovene language community both at the professional and state level and has been the subject of many activities over the past ten years, which will be presented in this paper. The idea of a comprehensive dictionary database covering all levels of linguistic description in modern Slovene, from the morphological and lexical levels to the syntactic level, has already formulated within the framework of the European Social Fund's Communication in Slovene (2008-2013) project; the Slovene Lexical Database was also created within the framework of this project. Two goals were pursued in designing the Slovene Lexical Database (SLD): creating linguistic descriptions of Slovene intended for human users that would also be useful for the machine processing of Slovene. Ever since the construction of the first Slovene corpus, it has become evident that there is a need for a description of modern Slovene based on real language data, and that it is necessary to understand the needs of language users to create useful language reference works. It also became apparent that only the digital medium enables the comprehensiveness of language description and that the design of the database must be adapted to it from the start. Also, the description must follow best practices as closely as possible in terms of formats and international standards, as this enables the inclusion of Slovene into a wider network of resources, such as Open Linked Data, BabelNet and ELEXIS. Due to time pressures and trends in lexicography, procedures to automate the extraction of linguistic data from corpora and the inclusion of crowdsourcing into the lexicographic process were taken into consideration. Following the essential idea of creating an all-inclusive digital dictionary database for Slovene, a few independent databases have been created over the past two years: the Collocations Dictionary of Modern Slovene, and the automatically generated Thesaurus of Modern Slovene, both of which also exist as independent online dictionary portals. One of the novelties that we put forward together with both dictionaries is the 'responsive dictionary' concept, which includes crowdsourcing methods. Ultimately, the Digital Dictionary Database provides all (other) levels of linguistic description: the morphological level with the Sloleks database upgrade, the phraseological level with the construction of a multi-word expressions lexicon, and the syntactic level with the formalization of Slovene verb valency patterns. Each of these databases contains its specific language data that will ultimately be included in the comprehensive Slovene Digital Dictionary Database, which will represent basic linguistic descriptions of Slovene both for the human and machine user.
S prvo številko drugega letnika revija Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave, ki jo tisti, ki nam je že domača, na kratko imenujemo SLO 2.0, utrjuje svojo osrednjo ...vlogo na področju prikaza rezultatov raziskav slovenskega in drugih jezikov, ki združujejo empirični ter interdisciplinarni, zlasti pa jezikovnotehnološki pristop in aplikativno naravnanost. Z izidom številke 1 (2014) pa v slovenistično znanstveno periodiko prinašamo še eno novost: sprotno objavljanje.
Nova slovnica: kje smo in kam gremo Arhar Holdt, Špela; Ahačič, Kozma; Krapš Vodopivec, Irena ...
Slovenscina 2.0,
12/2018, Letnik:
6, Številka:
2
Journal Article
Recenzirano
Odprti dostop
6. junija 2018 je na Inštitutu Jožef Stefan potekal dogodek, na katerem so bili javnosti predstavljeni cilji in prvi rezultati projekta Nova slovnica sodobne standardne slovenščine: viri in metode ...(ARRS J6-8256). Namen projekta je razviti jezikoslovno metodologijo za računalniško podprto analizo sodobne slovenščine, kakršna je zajeta v referenčnih besedilnih korpusih slovenskega jezika. Z novo metodologijo bodo pripravljene baze jezikovnih podatkov, ki bodo po koncu projekta skupnosti odprto na voljo za raziskave, gradnjo jezikovnih priročnikov ter učnih gradiv, razvoj jezikovnotehnoloških orodij ipd.
Omenjeno projektno financiranje izdelave nove slovnice sicer ne pokriva, vendar že priprava podatkovnih baz zahteva premisleke o trenutnih prioritetah slovenskega prostora. Sodobni slovnični opis je brez dvoma med cilji za prihodnost, ni pa še v konsenza, kako naj bo oblikovan, da bo odgovoril na (različne) potrebe sodobne družbe. Da odpremo razpravo, smo na projektnem dogodku organizirali strokovni posvet, opredeljen z naslednjimi vprašanji: kdo so deležniki, ki bi lahko projektne rezultate uporabljali; na kaj moramo pri pripravi paziti, da bodo podatki optimalno uporabni; kakšno oz. katero slovnico potrebujemo najprej; katere so metodološke in logistične premise njene priprave; kje je trenutno slovensko slovničarstvo in kakšen razvoj si lahko obetamo; kakšne so potrebe po slovničnih podatkih pri različnih uporabniških skupinah ter kaj bi trenutne vrzeli najbolje naslovilo.