Prva in druga izdaja SSKJ Krek, Simon
Slovenscina 2.0,
12/2014, Letnik:
2, Številka:
2
Journal Article
Recenzirano
Odprti dostop
V prispevku obravnavamo razlike med prvo in drugo izdajo Slovarja slovenskega knjižnega jezika. Analiza obsega dva ločena postopka: detajlno primerjavo celotnega geslovnika obeh slovarjev in analizo ...2.500 geselskih člankov iz obeh slovarjev, po sto iz vsake črke. Analiza kaže, da je v drugi izdaji SSKJ vsebovan poseg v pravopisno in pravorečno podobo slovenščine brez razvidnega mandata za ta poseg, da so spremembe naključne in nekonsistentne, pri čemer je poleg razrušenja konsistentnega slovarskega opisa iz prve izdaje vprašljiv predvsem poseg v slovnični opis slovenskega jezika, vsebovan v drugi izdaji, in da zaradi redakcijske odločitve, da se popolnoma zabriše možnost razločevanja, ali slovarski podatki izhajajo iz prve izdaje ali iz Slovarja novejšega besedja slovenskega jezika, druga izdaja prinaša strokovno vprašljiv slovarski opis sodobnega slovenskega jezika. S strokovnega, leksikografskega stališča bi bilo primerneje, če bi prva izdaja ostala nespremenjena, s Slovarjem novejšega besedja slovenskega jezika kot svojo ločeno publikacijo. Poleg tega druga izdaja ni prosto dostopna na spletu, nobena od izdaj pa ni prosto dostopna kot slovarska baza v računalniško procesljivem formatu.
V prispevku predstavljamo rešitve za prepoznavanje in označevanje zaznamovanega besedišča v okviru koncepta odzivnega Slovarja sopomenk sodobne slovenščine. Ker gre za prvi tovrstni projekt, so ...pripravljene rešitve v veliki meri inovativne, umeščene pa v okvir problematike avtomatske strojne izdelave slovarja, njegove odprtosti in vključenosti uporabniške skupnosti. Prispevek prikazuje postopek prepoznavanja sovražnega in grobega besedišča ter pripis oznak, opozorilnih ikon in daljših pojasnil. Ukvarjamo se tako s tehničnimi kot vsebinskimi vprašanji označevanja. Vsebinsko oznake temeljijo na sporočanjskem namenu in učinku, pri čemer je njihovo bistvo informacija o možnih posledicah rabe, pri tehničnih rešitvah pa veliko pozornost posvečamo digitalnemu mediju in vizualizaciji rešitev v njem. Ker je odzivnost eden ključnih konceptov slovarja, se pri rešitvah glede označevanja zavedamo pomembnosti sodelovanja z uporabniško skupnostjo, zato tudi pri dodajanju oznak predlagamo rešitve za sodelovanje s skupnostjo. Izhodiščni konferenčni prispevek je bil razširjen v vseh poglavjih, dodano pa je povsem novo poglavje o obdelavi večpomenskih iztočnic, njihovi pomenski členitvi in pomenskem opisovanju z zgledi pomenov z negativno zaznamovanostjo.
In this paper, we define the notion of collocation for the purpose of its use in machine-readable language resources, which will be used in the creation of electronic dictionaries and language ...applications for Slovene. Based on theoretical and lexicographically-driven studies we define collocation as a lexical phenomenon, defined by three key aspects: statistical, syntactic, and semantic. We take lexicographic relevance as a point of departure for defining collocations within the typology of word combinations, as well as for distinguishing them from free combinations. Free combinations are (frequent) syntactically valid word combinations without lexicographic value and consequently there is no need for the description of their meaning, or syntactic role. Next, we distinguish collocations from all multiword lexical units (compounds, phraseological units and lexico-grammatical units) using the lexicographic view that multiword lexical units, whose meaning is not a sum of its parts, require a description of their meaning whereas collocations do not. In the final part, we return to the three aspects of collocation and their role in automatic extraction of collocational information from corpora. Semantic criterion or dictionary relevance of extracted collocations has particularly exposed the problem of semantically broad collocates such as certain types of adverbs, adjectives and verbs, and word which feature in different syntactic roles (e.g. pronouns and adjuncts). We discuss a particular issue of collocations related to proper names and the decisions about their inclusion into the dictionary based on the evaluation of lexicographers.
V 20. stoletju se je strukturalizem vzpostavil kot osrednja jezikoslovna teorija, v prvi polovici stoletja predvsem s svojim začetnikom Ferdinandom de Saussurjem, v drugi polovici pa z likom Noama ...Chomskega. Zadnji je vztrajno zavračal smiselnost analiz obsežnih količin besedil, ki jih je obravnaval kot nezanimive v primerjavi z jezikovno intuicijo naravnega govorca. Vzporedno s strukturalizmom so se množile tudi jezikoslovne smeri, ki so opozarjale na nezadostnost prevladujoče jezikoslovne paradigme in na teoretske uvide, ki jih je omogočila šele sistematična analiza velikih količin besedil. Prispevek obravnava dileme, ki izhajajo iz navedene dihotomije in umešča t. i. korpusno jezikoslovje v širši jezikoslovni kontekst.
Strojno prevajanje je področje računalniške lingvistike, ki raziskuje uporabo programske opreme za prevajanje besedila iz enega jezika v drugega. Faktorsko statistično strojno prevajanje je različica ...statističnega, pri katerem besedilu dodamo jezikoslovne oznake na ravni besed in jih spremenimo v vektorje. Tako želimo izboljšati kakovost dobljenih prevodov. V prispevku opišemo uporabo odprtokodnega sistema Moses za faktorsko statistično strojno prevajanje iz angleščine v slovenščino. Iz besedilnega korpusa smo ustvarili več faktorskih in nefaktorskih prevajalnih modelov. Z njimi smo prevedli dve besedili s področja informacijskih tehnologij. Prvo je usmerjeno tržno in ima kompleksnejšo zgradbo, drugo pa je bolj tehnične narave. Prevode, ki smo jih dobili, smo na dva načina primerjali z dvema neodvisnima človeškima prevodoma in s prevodom, ki smo ga ustvarili s storitvijo Google Translate. Za prvi način primerjave smo uporabili metriko BLEU, za drugega pa so prevode pregledali človeški pregledovalci in podali subjektivno oceno, ki je pri prevajanju še vedno zelo pomembna. Čeprav rezultatov ne moremo primerjati neposredno zaradi različnih metrik, se gibanje ocen kakovosti pri obeh besedilih dobro ujema. Edina občutna razlika med računalniško in človeško oceno se pojavi pri prehodu na faktorske modele pri drugem besedilu. Analizirali smo zanesljivost ocenjevalcev in rezultate ocenjevanja. Ugotovili smo, da so naši modeli primernejši za tehnična besedila in da uporaba faktorskih modelov vidneje izboljša prevajanje kompleksnejših besedil.
Nova slovnica: kje smo in kam gremo Arhar Holdt, Špela; Ahačič, Kozma; Krapš Vodopivec, Irena ...
Slovenscina 2.0,
12/2018, Letnik:
6, Številka:
2
Journal Article
Recenzirano
Odprti dostop
6. junija 2018 je na Inštitutu Jožef Stefan potekal dogodek, na katerem so bili javnosti predstavljeni cilji in prvi rezultati projekta Nova slovnica sodobne standardne slovenščine: viri in metode ...(ARRS J6-8256). Namen projekta je razviti jezikoslovno metodologijo za računalniško podprto analizo sodobne slovenščine, kakršna je zajeta v referenčnih besedilnih korpusih slovenskega jezika. Z novo metodologijo bodo pripravljene baze jezikovnih podatkov, ki bodo po koncu projekta skupnosti odprto na voljo za raziskave, gradnjo jezikovnih priročnikov ter učnih gradiv, razvoj jezikovnotehnoloških orodij ipd.
Omenjeno projektno financiranje izdelave nove slovnice sicer ne pokriva, vendar že priprava podatkovnih baz zahteva premisleke o trenutnih prioritetah slovenskega prostora. Sodobni slovnični opis je brez dvoma med cilji za prihodnost, ni pa še v konsenza, kako naj bo oblikovan, da bo odgovoril na (različne) potrebe sodobne družbe. Da odpremo razpravo, smo na projektnem dogodku organizirali strokovni posvet, opredeljen z naslednjimi vprašanji: kdo so deležniki, ki bi lahko projektne rezultate uporabljali; na kaj moramo pri pripravi paziti, da bodo podatki optimalno uporabni; kakšno oz. katero slovnico potrebujemo najprej; katere so metodološke in logistične premise njene priprave; kje je trenutno slovensko slovničarstvo in kakšen razvoj si lahko obetamo; kakšne so potrebe po slovničnih podatkih pri različnih uporabniških skupinah ter kaj bi trenutne vrzeli najbolje naslovilo.
V sklopu konference Slovenščina na spletu in v novih medijih je 27. novembra 2015 v dvorani Zemljepisnega muzeja GIAM ZRC SAZU potekala okrogla miza z naslovom Slovenščina Janes: pogovorna, ...nestandardna, spletna ali spretna? K razpravi je bilo povabljenih pet strokovnjakov in strokovnjakinj s področja slovenskega jezikoslovja: dr. Helena Dobrovoljc (Inštitut za slovenski jezik Frana Ramovša ZRC SAZU in Fakulteta za humanistiko UNG), dr. Polona Gantar (Filozofska fakulteta UL), dr. Simon Krek (Inštitut Jožef Stefan, Filozofska fakulteta UL in Fakulteta za družbene vede UL), dr. Damjan Popič (Filozofska fakulteta UL) in dr. Marko Stabej (Filozofska fakulteta UL). Razpravo sem moderirala dr. Špela Arhar Holdt (Zavod za uporabno slovenistiko Trojina in Filozofska fakulteta UL).Povod za okroglo mizo so bile terminološke zadrege, zaznane pri poskusu poimenovanja jezika v korpusu Janes,1 vendar so slednje zelo hitro razkrile širok spekter kompleksnih vzrokov. Vprašanje opredelitve »slovenščine Janes« se tako zastavlja kot rezultat sprememb v načinu človeške komunikacije, po katerih opredelitve in pojmi obstoječe slovenske (in ne le slovenske) zvrstnostne teorije izgubljajo uporabno vrednost. Je mogoče po pojavu spleta in razvoju različnih zvrsti računalniško posredovane komunikacije še govoriti o javnem in zasebnem, formalnem in neformalnem, knjižnem in pogovornem? Še več, so te kategorije v praksi – v šoli in izven nje – sploh kdaj funkcionirale? Debata se je dotaknila vprašanja, kako naj se jezikoslovje na spremembe v jezikovni rabi odzove: moramo zagotoviti predvsem novo zvrstnostno teorijo ali je potrebna tudi sprememba v odnosu do jezikovnih uporabnikov, slovenistične metodologije, izdelkov in storitev, ki jih jezikovna skupnost od nas pričakuje, jezika samega? In kakšna je v sliki sodobnih jezikoslovnih raziskav in projektov vloga gradiva Janes, kje so glavne možnosti in kaj omejitve?Na začetku debate je imel vsak od panelistov nekaj minut za predstavitev izhodiščnega mnenja, sledile so replike in na koncu še vprašanja oz. mnenja udeležencev. Zapis izjav je bil pripravljen po zvočnem posnetku, pri čemer so bile izjave za namene lažjega branja skladenjsko prilagojene značilnostim pisnega jezika, nato pa so avtorji posredovali še nekaj dodatnih pojasnil glede svojih prispevkov. Zapis začenjamo s predstavitvijo prvega panelista.1 Gre za korpus računalniško posredovane komunikacije, ki zajema besedila tvitov, blogov, uporabniških komentarjev in forumov. Korpus predstavlja prispevek (Erjavec in dr. 2015), projektna stran pa je: http://nl.ijs.si/janes/.
V razpravi opisujemo poskus uvajanja postopkov avtomatizacije v proces izdelave slovarjev, ki smo ga uporabili v končni fazi izdelave leksikalne baze za slovenščino (LBS). Gre za avtomatizacijo dela ...leksikografskega procesa, pri katerem računalnik na podlagi vnaprej določenih parametrov izbere, izloči ter neposredno v program za izdelavo slovarja ali slovarske baze prenese vrsto leksikalnogramatičnih podatkov o konkretni lemi, ki jih leksikograf nato uporabi za pomensko analizo in končno izdelavo slovarskega gesla. Optimalnost avtomatsko izluščenih podatkov smo določali s sprotnim prilagajanjem parametrov glede na različne frekvenčne skupine lem po posameznih besednih vrstah in s postopnim prilagajanjem hevristik v aplikaciji GDEX za izbor dobrih korpusnih zgledov. Prispevek zaključujemo s prikazom vključitve postopka avtomatskega luščenja leksikalnih podatkov v predlagan slovar sodobnega slovenskega jezika.
Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na ...označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.