V prispevku so predstavljene nastajajoče podatkovne zbirke (= baze) za narečne atlase, ki nastajajo na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU v Ljubljani. Delne predstavitve ...digitaliziranih podatkov iz gradiva za atlase, kot sta Slovanski lingvistični atlas (OLA) in Slovenski lingvistični atlas (SLA), lahko prispevajo nove poglede na leksiko in na slovnične pojave.
V prispevku predstavljam teoretska in metodološka izhodišča za izdelavo portala SMeJse (Slovenščina kot manjšinski jezik), ob tem pa se obsežneje zaustavljam ob analizi položaja, stanja in statusa ...slovenskega jezika v Italiji, nekaterih specifičnih jezikovnih pojavih, metodoloških izzivih in socioloških okvirih.Pojmi, kot so zvrstnost jezika, norma, prvi/materni oz. tuji jezik, manjšina, diglosija in številni drugi izgubljajo namreč pomen, ki so ga imeli v epistemologijah 20. stoletja, in pridobivajo nove konotacije. Do teh ključnih premikov pri obravnavi jezikovnih pojavov in načrtovanju jezikovnih politik prihaja zaradi novih družbenih kontekstov ob prehodu iz 20. v 21. stoletje. Na percepcije in reprezentacije jezika, ki močno pogojujejo njegovo usvajanje, rabo in tudi uradni položaj – pa tudi znanstveno obravnavo – namreč vplivajo nekateri »zunanji« dejavniki. Med temi gre izpostaviti razvoj in dostopnost novih tehnologij, evropsko politiko na področju manjšinskih jezikov in večjezičnosti nasploh, ekonomsko krizo in njene posledice ter migracijske tokove. Pojmovanje »manjšine« in »manjšinskosti« je tudi na področju jezika in jezikoslovja dobilo nove in drugačne razsežnosti.Na podlagi teh ugotovitev sta Slovenski raziskovalni inštitut (SLORI) in Dijaški dom S. Kosovela v Trstu izdelala spletno platformo SMeJse (www.smejse.it) kot zbirališče novih in že obstoječih orodij, gradiv in informacij za razvoj jezikovnih veščin in spretnosti v slovenskem jeziku. Namen platforme je spodbujanje različnih rab živega slovenskega jezika na območju italijansko-slovenskega jezikovnega stikanja, predvsem v Italiji – s ciljem, da se zagotovi visoka sporazumevalna zmožnost v vseh zvrsteh in različicah slovenskega jezika, uravnotežena dvojezičnost in razvoj tudi lokalnih idiomov, a znotraj slovenskega jezikovnega kontinuuma.
V prispevku skušamo osvetliti medsebojno delovanje dejavnikov, ki vplivajo na besedni red v slovenskem in italijanskem jeziku. Oba jezika imata osnovni besedni red enak, torej osebek-povedek-predmet ...(SVO), a sta vendarle zelo različna, saj gre za analitični in sintetični jezik ter za romanski in slovanski. Besedni red se v jezikovnem paru razlikuje po stopnji svobode, s katero se lahko udejanjijo posamezne različice upovedenega. Preveriti skušam tezo, da na slovenski besedni red v večji meri vplivajo pragmatični in semantični dejavniki kot pa slovnični, nasprotno pa na italijanski besedni red bolj vplivajo slovnični dejavniki od drugih. Analiza zajema besedni red v stavkih, v katerih so prisotni vsi trije elementi, torej S, V in O, in skuša pojasniti variabilni besedni red, ko sta v stavku prisotna zgolj dva od elementov, torej S in V ali O in V. Vzroki za besedni red VS/SV ali OV/VO so rezultat prepleta zgoraj omenjenih dejavnikov.
Od 25. do 27. novembra 2015 je v dvorani GIAM ZRC SAZU v Ljubljani potekala znanstvena konferenca Slovenščina na spletu in v novih medijih. Konferenco so v okviru temeljnega raziskovalnega projekta ...JANES, ki ga med letoma 2014 in 2017 financira Javna agencija za raziskovalno dejavnost Republike Slovenije, soorganizirali Filozofska fakulteta Univerze v Ljubljani, Slovensko društvo za jezikovne tehnologije, slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI in regionalna iniciativa za jezikovne podatke RelDI. Prvi dan konference je bil namenjen celodnevnemu seminarju iz statistike za jezikoslovce, ki ga je vodila doc. dr. Maja Miličević z Univerze v Beogradu. 25 udeležencev se je seznanilo z osnovami kvantitativnih metod v korpusnem jezikoslovju, opisno in inferenčno statistiko, prav tako pa tudi z načini vizualizacije jezikovnih podatkov in programskega paketa R. Gradivo s seminarja je dostopno na konferenčni spletni strani.
Prispevek predstavlja razvoj prosto dostopnih modelov za prepoznavanje in klasifikacijo imenskih enot za hrvaški in slovenski jezik. Poskusi se osredotočajo na najbolj informativne jezikovne ...lastnosti, pri čemer upoštevajo dostopnost jezikovnih orodij za oba jezika. Poleg standardnih jezikovnih lastnosti so upoštevane tudi distribucijske lastnosti, ki so bile izračunane iz velikih neoznačenih enojezičnih korpusov. Uporaba distribucijskih lastnosti izboljša rezultate za 7-8 točk v meri F1, uporaba oblikoslovnih informacij pa dodatno za 3-4 točke, in to pri obeh jezikih. Najboljši naučeni model skupaj s testno množico za primerjavo z obstoječimi in bodočimi sistemi ter model za oblikoslovno označevanje hrvaščine s programom HunPos so dostopni za prenos za uporabo v znanstvene in komercialne namene.
V prispevku analiziramo dvoje: (a) vključevanje besedil z interneta v obstoječe referenčne korpuse, ki ga soočamo z obstojem spletnih korpusov, ter (b) dva najnovejša korpusa slovenščine: korpus ...Gigafida, ki ga pretežno sestavljajo tiskana besedila, v manjši meri pa tudi spletna, in korpus slWaC, ki je v celoti sestavljen iz spletnih besedil. Najprej ugotavljamo podobnosti in razlike med njima z metodo tematskega modeliranja, nato pa isto metodo apliciramo še na posamezne taksonomske kategorije Gigafide. Prvi del analize je pokazal, da je ravnanje sestavljalcev referenčnih korpusov v zvezi z vključevanjem internetnih besedil v korpuse, ki naj bi kazali celovito podobo nekega jezika, trenutno še neenotno, če pa se zanj že odločijo, je nabor vključenih žanrov praviloma širok. Drugi del analize je pokazal dokajšnjo tematsko različnost Gigafide in slWaCa ter izpostavil najznačilnejše teme, ki jih pokriva vsak od šestih Gigafidinih delov.
The monograph ('I live in Bukov Vrh ('village') below Bukov vrh ('hill')') contains eight different proposals for writing the initial in the non-first components of multi-word geographical proper ...names. The proposals were presented at the open conference ““Meeting of two commissions”“ in June 2019. The motives that triggered the discussion on spelling reform and the decision to consult with the general public before the final decision of the spelling commission are presented. A survey will be prepared, presenting the views of the debaters, presented in the present monograph. The views of the chapters in the central part of the monograph can be summarized in three groups: the first group advocates a more comprehensive reform, which is reflected in the technical solution of writing geographical names - ““all components of the name with a capital letter”“~the second group does not advocate technical reform at the outset, but focuses on clarifying the rules and abolishing the division into settlement and non-settlement names~the third group does not support any changes.