Novembra in decembra 2015 so Filozofska fakulteta Univerze v Ljubljani, slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI ter regionalna iniciativa za jezikovne podatke ...ReLDI organizirale dogodek JANES Ekspres, ki ga je v okviru razpisa za promocijo slovenske znanosti v tujini sofinancirala Javna agencija za raziskovalno dejavnost Republike Slovenije (ARRS). Cilj projekta je bil raziskovalcem in študentom v Sloveniji, na Hrvaškem in v Srbiji s predavanji in delavnicami predstaviti obstoječe korpusne ter spletne vire za slovenščino in gradnjo, označevanje ter analizo korpusa spletne slovenščine JANES, ki nastaja v okviru temeljnega raziskovalnega projekta JANES.
Prispevek predstavlja izdelavo korpusa Trendi, prvega spremljevalnega korpusa za slovenščino. Trenutna različica Trendi 2023-02 pokriva besedila od januarja 2019 do konca februarja 2023, vsebuje pa ...že več kot 700 milijonov pojavnic oz. več kot 586 milijonov besed. Namen korpusa je, da tako strokovni kot nestrokovni javnosti ponudi podatke o aktualni jezikovni rabi in omogoči spremljanje pojavljanja novih besed ter upadanja ali naraščanja rabe že obstoječih. Poleg same vsebine predstavimo tudi metodologijo in načela izdelave korpusa. Drugi del prispevka opisuje razvoj algoritma za avtomatsko kategorizacijo besedil z novičarskih portalov, ki je bil pripravljen za potrebe korpusa Trendi in tudi drugih korpusov s tovrstnimi besedili. Za namene algoritma je bil izdelan nabor 13 tematskih kategorij, ki so v veliki meri prekrivne z mednarodnimi standardi in kategorijami v primerljivih korpusih drugih jezikov. Na besedilih, označenih s kategorijami, smo naučili več različnih jezikovnih modelov in z najprimernejšim dosegli visoko zanesljivost določevanja tematike besedilom.
Prispevek predstavlja prvi korak k dopolnjevanju leksikona Sloleks z oblikoslovnimi vzorci, in sicer na primeru samostalnikov. Vzorci so v prvem koraku strojno pridobljeni iz leksikona samega na ...osnovi izbranih razločevalnih lastnosti (oblikoskladenjskih oznak in spremenljivih delov besednih oblik). Sledi ročno razvrščanje, v katerem (a) ločimo sistemsko in v rabi utemeljene vzorce od primerov, ki se pojavljajo spričo šuma pri strojnem luščenju in nedoslednosti v leksikonu Sloleks; (b) uredimo skupine glede na vsebovanost in sorodnost; (c) poiščemo in natančneje opredelimo variantnost, tako pri standardnih kot nestandardnih oblikah; (d) začrtamo korake za nadaljnji razvoj programa in leksikonske nadgradnje. Rezultat je izhodiščni nabor formaliziranih oblikoslovnih vzorcev za (občno- in lastnoimenske) samostalnike, ki prinaša 10 skupin (64 vzorcev) za moški spol, 9 skupin (29 vzorcev) za ženski spol in 8 skupin (20 vzorcev) za srednji spol. Priprava nabora vzorcev je razkrila številne možnosti za izboljšavo leksikona, strojno namenski pogled na pregibanje pa priložnosti za dopolnitev slovničnega opisa slovenščine. V nadaljevanju dela bodo vzorci pripravljeni tudi za preostale besedne vrste in dopolnjeni s korpusnim gradivom. Končna nomenklatura bo vpisana v bazo leksikona Sloleks, v obliki strojno berljivih vzorcev pa bo objavljena tudi na repozitoriju Clarin.si.
The paper is based on a survey conducted within the framework of the basic research project Collocations as a Basis for Language Description: Semantic and Temporal Perspectives (KOLOS; J6-8255). It ...presents a qualitative analysis of a user evaluation of the interface of the Collocations Dictionary of Modern Slovene (CDS). It discusses an alternative perspective—the user's point of view—on problematic aspects of individual dictionary features, which require further lexicographic analysis and discussion. The collocations user study presents a model of the process of user evaluation; its findings are significant primarily for determining problems encountered by users. They also serve as a useful basis for methodology improvements in future, comparable lexicographic user studies and analyses.
Prispevek se sprašuje o upravičenosti določenih političnih ukrepov, ki odrekajo zagotavljanje prevajanja in tolmačenja migrantom, ter zagovarja nove pristope k jezikovni in prevodni politiki, in ...sicer prek raziskave, ki je bila zasnovana kot odziv na trditve, da prevajalske in tolmaške storitve ovirajo integracijo nedavnih priseljencev. Raziskava je bila izvedena na skupini prosilcev za mednarodno zaščito v azilnem domu v Ljubljani. Najprej smo zbrali podatke o jezikovnem ozadju vseh stanovalcev azilnega doma v avgustu 2014 (56 stanovalcev iz 19 različnih držav), nato pa sestavili reprezentativno skupino 18 prosilcev za mednarodno zaščito na podlagi njihovega maternega jezika in jih razdelili na dve skupini glede na čas bivanja v Sloveniji v času intervjuja (krajše ali daljše obdobje). Kvantitativne podatke o jezikovnih profilih smo zbrali z vprašalnikom, kvalitativne pa s pomočjo polstrukturiranih intervjujev, izvedenih v letu 2014, in dveh ponovitvenih intervjujev v letu 2015. Nato smo kvalitativno analizirali transkripcije vseh posnetih intervjujev, pri čemer smo se osredotočali na jezikovne in komunikacijske rešitve na različnih stopnjah migrantovega življenja v državi gostiteljici. Rezultati kažejo, da je osnovne kompromise mogoče doseči, saj so prevajalske in tolmaške storitve komplementarni koraki do neodvisnosti in kot take ne ovirajo učenja dominantnega oz. nacionalnega jezika države gostiteljice, temveč ga podpirajo.
Spletna besedila postajajo vse bolj relevanten vir informacij, korpuse tovrstnih besedil pa potrebujemo pri korpusnojezikoslovnih raziskavah in razvoju jezikovnih tehnologij za sodobno slovenščino. ...Čeprav so spletna besedila neposredno dostopna in je njihov zajem preprostejši od tiskanih, je izdelava takšnih korpusov še vedno zapletena, draga in zamudna. Ključno je, da poskrbimo, da se podobni podatki ne zbirajo večkrat, zato je nujno omogočiti njihovo čim večjo dostopnost čim širši raziskovalni skupnosti in zainteresirani javnosti. Tehničnih in prostorskih ovir za to sicer ni, vendar pri gradnji korpusa naletimo na številne omejitve v okviru zaščite avtorskih pravic, varstva osebnih podatkov in pogojev uporabe ponudnikov spletnih storitev. V prispevku predstavljamo pravno in dejansko stanje na teh področjih, opravimo pregled sorodnih tujih in domačih praks ter na primeru korpusa spletne slovenščine Janes predlagamo vrsto ukrepov, ki do največje možne mere omogočajo prosto in odprto razširjanje korpusov spletne slovenščine.
It’s so vital to learn Slovene Pokorn, Nike K; Čibej, Jaka
Language problems & language planning,
01/2018, Letnik:
42, Številka:
3
Journal Article
Recenzirano
Short-time migrants, who stay in the host country from one to 12 months, use mediation strategies including lingua francas, public-service interpreting and translation, translation technologies, ...intercomprehension, and learning the host country’s dominant language. The choices made by asylum seekers in Slovenia, a country of transit for the majority of asylum seekers, are analyzed on the basis of questionnaires answered by 127 current and former residents of the Slovene asylum seeker centers in 2016, followed up by semi-structured interviews with a representative group of 34 asylum seekers. The results show that the majority of newly arrived migrants regard the use of lingua francas as a helpful but not desired long-term strategy. They define host-country language learning as the most desirable strategy for linguistic and social inclusion. Surprisingly, they are reluctant to use translation technologies and interpreters because they either doubt the accuracy of the transfer or they consider such mediation (interpreting in particular) a hindrance to their independence.