Zapis posveta o aktualnih sociolingvističnih izzivih in prednostnih raziskovalnih tematikah, ki sta ga organizirala doc. dr. Maja Bitenc in red. prof. dr. Marko Stabej z Oddelka za slovenistiko in je ...potekal v ponedeljek, 27. 9. 2021, na Filozofski fakulteti Univerze v Ljubljani in s prenosom preko Zooma. V prvem delu so vabljene strokovnjakinje in strokovnjaki predstavili svoje poglede ob izhodiščnih vprašanjih, v drugem je sledila razprava vseh sodelujočih. Zapis posnetka so govornice in govorniki uredili po lastni presoji, načeloma s čim manj intervencijami, iz razprave pa so za branje prilagojene in objavljene vsebinsko tehtnejše replike.
Prispevek izhaja iz projekta snovanja novega velikega slovensko-madžarskega slovarja, pri katerem je bila za namene priprave koncepta potrebna tudi analiza obstoječih dvojezičnih virov za ta ...jezikovni par. Tako prispevek najprej ponudi krajši zgodovinski pregled slovensko-madžarskega slovaropisja, od prvih zbirk narečnih besed, glosarjev do frazeoloških zbirk in slovarjev. Sledi pregled dvojezičnih slovarjev za jezikovni par slovenščina-madžarščina in madžarščina-slovenščina. Prispevek se nato osredotoči na primerjavo treh najpogosteje uporabljanih slovensko-madžarskih slovarjev, in sicer slovensko-madžarskega dela slovarja Elizabete Bernjak iz leta 1995, Slovensko-madžarskega slovarja Jožeta Hradila iz leta 1996 ter slovensko-madžarskega dela Hradilovega navzkrižnega slovarja iz leta 2012. Slovarji so primerjani z vidika obsega, geslovnika, predstavitve iztočnic, zaglavja ipd. Primerjani so tudi različni elementi slovarske mikrostrukture, od prevedkov do ponazarjalnega gradiva. Nato je opravljena kratka študija izrazja, ki ga najdemo v e-zbirkah izrazov in ki naj bi odsevalo potrebe izobraževalnih ustanov na dvojezičnem območju. Temu sledi pregled izbranih primerov dobrih praks sodobne dvojezične leksikografije, kot je pri nas npr. Veliki angleško-slovenski slovar Oxford-DZS, v tujini pa dvojezični slovarji založb Oxford in Collins. Pri pregledu predvsem izpostavimo elemente, ki najbolje kažejo sodobne pristope izkoriščanja prednosti digitalnega medija in so posledično najbolj relevantni za snovanje Velikega slovensko-madžarskega slovarja.
V prispevku predstavimo najnovejšo različico korpusa spletne slovenščine Janes, ki vsebuje tvite, spletne forume, novice in uporabniške komentarje nanje, blogovske zapise in komentarje nanje ter ...uporabniške in pogovorne strani na Wikipediji. Najprej opišemo postopek zajema besedil za vsakega od vključenih virov in podamo kvantitativno analizo zgrajenega korpusa. Sledi predstavitev avtomatskih in ročnih postopkov za obogatitev korpusa s koristnimi metapodatki, kot so tip, spol in regija avtorja ter sentiment in stopnja tehnične in jezikovne standardnosti posameznega besedila. Prispevek sklenemo z opisom delotoka za jezikoslovno označevanje korpusa, ki vključuje tokenizacijo, stavčno segmentacijo, rediakritizacijo, normalizacijo, oblikoskladenjsko označevanje in lematizacijo.
V članku je obravnavana zgodnja slovenščina, tj. južnoslovanski jezik v vzhodnoalpskem in zahodnopanonskem prostoru, ki se je v 11. in 12. stoletju razprostiral od Donave na severu do Jadrana na ...jugu in roba Panonske nižine na vzhodu. Prikazan je zemljepisni obseg slovanskega jezikovnega prostora v Vzhodnih Alpah, kakor se kaže predvsem v pisnih virih od konca 6. do vključno 12. stoletja. Na osnovi jezikoslovne analize v virih dokumentiranih zemljepisnih in osebnih imen so določene jezikovne lastnosti zgodnje slovenščine, in sicer v prvi vrsti v razmerju do tedaj zemljepisno stičnih slovanskih geolektov na severu (poznejši češčina in slovaščina) in jugu (poznejša čakavščina).
Prispevek predstavlja prvi korak k dopolnjevanju leksikona Sloleks z oblikoslovnimi vzorci, in sicer na primeru samostalnikov. Vzorci so v prvem koraku strojno pridobljeni iz leksikona samega na ...osnovi izbranih razločevalnih lastnosti (oblikoskladenjskih oznak in spremenljivih delov besednih oblik). Sledi ročno razvrščanje, v katerem (a) ločimo sistemsko in v rabi utemeljene vzorce od primerov, ki se pojavljajo spričo šuma pri strojnem luščenju in nedoslednosti v leksikonu Sloleks; (b) uredimo skupine glede na vsebovanost in sorodnost; (c) poiščemo in natančneje opredelimo variantnost, tako pri standardnih kot nestandardnih oblikah; (d) začrtamo korake za nadaljnji razvoj programa in leksikonske nadgradnje. Rezultat je izhodiščni nabor formaliziranih oblikoslovnih vzorcev za (občno- in lastnoimenske) samostalnike, ki prinaša 10 skupin (64 vzorcev) za moški spol, 9 skupin (29 vzorcev) za ženski spol in 8 skupin (20 vzorcev) za srednji spol. Priprava nabora vzorcev je razkrila številne možnosti za izboljšavo leksikona, strojno namenski pogled na pregibanje pa priložnosti za dopolnitev slovničnega opisa slovenščine. V nadaljevanju dela bodo vzorci pripravljeni tudi za preostale besedne vrste in dopolnjeni s korpusnim gradivom. Končna nomenklatura bo vpisana v bazo leksikona Sloleks, v obliki strojno berljivih vzorcev pa bo objavljena tudi na repozitoriju Clarin.si.
Raziskave in razvoj na področju jezikovnih tehnologij se danes za jezike sširokim krogom govorcev pospešeno prenašajo v komercialne sisteme, kipostajajo vse bolj razširjeni. Denimo, rešitve samodejne ...prepoznave govora in samodejne sinteze govora se množično vgrajujejo v cenovno ugodne programske pakete, namenjene predvsem uporabi na osebnih računalnikih in prenosnih telefonih. Evropa je danes eden najnaprednejših trgov za jezikovne tehnologije. Evropska unija si prizadeva, da so potrebna orodja in viri na razpolago za vse njene jezike, kot tudi glavne svetovne komercialne jezike, s čimer utira pot večjezikovni informacijski družbi ter enotnemu digitalnemu trgu.