V prispevku opišemo leksikalno analizo izluščenih podatkov za določen kolokacijski okvir iz korpusov Janes in Kres ter predstavimo rezultate, ki so zanimivi za spremljanje leksikalnih novosti v ...slovenski leksiki in za njeno posodobitev v slovarjih. Izluščene podatke smo analizirali primerjalno glede na aktualne slovarje za slovenščino z vidika še neregistriranega besedišča, z vidika vstopanja v tipične kolokacije in stalne zveze ter z vidika pomenskih sprememb. Jezikoslovna analiza izluščenih kolokacij je med drugim pokazala, da je mogoče s primerjalno analizo prepoznati glavne značilnosti in trende leksikalnih novosti ter zaznati problematične točke, kjer leksikalne novosti zlasti pod vplivom tujejezičnih elementov v slovenščino vnašajo tudi spremembe v zapisu in skladenjski vlogi.
V prispevku predstavimo najnovejšo različico korpusa spletne slovenščine Janes, ki vsebuje tvite, spletne forume, novice in uporabniške komentarje nanje, blogovske zapise in komentarje nanje ter ...uporabniške in pogovorne strani na Wikipediji. Najprej opišemo postopek zajema besedil za vsakega od vključenih virov in podamo kvantitativno analizo zgrajenega korpusa. Sledi predstavitev avtomatskih in ročnih postopkov za obogatitev korpusa s koristnimi metapodatki, kot so tip, spol in regija avtorja ter sentiment in stopnja tehnične in jezikovne standardnosti posameznega besedila. Prispevek sklenemo z opisom delotoka za jezikoslovno označevanje korpusa, ki vključuje tokenizacijo, stavčno segmentacijo, rediakritizacijo, normalizacijo, oblikoskladenjsko označevanje in lematizacijo.
V članku je obravnavana zgodnja slovenščina, tj. južnoslovanski jezik v vzhodnoalpskem in zahodnopanonskem prostoru, ki se je v 11. in 12. stoletju razprostiral od Donave na severu do Jadrana na ...jugu in roba Panonske nižine na vzhodu. Prikazan je zemljepisni obseg slovanskega jezikovnega prostora v Vzhodnih Alpah, kakor se kaže predvsem v pisnih virih od konca 6. do vključno 12. stoletja. Na osnovi jezikoslovne analize v virih dokumentiranih zemljepisnih in osebnih imen so določene jezikovne lastnosti zgodnje slovenščine, in sicer v prvi vrsti v razmerju do tedaj zemljepisno stičnih slovanskih geolektov na severu (poznejši češčina in slovaščina) in jugu (poznejša čakavščina).
Članek obravnava predvidljivost spola pri samostalnikih v slovenščini z vidika primerjave med Slovensko slovnico (Toporišič 2000) in Corbettovim sistemom (Corbett 1991). V prvem delu je na primeru ...slovenščine predstavljen Corbettov algoritem razvrščanja samostalnikov v skupine spolov. V drugem delu je predstavljenih nekaj posebnosti v slovenščini, ki jih algoritem ne zajame (epiceni, hibridni, večspolski samostalniki).
Prispevek predstavlja prvi korak k dopolnjevanju leksikona Sloleks z oblikoslovnimi vzorci, in sicer na primeru samostalnikov. Vzorci so v prvem koraku strojno pridobljeni iz leksikona samega na ...osnovi izbranih razločevalnih lastnosti (oblikoskladenjskih oznak in spremenljivih delov besednih oblik). Sledi ročno razvrščanje, v katerem (a) ločimo sistemsko in v rabi utemeljene vzorce od primerov, ki se pojavljajo spričo šuma pri strojnem luščenju in nedoslednosti v leksikonu Sloleks; (b) uredimo skupine glede na vsebovanost in sorodnost; (c) poiščemo in natančneje opredelimo variantnost, tako pri standardnih kot nestandardnih oblikah; (d) začrtamo korake za nadaljnji razvoj programa in leksikonske nadgradnje. Rezultat je izhodiščni nabor formaliziranih oblikoslovnih vzorcev za (občno- in lastnoimenske) samostalnike, ki prinaša 10 skupin (64 vzorcev) za moški spol, 9 skupin (29 vzorcev) za ženski spol in 8 skupin (20 vzorcev) za srednji spol. Priprava nabora vzorcev je razkrila številne možnosti za izboljšavo leksikona, strojno namenski pogled na pregibanje pa priložnosti za dopolnitev slovničnega opisa slovenščine. V nadaljevanju dela bodo vzorci pripravljeni tudi za preostale besedne vrste in dopolnjeni s korpusnim gradivom. Končna nomenklatura bo vpisana v bazo leksikona Sloleks, v obliki strojno berljivih vzorcev pa bo objavljena tudi na repozitoriju Clarin.si.
Raziskave in razvoj na področju jezikovnih tehnologij se danes za jezike sširokim krogom govorcev pospešeno prenašajo v komercialne sisteme, kipostajajo vse bolj razširjeni. Denimo, rešitve samodejne ...prepoznave govora in samodejne sinteze govora se množično vgrajujejo v cenovno ugodne programske pakete, namenjene predvsem uporabi na osebnih računalnikih in prenosnih telefonih. Evropa je danes eden najnaprednejših trgov za jezikovne tehnologije. Evropska unija si prizadeva, da so potrebna orodja in viri na razpolago za vse njene jezike, kot tudi glavne svetovne komercialne jezike, s čimer utira pot večjezikovni informacijski družbi ter enotnemu digitalnemu trgu.
Prispevek analizira učinke transferja med slovenščino in angleščino na področju malo raziskanih absolutnih in relativnih rab pridevnikov. Teoretična osnova, ki loči podsistema standarda (notranji, ...zunanji) in stopnje (osnovna, srednja, visoka), je nadgrajena s praktičnim preizkusom, v kolikšni meri slovenski študenti anglistike, katerih znanje je na ravni C1 in C2, na tem področju (neustrezno) prenašajo jezikovne strategije iz enega jezika v drugega. Rezultati kažejo, da študenti, vključeni v preizkus, ob prevajanju iz slovenščine v angleščino v veliki večini ohranjajo absolutne primernike, čeprav so ti v angleščini veliko redkejši. Po drugi strani tudi ob prevajanju v materni jezik znaten del študentov ohranja absolutne presežnike, ki so produktivna strategija v angleščini, v slovenščini pa se pojavljajo le redko.
V članku so obravnavani slovanskí števniki od 1 do 10 v pred kratkim odkritem latinskem rokopisu iz Heiligenkreuza iz 12. stoletja (Cod. 250), ki sta jih prva objavila in interpretirala Tadeusz ...Lewaszkiewicz in Wiesław Wydra (2021). Preko natančne zgodovinskoglasoslovne analize števnikov, katerih zapis je bil najprej interpretiran grafično in glasoslovno, je vzpostavljena osnova za genealoško jezikoslovno določitev slovanskega jezika, v katerem so bili zapisani. Ta je postavljen v kontekst tedanjega slovanskega jezika v vzhodnoalpsko-zahodnopanonskem prostoru ter le-temu zemljepisno stičnih slovanskih geolektov severno in južno od tega.
Na osnovi tega in analiziranih primerov smo izdelali tipologijo glagolov z oslabljenim pomenom in oblikovali merila za določanje oslabljenopomenske rabe glagolov.