V prispevku opišemo leksikalno analizo izluščenih podatkov za določen kolokacijski okvir iz korpusov Janes in Kres ter predstavimo rezultate, ki so zanimivi za spremljanje leksikalnih novosti v ...slovenski leksiki in za njeno posodobitev v slovarjih. Izluščene podatke smo analizirali primerjalno glede na aktualne slovarje za slovenščino z vidika še neregistriranega besedišča, z vidika vstopanja v tipične kolokacije in stalne zveze ter z vidika pomenskih sprememb. Jezikoslovna analiza izluščenih kolokacij je med drugim pokazala, da je mogoče s primerjalno analizo prepoznati glavne značilnosti in trende leksikalnih novosti ter zaznati problematične točke, kjer leksikalne novosti zlasti pod vplivom tujejezičnih elementov v slovenščino vnašajo tudi spremembe v zapisu in skladenjski vlogi.
V sklopu konference Slovenščina na spletu in v novih medijih je 27. novembra 2015 v dvorani Zemljepisnega muzeja GIAM ZRC SAZU potekala okrogla miza z naslovom Slovenščina Janes: pogovorna, ...nestandardna, spletna ali spretna? K razpravi je bilo povabljenih pet strokovnjakov in strokovnjakinj s področja slovenskega jezikoslovja: dr. Helena Dobrovoljc (Inštitut za slovenski jezik Frana Ramovša ZRC SAZU in Fakulteta za humanistiko UNG), dr. Polona Gantar (Filozofska fakulteta UL), dr. Simon Krek (Inštitut Jožef Stefan, Filozofska fakulteta UL in Fakulteta za družbene vede UL), dr. Damjan Popič (Filozofska fakulteta UL) in dr. Marko Stabej (Filozofska fakulteta UL). Razpravo sem moderirala dr. Špela Arhar Holdt (Zavod za uporabno slovenistiko Trojina in Filozofska fakulteta UL).Povod za okroglo mizo so bile terminološke zadrege, zaznane pri poskusu poimenovanja jezika v korpusu Janes,1 vendar so slednje zelo hitro razkrile širok spekter kompleksnih vzrokov. Vprašanje opredelitve »slovenščine Janes« se tako zastavlja kot rezultat sprememb v načinu človeške komunikacije, po katerih opredelitve in pojmi obstoječe slovenske (in ne le slovenske) zvrstnostne teorije izgubljajo uporabno vrednost. Je mogoče po pojavu spleta in razvoju različnih zvrsti računalniško posredovane komunikacije še govoriti o javnem in zasebnem, formalnem in neformalnem, knjižnem in pogovornem? Še več, so te kategorije v praksi – v šoli in izven nje – sploh kdaj funkcionirale? Debata se je dotaknila vprašanja, kako naj se jezikoslovje na spremembe v jezikovni rabi odzove: moramo zagotoviti predvsem novo zvrstnostno teorijo ali je potrebna tudi sprememba v odnosu do jezikovnih uporabnikov, slovenistične metodologije, izdelkov in storitev, ki jih jezikovna skupnost od nas pričakuje, jezika samega? In kakšna je v sliki sodobnih jezikoslovnih raziskav in projektov vloga gradiva Janes, kje so glavne možnosti in kaj omejitve?Na začetku debate je imel vsak od panelistov nekaj minut za predstavitev izhodiščnega mnenja, sledile so replike in na koncu še vprašanja oz. mnenja udeležencev. Zapis izjav je bil pripravljen po zvočnem posnetku, pri čemer so bile izjave za namene lažjega branja skladenjsko prilagojene značilnostim pisnega jezika, nato pa so avtorji posredovali še nekaj dodatnih pojasnil glede svojih prispevkov. Zapis začenjamo s predstavitvijo prvega panelista.1 Gre za korpus računalniško posredovane komunikacije, ki zajema besedila tvitov, blogov, uporabniških komentarjev in forumov. Korpus predstavlja prispevek (Erjavec in dr. 2015), projektna stran pa je: http://nl.ijs.si/janes/.
V prispevku predstavimo najnovejšo različico korpusa spletne slovenščine Janes, ki vsebuje tvite, spletne forume, novice in uporabniške komentarje nanje, blogovske zapise in komentarje nanje ter ...uporabniške in pogovorne strani na Wikipediji. Najprej opišemo postopek zajema besedil za vsakega od vključenih virov in podamo kvantitativno analizo zgrajenega korpusa. Sledi predstavitev avtomatskih in ročnih postopkov za obogatitev korpusa s koristnimi metapodatki, kot so tip, spol in regija avtorja ter sentiment in stopnja tehnične in jezikovne standardnosti posameznega besedila. Prispevek sklenemo z opisom delotoka za jezikoslovno označevanje korpusa, ki vključuje tokenizacijo, stavčno segmentacijo, rediakritizacijo, normalizacijo, oblikoskladenjsko označevanje in lematizacijo.