V članku predstavimo primerjavo rabe treh tipično govorjenih diskurznih označevalcev v korpusu govorjene slovenščine Gos in korpusu slovenskih uporabniških spletnih vsebin Janes. Rezultati ...potrjujejo, da so ti izrazi na spletu rabljeni bistveno redkeje kot v spontanem govoru, vendarle pa njihova raba ni zanemarljiva, zlasti v besedilnih tipih s poudarjeno interaktivno oz. dialoško izmenjavo uporabniških sporočil. Pri tem se označevalci na spletu pojavljajo predvsem v semantično motiviranih funkcijah, kot so vzpostavljanje stika z naslovnikom, preverjanje strinjanja ali omiljevanje izrečenega, ki se hkrati prepletajo tudi z besedilnimi funkcijami poudarjanja ter menjave vlog. Prav tako na spletu razvijajo nekatere nove kontekste rabe, kot so nagovarjanje neznanega ali neudeleženega naslovnika, stilizacija in vstopanje v nove stalne besedne zveze.
V prispevku predstavimo najnovejšo različico korpusa spletne slovenščine Janes, ki vsebuje tvite, spletne forume, novice in uporabniške komentarje nanje, blogovske zapise in komentarje nanje ter ...uporabniške in pogovorne strani na Wikipediji. Najprej opišemo postopek zajema besedil za vsakega od vključenih virov in podamo kvantitativno analizo zgrajenega korpusa. Sledi predstavitev avtomatskih in ročnih postopkov za obogatitev korpusa s koristnimi metapodatki, kot so tip, spol in regija avtorja ter sentiment in stopnja tehnične in jezikovne standardnosti posameznega besedila. Prispevek sklenemo z opisom delotoka za jezikoslovno označevanje korpusa, ki vključuje tokenizacijo, stavčno segmentacijo, rediakritizacijo, normalizacijo, oblikoskladenjsko označevanje in lematizacijo.