Članak opisuje probleme lematizacije koji nastaju prilikom računalnoga obilježavanja tekstova na staroruskom jeziku i načine sređivanja problematičnih lema kao što su unos dodatnih polja, ...alternativno prepoznavanje, ujedinjavanje svih oblika određene leme u istom rječničkom članku. Kako bi se razlikovali semantički homonimi, odnosno parovi glagola ovisno o vidu, dovoljno je uvesti dodatna polja. Ako ne postoje kriteriji na temelju kojih je moguće na jedinstveni način rekonstruirati lemu— zbog pravopisnih, odnosno izgovorno-pravopisnih čimbenika prisutnih u starim pismenim spomenicima —, poželjno je rabiti alternativnu morfološku analizu koja dopušta uspostavljanje nekoliko lema za isti oblik riječi. Kada se varira samo oblik riječi, predlaže se koristiti se posebnim algoritmom lematizacije, a to je unošenje u rječnik leme u njezinu izvornom (najstarijem) obliku ukupno sa svim njezinim mlađim varijantama. Pri tome se svi mlađi oblici navode u posebnom polju i automatski se povezuju s izvornom lemom. Taj algoritam pruža preusmjeravanje prema najstarijem obliku leme, čak i u slučaju odabiranja najmlađe varijante prilikom obilježavanja.
Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih ...besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označevalnik TreeTagger je dosegel točnost okoli 85 % in označil ter lematiziral 100 milijonov besed slovenskega korpusa Nova Beseda.
Sinaksari u triodu i pentekostaru kratki su tekstovi o osnovnim blagdanima pashalnoga ciklusa. Godine 2010. izišlo je izdanje njihova crkvenoslavenskoga prijevoda, nastaloga u XIV. stoljeću i ...sačuvanoga u dva rukopisa zbirke samostana sv. Katarine na Sinaju. Ovaj je članak posvećen analizi slavensko-grčkih i grčko-slavenskih indeksa koji prate izdanje crkvenoslavenskoga prijevoda. Ukazuje se na mnogobrojne pogrješke u indeksima: krive analize gramatičkih oblika, normalizirane oblike koji ne odgovaraju staroslavenskoj normi, površnu evaluaciju prevodilačkih ekvivalenata i dr. Neke pogrješke imaju elementarni karakter, kao što je, na primjer, zbrka u upotrebi znakova <ѣ>i <ꙗ>. U konačnici indeksi sadrže niz leksema kojih nema u vrelima. Oni, dakle, ne mogu poslužiti kao pouzdan izvor za sastavljanje rječnika crkvenoslavenskoga jezika XIV. stoljeća.
Jezični korpusi priznati su izvori jezičnih podataka. Međutim, dohvat tih podataka može biti složen i dugotrajan za krajnje korisnike. Hrvatski korpus dječjega jezika (HKDJ --- Kovačević 2002) jedini ...je hrvatski korpus govornoga jezika. Sastoji se od prijepisa uzoraka spontanoga govornoga jezika troje djece. Djeca su uzorkovana u pravilnim vremenskim razmacima, od progovaranja do treće godine. Uzorci su transkribirani u programskom paketu CLAN, u skladu s pravilima CHAT-a. Dostupni su u Svjetskoj bazi dječjega jezika CHILDES <http://childes.psy.cmu.edu/data/Slavic/>. Cilj je HKDJ-a pružiti podatke o leksičkom i gramatičkom razvoju u ranom jezičnom usvajanju. Kako bi se omogućio lakši i precizniji dohvat podataka dostupnih u HKDJ-u, pristupilo se izradi Hrvatskoga čestotnoga rječnika dječjega jezika (DjeČeR) čija je izrada još u tijeku. DjeČeR vjerodostojno odražava specifičnosti HKDJ-a (govorni korpus s razvojnom komponentom) te je sukladno strukturiran. U DjeČeRu je omogućen pregled natuknica triju potkorpusa HKDJ-a zasebno te unije i presjeka potkorpusa triju govornika. Pretražuje se prema čestotnosti, abecednom redu, vremenu pojave i vrsti riječi. U DjeČeRu su dostupni i podatci o morfosintaktičkom opisu natuknica* koje se pojavljuju u HKDJ-u te točan popis njihovih obličnica.
*Naziv natuknica različito se tretira u dvije različite tradicije u jezikoslovlju, leksikografskoj i psiholingvističkoj (Jelaska, 2005). Unutar leksikografske tradicije označava osnovu unosa u rječnik, to jest početak rječničkoga članka (u tom se značenju u engleskome osim naziva lemma upotrebljava i naziv headword), a u psiholingvistici označava apstraktni osnovni oblik riječi (eng. lemma), to jest jedinicu umnoga rječnika (Crystal 2003).