Predstavljamo metodo za luščenje definicij iz specializiranih korpusov. Metoda je bila razvita za slovenščino in angleščino, sestavljajo pa jo trije pristopi: v prvem definicije luščimo z ...leksikoskladenjskimi vzorci, drugi uporablja avtomatsko izluščeno terminologijo, tretji pa lušči stavke, v katerih se nahajata pojem in njegova nadpomenka iz semantičnega leksikona wordnet. Metodologijo smo preizkusili na primeru področja jezikovnih tehnologij. Za namene modeliranja izbranega področja smo zgradili primerljivi slovensko-angleški Korpus jezikovnih tehnologij, izluščene kandidate pa smo uporabili pri gradnji Glosarja jezikovnih tehnologij. Celotno metodologijo smo strnili v prosto dostopen delotok, implementiran v spletnem okolju za gradnjo delotokov Clowdflows. V delotok lahko uporabnik prek spleta naloži korpus v različnih formatih, ga jezikoslovno označi, izlušči terminologijo in kandidate za definicije ter rezultate vizualizira ali shrani.
V prispevku prikazujemo analizo luščenja eno- in večbesednih terminoloških kandidatov, ki smo ga izvedli za potrebe priprave terminološke podatkovne zbirke odnosov z javnostmi na podlagi korpusa KoRP ...z luščilnikom LUIZ. Podrobneje se posvečamo dvojemu: (a) izluščenim enobesednim samostalniškim terminološkim kandidatom, katerih seznam primerjamo s pogostostnim seznamom samostalnikov v korpusu KoRP in vrednotimo glede na terminološkost, kot sta jo prepoznala dva področna strokovnjaka, ter (b) izluščenim večbesednim nizom z glagolskim in samostalniškim jedrom. Nadgrajeno metodo luščenja in izboljšan prikaz rezultatov smo dopolnili še z analizo priklica. Potrdili oz. ugotovili smo, da je v primerjavi s pogostostnim seznamom terminološki potencial enot v zgornjem delu seznama izluščenih samostalnikov večji, da imajo izluščeni glagolski besedni nizi predvsem kolokacijsko vrednost, ne pa tudi terminološke, in da so najbolj terminološko produktivni vzorci luščenja samostalniških zvez z naslednjo zgradbo: pridevnik + samostalnik, pridevnik + in + pridevnik + samostalnik ter pridevnik + pridevnik + samostalnik. Analiza priklica je pokazala predvsem nizko stopnjo strinjanja med obema področnima strokovnjakoma, sicer pa je bil priklic razmeroma visok.
V prispevku predstavimo korpusni pristop k samodejnemu luščenju prevodnih ustreznic in lažnih prijateljev med slovenščino in hrvaščino. Pristop izkorišča ortografske podobnosti med jezikoma in ...temelji na predpostavki distribucijske semantike, ki se glasi, da govorci obeh jezikov besede s podobnim pomenom uporabljamo v podobnih kontekstih. To nam po eni strani omogoča hitro izgradnjo slovensko-hrvaškega dvojezičnega leksikona, za katero razen primerljivih spletnih korpusov ne potrebujemo nobenega drugega vira znanja. Po drugi strani pa lahko na podlagi iste predpostavke s pomočjo korpusnih podatkov prepoznamo tiste sorodnice, ki so si podobne zgolj površinsko, leksikalizirajo pa različne pojme in se zato tudi različno uporabljajo. Predstavljen pristop je jezikovno neodvisen, zaradi česar je privlačen za številna področja računalniške obdelave naravnega jezika, kjer še vedno vlada veliko pomanjkanje leksikalnih virov, njihove ročne izdelave pa si ne moremo privoščiti. Pristop je prav tako zelo koristen v leksikografiji in za poučevanje tujih jezikov, saj nam pomaga osvetliti leksikalne posebnosti za določen jezikovni par oziroma strokovno področje.
V razpravi opisujemo poskus uvajanja postopkov avtomatizacije v proces izdelave slovarjev, ki smo ga uporabili v končni fazi izdelave leksikalne baze za slovenščino (LBS). Gre za avtomatizacijo dela ...leksikografskega procesa, pri katerem računalnik na podlagi vnaprej določenih parametrov izbere, izloči ter neposredno v program za izdelavo slovarja ali slovarske baze prenese vrsto leksikalnogramatičnih podatkov o konkretni lemi, ki jih leksikograf nato uporabi za pomensko analizo in končno izdelavo slovarskega gesla. Optimalnost avtomatsko izluščenih podatkov smo določali s sprotnim prilagajanjem parametrov glede na različne frekvenčne skupine lem po posameznih besednih vrstah in s postopnim prilagajanjem hevristik v aplikaciji GDEX za izbor dobrih korpusnih zgledov. Prispevek zaključujemo s prikazom vključitve postopka avtomatskega luščenja leksikalnih podatkov v predlagan slovar sodobnega slovenskega jezika.