Pričujoča tematska številka revije Slovenščina 2.0 se posveča digitalnemu jezikoslovju, hitro rastočemu interdisciplinarnemu področju raziskav na stičišču tradicionalnega jezikoslovja, informacijskih ...tehnologij in družboslovnih ved. V ospredju digitalnojezikoslovnih raziskav je ohranjanje, analiza in uporaba jezikovnih podatkov, digitalnih artefaktov z jezikom kot nosilcem medčloveškega sporazumevanja. Digitalno jezikoslovje tako pri nas kot po svetu postaja vse pomembnejše ne samo v akademskih in izobraževalnih krogih, temveč tudi v javnem in zasebnem sektorju, ki za uspešno delovanje v sodobni družbi in gospodarstvu vse bolj potrebujeta strokovnjake, vešče upravljanja z digitalnimi jezikovnimi podatki.
Poročilo s konference Jezikovne tehnologije in digitalna humanistika (JTDH) 2022, ki je potekala septembra 2022 v prostorih Fakultete za družbene vede Univerze v Ljubljani. Konferenco je priredilo ...Slovensko društvo za jezikovne tehnologije (SDJT), v soorganizaciji s Centrom za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT), Inštitutom za novejšo zgodovino (INZ) ter raziskovalnima infrastrukturama CLARIN.SI in DARIAH-SI.
Raziskave in razvoj na področju jezikovnih tehnologij se danes za jezike sširokim krogom govorcev pospešeno prenašajo v komercialne sisteme, kipostajajo vse bolj razširjeni. Denimo, rešitve samodejne ...prepoznave govora in samodejne sinteze govora se množično vgrajujejo v cenovno ugodne programske pakete, namenjene predvsem uporabi na osebnih računalnikih in prenosnih telefonih. Evropa je danes eden najnaprednejših trgov za jezikovne tehnologije. Evropska unija si prizadeva, da so potrebna orodja in viri na razpolago za vse njene jezike, kot tudi glavne svetovne komercialne jezike, s čimer utira pot večjezikovni informacijski družbi ter enotnemu digitalnemu trgu.
Predstavljamo metodo za luščenje definicij iz specializiranih korpusov. Metoda je bila razvita za slovenščino in angleščino, sestavljajo pa jo trije pristopi: v prvem definicije luščimo z ...leksikoskladenjskimi vzorci, drugi uporablja avtomatsko izluščeno terminologijo, tretji pa lušči stavke, v katerih se nahajata pojem in njegova nadpomenka iz semantičnega leksikona wordnet. Metodologijo smo preizkusili na primeru področja jezikovnih tehnologij. Za namene modeliranja izbranega področja smo zgradili primerljivi slovensko-angleški Korpus jezikovnih tehnologij, izluščene kandidate pa smo uporabili pri gradnji Glosarja jezikovnih tehnologij. Celotno metodologijo smo strnili v prosto dostopen delotok, implementiran v spletnem okolju za gradnjo delotokov Clowdflows. V delotok lahko uporabnik prek spleta naloži korpus v različnih formatih, ga jezikoslovno označi, izlušči terminologijo in kandidate za definicije ter rezultate vizualizira ali shrani.