DIKUL - logo
E-viri
Celotno besedilo
Recenzirano Odprti dostop
  • Izgradnja jezičnog korpusa ...
    Hadžić, Slobodan; Šilić, Artur; Grmuša, Tanja

    Medijska istraživanja, 12/2022, Letnik: 28, Številka: 2
    Journal Article, Paper

    Govor mržnje predstavlja neprihvatljiv oblik društveno štetnih komunikacijskih formi čija je raširenost u posljednje vrijeme u porastu. Razvojem digitalnih medija, a posebice jačanjem uloge društvenih mreža u privatnoj i javnoj komunikaciji, otvoren je prostor za brojne javne virtualne forume koji su pasivnu publiku potaknuli na aktivniju participaciju i komunikaciju. Sloboda govora i izražavanja kao temeljna demokratska načela s jedne strane suočavaju se s prostorom za toksičnu komunikaciju s druge strane, okupljajući istomišljenike u virtualnim zajednicama kojima su meta napada nerijetko akteri priloga, novinari, urednici, mediji, pa i drugi korisnici. Uzimajući u obzir neograničenost internetskog prostora čiji je sadržaj teško kontrolirati, postavlja se pitanje kako prepoznati društveno štetne komunikacijske forme u javnom prostoru, može li ih se spriječiti i kako zadržati postojeću publiku. Mogućnosti upotrebe proširuju se i na područje moderiranja neprimjerenih komentara korisnika oslanjanjem na softvere koji pružaju trenutne odgovore medijskim organizacijama, ali i koji također pokazuju kontinuiranu potrebu za samopoboljšanjima. Interes autora u ovom radu vezan je za detekciju govora mržnje prema etnicitetu na društvenim mrežama te istraživanju mogućnosti primjene jezičnih tehnologija u prepoznavanju i sprječavanju širenja govora mrženja. Kvantitativnom i kvalitativnom analizom sadržaja te primjenom niza softverskih rješenja temeljenih na jezičnim tehnologijama omogućena je učinkovita automatska i poluautomatska analiza velike količine korisnički generiranog sadržaja. Korišteni su: program WordFinder za brzi pronalazak riječi u velikim korpusima, alat CRONTIMENT za automatsku dodjelu sentimenta tekstovima na hrvatskom jeziku, aplikacija Text Marker za učinkovito ručno označavanje i izgradnju korpusa. U pojedinim studijama slučaja autori detektiraju promjene u vrstama i frekvencijama pojave govora mržnje u predmetu istraživanja te identificiraju glavne prednosti i nedostatke primjene jezičnih tehnologija, sugerirajući pri tome moguće smjerove razvoja. Hate speech is an unacceptable form of socially harmful communication that has recently increased in prevalence. The development of digital media, and in particular the strengthening of the role of social networks in private and public communication, has opened the space for numerous public virtual forums that have encouraged passive audiences to participate and communicate more actively. Freedom of opinion and expression as fundamental democratic principles on the one hand are juxtaposed with the space for toxic communication on the other, but also with the potential for radicalization of certain social groups of like-minded individuals who congregate in virtual communities where they often select contributors, journalists, editors, media and other users as targets for future attacks. Given the boundlessness of Internet space, whose content is difficult to control, the question is how to detect socially harmful forms of communication in the public sphere, whether they can be prevented, and how to retain existing audiences.The potential uses extend into the area of moderating inappropriate user comments by relying on software that provides instant responses to media organizations, but also has a constant need for self-improvement. The author’s interest in this work relates to detecting hate speech against ethnic groups on social networks and exploring the possibility of using speech technologies to detect and prevent its spread. Using quantitative and qualitative content analysis in conjunction with a set of software solutions built on speech technologies, we enable efficient automatic and semi-automatic analysis of user-generated content. We use: the WordFinder program for fast word retrieval in large corpora, the Crontiment tool for automatic sentiment analysis of texts in Croatian, and the Text Marker application for efficient manual albeling and building of corpora. The authors use a longitudinal study to identify changes in the types and frequencies of hate speech in this topic and identify the main advantages and disadvantages of language technologies, suggesting possibledirections for development.