Normalisation, tokenisation and sentence segmentation of Slovene tweets; Elektronski vir

VSE knjižnice (vzajemna bibliografsko-kataložna baza podatkov COBIB.SI)

Normalisation, tokenisation and sentence segmentation of Slovene tweets [Elektronski vir]

Čibej, Jaka, prevodoslovje, računalništvo ; Fišer, Darja, 1978- ; Erjavec, Tomaž, 1960-

Online user-generated content such as posts on social media, blogs, and forums, is becoming an increasingly important source of information, as shown by numerous rapidly growing NLP fields such as ... sentiment analysis and data mining. However, user-generated content is well-known to contain a significant degree of noise, e.g. abbreviations, missing spaces, as well as non-standard spelling, lexis, and use of punctuation. All this hinders the effectiveness of NLP tools when processing such data, and to overcome this obstacle, data normalisation is required. In this paper, we present a training set that will be used to improve the tokenisation, normalisation, and sentence segmentation of Slovene tweets. We describe some of the most Twitter-specific aspects of our annotation guidelines as well as the workflow of our annotation campaign, the goal of which was to create a manually annotated gold-standard dataset of 4,000 tweets extracted from the JANES corpus of Internet Slovene.

Vir: Normalisation and analysis of social media texts (NormSoMe) [Elektronski vir] : [workshop proceedings] (Str. 5-10)

Vrsta gradiva - prispevek na konferenci

Leto - 2016

Jezik - angleški

COBISS.SI-ID - 60917346

Povezava(-e):
http://www.lrec-conf.org/proceedings/lrec2016/index.html

Išči dalje

Avtor
Čibej, Jaka, prevodoslovje, računalništvo | Fišer, Darja, 1978- | Erjavec, Tomaž, 1960-

Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.

Leto	Faktor vpliva		Izdaja		Kategorija		Razvrstitev
Leto	JCR	SNIP	JCR	SNIP	JCR	SNIP	JCR	SNIP

Povezave do osebnih bibliografij avtorjev	Povezave do podatkov o raziskovalcih v sistemu SICRIS
Čibej, Jaka, prevodoslovje, računalništvo	36914
Fišer, Darja, 1978-	26294
Erjavec, Tomaž, 1960-	05023

Vir: Osebne bibliografije in: SICRIS

Gradivo iz matične enote je brezplačno. Če je gradivo na mesto prevzema dostavljeno iz drugih enot, lahko knjižnica to storitev zaračuna.

Mesto prevzema	Status gradiva	Rezervacija

Naloži sliko

Vnos na polico

Dodajanje gradiva na polico je uspelo.

Dodajanje gradiva na polico je spodletelo.

Dodajanje gradiva na polico ni bilo potrebno.

Trajna povezava

E-pošta

Faktor vpliva

Izberite knjižnično izkaznico:

Baze podatkov, v katerih je revija indeksirana

Izberite prevzemno mesto:

Prevzem gradiva po pošti

Obvestilo

Citiranje

Gesla v Splošnem geslovniku COBISS

Izbira mesta prevzema

Rezervacija je uspela.

Rezervacija ni uspela.

Rezervacija...

Bibliografski podatki

Število izposoj

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Tema