Akademska digitalna zbirka SLovenije - logo
(UL)
  • Nizkoentropijski jezikovni model na besedilih Cirila Kosmača in Ivana Cankarja
    Jakopin, Primož
    V prispevku je bil jezikovni model, ki temelji na pogostnostnih znakovnih n-terčkov (nizov znakov, tj. črk, presledkov, števk in ločil dolžine n), uporabljen na besedilnih zbranih delih Cirila ... Kosmača in Ivana Cankarja. Pri vsakem modelu je najšrej treba napraviti Huffmanovo drevo iz vseh n-terčkov (n=1 do 20, pogostnost vsaj 2) posamezne besedilne zbirke (400.000 oz. 2 milijona besed, 45.889.000 oz. 223.553.000 n-terčkov, 26.274.000 oz. 116.588.000 različnih n-terčkov) in izračunati ustrezne Huffmanove kodeza vsak list v obeh drrevesih. Pri uporabi modela na daenm besedilu pa to besedilo razrežemo na n-terčke (1-20) tako, da je vsota dolžin Huffmanovih kod modela na danem besedilu najmanjša. Če model uporabimo na besedilu, iz katerega smo ga napravili, dobimo tudi najmanjšo entropijo besedila, ki je obenem tudi mera za njegovo informacijsko vsebnost. Dobljena entropija besedil Cirila Kosmača glede na njegov model je bila 2,26 bita na znak, entropija besedil Ivana Cankarja z njegovim modelom pa 2,27 bita na znak.
    Vir: Slovenski roman (Str. 421-428)
    Vrsta gradiva - prispevek na konferenci
    Leto - 2003
    Jezik - slovenski
    COBISS.SI-ID - 21472045

vir: Slovenski roman (Str. 421-428)

loading ...
loading ...
loading ...