UP - logo
E-viri
  • O PITANJU PRIMJENE STATISTI...
    БАРАНОВ, Виктор A

    Slovo, 12/2019 69
    Paper

    Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke. Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika,ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemamasu raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi. Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. Navedeno je da se za složeno rješenje postavljenog zadatka trebaju koristiti različite vrste n-grama – dvokomponentne i trokomponentne, utemeljene na tekstualnim oblicima i lemama, sa slobodnim i fiksnim redoslijedom komponenata. Prisutnost gramatički i semantički cjelovitih kolokacija koje se ponavljaju u različitim rukopisima omogućuje nam zaključak o nadtekstnoj prirodi takvih kolokacija.