Empirični postopek ocenitve algoritmov za klasifikacijo : doktorska disertacija

(UL)

Empirični postopek ocenitve algoritmov za klasifikacijo : doktorska disertacija

Brumen, Boštjan

Klasifikacija - najbolj pogost postopek podatkovnega rudarjenja - je človeška nuja. Da bi razumeli svet, o njem komunicirali in se spopadali z njegovo kompleksnostjo, človek nenehno razvršča objekte. ... Morda je najbolj preprosta funkcija, ki jo izvajajo človeški možgani, prav razpoznavanje razlik med dvema objektoma, oziroma razvrščanje dveh različnih objektov v različne razrede. Zmožni smo analizirati objekte na podlagi najmanjših, podrobnih lastnosti in ugotoviti tako podobnosti kot različnosti. Količina podatkov je vzadnjih nekaj desetletjih močno naraščala. Elektronska oprema, ki deluje na različnih področjih, kot so geologija, poslovanje, astronomija, ali medicina, je sposobna zbirati ogromne količine podatkov. Jasno je, da bo le majhen deležteh podatkov ročno obdelan. Če bomo podatke želeli vsaj razumeti, jih bomo morali računalniško analizirati. Raziskovalci s področja strojnega učenja so v preteklosti aktivno delali na razvoju algoritmov, ki so zmožni izvedbe inteligentne analize in lahko ugotovijo vzorce v podatkih. Za samostojno računalniško izvedbo inteligentne analize podatkov moramo računalnike "učiti". Postopek učenja računalnikov je analogen učenju ljudi - s prikazovanjem pozitivnih in negativnih primerov, na podlagi katerih se zgradi model. Podani primeri so člani učne množice, ki jo pripravi strokovnjak ali množica strokovnjakov. Model, ki se zgradi na tak način, predstavlja znanje človeka. Vprašanje, ki se zastavi, je: "Koliko podatkov je potrebnih za izgradnjo modela?" Edini način, kako odgovoriti na to vprašanje je, da odgovorimo tudi na vprašanje "Kaj bomo z modelom znanja počeli?" oziroma "Kaj od modela pričakujemo?" Ko govorimo o klasifikacijskih modelih, od le-teh pričakujemo določeno stopnjo natančnosti. Na žalost ni možno v naprej napovedati, kolikšna bo natančnost algoritma glede na obstoječe podatke. Raziskave na povezanih področjih so se zelo malo ali pa sploh ne ukvarjale z naštetimi vprašanji. V pričujočem delu se osredotočimo na ocenitev učečih se algoritmov na podlagi opazovanja njihovega obnašanja na vzorcih, ki imajo manjše število primerkov. Opazujemo krivuljo učenja, ki opisuje učni proces. Idealna krivulja učenja je v primeru, ko opisujemo napako učenja, monotono padajoča in konkavna. Krivulje učenja, ki jih pridobimo na podlagi meritev, paizkazujejo prisotnost lokalne variance, ki jo lahko povzroči več faktorjev, na primer slaba kakovost podatkov. Glavni prispevek v disertaciji je model učenja v tako imenovanem režimu majhnega l (kjer je l, število primerkov v vzorcu, majhno). Za velike vzorce, kjer se l približuje neskončnosti, so raziskave na omenjena vprašanja že podale odgovore. Na žalost pa je količina podatkov v realnem življenju omejena, število problemov s kakovostjo podatkov pa ne. Izdelani model učenja v režimu majhnega l je konsistenten s sorodnimi raziskavami. Naslednji prispevek v disertaciji je razvoj adaptivne inkrementalne k-kratne navzkrižne validacije, ki omogoča sprotno graditev krivulje učenja, med tem ko se število primerkov v vzorcu povečuje. K-kratna navzkrižna validacija zagotavlja statistično veljavnost meritev v vsakem koraku. Pomemben prispevek so pogoji za odkrivanje konvergence, ki omogočajo opazovanje krivulje učenja. Ko postane oblika krivulje učenja primerna, lahko izdelamo ocenitveni model na podlagi izmerjenih točk krivulje. S takšnim modelom lahko ocenimo bodočo natančnost algoritmov za klasifikacijo na podlagimanjšega števila primerkov v vzorcu. Model, ki smo ga izdelali, smo testirali v več eksperimentih, kjer so bile uporabljene javno dostopne podatkovne zbirke. V vsakem od eksperimentov je bil cilj oceniti napako klasifikacije v naslednjem koraku in končno napako modela. Izmerjene in ocenjene vrednosti smo med seboj primerjali in ugotovili, da so razlike statistično zanemarljive. Rezultati eksperimentov nakazujejo na splošno veljavnost razvitega modela.

Vrsta gradiva - disertacija ; neleposlovje za odrasle

Založništvo in izdelava - Maribor : [B. Brumen], 2004

Jezik - slovenski, angleški

COBISS.SI-ID - 8626198

Išči dalje

Zaloga
Zaloga v drugih knjižnicah

Knjižnica	Signatura – lokacija, inventarna št. ...	Status izvoda
Narodna in univerzitetna knjižnica, Ljubljana	GS II 603123 glavno skladišče	prosto - za čitalnico
Centralna tehniška knjižnica Univerze v Ljubljani	59287/195 Skladišče IN: 320040024	prosto - na dom, čas izposoje: 14 dni

Dostop do baze podatkov JCR je dovoljen samo uporabnikom iz Slovenije. Vaš trenutni IP-naslov ni na seznamu dovoljenih za dostop, zato je potrebna avtentikacija z ustreznim računom AAI.

Leto	Faktor vpliva		Izdaja		Kategorija		Razvrstitev
Leto	JCR	SNIP	JCR	SNIP	JCR	SNIP	JCR	SNIP

Povezave do osebnih bibliografij avtorjev	Povezave do podatkov o raziskovalcih v sistemu SICRIS
Brumen, Boštjan	18848
Welzer-Družovec, Tatjana	06794

Vir: Osebne bibliografije in: SICRIS

Gradivo iz matične enote je brezplačno. Če je gradivo na mesto prevzema dostavljeno iz drugih enot, lahko knjižnica to storitev zaračuna.

Mesto prevzema	Status gradiva	Rezervacija

Naloži sliko

Vnos na polico

Dodajanje gradiva na polico je uspelo.

Dodajanje gradiva na polico je spodletelo.

Dodajanje gradiva na polico ni bilo potrebno.

Trajna povezava

E-pošta

Faktor vpliva

Izberite knjižnično izkaznico:

Baze podatkov, v katerih je revija indeksirana

Izberite prevzemno mesto:

Prevzem gradiva po pošti

Obvestilo

Citiranje

Gesla v Splošnem geslovniku COBISS

Izbira mesta prevzema

Rezervacija je uspela.

Rezervacija ni uspela.

Rezervacija...

Bibliografski podatki

Število izposoj

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Izposoja uspešna

Izposoja ni uspela

Tema