DIKUL - logo
(UL)
  • Empirični postopek ocenitve algoritmov za klasifikacijo : doktorska disertacija
    Brumen, Boštjan
    Klasifikacija - najbolj pogost postopek podatkovnega rudarjenja - je človeška nuja. Da bi razumeli svet, o njem komunicirali in se spopadali z njegovo kompleksnostjo, človek nenehno razvršča objekte. ... Morda je najbolj preprosta funkcija, ki jo izvajajo človeški možgani, prav razpoznavanje razlik med dvema objektoma, oziroma razvrščanje dveh različnih objektov v različne razrede. Zmožni smo analizirati objekte na podlagi najmanjših, podrobnih lastnosti in ugotoviti tako podobnosti kot različnosti. Količina podatkov je vzadnjih nekaj desetletjih močno naraščala. Elektronska oprema, ki deluje na različnih področjih, kot so geologija, poslovanje, astronomija, ali medicina, je sposobna zbirati ogromne količine podatkov. Jasno je, da bo le majhen deležteh podatkov ročno obdelan. Če bomo podatke želeli vsaj razumeti, jih bomo morali računalniško analizirati. Raziskovalci s področja strojnega učenja so v preteklosti aktivno delali na razvoju algoritmov, ki so zmožni izvedbe inteligentne analize in lahko ugotovijo vzorce v podatkih. Za samostojno računalniško izvedbo inteligentne analize podatkov moramo računalnike "učiti". Postopek učenja računalnikov je analogen učenju ljudi - s prikazovanjem pozitivnih in negativnih primerov, na podlagi katerih se zgradi model. Podani primeri so člani učne množice, ki jo pripravi strokovnjak ali množica strokovnjakov. Model, ki se zgradi na tak način, predstavlja znanje človeka. Vprašanje, ki se zastavi, je: "Koliko podatkov je potrebnih za izgradnjo modela?" Edini način, kako odgovoriti na to vprašanje je, da odgovorimo tudi na vprašanje "Kaj bomo z modelom znanja počeli?" oziroma "Kaj od modela pričakujemo?" Ko govorimo o klasifikacijskih modelih, od le-teh pričakujemo določeno stopnjo natančnosti. Na žalost ni možno v naprej napovedati, kolikšna bo natančnost algoritma glede na obstoječe podatke. Raziskave na povezanih področjih so se zelo malo ali pa sploh ne ukvarjale z naštetimi vprašanji. V pričujočem delu se osredotočimo na ocenitev učečih se algoritmov na podlagi opazovanja njihovega obnašanja na vzorcih, ki imajo manjše število primerkov. Opazujemo krivuljo učenja, ki opisuje učni proces. Idealna krivulja učenja je v primeru, ko opisujemo napako učenja, monotono padajoča in konkavna. Krivulje učenja, ki jih pridobimo na podlagi meritev, paizkazujejo prisotnost lokalne variance, ki jo lahko povzroči več faktorjev, na primer slaba kakovost podatkov. Glavni prispevek v disertaciji je model učenja v tako imenovanem režimu majhnega l (kjer je l, število primerkov v vzorcu, majhno). Za velike vzorce, kjer se l približuje neskončnosti, so raziskave na omenjena vprašanja že podale odgovore. Na žalost pa je količina podatkov v realnem življenju omejena, število problemov s kakovostjo podatkov pa ne. Izdelani model učenja v režimu majhnega l je konsistenten s sorodnimi raziskavami. Naslednji prispevek v disertaciji je razvoj adaptivne inkrementalne k-kratne navzkrižne validacije, ki omogoča sprotno graditev krivulje učenja, med tem ko se število primerkov v vzorcu povečuje. K-kratna navzkrižna validacija zagotavlja statistično veljavnost meritev v vsakem koraku. Pomemben prispevek so pogoji za odkrivanje konvergence, ki omogočajo opazovanje krivulje učenja. Ko postane oblika krivulje učenja primerna, lahko izdelamo ocenitveni model na podlagi izmerjenih točk krivulje. S takšnim modelom lahko ocenimo bodočo natančnost algoritmov za klasifikacijo na podlagimanjšega števila primerkov v vzorcu. Model, ki smo ga izdelali, smo testirali v več eksperimentih, kjer so bile uporabljene javno dostopne podatkovne zbirke. V vsakem od eksperimentov je bil cilj oceniti napako klasifikacije v naslednjem koraku in končno napako modela. Izmerjene in ocenjene vrednosti smo med seboj primerjali in ugotovili, da so razlike statistično zanemarljive. Rezultati eksperimentov nakazujejo na splošno veljavnost razvitega modela.
    Vrsta gradiva - disertacija ; neleposlovje za odrasle
    Založništvo in izdelava - Maribor : [B. Brumen], 2004
    Jezik - slovenski, angleški
    COBISS.SI-ID - 8626198

Knjižnica Signatura – lokacija, inventarna št. ... Status izvoda
Narodna in univerzitetna knjižnica, Ljubljana GS II 603123 glavno skladišče prosto - za čitalnico
Centralna tehniška knjižnica Univerze v Ljubljani 59287/195 Skladišče
IN: 320040024
prosto - na dom, čas izposoje: 14 dni
loading ...
loading ...
loading ...