DIKUL - logo
E-viri
Celotno besedilo
Recenzirano Odprti dostop
  • Daugiaklasių duomenų klasif...
    Valujavičiūtė, Emilija

    Jaunųjų Mokslininkų Darbai, 04/2024, Letnik: 52, Številka: 2
    Journal Article

    The article analyzes the impact of the chosen method of model application on the classification of multi-label texts written in the Lithuanian language. The article presents a study of mult-label data classification methods in Lithuanian, which includes an analysis of the accuracy of the application of data classification methods for the automatic classification of multiclass texts written in Lithuanian. The classification methods, evaluation criteria, their applicability and the principles of data preparation for classification are reviewed. After preparing the text data for classification tasks, 44 combinations of classifiers were formed for the study and classification was performed using 3 different methods of multi-label data classification: category detection, category membership and category combination detection. The results obtained are compared in terms of time and classification accuracy, identifying the best performing classifiers and identifying the differences and advantages of the classification methods used. Straipsnyje analizuojama, kokią įtaką lietuvių kalba rašytų tekstų, turinčių kelias klases, klasifikavimui turi pasirinktas modelio taikymo būdas. Pristatomas daugiaklasių lietuvių kalba rašytų duomenų klasifikavimo metodų tyrimas, kurio metu atlikta duomenų klasifikavimo metodų taikymo tikslumo lietuvių kalba rašytų daugiaklasių tekstų automatiniam klasifikavimui analizė. Apžvelgiami klasifikavimo metodai, vertinimo kriterijai, jų panaudojimo galimybės ir duomenų paruošimo klasifikavimui principai. Parengus tekstinius duomenis klasifikavimo uždaviniams spręsti, tyrimui buvo suformuoti 44 klasifikatorių deriniai ir atliktas klasifikavimas, naudojant tris skirtingus daugiaklasių duomenų klasifikacijos metodus: kategorijų nustatymo, priklausymo kiekvienai kategorijai ir kategorijų kombinacijos nustatymo. Rezultatai lyginami laiko ir klasifikavimo tikslumo aspektais, nustatant geriausių rezultatų pasiekusius klasifikatorius ir įvardijant naudotų klasifikavimo būdų skirtumus bei privalumus.