ИЗВЛЕЧЕНИЕ СБАЛАНСИРОВАННЫХ ОБУЧАЮЩИХ ВЫБОРОК МЕТОДОМ ПСЕВДОКЛАСТЕРИЗАЦИИ
DOI:
https://doi.org/10.30837/1563-0064.2(85).2019.184739Ключевые слова:
sample, imbalance, majority class, minority class, instance selection, instanceАннотация
Решается задача формирования обучающих выборок из размеченных несбалансированных наборов данных большого объема для построения диагностических и распознающих моделей по прецедентам. Предлагается метод восстановления баланса классов, который позволяет извлечь из исходных данных сбалансированные обучающие подвыборки значительно меньшего объема. Проведенные эксперименты подтверждают работоспособность разработанного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач технической диагностики и распознавания образов по признакам.
Библиографические ссылки
Olijnyk A.O., Subbotin S.O., Olijnyk S.O.Intelektual'nyj analiz danyh: navchal'nyj posibnyk.Zaporizhzhja: ZNTU, 2012. 271 s.
Subbotin S.A., Olejnik An.A., Gofman E.A., Zajcev S.A.,Olejnik Al.A. Intellektual'nye informacionnye tehnologiiproektirovanija avtomatizirovannyh sistemdiagnostirovanija i raspoznavanija obrazov: monografija.Har'kov: Kompanija SMIT, 2012. 318 s.
Imbalanced Learning: Foundations, Algorithms, andApplications / Ed. H. He., Y. Ma. Hoboken: Wiley-IEEEPress, 2013. 216 p.
Sun Y., Wong A.K.C., Kamel M.S. Classification ofimbalanced data: a review // International Journal ofPattern Recognition and Artificial Intelligence. 2009. Vol.23, Issue 4. P. 687–719.
Encyclopedia of survey research methods / Ed. P.J.Lavrakas. Thousand Oaks: Sage Publications, 2008. 968p.
Lin W.C., Tsai C.F., Hu Y.H., Jhang J.S. Clustering-based undersampling in class-imbalanced data //Information Sciences. 2017. Vol. 409-410. P. 17-26.
Leyva E., González A., Pérez R. Three new instanceselection methods based on local sets: A comparativestudy with several approaches from a bi-objectiveperspective // Pattern Recognition. 2015. Vol. 48, Issue 4.P. 1523–1537.
García S., Luengo J., Herrera F. Data Preprocessing inData Mining. Switzerland: Springer InternationalPublishing AG, 2016. 320 p.
Thompson S.K. Sampling. Hoboken: John Wiley &Sons, 2012. 472 p.
Kokren U. Metody vyborochnogo issledovanija.Moskva: Statistika, 1976. 440 s.
Chaudhuri A., Stenger H. Survey sampling theory andmethods. New York: Chapman & Hall, 2005. 416 p.
Zagorujko N. G. Prikladnye metody analiza dannyh iznanij. Novosibirsk: IIM, 1999. 270 s.
Hart P. The condensed nearest neighbor rule // IEEETransactions on Information Theory. 1968. Vol. 14, Issue3. P. 515–516.
He H., Garcia A. Learning from Imbalanced Data //IEEE Transactions on Knowledge and Data Engineering.2009. Vol. 21. P. 1263-1284.
Subbotin S.A. Metody formirovanija vyborok dljapostroenija diagnosticheskih modelej po precedentam //Vestnik NTU "HPI". Informatika i modelirovanie. 2011.№ 17. S. 149-156.
Fawcett T. An Introduction to ROC Analysis //Pattern Recognition Letters. 2006. Vol. 27, Issue 8. P.861-874.
Lyon R.J. HTRU2 [Electronic resource] // Accessmode: https://figshare.com/articles/HTRU2/3080389/1.
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
Copyright (c) 2019 Радиоэлектроника и информатика
![Лицензия Creative Commons](http://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.
The author(s) of a manuscript agree that if the manuscript is accepted for publication in “Radioelectronics&Informatics Journal”, the published article will be copyrighted using a Creative Commons “Attribution-Non Commercial-Share Alike” license. This license allows the author(s) to retain the copyright, but also allows others to freely copy, distribute, and display the copyrighted work, and derivative works based upon it, under certain specified conditions.