ИЗВЛЕЧЕНИЕ СБАЛАНСИРОВАННЫХ ОБУЧАЮЩИХ ВЫБОРОК МЕТОДОМ ПСЕВДОКЛАСТЕРИЗАЦИИ

Авторы

  • Дмитрий Анатольевич Каврин аспирант кафедры программных средств НУ «Запорожская политехника»., Ukraine
  • Сергей Александрович Субботин д-р техн. наук, проф., зав. кафедрой программных средств НУ «Запорожская политехника»., Ukraine

DOI:

https://doi.org/10.30837/1563-0064.2(85).2019.184739

Ключевые слова:

sample, imbalance, majority class, minority class, instance selection, instance

Аннотация

Решается задача формирования обучающих выборок из размеченных несбалансированных наборов данных большого объема для построения диагностических и распознающих моделей по прецедентам. Предлагается метод восстановления баланса классов, который позволяет извлечь из исходных данных сбалансированные обучающие подвыборки значительно меньшего объема. Проведенные эксперименты подтверждают работоспособность разработанного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач технической диагностики и распознавания образов по признакам.

Библиографические ссылки

Olijnyk A.O., Subbotin S.O., Olijnyk S.O.Intelektual'nyj analiz danyh: navchal'nyj posibnyk.Zaporizhzhja: ZNTU, 2012. 271 s.

Subbotin S.A., Olejnik An.A., Gofman E.A., Zajcev S.A.,Olejnik Al.A. Intellektual'nye informacionnye tehnologiiproektirovanija avtomatizirovannyh sistemdiagnostirovanija i raspoznavanija obrazov: monografija.Har'kov: Kompanija SMIT, 2012. 318 s.

Imbalanced Learning: Foundations, Algorithms, andApplications / Ed. H. He., Y. Ma. Hoboken: Wiley-IEEEPress, 2013. 216 p.

Sun Y., Wong A.K.C., Kamel M.S. Classification ofimbalanced data: a review // International Journal ofPattern Recognition and Artificial Intelligence. 2009. Vol.23, Issue 4. P. 687–719.

Encyclopedia of survey research methods / Ed. P.J.Lavrakas. Thousand Oaks: Sage Publications, 2008. 968p.

Lin W.C., Tsai C.F., Hu Y.H., Jhang J.S. Clustering-based undersampling in class-imbalanced data //Information Sciences. 2017. Vol. 409-410. P. 17-26.

Leyva E., González A., Pérez R. Three new instanceselection methods based on local sets: A comparativestudy with several approaches from a bi-objectiveperspective // Pattern Recognition. 2015. Vol. 48, Issue 4.P. 1523–1537.

García S., Luengo J., Herrera F. Data Preprocessing inData Mining. Switzerland: Springer InternationalPublishing AG, 2016. 320 p.

Thompson S.K. Sampling. Hoboken: John Wiley &Sons, 2012. 472 p.

Kokren U. Metody vyborochnogo issledovanija.Moskva: Statistika, 1976. 440 s.

Chaudhuri A., Stenger H. Survey sampling theory andmethods. New York: Chapman & Hall, 2005. 416 p.

Zagorujko N. G. Prikladnye metody analiza dannyh iznanij. Novosibirsk: IIM, 1999. 270 s.

Hart P. The condensed nearest neighbor rule // IEEETransactions on Information Theory. 1968. Vol. 14, Issue3. P. 515–516.

He H., Garcia A. Learning from Imbalanced Data //IEEE Transactions on Knowledge and Data Engineering.2009. Vol. 21. P. 1263-1284.

Subbotin S.A. Metody formirovanija vyborok dljapostroenija diagnosticheskih modelej po precedentam //Vestnik NTU "HPI". Informatika i modelirovanie. 2011.№ 17. S. 149-156.

Fawcett T. An Introduction to ROC Analysis //Pattern Recognition Letters. 2006. Vol. 27, Issue 8. P.861-874.

Lyon R.J. HTRU2 [Electronic resource] // Accessmode: https://figshare.com/articles/HTRU2/3080389/1.

Загрузки

Опубликован

2019-06-27

Выпуск

Раздел

Статті