Использование аугментации при обучении на некомплектной выборке

Денис Олегович ЛАЗАРЕВ; Александр Владимирович ШОКУРОВ; Станислав Александрович ФОМИН

doi:10.15514/ISPRAS-2026-38(1)-8

Использование аугментации при обучении на некомплектной выборке

Денис Олегович ЛАЗАРЕВ, Александр Владимирович ШОКУРОВ, Станислав Александрович ФОМИН

https://doi.org/10.15514/ISPRAS-2026-38(1)-8

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Исследуется влияние метода аугментации и балансировки некомплектной выборки, содержащей пропущенные значения признаков, на точность прогноза. Результаты для некомплектной выборки сравниваются с результатами для выборки, значения признаков которой полностью заполнены. Предложен новый алгоритм сэмплирования с удалением для аугментации и балансировки некомплектной выборки. В рамках теории вероятностно приближенно корректного (ВПК) обучения авторами была исследована задача обучения на некомплектной выборке. Был оценен рост размерности Вапника-Червоненкиса множества функций при заполнении пропущенных значений фиксированным значением из конечного множества. Было доказано, что требуемый размер выборки для ВПК обучения с достаточной точностью, растет логарифмически медленно с ростом размера этого множества. Установлено, что метод аугментации сэмплированием с удалением, позволяет получить наиболее высокую сбалансированную точность для некомплектных линейно разделимых выборок малого размера. При обучении на выборках среднего и большого размера, во всех рассмотренных случаях, аугментация позволяет получить большее увеличение целевых метрик для некомплектных выборок, чем для полностью заполненных. Таким образом, особенно эффективна аугментация при обучении на некомплектной выборке.

Ключевые слова

машинное обучение, аугментация данных, аугментация табличной выборки, обучение на некомплектной выборке, обучение на выборке малого размера, вероятно приближенно корректное обучение, вложенная кросс-валидация.

Об авторах

Денис Олегович ЛАЗАРЕВ

Институт системного программирования им. В.П. Иванникова РАН, Московский физико-технический институт (национальный исследовательский университет)
Россия

Является специалистом кафедры теоретической информатики Института системного программирования им. В.П. Иванникова РАН. Научные интересы включают машинное обучение, вероятностный метод и алгоритмы упаковки.

Александр Владимирович ШОКУРОВ

Институт системного программирования им. В.П. Иванникова РАН
Россия

Кандидат физико-математических наук, доцент, заведующий отделом теоретической информатики Института системного программирования им. В.П. Иванникова РАН с 2019 года. Сфера научных интересов: алгебраические структуры в полях Галуа, базисы Гребнера, модулярная арифметика, нейрокомпьютерные технологии, цифровая обработка сигналов, криптографические методы защиты информации.

Станислав Александрович ФОМИН

Институт системного программирования им. В.П. Иванникова РАН
Россия

Ведущий программист. Область научных интересов: теория сложности, алгоритмы дискретной оптимизации, верификация ПО, архитектура информационных систем.

Список литературы

1. Little, Roderick JA, and Donald B. Rubin. Statistical analysis with missing data. John Wiley & Sons, 2002. 389 p.

2. Thomas, Rajat M., et al. Dealing with missing data, small sample sizes, and heterogeneity in machine learning studies of brain disorders. Machine learning, Academic Press, 2020, pp. 249-266. DOI: 10.1016/B978-0-12-815739-8.00014-6.

3. Marek, Kenneth, et al. "The Parkinson progression marker initiative (PPMI). Progress in neurobiology, 95.4, 2011, pp. 629-635. DOI: 10.1016/j.pneurobio.2011.09.005.

4. Katunina, Elena A., et al. Searching for biomarkers in the blood of patients at risk of developing Parkinson’s disease at the Prodromal Stage. International Journal of Molecular Sciences, 24.3, 2023, pp. 1842-1860. DOI: 10.3390/ijms24031842.

5. Golub, Todd R., et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286.5439, 1999, pp. 531-537. DOI: 10.1126/science.286.5439.53.

6. Deng, Li. "The mnist database of handwritten digit images for machine learning research [best of the web]. IEEE signal processing magazine, 29.6, 2012, pp. 141-142. DOI: 10.1109/MSP.2012.2211477.

7. Campos, D. & Bernardes, J. Cardiotocography [Dataset]. UCI Machine Learning Repository, 2000. DOI: 10.24432/C51S4N.

8. Roesler, O. EEG Eye State [Dataset]. UCI Machine Learning Repository, 2013. DOI: 10.24432/C57G7J.

9. Wolberg William, H., W. N. Street, and O. L. Mangasarian. Breast cancer wisconsin (diagnostic) data set, 1995. DOI: 10.24432/C5DW2B.

10. Liu, Tongyu, et al. Adaptive data augmentation for supervised learning over missing data. Proceedings of the VLDB Endowment, 14.7, 2021, pp. 1202-1214.

11. Han, Dongmei, Qigang Liu, and Weiguo Fan. A new image classification method using CNN transfer learning and web data augmentation. Expert Systems with Applications, 95, 2018, pp. 43-56. DOI: 10.1016/j.eswa.2017.11.028.

12. Nanni, Loris, Gianluca Maguolo, and Michelangelo Paci. Data augmentation approaches for improving animal audio classification. Ecological Informatics, 57, 2020, pp. 1-26. DOI: 10.1016/j.ecoinf.2020.101084.

13. Zhou, Yue, et al. A survey on data augmentation in large model era. arXiv preprint, 2024, pp. 1-33. DOI: 10.48550/arXiv.2401.15422.

14. Zhang, Hongyi. Mixup: Beyond empirical risk minimization. arXiv preprint, 2017, pp. 1-13. DOI: 10.48550/arXiv.1710.09412.

15. Chawla, Nitesh V., et al. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 2002, pp. 321-357. DOI: 10.1613/jair.953.

16. Valiant, Leslie G. A theory of the learnable. Communications of the ACM, 27.11, 1984, pp. 1134-1142.

17. Vapnik, Vladimir N., and A. Ya Chervonenkis. On the uniform convergence of relative frequencies of events to their probabilities. Measures of complexity: festschrift for Alexey Chervonenkis. Cham: Springer International Publishing, 2015, pp. 11-30.

18. Michael, Loizos. Partial observability and learnability. Artificial Intelligence, 174.11, 2010, pp. 639-669.

19. Blumer, Anselm, et al. Learnability and the Vapnik-Chervonenkis dimension. Journal of the ACM (JACM), 36.4, 1989, pp. 929-965.

20. Yoon, Jinsung, et al. Vime: Extending the success of self-and semi-supervised learning to tabular domain. Advances in Neural Information Processing Systems, 33, 2020, pp. 1-11.

21. Gondara, Lovedeep, and Ke Wang. Mida: Multiple imputation using denoising autoencoders. Pacific-Asia conference on knowledge discovery and data mining. Springer International Publishing, 2018, pp. 260-272. DOI: 10.1007/978-3-319-93040-4_21.

22. Nelwamondo, Fulufhelo V., Shakir Mohamed, and Tshilidzi Marwala. Missing data: A comparison of neural network and expectation maximization techniques. Current Science, 2007, pp. 1514-1521. DOI: 10.48550/arXiv.0704.3474.

23. Rubin, Donald B. Multiple imputation. Flexible imputation of missing data, second edition. Chapman and Hall/CRC, 2018, pp. 29-62.

24. Campagner, Andrea. Missing but not Missed: On Learnability Under Imputation. Preprint, 2025, 1-18. DOI: 10.1007/978-3-032-06078-5_20.

25. Prokhorenkova, Liudmila, et al. CatBoost: unbiased boosting with categorical features. Advances in neural information processing systems, 31, 2018, pp. 1-11.

26. Troyanskaya, Olga, et al. Missing value estimation methods for DNA microarrays. Bioinformatics, 17.6, 2001, pp. 520-525. DOI: 10.1016/B978-0-12-815739-8.00014-6.

27. Li, Dan, et al. Towards missing data imputation: a study of fuzzy k-means clustering method. Springer Berlin Heidelberg, 2004, pp. 1-5. DOI: 10.1007/978-3-540-25929-9_70.

28. Oba, Shigeyuki, et al. A Bayesian missing value estimation method for gene expression profile data. Bioinformatics 19.16, 2003, pp. 2088-2096.

29. Schmitt, Peter, Jonas Mandel, and Mickael Guedj. A comparison of six methods for missing data imputation. Journal of biometrics & biostatistics, 6.1, 2015, pp. 1-7. DOI: 10.17485/ijst/2017/v10i19/110646.

30. Pereira, Ricardo Cardoso, Pedro Henriques Abreu, and Pedro Pereira Rodrigues. Vae-bridge: Variational autoencoder filter for bayesian ridge imputation of missing data. 2020 International Joint Conference on Neural Networks (IJCNN). IEEE, 2020. pp. 1-14.

31. Pereira, Ricardo Cardoso, et al. Imputation of data Missing Not at Random: Artificial generation and benchmark analysis. Expert Systems with Applications, 249, 2024, pp. 1-14. DOI: 10.1016/j.eswa.2024.123654.

32. Choudhury, Arkopal, and Michael R. Kosorok. Missing data imputation for classification problems. arXiv preprint, 2020, pp. 1-27. DOI: 10.48550/arXiv.2002.10709.

33. Stekhoven, Daniel J., and Peter Bühlmann. MissForest—non-parametric missing value imputation for mixed-type data. Bioinformatics, 28.1, 2012, pp. 112-118. DOI: 10.1093/bioinformatics/btr597.

34. Matthews, Brian W. Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA)-Protein Structure, 405.2, 1975, pp. 442-451.

35. Cawley, Gavin C., and Nicola LC Talbot. On over-fitting in model selection and subsequent selection bias in performance evaluation. The Journal of Machine Learning Research, 11, 2010, pp. 2079-2107.

36. Berrar, Daniel. Cross-validation. 2018, pp. 542-554. DOI: 10.1016/B978-0-12-809633-8.20349-X.

37. Stone, Mervyn. "Cross‐validatory choice and assessment of statistical predictions. Journal of the royal statistical society: Series B (Methodological), 36.2. 1974, pp. 111-133. DOI: 10.1111/j.2517-6161.1974.tb00994.x.

38. Vabalas, Andrius, et al. Machine learning algorithm validation with a limited sample size. PloS one 14.11, 2019, pp. 1-20. DOI: 10.1371/journal.pone.0224365.

39. Bishop, Chris M. Training with noise is equivalent to Tikhonov regularization. Neural computation, 7.1, 1995, pp. 108-116. DOI: 10.1162/neco.1995.7.1.108.

40. Вапник, В.Н.., and. Червоненкис А.Ю. Теория распознавания образов: статистические проблемы обучения. Наука, 1974, 416 p. (in Russian).

41. Haussler, David. Decision theoretic generalizations of the PAC model for neural net and other learning applications. Information and computation, 100.1, 1992, pp. 78-150.

42. Sauer, Norbert. On the density of families of sets. Journal of Combinatorial Theory, Series A, 13.1, 1972, pp. 145-147. DOI: 10.1016/0097-3165(72)90019-2.

Рецензия

Для цитирования:

ЛАЗАРЕВ Д.О., ШОКУРОВ А.В., ФОМИН С.А. Использование аугментации при обучении на некомплектной выборке. Труды Института системного программирования РАН. 2026;38(1):93-112. https://doi.org/10.15514/ISPRAS-2026-38(1)-8

For citation:

LAZAREV D.O., SHOKUROV A.V., FOMIN S.A. Data Augmentation for Machine Learning on Missing Data. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2026;38(1):93-112. (In Russ.) https://doi.org/10.15514/ISPRAS-2026-38(1)-8

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Труды Института системного программирования РАН

Использование аугментации при обучении на некомплектной выборке

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов