Реальное применение методов интерпретации свёрточных нейронных сетей: обнаружение и объяснение ошибок классификатора изображений документов
https://doi.org/10.15514/ISPRAS-2023-35(2)-1
Аннотация
В данной статье рассматривается случай применения методов интерпретации свёрточных нейронных сетей к модели ResNet 18 с целью обнаружения и объяснения её ошибок. Сама модель используется для решения задачи определения ориентации изображений текстовых документов. Изначально с помощью методов интерпретации было выдвинуто предположение о причине низкого качества предсказаний модели на данных, отличных от примеров из обучающего набора. Предполагаемой причиной оказалось наличие артефактов на тренировочных данных, которые были сгенерированы с использованием функции поворота изображений. Далее, с помощью методов Vanilla Gradient, Guided Backpropagation, Integrated Gradients, GradCAM и предложенной метрики удалось точно обосновать выдвинутое предположение. Полученные результаты помогли значительно улучшить точность модели.
Об авторах
Александр Олегович ГОЛОДКОВРоссия
Выпускник Московского физико-технического института, старший лаборант
Оксана Владимировна БЕЛЯЕВА
Россия
Аспирант, стажер-исследователь
Андрей Игоревич ПЕРМИНОВ
Россия
Аспирант, стажер-исследователь
Список литературы
1. Wang J., Yang Y. et al. CNN-RNN: A Unified Framework for Multi-label Image Classification. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2285-2294.
2. Milletari F., Navab N., Ahmadi S.A. V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. In Proc. of the Fourth International Conference on 3D Vision (3DV), 2016, pp. 565-571.
3. Xie X., Cheng G. et al. Oriented R-CNN for Object Detection. In Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 3500-3509.
4. He F., Liu T., Tao D. Why ResNet Works? Residuals Generalize. IEEE Transactions on Neural Networks and Learning Systems, vol. 31, issue 12, 2020, pp. 5349-5362.
5. Buhrmester V., Münch D., Arens M. Analysis of Explainers of Black Box Deep Neural Networks for Computer Vision: A Survey. Machine Learning and Knowledge Extraction, vol. 3, issue 4, 2021, pp. 966-989.
6. Li G., Yu Y. Visual Saliency Detection Based on Multiscale Deep CNN Features. IEEE Transactions on Image Processing, vol. 25, issue 11, 2016, pp. 5012-5024.
7. Barredo-Arrieta A., Díaz-Rodríguez N. et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, vol. 58, 2020, pp. 82-115.
8. Simonyan K., Vedaldi A., Zisserman A. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. arXiv preprint arXiv:1312.6034, 2013, 8 p.
9. Springenberg J.T., Dosovitskiy A. et al. Striving for Simplicity: The All Convolutional Net. arXiv preprint arXiv:1412.6806, 2014, 14 p.
10. Sundararajan M., Taly A., Yan Q. Axiomatic Attribution for Deep Networks. In Proceedings of the 34th International Conference on Machine Learning, 2017, pp. 3319-3328.
11. Selvaraju R.R., Cogswell M. et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In Proc. of the IEEE International Conference on Computer Vision (ICCV), 2017, pp. 618-626.
12. Kapishnikov A., Bolukbasi T. et al. XRAI: Better Attributions Through Regions. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 4948-4957.
13. Olah C., Mordvintsev A., Schubert L. Feature Visualization, 2017. Available at: https://distill.pub/2017/feature-visualization/?ref=hackernoon.com, accessed May 18, 2023.
14. Desai S., Ramaswamy H.G. Ablation-CAM: Visual Explanations for Deep Convolutional Network via Gradient-free Localization. In Proc. of the IEEE Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 972-980.
Рецензия
Для цитирования:
ГОЛОДКОВ А.О., БЕЛЯЕВА О.В., ПЕРМИНОВ А.И. Реальное применение методов интерпретации свёрточных нейронных сетей: обнаружение и объяснение ошибок классификатора изображений документов. Труды Института системного программирования РАН. 2023;35(2):7-18. https://doi.org/10.15514/ISPRAS-2023-35(2)-1
For citation:
GOLODKOV A.O., BELYAEVA O.V., PERMINOV A.I. Real Application of CNN Interpretation Methods: Document Image Classification Model Errors’ Detection and Validation. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(2):7-18. https://doi.org/10.15514/ISPRAS-2023-35(2)-1