Сравнение интерпретируемости моделей ResNet50 и ViT-224 в задаче классификации бактерий на снимках сканирующего электронного микроскопа
https://doi.org/10.15514/ISPRAS-2025-37(6)-15
Аннотация
В работе проведено исследование интерпретируемости двух популярных архитектур глубокого обучения ResNet50 и Vision Transformer (ViT-224) в рамках решения задачи классификации патогенных микроорганизмов на изображениях, полученных посредством сканирующего электронного микроскопа и предварительной пробоподготовкой с использованием лантаноидного контрастирования. Помимо стандартных показателей качества, таких как: точность, полнота и F1‑мера, ключевым аспектом стало исследование встроенных карт внимания Vision Transformer и пост-интерпретации работы обученной модели ResNet50 с помощью метода Grad-CAM. Эксперименты выполнялись на исходном наборе данных, а также трёх его модификациях: с обнулённым фоном (threshold), с модифицированными участками изображения методом inpainting, и с полностью очищенным фоном с помощью обнуления фоновых участков. Для оценки универсальности механизма внимания в Vision Transformer дополнительно проведён тест на классической задаче распознавания рукописных цифр MNIST. Результаты показали, что архитектура Vision Transformer демонстрирует более локализованные и биологически обоснованные тепловые карты внимания, а также большую устойчивость к изменению фонового шума.
Ключевые слова
Об авторах
Владимир Николаевич ГРИДИНРоссия
Доктор технических наук, профессор. Научный руководитель Центра информационных технологий в проектировании Российской академии наук. Область научных интересов: информационные технологии, искусственный интеллект, системы автоматизации проектирования, численно-аналитические методы.
Иван Александрович НОВИКОВ
Россия
Старший научный сотрудник Центра информационных технологий в проектировании Российской академии наук. Область научных интересов: информационные технологии, интеллектуальный анализ данных.
Басим Раед САЛЕМ
Россия
Научный сотрудник Центра информационных технологий в проектировании Российской академии наук. Область научных интересов: искусственный интеллект, системы поддержки принятия решений.
Владимир Игоревич СОЛОДОВНИКОВ
Россия
Кандидат технических наук. Директор Центра информационных технологий в проектировании Российской академии наук. Область научных интересов: информационные технологии, методы машинного обучения и искусственного интеллекта применительно к самоорганизующимся системам поддержки принятия решений и автоматизированным средствам анализа данных.
Список литературы
1. Wollek A., Graf R. et al. Attention‑based Saliency Maps Improve Interpretability of Pneumothorax Classification. arXiv:2303.01871 (2023).
2. Huang X. et al. Enhanced tuberculosis detection using Vision Transformers and Grad‑CAM. BMC Medical Imaging (2025).
3. Chen L. et al. MedViT: A robust vision transformer for generalized medical image analysis. Signal Processing: Image Communication, 105 (2023).
4. Smith J., Patel R. et al. Implementing vision transformer for classifying 2D biomedical images. Scientific Reports 14, 63094 (2024).
5. Huang Y. et al. R‑Cut: Relationship Weighted Cut for Denoising ViT Attention Maps. MDPI Image Analysis (2024).
6. Wu Z. et al. SaCo: Salience‑guided Faithfulness Coefficient for Evaluating Explanations. CVPR 2024.
7. Brocki M. et al. Class‑Discriminative Attention Maps (CDAM) for Vision Transformers. ICLR 2024.
8. Xiao T. et al. Evaluating Robustness of Vision Transformers under Common Corruptions. AAAI 2022.
9. Badisa S. et al. Inpainting the Gaps: Framework for Evaluating Explainability under Occlusion. The CVF Open Access 2024.
10. Katar S., Yildirim A. Interpretable Classification of Leukocytes with ViT and Score‑CAM. PMC 2023.
11. Wollek A., Graf R. et al. Attention‑based Saliency Maps Improve Interpretability of Pneumothorax Classification. arXiv:2303.01871 (2023).
12. Huang X. et al. Enhanced tuberculosis detection using Vision Transformers and Grad‑CAM. BMC Medical Imaging (2025).
13. Chen L. et al. MedViT: A robust vision transformer for generalized medical image analysis. Signal Processing: Image Communication, 105 (2023).
14. Smith J., Patel R. et al. Implementing vision transformer for classifying 2D biomedical images. Scientific Reports 14, 63094 (2024).
15. Huang Y. et al. R‑Cut: Relationship Weighted Cut for Denoising ViT Attention Maps. MDPI Image Analysis (2024).
16. Wu Z. et al. SaCo: Salience‑guided Faithfulness Coefficient for Evaluating Explanations. CVPR 2024.
17. Brocki M. et al. Class‑Discriminative Attention Maps (CDAM) for Vision Transformers. ICLR 2024.
18. Xiao T. et al. Evaluating Robustness of Vision Transformers under Common Corruptions. AAAI 2022.
19. Badisa S. et al. Inpainting the Gaps: Framework for Evaluating Explainability under Occlusion. The CVF Open Access 2024.
20. Katar S., Yildirim A. Interpretable Classification of Leukocytes with ViT and Score‑CAM. PMC 2023.
Рецензия
Для цитирования:
ГРИДИН В.Н., НОВИКОВ И.А., САЛЕМ Б.Р., СОЛОДОВНИКОВ В.И. Сравнение интерпретируемости моделей ResNet50 и ViT-224 в задаче классификации бактерий на снимках сканирующего электронного микроскопа. Труды Института системного программирования РАН. 2025;37(6):233-242. https://doi.org/10.15514/ISPRAS-2025-37(6)-15
For citation:
GRIDIN V.N., NOVIKOV I.A., SALEM B.R., SOLODOVNIKOV V.I. Comparison of the Interpretability of ResNet50 and ViT-224 Models in the lassification Task is Erroneous on Images of a Scanned Microscope Object. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(6):233-242. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(6)-15






