Preview

Труды Института системного программирования РАН

Расширенный поиск

Применение состязательных атак для локализованной генерации артефактов суперразрешения

https://doi.org/10.15514/ISPRAS-2026-38(2)-1

Аннотация

Задача суперразрешения изображений, решаемая с помощью глубоких нейросетей, особенно генеративно-состязательных моделей, сталкивается с проблемой появления визуальных артефактов. Эти искажения ухудшают качество результата, а их автоматическое обнаружение затруднено из-за отсутствия крупных размеченных наборов данных. Целью данной работы является разработка автоматизированного метода создания таких наборов данных для обучения и оценки моделей детекции артефактов. Предлагаемый метод использует подход состязательных атак для целенаправленного создания артефактов в выходных изображениях моделей суперразрешения. В основе метода лежит модификация итеративной атаки быстрого знака градиента. Ключевое нововведение заключается в модификации функции потерь, которая позволяет максимизировать искажения в заданной области изображения, определяемой бинарной маской, и одновременно минимизировать их в остальных частях. Это обеспечивает генерацию локализованных артефактов, имитирующих естественные дефекты. Для проверки метода был создан набор данных, содержащий более 2 тысяч примеров. Результаты экспериментов показали, что предложенный набор данных обладает качественной разметкой. Методы детекции продемонстрировали на нем значение IoU более 0.7, что существенно выше результатов, достигнутых на существующих наборах данных. Разработанный метод позволяет эффективно создавать масштабируемые и качественно размеченные наборы данных. Также был разработан нейросетевой метод, который показывает более качественные результаты по сравнению с базовым подходом. Это открывает возможности для разработки более надежных методов суперразрешения, их последующей постобработки и создания эффективных детекторов артефактов.

Об авторах

Кирилл Владимирович МАЛЫШЕВ
Московский государственный университет имени М.В. Ломоносова
Россия

Получил степень магистра по прикладной математике и информатике в Московском государственном университете имени М. В. Ломоносова в 2023 году. В настоящее время является аспирантом в лаборатории компьютерной графики и мультимедиа МГУ и младшим научным сотрудником в центре искусственного интеллекта МГУ. Также Кирилл работает над стандартом видеокодирования следующего поколения в рамках объединённой команды экспертов по видео (JVET). В область его научных интересов входят методы сжатия видео, оценка качества изображений и видео, нейросетевые методы обработки изображений и видео.



Иван Андреевич МОЛОДЕЦКИХ
Московский государственный университет имени М.В. Ломоносова, Центр искусственного интеллекта МГУ
Россия

Окончил аспирантуру по специальности математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей в Московском государственном университете имени М. В. Ломоносова в 2024 году. В настоящее время работает над диссертацией и является научным сотрудником в центре искусственного интеллекта МГУ, лаборатории компьютерной графики и мультимедиа. В область его научных интересов входят суперразрешение, семантическое матирование видео и машинное обучение. Иван курировал разработку бенчмарка методов суперразрешения для улучшения качества видео и был одним из организаторов соревнований по оценке качества суперразрешения видео на ECCV-AIM 2024 и ICCV-AIM 2025.



Дмитрий Сергеевич ВАТОЛИН
Московский государственный университет имени М.В. Ломоносова, Центр искусственного интеллекта МГУ, Институт искусственного интеллекта МГУ, Институт системного программирования им. В.П. Иванникова РАН
Россия

Закончил ВМК МГУ в 1996, защитил диссертацию в 2000, кандидат физико-математических наук, заведующий лабораторией компьютерной графики ВМК МГУ. Специализируется на исследованиях в области алгоритмов сжатия видео, современных методах измерения качества и обработке цифрового видео. Читает курсы по компьютерной графике и методам сжатия и обработки видео с 1997 года. Создатель популярных сайтов, посвященных алгоритмам обработки и сжатия видео.



Список литературы

1. Wang, X., Xie, L., Dong, C., Shan, Y. (2021). Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. International Conference on Computer Vision Workshops (ICCVW).

2. Xie, L., Wang, X., Chen, X., Li, G., Shan, Y., Zhou, J., & Dong, C. (2023). DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models.

3. Zhang, L., Zhou, Y., Barnes, C., Amirghodsi, S., Lin, Z., Shechtman, E., Shi, J. (2022). Perceptual artifacts localization for inpainting. European Conference on Computer Vision, 146-164.

4. Zhang, L., Xu, Z., Barnes, C., Zhou, Y., Liu, Q., Zhang, H., Amirghodsi, S., Lin, Z., Shechtman, E., Shi, J. (2023). Perceptual Artifacts Localization for Image Synthesis Tasks. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 7579–7590.

5. Liang, J., Zeng, H., Zhang, L. (2022). Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

6. Wang, Z., Bovik, A. C., Sheikh, H. R., Simoncelli, E. P. (2004). Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4), 600–612. DOI: 10.1109/TIP.2003.819861.

7. Ding, K., Ma, K., Wang, S., Simoncelli, E. P. (2022). Image Quality Assessment: Unifying Structure and Texture Similarity. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(5), 2567-2581. DOI: 10.1109/TPAMI.2020.3045810.

8. Zhang, R., Isola, P., Efros, A. A., Shechtman, E., Wang, O. (2018). The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 586-595. DOI: 10.1109/CVPR.2018.00068.

9. Goodfellow, I. J., Shlens, J., Szegedy, C. (2014). Explaining and Harnessing Adversarial Examples. CoRR, abs/1412.6572. Available at: https://arxiv.org/pdf/1412.6572, accessed 14.03.2026.

10. Hsu, C.-C., Lee, C.-M., Chou, Y.-S. (2024). DRCT: Saving Image Super-Resolution Away from Information Bottleneck. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 6133-6142.

11. Kuznetsova, A., Rom, H., Alldrin, N. et al. The Open Images Dataset V4. Int J Comput Vis 128, 1956-1981 (2020). DOI: 10.1007/s11263-020-01316-z.

12. Xu, M., Zhang, Z., Wei, F., Hu, H., Bai, X. (2023). SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(12), 15546-15561. DOI: 10.1109/TPAMI.2023.3311618.

13. J. Liang, J. Cao, G. Sun, K. Zhang, L. Van Gool R. Timofte, "SwinIR: Image Restoration Using Swin Transformer", 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, BC, Canada, 2021, pp. 1833-1844, DOI: 10.1109/ICCVW54120.2021.00210.


Рецензия

Для цитирования:


МАЛЫШЕВ К.В., МОЛОДЕЦКИХ И.А., ВАТОЛИН Д.С. Применение состязательных атак для локализованной генерации артефактов суперразрешения. Труды Института системного программирования РАН. 2026;38(2):7-20. https://doi.org/10.15514/ISPRAS-2026-38(2)-1

For citation:


MALYSHEV K.V., MOLODETSKIKH I.A., VATOLIN D.S. Using Adversarial Attacks for Localized Generation of Super-Resolution Artifacts. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2026;38(2):7-20. (In Russ.) https://doi.org/10.15514/ISPRAS-2026-38(2)-1



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)