Интерактивная генерация кода на основе LLM: эмпирическая оценка

Данил Салаватович ШАЙХЕЛИСЛАМОВ; Михаил Дмитриевич ДРОБЫШЕВСКИЙ; Андрей Андреевич БЕЛЕВАНЦЕВ

doi:10.15514/ISPRAS-2025-37(5)-9

Интерактивная генерация кода на основе LLM: эмпирическая оценка

Данил Салаватович ШАЙХЕЛИСЛАМОВ, Михаил Дмитриевич ДРОБЫШЕВСКИЙ, Андрей Андреевич БЕЛЕВАНЦЕВ

https://doi.org/10.15514/ISPRAS-2025-37(5)-9

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

ИИ-помощники разработчика, основанные на больших языковых моделях (LLM), продемонстрировали большие возможности в генерации программ по текстовому описанию. Однако в таком коде зачастую встречаются ошибки. Пользователи ожидают код без дефектов и, в идеале, четкие указания на их присутствие. Проверенный код может снизить потенциальные бизнес-риски, связанные с внедрением сгенерированного кода. Используя расширение CodePatchLLM, в работе оценивается качество генерируемых программных решений. Эксперименты показывают, что даже одна итерация исправления кода для языка Java во всех наборах данных и моделях снижает на 19,1% количество дефектов при сохранении функциональной корректности.

Ключевые слова

большая языковая модель, проверка кода, безопасный код.

Об авторах

Данил Салаватович ШАЙХЕЛИСЛАМОВ

Институт системного программирования им. В.П. Иванникова РАН, Московский физико-технический институт
Россия

Исследователь Института системного программирования, старший преподаватель Высшей школы экономики, аспирант Московского физико-технического института. Сфера научных интересов: большие языковые модели, генерация кода.

Михаил Дмитриевич ДРОБЫШЕВСКИЙ

Институт системного программирования им. В.П. Иванникова РАН, Московский физико-технический институт
Россия

Кандидат физико-математических наук, научный сотрудник ИСП РАН. Сфера научных интересов: доверенный ИИ, объяснимый ИИ.

Андрей Андреевич БЕЛЕВАНЦЕВ

Институт системного программирования им. В.П. Иванникова РАН, Московский государственный университет имени М.В. Ломоносова
Россия

Доктор физико-математических наук, член-корреспондент РАН, ведущий научный сотрудник ИСП РАН, профессор кафедры системного программирования ВМК МГУ. Сфера научных интересов: статический анализ программ, оптимизация программ, параллельное программирование.

Список литературы

1. StackOverflow, Developer Survey. Доступно по ссылке: https://survey.stackoverflow.co/2023/#ai-tools-in-the-development-process, обращение 30.05.2023.

2. Li R., Allal L.B., Zi Y., Muennighoff N., Kocetkov D., Mou C., Marone M., Akiki C., Li J., Chim J. Starcoder: may the source be with you! //arXiv preprint, 2023. Доступно по ссылке: arXiv:2305.06161, обращение 10.10.2025.

3. Tambon F., Moradi-Dakhel A., Nikanjam A., Khomh F., Desmarais MC., Antoniol G. Bugs in large language models generated code: An empirical study // Empirical Software Engineering, 2025, vol. 30, no. 3, p. 65.

4. Shaikhelislamov D., Drobyshevskiy M., Belevantsev A. LLM-based Interactive Code Generation: Empirical Evaluation // 2024 Ivannikov Ispras Open Conference (ISPRAS). IEEE, 2024, pp. 1-5.

5. Shaikhelislamov D. S., Drobyshevskiy M. D., Belevancev A. A. Ensuring trustworthy code: leveraging a static analyzer to identify and mitigate defects in generated code // Записки научных семинаров ПОМИ, 2024, vol. 540, no. 0, pp. 233-251.

6. Belevantsev A., Borodin A., Dudina I., Ignatiev V., Izbyshev A., Polyakov S. Design and development of Svace static analyzers // 2018 Ivannikov Memorial Workshop (IVMEM). IEEE, 2018, pp. 3-9.

7. Agashe R., Iyer S., Zettlemoyer L. JuICe: A large scale distantly supervised dataset for open domain context-based code generation // arXiv preprint, 2019. Доступно по ссылке: arXiv:1910.02216, обращение 10.10.2025.

8. Grubisic D., Cummins C., Seeker V., Leather H. Compiler generated feedback for large language models //arXiv preprint, 2024. Доступно по ссылке: arXiv:2403.14714, обращение 10.10.2025.

9. Avgustinov P., Moor O., Jones MP., Schäfer M. QL: Object-oriented queries on relational data // 30th European Conference on Object-Oriented Programming (ECOOP 2016). Schloss Dagstuhl–Leibniz-Zentrum für Informatik, 2016, pp. 2: 1-2: 25.

10. Semgrep, 2023. [Online]. Available at: https://semgrep.dev/, обращение 10.10.2025.

11. FlawFinder, 2023. [Online]. Available at: https://dwheeler.com/flawfinder, обращение 10.10.2025.

12. Li H., Hao Y., Zhai Y., Qian Z. Enhancing static analysis for practical bug detection: An llm-integrated approach // Proceedings of the ACM on Programming Languages. 2024, vol. 8, no. OOPSLA1, pp. 474 499.

13. Zhang T, Yu T., Hashimoto T., Lewis M., Yih W., Fried D., Wang S. Coder reviewer reranking for code generation //International Conference on Machine Learning. PMLR, 2023, pp. 41832-41846.

14. Zheng Q., Xia X., Zou X., Dong Y., Wang S., Xue Y., Shen L., Wang Z., Wang A., Li Y., Su T., Yang Z., Tang J. Codegeex: A pre-trained model for code generation with multilingual benchmarking on humaneval-x // Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2023, pp. 5673-5684.

15. Odena, A., Sutton, C., Dohan, D. M., Jiang, E., Michalewski, H., Austin, J., Bosma MP., Nye M. Program synthesis with large language models //arXiv preprint, 2021. Доступно по ссылке: arXiv:2108.07732, обращение 10.10.2025.

16. Rozière B., Gehring J., Gloeckle F., Sootla S., Gat I., Ellen Tan X., Adi Y., Liu J., Sauvestre R., Remez T., Rapin J., Kozhevnikov A., Evtimov I., Bitton J., Bhatt M., Ferrer CC., Grattafiori A., Xiong W., Défossez A., Copet J., Azhar F., Touvron H., Martin L., Usunier N., Scialom T., Synnaeve G. Code llama: Open foundation models for code //arXiv preprint, 2023. Доступно по ссылке: arXiv:2308.12950, обращение 10.10.2025.

17. Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan [и др.]. Evaluating large language models trained on code //arXiv preprint, 2021. Доступно по ссылке: arXiv:2107.03374, обращение 10.10.2025.

18. Nijkamp, E., Hayashi, H., Xiong, C., Savarese, S., & Zhou, Y. Codegen2: Lessons for training llms on programming and natural languages //arXiv preprint, 2023. Доступно по ссылке: arXiv:2305.02309, обращение 10.10.2025.

19. Siddiq, M. L., Dristi, S., Saha, J., & Santos, J. C. The fault in our stars: Quality assessment of code generation benchmarks // 2024 IEEE International Conference on Source Code Analysis and Manipulation (SCAM). IEEE, 2024, pp. 201-212.

20. Liao, D., Pan, S., Sun, X., Ren, X., Huang, Q., Xing, Z. [и др.]. A 3-codgen: A repository-level code generation framework for code reuse with local-aware, global-aware, and third-party-library-aware // IEEE Transactions on Software Engineering. 2024.

Рецензия

Для цитирования:

ШАЙХЕЛИСЛАМОВ Д.С., ДРОБЫШЕВСКИЙ М.Д., БЕЛЕВАНЦЕВ А.А. Интерактивная генерация кода на основе LLM: эмпирическая оценка. Труды Института системного программирования РАН. 2025;37(5):123-130. https://doi.org/10.15514/ISPRAS-2025-37(5)-9

For citation:

SHAIKHELISLAMOV D.S., DROBYSHEVSKIY M.D., BELEVANTSEV A.A. LLM-based Interactive Code Generation: Empirical Evaluation. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(5):123-130. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(5)-9

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Труды Института системного программирования РАН

Интерактивная генерация кода на основе LLM: эмпирическая оценка

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов