SLAVA: бенчмарк социально-политического ландшафта и ценностного анализа
https://doi.org/10.15514/ISPRAS-2025-37(3)-12
Аннотация
Большим языковым моделям (LLM) находят применение в самых различных областях благодаря растущим способностям в задачах обработки естественного языка. Внедрение LLM в системы, ошибки которых могут нести негативные последствия, требует всестороннего изучения достоверности их работы. Оценка фактуальности LLM позволяет понять, насколько сгенерированный текст соответствует реальным фактам. Существует множество фактологических систем сравнения, но лишь небольшая их часть проверяет знания моделей в российской доменной области. В подобных оценочных стандартах избегают дискуссионных и чувствительных тем, в отношении которых у России существует вполне сформированная позиция. Для преодоления проблемы неполноты чувствительных оценок нами был разработан бенчмарк SLAVA, состоящий из четырнадцати тысяч вопросов в российском домене, представляющих различные области знания. При оценке фактуальности для каждого вопроса измерялось свойство провокативности, определяющее степень чувствительности респондента к запрашиваемой теме. Результаты исследования позволили сформировать рейтинг мультиязычных LLM по ответам на вопросы значимых тематик: истории, политологии, социологии и географии. Проведенное исследование может стимулировать появление новых фактологических систем сравнения, которые будут способствовать гармонизации инфопространства, формированию мировоззренческого суверенитета.
Ключевые слова
Об авторах
Андрей Сергеевич ЧЕТВЕРГОВРоссия
Cпециалист Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: разработка и оптимизация моделей машинного обучения, глубокое обучение, обработка естественного языка, автоматизация процессов машинного обучения, исследование новых алгоритмов искусственного интеллекта, междисциплинарные исследования.
Ринат Саярович ШАРАФЕТДИНОВ
Россия
Cпециалист Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: проектирование и улучшение моделей машинного обучения, изучение методов обработки естественного языка, исследование новых подходов в работе больших языковых моделей.
Марина Михайловна ПОЛУКОШКО
Россия
Заведующий Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: стратегическое управление проектами в области анализа данных и машинного обучения, развитие и применение больших языковых моделей, исследования доверенности систем ИИ, междисциплинарные исследования.
Вадим Аксанович АХМЕТОВ
Россия
Эксперт Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: анализ больших данных, построение прогнозных моделей, временные ряды, компьютерное зрение, интерпретация моделей машинного обучения.
Наталия Андреевна ОРУЖЕЙНИКОВА
Россия
Аналитик Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: обработка больших данных, статистическое моделирование, визуализация данных, прогнозная аналитика и оптимизация бизнес-процессов.
Егор Сергеевич АНИЧКОВ
Россия
Ведущий специалист Лаборатории интеллектуальной аналитики Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: обработка естественного языка, научная экспертиза проектов, связанных с большими языковыми моделями, исследование факторов доверенности интеллектуальных систем.
Ирина Сергеевна АЛЕКСЕЕВСКАЯ
Россия
Программист Центра доверенного искусственного интеллекта, аспирант ИСП РАН по направлению искусственный интеллект и машинное обучение. Сфера научных интересов: большие языковые модели, состязательные атаки, бэкдор атаки, выравнивание больших языковых моделей.
Сергей Владимирович БОЛОВЦОВ
Россия
Директор Исследовательского центра искусственного интеллекта ИОН Президентской академии. Сфера научных интересов: оптимизация и масштабирование инфраструктуры для работы с большими данными и ML, анализ данных и управление качеством данных, продвинутые методы обработки естественного языка, применение больших языковых моделей в междисциплинарных исследованиях.
Павел Евгеньевич ГОЛОСОВ
Россия
Директор Института общественных наук Президентской академии. Сфера научных интересов: технологические вызовы и искусственный интеллект, экономика данных и внедрение искусственного интеллекта, индивидуализированный подход в высшем образовании, применение искусственного интеллекта в образовании.
Список литературы
1. Minaee S. и др. Large Language Models: A Survey // 2024.
2. Wang C. и др. Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity 2023.
3. Hendrycks D. и др. Measuring Massive Multitask Language Understanding // International Conference on Learning Representations.
4. Huang Y. и др. C-eval: A multi-level multi-discipline chinese evaluation suite for foundation models // Advances in Neural Information Processing Systems. 2024. Т. 36.
5. Lin S., Hilton J., Evans O. TruthfulQA: Measuring How Models Mimic Human Falsehoods // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022. С. 3214–3252.
6. Hu X. и др. Do Large Language Models Know about Facts? // 2023.
7. Fenogenova A. и др. MERA: A Comprehensive LLM Evaluation in Russian // 2024.
8. Shavrina T. и др. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020. С. 4717–4726.
9. Kukushkin A. rulm-sbs2, https://github.com/kuk/rulm-sbs2 // 2024.
10. Taktasheva E. и др. TAPE: Assessing Few-shot Russian Language Understanding // Findings of the Association for Computational Linguistics: EMNLP 2022., 2022. С. 2472–2497.
11. Открытый банк тестовых заданий [Электронный ресурс]. URL: https://ege.fipi.ru/bank/ (дата обращения: 07.11.2024).
12. ЕГЭ-2024, Математика профильного уровня: задания, ответы, решения [Электронный ресурс]. URL: https://math-ege.sdamgia.ru/ (дата обращения: 07.11.2024).
13. SLAVA: Benchmark of the Socio-political Landscape and Value Analysis, открытая часть набора данных [Электронный ресурс]. URL: https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1 (дата обращения: 07.11.2024).
14. Ollama [Электронный ресурс]. URL: https://ollama.com (дата обращения: 07.11.2024).
Рецензия
Для цитирования:
ЧЕТВЕРГОВ А.С., ШАРАФЕТДИНОВ Р.С., ПОЛУКОШКО М.М., АХМЕТОВ В.А., ОРУЖЕЙНИКОВА Н.А., АНИЧКОВ Е.С., АЛЕКСЕЕВСКАЯ И.С., БОЛОВЦОВ С.В., ГОЛОСОВ П.Е. SLAVA: бенчмарк социально-политического ландшафта и ценностного анализа. Труды Института системного программирования РАН. 2025;37(3):171-184. https://doi.org/10.15514/ISPRAS-2025-37(3)-12
For citation:
CHETVERGOV A.S., SHARAFETDINOV R.S., POLUKOSHKO M.M., AKHMETOV V.A., ORUZHEYNIKOVA N.A., ANICHKOV E.S., ALEKSEEVSKAIA I.S., BOLOVTSOV S.V., GOLOSOV P.E. SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(3):171-184. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(3)-12