Preview

Труды Института системного программирования РАН

Расширенный поиск

Методология создания большого русскоязычного набора данных для обнаружения пресуицидальных и антисуицидальных сигналов в текстах социальных сетей

https://doi.org/10.15514/ISPRAS-2025-37(6)-29

Аннотация

Самоубийство – это ужасающий поступок человека, которого вводит в заблуждение его собственное психическое состояние. Эта проблема актуальна для многих странах и в России в том числе. К счастью, некоторые из этих людей пишут о своих проблемах в социальных сетях, что позволяет найти их и помочь справиться с их проблемами. Однако эти значимые тексты теряются среди большего количества нерелевантных текстов, что значительно замедляет процесс принятия решения о суицидальном риске человека. Чтобы помочь справиться с этой проблемой, в этой работе представлена подробная методология создания набора данных для обнаружения текстов, содержащих пресуицидальные и антисуицидальные сигналы. Эта методология описывает процесс создания инструкций и таблиц классов, процесс аннотирования, проверки и исправления после аннотирования. Руководствуясь этой методологией, был собран и размечен большой русскоязычный набор данных, содержащий более 50 тысяч текстов из социальных сетей. В работе предоставлена статистика количества данных в наборе данных, а также общие проблемы с разметкой, которые возникли в процессе. Показаны результаты базовых экспериментов по построению классификационных моделей, чтобы продемонстрировать работоспособность на разных уровнях аннотации. Кроме того, набор данных, код и все материалы были сделаны общедоступными.

Об авторах

Игорь Олегович БУЯНОВ
Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences
Россия

Аспирант ФИЦ ИУ РАН, старший разработчик в MTS AI. Сфера научных интересов: обработка естественного языка, анализ пространств эмбеддингов, вычислительная психология.



Дарья Валентиновна ЯСЬКОВА
MTS AI
Россия

Магистр психологии ННГУ им. Н.И. Лобачевского с 2018 года, старший разработчик в МТС ИИ с 2019 года. Сфера научных интересов: обработка естественного языка, распознавание именованных сущностей в специфичных доменах, методы аугментаций для текстовых данных.



Данил Сергеевич СЕРЕНКО
Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences
Россия

Является студентом кафедры математического моделирования и искусственного интеллекта РУДН имени Патриса Лумумбы, научным сотрудником Федерального исследовательского центра "Информатика и управление" Российской академии наук (ФИЦ ИУ РАН). Область научных интересов – искусственный интеллект, информационный поиск.



Данил Николаевич ШКЕРЕДА
Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences
Россия

Студент Российского государственного университета нефти и газа (национальный исследовательский университет) имени И. М. Губкина, научный сотрудником Федерального исследовательского центра "Информатика и управление" Российской академии наук (ФИЦ ИУ РАН). Сфера научных интересов: эффективное обучение больших языковых моделей, семантический анализ текстов.



Андрей Дмитриевич ЯСЬКОВ
Yandex
Россия

Магистр информационных систем и технологий НГТУ им. Р. Е. Алексеева с 2017 года, разработчик в Яндекс с 2022 года. Сфера профессиональных интересов: разработка высоконагруженных веб-приложений, архитектура информационных систем, разработка интерактивных редакторов диаграмм, векторная графика, доступность веб-приложений.



Илья Владимирович СОЧЕНКОВ
Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences, Kharkevich Institute for Information Transmission Problems of the Russian Academy of Sciences, Ivannikov Institute for System Programming of the Russian Academy of Sciences
Россия

Кандидат физико-математически наук, ведущий научный сотрудник ФИЦ ИУ РАН, ведущий научный сотрудник ИСП РАН, ведущий научный сотрудник ИППИ РАН. Сфера научных интересов: обработка естественного языка, методы информационного поиска, обработка больших массивов текстовой информации.



Список литературы

1. Dévora Kestel and Mark van Ommeren et al. Suicide in the world. World Health Organization, 2019. Vol. 1.

2. Suicide and its prevention in Russia, 2019: general facts // Demoscope URL: https://www.demoscope.ru/weekly/2020/0869/suicide.php (accessed: 18.05.2025).

3. Bollen J. et al. Historical language records reveal a surge of cognitive distortions in recent decades. Proc Natl Acad Sci USA, 2021. Vol. 1.

4. Craig J. Bryan and M. David Rudd, Brief Cognitive-Behavioral Therapy for Suicide Prevention. Guilford Press, 2018. Vol. 1.

5. Popov U. V., A.A. Pichikov, Suicidal behavior in adolescents. [Suicidalnoe povedenie u podrostkov] SpecLit, 2017. Vol. 1.

6. Kitoboy // Github URL: https://github.com/psytechlab/kitoboy (accessed: 18.05.2025).

7. Glen Coppersmith et al. From ADHD to SAD: Analyzing the Language of Mental Health on Twitter through Self-Reported Diagnoses // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality, Denver, Colorado, 2015, pp. 1-10.

8. De Choudhury M. et al. Discovering Shifts to Suicidal Ideation from Mental Health Content in Social Media // Proceedings of the SIGCHI conference on human factors in computing systems, 2016, pp. 2098 2110.

9. Glen Coppersmith et al. CLPsych 2015 Shared Task: Depression and PTSD on Twitter // Proceedings of the 2 nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, 2015. pp. 31-39.

10. Losada D.E., Crestani F., A Test Collection for Research on Depression and Language Use. – Springer, Cham, 2016. Vol. 9822.

11. Sean MacAvaney et al. Community-level Research on Suicidality Prediction in a Secure Environment: Overview of the CLPsych 2021 Shared Task // Proceedings of the Seventh Workshop on Computational Linguistics and Clinical Psychology. Online, 2021, pp. 70-80.

12. Reading List for Mental Health Detection and Analysis on Social Media // Github URL: https://github.com/drmuskangarg/mentalhealthcare (accessed: 18.05.2025).

13. H. Andrew Schwartz et al. Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach – PloS one, 2013, vol. 8

14. PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models // ArXiv URL: https://arxiv.org/abs/2311.09189 (accessed: 18.05.2025).

15. Narynov S. et al. Dataset of depressive posts in Russian language collected from social media // Data in Brief, 2020, vol. 29.

16. Stankevich M., Smirnov I. et al. Predicting Depression from Essays in Russian // Proceedings of “Computational Linguistics and Intellectual Technologies” DIALOGUE, 2019, pp. 637-647.

17. Литвинова Т.А., Литвинова О.А. Языковые особенности русскоязычных текстов лиц, совершивших суицид, и лиц с высоким риском аутоагрессивного поведения // Studia Humanitatis. - 2017. № 4 / Litvinova T. A., Litvinova O. A. Linguistic features of Russian-language texts of people who have committed suicide and those at high risk of auto-aggressive behavior // Studia Humanitatis. 2017. No. 4.

18. Igor Buyanov and Ilya Sochenkov, The dataset for presuicidal signals detection in text and its analysis // Computational Linguistics and Intellectual Technologies. 2022. No. 21, pp. 81-92.

19. VK // VK URL: https://vk.com/ (accessed: 18.05.2025).

20. X (Twitter) // X URL: https://x.com/ (accessed: 18.05.2025).

21. Suicide Forum // Suicide Forum URL: http://www.suicide-forum.com/ (accessed: 18.05.2025).

22. A. Aluoja, J. Shlik, V. Vasar, K. Luuk, M. Leinsalu, The Emotional Well-being Questionnaire (EEK). 1999.

23. Тарабрина Н. В. Практикум по психологии посттравматического стресса. 1 изд., СПб.: Питер, 2001. 272 с. / Tatabatina N. V. A workshop on the psychology of post-traumatic stress. 1 edition, SPb.: Piter, 2001, 272 p.

24. Пакулина С.А. Психодиагностика суицидального поведения детей и подростков. 1 изд., Челябинск: 2014 / Pakulina S. A. Psychodiagnostics of suicidal behavior in children and adolescents. 1 edition, Chelabinsk: 2014.

25. Брайан К.Дж., Радд М.Д. Когнитивно-поведенческая терапия для предотвращения суицида. 1 изд., Москва: Вильямс, 2021. 464 с. / Brayan K. J. Radd M. D Cognitive-behavioral therapy for suicide prevention, 1 edition, Moscow: Viliams, 2021. 464 p.

26. Krippendorff K. Computing Krippendorff’s Alpha-Reliability // 2011.

27. Passonneau R. Measuring Agreement on Set-valued Items (MASI) for Semantic and Pragmatic Annotation // International Conference on Language Resources and Evaluation. 2006.

28. Bird S., Klein E., Loper E. Natural Language Processing with Python. 1 edition. O'Reilly, 2009.

29. Astromis Presuicidal RuBERT // Astromis HF URL: https://hf.global-rail.com/astromis/presuisidal_rubert (accessed: 18.05.2025).

30. RuBERT-Tiny2 Russian Emotion Detection // Hugging Face URL: https://huggingface.co/Djacon/rubert-tiny2-russian-emotion-detection (accessed: 18.05.2025).

31. Blanchefort RuBERT Base Cased Sentiment // Blanchefort HF URL: https://hf.global-rail.com/blanchefort/rubert-base-cased-sentiment (accessed: 18.05.2025).

32. Label Studio // Github URL: https://github.com/HumanSignal/label-studio (accessed: 18.05.2025).

33. Sboev A., Naumov A., Rybka R. Data-Driven Model for Emotion Detection in Russian Texts // BICA*AI. 2020.

34. Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. RuSentiment: An Enriched Sentiment Analysis Dataset for Social Media in Russian // International Conference on Computational Linguistics. 2018.

35. Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics // ArXiv URL: https://arxiv.org/abs/2009.10795 (accessed: 18.05.2025).

36. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // ArXiv URL: https://arxiv.org/abs/1905.07213 (accessed: 18.05.2025).

37. RoBERTa: A Robustly Optimized BERT Pretraining Approach // ArXiv URL: https://arxiv.org/abs/1907.11692 (accessed: 18.05.2025).

38. DeBERTa: Decoding-enhanced BERT with Disentangled Attention // ArXiv URL: https://arxiv.org/abs/2006.03654 (accessed: 18.05.2025).


Рецензия

Для цитирования:


БУЯНОВ И.О., ЯСЬКОВА Д.В., СЕРЕНКО Д.С., ШКЕРЕДА Д.Н., ЯСЬКОВ А.Д., СОЧЕНКОВ И.В. Методология создания большого русскоязычного набора данных для обнаружения пресуицидальных и антисуицидальных сигналов в текстах социальных сетей. Труды Института системного программирования РАН. 2025;37(6):191-210. https://doi.org/10.15514/ISPRAS-2025-37(6)-29

For citation:


BUYANOV I.O., YASKOVA D.V., SERENKO D.S., SHKEREDA D.N., YASKOV A.D., SOCHENKOV I.V. The methodology of Constructing the Large-Scale Dataset for Detecting Presuicidal and Anti-Suicidal Signals in Social Media Texts in Russian. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(6):191-210. https://doi.org/10.15514/ISPRAS-2025-37(6)-29



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)