Поиск именованных сущностей в инструкциях по медицинскому применению лекарственных средств с использованием глубокого обучения и методов обработки естественного языка
https://doi.org/10.15514/ISPRAS-2025-37(2)-16
Аннотация
В рамках работы создан специализированный словарь для поиска ключевых терминов в текстах медицинских инструкций, с использованием данных из глобальной базы данных VigiAccess, классификации МКБ-10 и ресурса rlsnet.ru. Текстовый корпус был предварительно очищен и приведён к единому формату для улучшения качества обучения модели. В дальнейшем планируется использовать источник grls.rosminzdrav.ru, как более авторитетный и полный, для получения информации о зарегистрированных лекарственных средствах. Для автоматизации аннотации данных разработан алгоритм, который выполняет поиск и разметку терминов из словаря в формате BIO (Begin, Inside, Outside), обеспечивая структурированную разметку для обучения моделей. Модель на основе глубоких нейронных сетей продемонстрировала высокую эффективность в распознавании именованных сущностей благодаря учёту контекстных зависимостей. Построение семантического графа лекарственных средств осуществлялось с помощью алгоритмов нахождения связей между именованными сущностями. Однако автоматическое выявление более глубоких связей между узлами графа затруднено и требует ручной доразметки данных для учёта сложных грамматических структур, что позволит улучшить анализ взаимодействий в текстах медицинских инструкций.
Ключевые слова
Об авторах
Юрий Павлович ТИТОВРоссия
Кандидат технических наук, доцент, ведущий научный сотрудник научной лаборатории «Перспективных систем хранения и обработки сверхбольших массивов данных» Российского экономического университета имени Г.В. Плеханова. Сфера научных интересов: метаэвристическая оптимизация, графовые модели, машинное обучение, нечеткая логика и имитационные модели.
Никита Владимирович КИЛЬМИШКИН
Россия
Является сотрудником лаборатории «Прикладное моделирование» Российского экономического университета имени Г.В. Плеханова. Его научные интересы включают машинное обучение.
Дмитрий Дмитриевич КУБРАКОВ
Россия
Является сотрудником лаборатории «Перспективных систем хранения и обработки сверхбольших массивов данных» Российского экономического университета имени Г.В. Плеханова. Его научные интересы включают машинное обучение, машинная лингвистика, обработка больших данных.
Полина Михайловна ИВАНОВА
Россия
Является сотрудницей лаборатории «Перспективных систем хранения и обработки сверхбольших массивов данных» Российского экономического университета имени Г.В. Плеханова. Ее научные интересы включают обработка больших данных.
Список литературы
1. Popov A. M. Adaskina Yu. V. Andreyeva D. A. Charabet Ja. K. Moskvina A. D. Protopopova E. V. Yushina T. A. Named Entity Normalization for Fact Extraction Task. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” Moscow, June 1–4, 2016.
2. Sysoev A. A. Andrianov I. A. Named Entity Recognition in Russian: the Power of Wiki-Based Approach. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” Moscow, June 1–4, 2016.
3. Stepanova M. E. Budnikov E. A. Chelombeeva A. N. Matavina P. V Skorinkin D. A. Information Extraction Based on Deep Syntactic-Semantic Analysis. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” Moscow, June 1–4, 2016.
4. Dingcheng Li, Karin Kipper-Schuler, and Guergana Savova. Conditional random fields and support vector machines for disorder named entity recognition in clinical texts. In Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, 2008, BioNLP ’08, pages 94–95, Stroudsburg, PA, USA. Association for Computational Linguistics.
5. S. Keretna, C. P. Lim, and D. Creighton. A hybrid model for named entity recognition using unstructured medical text. In 2014 9th International Conference on System of Systems Engineering (SOSE), 2014, pages 85–90, June.
6. Carol Friedman, Philip O Alderson, John HM Austin, James J Cimino, and Stephen B Johnson. A general natural-language text processor for clinical radiology. Journal of the American Medical Informatics Association, 1994, 1(2):161–174.
7. Alan R Aronson and Franc¸ois-Michel Lang. An overview of metamap: historical perspective and recent advances. Journal of the American Medical Informatics Association, 2010, 17(3):229–236.
8. Guergana K Savova, James J Masanz, Philip V Ogren, Jiaping Zheng, Sunghwan Sohn, Karin C KipperSchuler, and Christopher G Chute. Mayo clinical text analysis and knowledge extraction system (ctakes): architecture, component evaluation and applications. Journal of the American Medical Informatics Association, 2010, 17(5):507–513.
9. Gurulingappa H, Hofmann-Apitius M, and Fluck J. Concept identification and assertion classification in patient health records. In Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data. 2010.
10. Scott Halgrim, Fei Xia, Imre Solti, Eithon Cadag, and Ozlem Uzuner. Extracting medication information from discharge summaries. In Proceedings of the NAACL HLT 2010 Second Louhi Workshop on Text and Data Mining of Health Documents, Louhi’10, 2010, pages 61–67, Stroudsburg, PA, USA. Association for Computational Linguistics.
11. Shaodian Zhang and Noemie Elhadad. Unsupervised biomedical named entity recognition: Experiments with clinical and biological texts. Journal of Biomedical Informatics, 2013, 46(6):1088 – 1098.
12. Asif Ekbal and Sriparna Saha. Stacked ensemble coupled with feature selection for biomedical entity extraction. Knowledge-Based Systems, 2013, 46(0):22 – 32.
13. H. L. Shashirekha and H. A. Nayel. A comparative study of segment representation for biomedical named entity recognition. In 2016 International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2016, pages 1046– 1052, Sept.
14. Sara Keretna, Chee Peng Lim, Doug Creighton, and Khaled Bashir Shaban. Enhancing medical named entity recognition with an extended segment representation technique. Computer Methods and Programs in Biomedicine, 2015, 119(2):88 – 100.
15. Yonghui Wu, Min Jiang, Jianbo Lei, and Hua Xu. Named entity recognition in chinese clinical text using deep neural network. Studies in health technology and informatics, 2015, 216:624.
16. Giorgi,J.M. and Bader,G.D. Transfer learning for biomedical named entity recognition with neural networks. Bioinformatics, 2018, 34, 4087.
17. Habibi,M. et al. Deep learning with word embeddings improves bio- medical named entity recognition. Bioinformatics, 2017,33, i37–i48.
18. Wang,X. et al. Cross-type biomedical named entity recognition with deep multi-task learning. Bioinformatics, 2018, 35, 1745–1752.
19. Yoon,W. et al. Collabonet: collaboration of deep neural networks for biomedical named entity recognition. BMC Bioinformatics, 2019, 20, 249.
20. VigiAccess. Глобальная база данных Всемирной организации здравоохранения (ВОЗ). https://vigiaccess.org. 2024.
21. МКБ-10. Международная классификация болезней 10-го пересмотра. https://mkb-10.com. 2024.
22. Регистр лекарственных средств. Энциклопедия лекарств РЛС. https://www.rlsnet.ru. 2024.
23. Razdel. rule-based system for Russian sentence and word tokenization. https://github.com/natasha/razdel. 2024.
24. Б.И. Гельцер, Т.А. Горбач, В.В. Грибова, О.В. Карпик, Э.С. Клышинский, Н.А. Кочеткова, Д.Б. Окунь, М.В. Петряева, К.И. Шахгельдян, Синтаксический анализ текстов предметной области при помощи онтологии. Труды ИСП РАН, 2021, том 33, вып. 4.
25. Sebastian Raschka, Model Evaluation. Model Selection, and Algorithm Selection in Machine Learning. University of Wisconsin–Madison Department of Statistics November 2018.
26. Gaël Varoquaux, Olivier Colliot. Evaluating machine learning models and their diagnostic value. HAL open science Submitted on 21 Jan 2023 (v4), last revised 20 Apr 2023 (v5).
27. Pedregosa F, et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 2011. 12(85):2825–2830.
28. Vickers AJ, Van Calster B, Steyerberg EW. Net benefit approaches to the evaluation of prediction models, molecular markers, and diagnostic tests, 2016, bmj 352.
29. Powers D Evaluation: From precision, recall and f-measure to roc, informedness, markedness & correlation. Journal of Machine Learning Technologies. 2011. 2(1):37–63.
30. Perez-Lebel A, Morvan ML, Varoquaux G. Beyond calibration: estimating the grouping loss of modern neural networks. ICLR. 2023.
Рецензия
Для цитирования:
ТИТОВ Ю.П., КИЛЬМИШКИН Н.В., КУБРАКОВ Д.Д., ИВАНОВА П.М. Поиск именованных сущностей в инструкциях по медицинскому применению лекарственных средств с использованием глубокого обучения и методов обработки естественного языка. Труды Института системного программирования РАН. 2025;37(2):217-236. https://doi.org/10.15514/ISPRAS-2025-37(2)-16
For citation:
TITOV Yu.P., KILMISHKIN N.V., KUBRAKOV D.D., IVANOVA P.M. Use of Deep Learning and Natural Language Processing Techniques for Searching Named Entities in the Medical Instructions for Use of Drugs. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(2):217-236. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(2)-16