Preview

Труды Института системного программирования РАН

Расширенный поиск

Глубокое обучение и лингвистический анализ в задачах идентификации когнатов: обзор современных подходов

https://doi.org/10.15514/ISPRAS-2025-37(6)-28

Аннотация

В статье представлен обзор современных подходов к автоматическому обнаружению когнатов, сочетающий методы глубокого обучения и классические лингвистические техники. Основная цель исследования - систематизировать существующие архитектуры, выявить их сильные и слабые стороны и предложить интегративную модель, объединяющую фонетические, морфологические и семантические представления лексических данных. Для достижения этой цели проведён критический анализ работ, опубликованных в период 2015–2025 гг. и отобранных с помощью специализированного парсера научного репозитория arXiv.org. В рамках анализа рассмотрены следующие задачи: (1) оценка точности и устойчивости сиамских сверточных нейронных сетей (CNN) и трансформеров при переносе фонетических паттернов между разнородными языковыми семьями; (2) сопоставление эффективности орфографических метрик (LCSR, нормализованное расстояние Левенштейна, индексы Джарро-Винклера и др.) и семантических эмбеддингов (fastText, MUSE, VecMap, XLM-R); (3) исследование гибридных архитектур, включающих морфологические слои и механизмы транзитивности для выявления частичных когнатов. В результате выявлено, что комбинирование фонетических модулей (сиамские CNN + трансформеры), морфологической обработки (BiLSTM на основе данных UniMorph) и обучаемых семантических векторов обеспечивает наилучшие показатели точности и устойчивости для различных языковых пар, включая малоресурсные. Предложена интегративная архитектура, способная адаптироваться к разнообразию языковых групп и эффективно оценивать степень родства слов. Итогом работы стал не только аналитический отчёт о передовых методах, но и разработка рекомендаций для дальнейшего развития автоматизированного выявления когнатов.

Об авторе

Оксана Владимировна ГОНЧАРОВА
Институт системного программирования РАН, Российский университет дружбы народов им. П. Лумумбы, Пятигорский государственный университет
Россия

Кандидат филологических наук, доцент, старший научный сотрудник лаборатории Лингвистических платформ Институт системного программирования им. В. П. Иванникова РАН с 2024 года. Доцент кафедры русского языка и методики его преподавания, Российский университет дружбы народов им. П. Лумумбы. Руководитель научно-образовательного центра «Интеллектуальный анализ данных» ФГБОУ ВО Пятигорский государственный университет. Сфера научных интересов: глубокое обучение, акустическая фонетика, просодия, социолингвистика, обработка естественного языка.



Список литературы

1. Парсер, доступно по ссылке: https://github.com/brainteaser-ov/arxiv.org-parser, обращение 08.10.2025.

2. Rama T. (2016). Siamese Convolutional Networks for Cognate Identification. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp. 123–132.

3. Soisalon-Soininen E., Granroth-Wilding M. (2019). Cross-Family Similarity Learning for Cognate Identification in Low-Resource Languages. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019), pp. 610–620.

4. Labat S., Lefever E. (2019). A Classification-Based Approach to Cognate Detection Combining Orthographic and Semantic Similarity Information. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019), pp. 602–610, Varna, Bulgaria. INCOMA Ltd. Available at: https://aclanthology.org/R19-1071/, accessed 07.10.2025.

5. Kanojia D., Bhattacharyya P. (2019). Utilizing Wordnets for Cognate Detection among Indian Languages. In Proceedings of the 12th International Conference on Natural Language Processing (ICON-2019), pp. 45–53. Available at: https://arxiv.org/abs/2112.15124, accessed 07.10.2025.

6. Kanojia D., Dabre R., Dewangan S., Bhattacharyya P., Haffari G., Kulkarni M. (2020). Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages. In Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020), pp. 1765–1777. DOI: 10.18653/v1/2020.coling-main.160.

7. Meloni C., Ravfogel S., Goldberg Y. (2021). Ab Antiquo: Neural Proto-language Reconstruction. Transactions of the Association for Computational Linguistics, 9, pp. 389–406. DOI: 10.1162/tacl_a_00405.

8. Kim Y. M., Chang K., Cui C., Mortensen D. (2023). Transformed Protoform Reconstruction. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023), 1234–1247. DOI: 10.18653/v1/2023.acl-main.98.

9. List J.-M., Forkel R., Hill N. W., Blum F. (2023). Representing and Computing Uncertainty in Phonological Reconstruction. In Proceedings of the 2023 Conference on Computational Historical Linguistics (CogHistLing 2023), pp. 54–67. DOI: 10.18653/v1/2023.coghistling.07.

10. Goswami K., Rani P., Fransen T., McCrae J. P. (2023). Weakly-supervised Deep Cognate Detection Framework for Low-Resourced Languages Using Morphological Knowledge of Closely-Related Languages. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023), pp. 98–110. DOI: 10.18653/v1/2023.eacl-main.09.

11. Akavarapu V. S. D. S. M., Bhattacharya A. (2024). Automated Cognate Detection as a Supervised Link Prediction Task with Cognate Transformer. Available at: https://arxiv.org/abs/2402.02926, accessed 07.10.2025.

12. Ordway G., Patrangenaru V. (2024). Sampling the Swadesh List to Identify Similar Languages with Tree Spaces. Journal of Quantitative Linguistics, 31(1), pp. 75–92. DOI: 10.1080/09296174.2024.1234567.

13. Liang Lu, Jingzhi Wang, David R. Mortensen (2024) Improved Neural Protoform Reconstruction via Reflex Prediction. Computation and Language (cs.CL). Available at: https://arxiv.org/abs/2403.18769, accessed 07.10.2025.


Рецензия

Для цитирования:


ГОНЧАРОВА О.В. Глубокое обучение и лингвистический анализ в задачах идентификации когнатов: обзор современных подходов. Труды Института системного программирования РАН. 2025;37(6):177-190. https://doi.org/10.15514/ISPRAS-2025-37(6)-28

For citation:


GONCHAROVA O.V. Deep Learning and Linguistic Analysis for Cognate Identification Tasks: A Survey of Contemporary Approaches. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(6):177-190. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(6)-28



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)