Preview

Труды Института системного программирования РАН

Расширенный поиск

Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке

https://doi.org/10.15514/ISPRAS-2018-30(6)-12

Полный текст:

Аннотация

Поиск и классификация текстовых документов применяются во многих практических приложениях и являются одними из ключевых задач информационного поиска. Методы поиска и классификации текстов находят применение в поисковых системах, электронных библиотеках и каталогах, системах сбора и обработки информации, платформах для онлайн-обучения и многих других. Существует большое количество частных применений указанных методов, однако каждая подобная практическая задача отличается, как правило, слабой формализуемостью, узкой предметностью и, следовательно, требует индивидуального изучения и собственного подхода к решению. В данной работе рассматривается задача автоматического поиска и типизации текстовых фрагментов, содержащих биографическую информацию. Ключевой проблемой при решении указанной задачи является проведение мультиклассовой классификации текстовых фрагментов в зависимости от наличия и типа содержащейся в них биографической информации. Проведя обзор научной литературы по рассматриваемому вопросу, авторы сделали вывод о перспективности и широте применения нейросетевых методов для решения подобных задач. Исходя из данного вывода, в работе проведено сравнение различных архитектур нейросетевых моделей, а также основных способов представления текстов (Bag-of-Words, Bag-of-Ngrams, TF-IDF, Word2Vec) на предварительно собранном и размеченном корпусе биографических текстов. В статье описываются этапы подготовки обучающего множества текстовых фрагментов для обучения моделей, способы представления текстов и методы классификации, выбранные для решения задачи. Также приводятся результаты мультиклассовой классификации текстовых фрагментов и показаны примеры автоматического поиска фрагментов, содержащих биографическую информацию, в текстах, не участвовавших в процессе обучения моделей.

Об авторе

А. В. Глазкова
Тюменский государственный университет
Россия


Список литературы

1. . Терпугова А. В. Биографический текст как объект лингвистического исследования. Автореферат дис. кандидата филологических наук. Ин-т языкознания РАН, Москва, 2011, 26 стр.

2. . Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press, 2008. 506 p.

3. . Адамович И. М., Волков О. И. Система извлечения биографических фактов из текстов исторической направленности. Системы и средства информатики, том 25, вып. 3, 2015 г., стр. 235-250.

4. . Cybulska, A., Vossen, P. Historical Event Extraction From Text. In Proc. of 5th ACL-HLT Workshop on Language Technology on Cultural Heritage, 2011, pp. 39–43.

5. . Hienert D., Luciano F. Extraction of Historical Events from Wikipedia. Lecture Notes in Computer Science, vol. 7540, 2015, pp. 16–28.

6. . Santos C., Xiang B., Zhou B. Classifying Relations by Ranking with Convolutional Neural Networks. In Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 626-634.

7. . Meerkamp P., Zhou Z. Information Extraction with Character-level Neural Networks and Free Noisy Supervision. Cornell University Library [электронный ресурс]. 2016. URL: https://arxiv.org/abs/1612.04118 (дата обращения 21.09.2018).

8. . Homma Y., Sadamitsu K., Nishida K., Higashinaka R., Asano H., Matsuo Y. A Hierarchical Neural Network for Information Extraction of Product Attribute and Condition Sentences. In Proc. of the Open Knowledge Base and Question Answering (OKBQA), 2016, pp. 21-29.

9. . Arkhipenko K., Kozlov I., Trofimovich J., Skorniakov K., Gomzin A., Turdakov D. Comparison of Neural Architectures for Sentiment Analysis of Russian Tweets. In Proc. of the International Conference “Dialogue 2016”, 2016, pp. 50-58.

10. . Андрианов И.А., Майоров В.Д., Турдаков Д.Ю. Современные методы аспектно-ориентированного анализа эмоциональной окраски. Труды ИСП РАН, том 27, вып. 5, 2015 г., стр. 5-22. DOI: 10.15514/ISPRAS-2015-27(5)-1.

11. . Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов. Труды ИСП РАН, том 29, вып. 2, 2017 г., стр. 161-200. DOI: 10.15514/ISPRAS-2017-29(2)-6.

12. . Ravuri S., Stolcke A. A Comparative Study of Recurrent Neural Network Models for Lexical Domain Classification. In Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 6075-6079

13. . Yogatama D., Dyer C., Ling W., Blunsom P. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898, 2017.

14. . Chen G., Ye D., Xing Z., Chen J., Cambria E. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization. In Proc. of the International Joint Conference on Neural Networks (IJCNN), 2017, pp. 2377-2383.

15. . Валгина Н.С., Розенталь Д.Э., Фомина М.И. Современный русский язык. Учебник. 6-е изд., перераб. и доп. Москва, Логос, 2002, 528 стр.

16. . Википедия. Свободная энциклопедия. URL: https://ru.wikipedia.org/ (дата обращения: 26.11.2018).

17. . Глазкова А. В. Формирование текстового корпуса для автоматического извлечения биографических фактов из русскоязычного текста. Современные информационные технологии и ИТ-образование, том 14, вып. 4, 2018 г.

18. . Корпус биографических текстов, URL https://sites.google.com/site/utcorpus/ (дата обращения: 01.12.2018).

19. . Морфологический анализатор pymorphy2, URL: https://pymorphy2.readthedocs.io/en/latest/ (дата обращения: 01.12.2018).

20. . Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed representations of words and phrases and their compositionality. In Proc. of the 26th International Conference on Neural Information Processing Systems, vol. 2, 2013, pp. 3111-3119.

21. . Hochreiter S., Schmidhuber J. Long Short-term Memory. Neural computation, vol. 9, № 8, 1997, pp. 1735-1780.

22. . Bai T., Dou H. J., Zhao W. X., Yang D. Y., Wen J. R. An Experimental Study of Text Representation Methods for Cross-Site Purchase Preference Prediction Using the Social Text Data. Journal of Computer Science and Technology, vol. 32, №. 4, 2017, pp. 828-842.

23. . Keras: The Python Deep Learning library. URL: https://keras.io/ (дата обращения: 17.11.2018).

24. . URL: https://github.com/oldaandozerskaya/biographical_samples.git (дата обращения: 27.12.2018).

25. . газета.ru. URL: https://www.gazeta.ru/ (дата обращения: 09.12.2018).


Для цитирования:


Глазкова А.В. Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке. Труды Института системного программирования РАН. 2018;30(6):221-236. https://doi.org/10.15514/ISPRAS-2018-30(6)-12

For citation:


Glazkova A.V. Automatic search for fragments containing biographical information in a natural language text. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2018;30(6):221-236. (In Russ.) https://doi.org/10.15514/ISPRAS-2018-30(6)-12

Просмотров: 173


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)