Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы
https://doi.org/10.15514/ISPRAS-2025-37(2)-20
Аннотация
Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.
Об авторах
Данил Сергеевич СЕРЕНКОРоссия
Является студентом кафедры математического моделирования и искусственного интеллекта РУДН имени Патриса Лумумбы, научным сотрудником Федерального исследовательского центра "Информатика и управление" Российской академии наук (ФИЦ ИУ РАН). Область научных интересов – искусственный интеллект, информационный поиск.
Егор Дмитриевич ТЕРЕНТЬЕВ
Россия
Является студентом кафедры математического моделирования и искусственного интеллекта РУДН имени Патриса Лумумбы, научным сотрудником Федерального исследовательского центра "Информатика и управление" Российской академии наук (ФИЦ ИУ РАН). Область научных интересов – искусственный интеллект, информационный поиск.
Денис Владимирович ЗУБАРЕВ
Россия
Является научным сотрудником Федерального исследовательского центра "Информатика и управление" Российской академии наук (ФИЦ ИУ РАН). Область научных интересов – искусственный интеллект, информационный поиск, поиск текстовых заимствований.
Илья Владимирович СОЧЕНКОВ
Россия
Кандидат физико-математически наук, ведущий научный сотрудник ФИЦ ИУ РАН, ведущий научный сотрудник ИСП РАН, ведущий научный сотрудник ИППИ РАН. Сфера научных интересов: обработка естественного языка, методы информационного поиска, обработка больших массивов текстовой информации.
Список литературы
1. Jin, X., Wah, B. W., Cheng, X., & Wang, Y. (2015). Significance and Challenges of Big Data Research. Big Data Research, 2(2), 59–64. doi:10.1016/j.bdr.2015.01.006.
2. Китаев, Е. Л., & Скорнякова, Р. Ю. (2019). StructScraper--инструмент для динамического включения в контент веб-страницы семантических данных внешних веб-ресурсов. Научный Сервис в Сети Интернет, 21, 424–431.
3. Weichselbraun, A., Brasoveanu, A. M. P., Waldvogel, R., & Odoni, F. (2020). Harvest - An Open Source Toolkit for Extracting Posts and Post Metadata from Web Forums. 2020 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), 438–444. doi:10.1109/WIIAT50758.2020.00065.
4. Choi, W., Yoon, H.-M., Hyun, M.-H., Lee, H.-J., Seol, J.-W., Lee, K. D., Yoon, Y. J., Kong, H. (2023). Building an annotated corpus for automatic metadata extraction from multilingual journal article references. PloS One, 18(1), e0280637.
5. Patnaik, S., Babu, C., & Bhave, M. (08 2021). Intelligent and Adaptive Web Data Extraction System Using Convolutional and Long Short-Term Memory Deep Learning Networks. Big Data Mining and Analytics, 4, 279–297. doi:10.26599/BDMA.2021.9020012.
6. Yu, L., Li, Y., Zeng, Q., Sun, Y., Bian, Y., & He, W. (2020). Summary of web crawler technology research. Journal of Physics: Conference Series, 1449(1), 012036. doi:10.1088/1742-6596/1449/1/012036.
7. Назаренко Г. И., Плотникова В. А., Смирнов И. В., Соченков И. В., Тихомиров И. А. (2010). Программные средства создания и наполнения полнотекстовых электронных библиотек. Электронные Библиотеки: Перспективные Методы и Технологии, Электронные Коллекции: XII Всероссийская Научная Конференция RCDL.
8. Najork, M. (2009). Web Crawler Architecture.
9. Kausar, M. A., Dhaka, V. S., & Singh, S. K. (2013). Web crawler: a review. International Journal of Computer Applications, 63(2), 31–36.
10. ElAraby, M. E., Moftah, H. M., Abuelenin, S. M., & Rashad, M. Z. (2018). Elastic web crawler service-oriented architecture over cloud computing. Arabian Journal for Science and Engineering, 43(12), 8111– 8126.
11. ElAraby, M. E., Sakre, M. M., Rashad, M. Z., & Nomir, O. (2012). Crawler architecture using grid computing. International Journal of Computer Science & Information Technology, 4(3), 113.
12. Якубчик В. С., Попов О. Р., Крамаров С. О. (2023). Специализированные web-краулеры: на пути к семантическим моделям организации информационного поиска. Universum: Технические Науки: Электрон. Научн. Журн., 4(109). Available at: https://7universum.com/ru/tech/archive/item/15315.
13. Печников А. А., Сотенко Е. М. (2017). Программы-краулеры для сбора данных о представительских сайтах заданной предметной области – аналитический обзор. Современные Наукоемкие Технологии, (2), 58–62. Available at: https://top-technologies.ru/ru/article/view?id=36585.
14. The most-comprehensive AI-powered DevSecOps platform. GitLab. Available at: https://about.gitlab.com/, accessed 31.03.2025.
15. Fast and reliable end-to-end testing for modern web apps. Playwright Python. Available at: https://playwright.dev/, accessed 31.03.2025.
16. PostgreSQL: The world's most advanced open source database. Available at: https://www.postgresql.org/, accessed 31.03.2025.
17. Digital Object Identifier. Available at: https://www.doi.org/, accessed 31.03.2025.
18. ArangoDB: Multi-Model Database for Your Modern Apps. Available at: https://arangodb.com/, accessed 31.03.2025.
19. MarkupLM. Available at: https://huggingface.co/docs/transformers/model_doc/markuplm, accessed 31.03.2025.
20. Li, J., Xu, Y., Cui, L., & Wei, F. (2022). MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding. arXiv [Cs.CL]. Available at: http://arxiv.org/abs/2110.08518.
21. Неопоиск. Available at: https://promo.neopoisk.ru/about, accessed 31.03.2025.
Рецензия
Для цитирования:
СЕРЕНКО Д.С., ТЕРЕНТЬЕВ Е.Д., ЗУБАРЕВ Д.В., СОЧЕНКОВ И.В. Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы. Труды Института системного программирования РАН. 2025;37(2):263-280. https://doi.org/10.15514/ISPRAS-2025-37(2)-20
For citation:
SERENKO D.S., TERENTEV E.D., ZUBAREV D.V., SOCHENKOV I.V. Architecture of an Information Collection and Extraction System for an Intelligent Search and Analytical Platform. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(2):263-280. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(2)-20