Preview

Труды Института системного программирования РАН

Расширенный поиск

Система управления заданиями автоматизированного сбора данных из сети Интернет

https://doi.org/10.15514/ISPRAS-2022-34(2)-9

Аннотация

Работа посвящена исследованию и разработке системы управления заданиями автоматизированного сбора данных из сети Интернет. Статья содержит описание реализованных методологий и повествует о созданных приемах взаимодействия с контейнерами, содержащими в себе приложения для сбора данных. В ходе работы были изучены и представлены существующие различные сервисы автоматизированного сбора данных из сети Интернет: готовые решения с открытым исходным кодом, облачные сервисы с обширным функционалом, а также собственное решение под управлением Kubernetes. В результате работы реализована и внедрена в платформу для анализа данных Talisman система управления заданиями, которая обеспечивает горизонтальную масштабируемость, изолированность окружения сборщиков и независимость от технологии их разработки.

Об авторах

Владимир Александрович ЛАЗАРЕВ
Институт системного программирования им. В.П. Иванникова РАН, Московский государственный университет им. М.В. Ломоносова
Россия

Студент магистратуры кафедры системного программирования МГУ, работает в ИСП РАН



Максим Игоревич ВАРЛАМОВ
Институт системного программирования им. В.П. Иванникова РАН
Россия

Научный сотрудник



Александр Константинович ЯЦКОВ
Институт системного программирования им. В.П. Иванникова РАН
Россия

Аспирант



Список литературы

1. ИСП РАН. Talisman: платформа для обработки данных. Доступно по ссылке: https://www.ispras.ru/technologies/talisman/ ISP RAS. Talisman: a data processing framework. Available at: https://www.ispras.ru/en/technologies/talisman/

2. Anand V. Saurkar, Kedar G. Pathare, Shweta A. Gode. An Overview on Web Scraping Techniques and Tools. International Journal on Future Revolution in Computer Science & Communication Engineering, vol. 4, no. 4, 2018, pp. 363 - 367

3. IST Research. Scrapy Cluster 1.3 Documentation. Available at: https://scrapy-cluster.readthedocs.io/en/dev/.

4. Scrapy group. Scrapyd. Available at: https://scrapyd.readthedocs.io/en/stable/.

5. ScrapyRT (Scrapy Realtime). Available at: https://github.com/scrapinghub/scrapyrt.

6. Ferrit. Available at: https://github.com/reggoodwin/ferrit.

7. Zyte. Web Scraping Cloud Hosting Data Extraction - Zyte. Available: https://www.zyte.com/scrapy-cloud/.

8. Web Scraper Cloud. Web Scraper Cloud | Web Scraper documentation. Available: https://webscraper.io/documentation/web-scraper-cloud.

9. Octopus Data Inc. Web Scraping Tool & Free Web Crawlers | Octoparse. Available at: https://www.octoparse.com/, 2022

10. data-ox.com. Web Data Scraping Company | DataOx. Available at: https://data-ox.com/.

11. The Kubernetes Authors. What is Kubernetes? Available at: https://kubernetes.io/docs/concepts/overview/what-is-kubernetes.

12. Docker Inc. Overview of Docker Compose. Available at: https://docs.docker.com/compose/.

13. Docker Inc. Swarm mode overview. Available at: https://docs.docker.com/engine/swarm/.

14. The Apache Mesos Software Foundation. Mesos Architecture. Available at: https://mesos.apache.org/documentation/latest/architecture/.

15. Isam Mashhour Al Jawarneh, Paolo Bellavista et al. Container Orchestration Engines: A Thorough Functional and Performance Comparison. In Proc. of the IEEE International Conference on Communications (ICC), 2019, pp. 1-6.


Рецензия

Для цитирования:


ЛАЗАРЕВ В.А., ВАРЛАМОВ М.И., ЯЦКОВ А.К. Система управления заданиями автоматизированного сбора данных из сети Интернет. Труды Института системного программирования РАН. 2022;34(2):111-122. https://doi.org/10.15514/ISPRAS-2022-34(2)-9

For citation:


LAZAREV V.A., VARLAMOV M.I., YATSKOV A.K. Job management system for automated data collection from the Internet. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):111-122. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-9



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)