Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников
https://doi.org/10.15514/ISPRAS-2023-35(2)-5
Аннотация
Представлена оригинальная информационная система «ферма данных». Сегодня успешное применение алгоритмов искусственного интеллекта, прежде всего глубокого обучения на основе нейронных сетей, практически полностью зависит от наличия данных. И чем больше объем этих данных, тем лучше результаты работы алгоритмов. Хорошо известны примеры таких алгоритмов от Facebook, Google, Microsoft, Yandex и др. Данные должны содержать как обучающую выборку, так и тестируемую. Причем, данные должны быть хорошего качества и обладать определенной структурой, в идеале быть размеченными, чтобы алгоритмы обучения работали адекватно. Это представляет серьезную проблему, требующую огромных вычислительных и человеческих ресурсов. Именно решению этой проблемы посвящена данная статья. На сегодня ферма данных представляет из себя довольно сложную информационную систему, построенную по модульному принципу, схожую с известным конструктором «Лего». Отдельными модулями системы являются различные современные алгоритмы, технологии и целые библиотеки искусственного интеллекта, а все вместе они призваны автоматизировать процесс получения и структурирования качественных больших данных в различных предметных областях. Система была протестирована на данных по COVID-19 в регионах России и странах мира. Кроме того, был разработан удобный интерфейс визуализации данных, собранных и обработанных на ферме. Это дает возможность проводить наглядные численные эксперименты компьютерного моделирования и сравнивать их с реальными данными, превращая ферму в интеллектуальную информационную систему поддержки принятия решений.
Ключевые слова
Об авторах
Сергей Павлович ЛЕВАШКИНРоссия
Профессор, кандидат физико-математических наук, PhD in Computer Science, действительный член Академии наук Мексики, заведующий научно-исследовательской лабораторией искусственного интеллекта
Константин Николаевич ИВАНОВ
Россия
Магистрант, инженер НИЛ ИИ ПГУТИ
Сергей Владимирович КУШУКОВ
Россия
Магистрант, инженер НИЛ ИИ ПГУТИ
Список литературы
1. Müller A.C., Guido S. Introduction to Machine Learning with Python: A Guide for Data Scientists. O'Reilly Media, 2016, 398 p.
2. Куцев Р. Разметка данных в машинном обучении: процесс, разновидности и рекомендации / Kutsev R. Data labeling in machine learning: process, variations and recommendations. Available at: https://habr.com/ru/company/ods/blog/327242/, accessed March 14, 2023 (in Russian).
3. Lucas T.W., Kelton W.D. et al, Changing the Paradigm: Simulation, Now a Method of First Resort. Naval Research Logistics, vol. 62, issue 4, 2015, pp. 293–305.
4. A. Kusiak, Data Farming: A Primer. International Journal of Operations Research, vol. 2, issue 2, 2005, pp. 48-57.
5. Экспериментальный образец программного комплекса «Автоматическая интеллектуальная система сбора данных из различных интернет источников» / Experimental sample of the software complex «Automatic intelligent system for collecting data from various Internet sources». Available at: https://actcognitive.org/files/aicrawler_2_rukovodstvo_operatora.pdf, accessed April 14, 2023 (in Russian).)
6. Bannister K. Understanding Sentiment Analysis: What It Is & Why It’s Used. Available at: https://www.brandwatch.com/blog/understanding-sentiment-analysis/, accessed April 14, 2023.
7. Отчет о патентных исследованиях по тематике «ферма данных» / Patent Research Report on Data Farm. Available at: https://ai.psuti.ru/docs/Patent_search.pdf, accessed April 14, 2023.
8. Левашкин С.П., Агапов С.Н. и др, Исследование адаптивно-компартментной модели распространения КОВИД-19 в некоторых регионах РФ методами оптимизации, Математическая биология и биоинформатика, том 16, вып. 1, 2021 г., стр. 136-151 / Levashkin S.P., Agapov S.N. et al. Study of SEIRD Adaptive-Compartmental Model of COVID-19 Epidemic Spread in Russian Federation Using Optimization Methods. Mathematical Biology and Bioinformatics, vol. 16, issue 1, 2021, pp. 136-151.
9. Проект 'ФЕРМА ДАННЫХ'. Визуализация данных. Научно-исследовательская лаборатория искусственного интеллекта / Project 'DATA FARM'. Artificial Intelligence Research Laboratory. Available at: https://lab-ai.ru/dashboard, accessed April 14, 2023.
10. Левашкин С.П., Захарова О.И. и др. Модульная система сбора данных. Свидетельство о регистрации программы для ЭВМ, № 2022617725. Дата государственной регистрации в реестре программ для ЭВМ 25.04.2022 / Levashkin S.P., Zakharova O.I. et al. Modular data collection system. Certificate of registration of a computer program, № 2022617725. Date of state registration in the register of computer programs 25.04.2022 (in Russian).
Рецензия
Для цитирования:
ЛЕВАШКИН С.П., ИВАНОВ К.Н., КУШУКОВ С.В. Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников. Труды Института системного программирования РАН. 2023;35(2):57-72. https://doi.org/10.15514/ISPRAS-2023-35(2)-5
For citation:
LEVASHKIN S.P., IVANOV K.N., KUSHUKOV S.V. Data farm: Information system for collecting, storing and processing unstructured data from heterogeneous sources. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(2):57-72. (In Russ.) https://doi.org/10.15514/ISPRAS-2023-35(2)-5