Preview

Труды Института системного программирования РАН

Расширенный поиск

Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников

https://doi.org/10.15514/ISPRAS-2023-35(2)-5

Аннотация

Представлена оригинальная информационная система «ферма данных». Сегодня успешное применение алгоритмов искусственного интеллекта, прежде всего глубокого обучения на основе нейронных сетей, практически полностью зависит от наличия данных. И чем больше объем этих данных, тем лучше результаты работы алгоритмов. Хорошо известны примеры таких алгоритмов от Facebook, Google, Microsoft, Yandex и др. Данные должны содержать как обучающую выборку, так и тестируемую. Причем, данные должны быть хорошего качества и обладать определенной структурой, в идеале быть размеченными, чтобы алгоритмы обучения работали адекватно. Это представляет серьезную проблему, требующую огромных вычислительных и человеческих ресурсов. Именно решению этой проблемы посвящена данная статья. На сегодня ферма данных представляет из себя довольно сложную информационную систему, построенную по модульному принципу, схожую с известным конструктором «Лего». Отдельными модулями системы являются различные современные алгоритмы, технологии и целые библиотеки искусственного интеллекта, а все вместе они призваны автоматизировать процесс получения и структурирования качественных больших данных в различных предметных областях. Система была протестирована на данных по COVID-19 в регионах России и странах мира. Кроме того, был разработан удобный интерфейс визуализации данных, собранных и обработанных на ферме. Это дает возможность проводить наглядные численные эксперименты компьютерного моделирования и сравнивать их с реальными данными, превращая ферму в интеллектуальную информационную систему поддержки принятия решений.

Об авторах

Сергей Павлович ЛЕВАШКИН
Поволжский государственный университет телекоммуникаций и информатики
Россия

Профессор, кандидат физико-математических наук, PhD in Computer Science, действительный член Академии наук Мексики, заведующий научно-исследовательской лабораторией искусственного интеллекта



Константин Николаевич ИВАНОВ
Поволжский государственный университет телекоммуникаций и информатики
Россия

Магистрант, инженер НИЛ ИИ ПГУТИ



Сергей Владимирович КУШУКОВ
Поволжский государственный университет телекоммуникаций и информатики
Россия

Магистрант, инженер НИЛ ИИ ПГУТИ



Список литературы

1. Müller A.C., Guido S. Introduction to Machine Learning with Python: A Guide for Data Scientists. ‎ O'Reilly Media, 2016, 398 p.

2. Куцев Р. Разметка данных в машинном обучении: процесс, разновидности и рекомендации / Kutsev R. Data labeling in machine learning: process, variations and recommendations. Available at: https://habr.com/ru/company/ods/blog/327242/, accessed March 14, 2023 (in Russian).

3. Lucas T.W., Kelton W.D. et al, Changing the Paradigm: Simulation, Now a Method of First Resort. Naval Research Logistics, vol. 62, issue 4, 2015, pp. 293–305.

4. A. Kusiak, Data Farming: A Primer. International Journal of Operations Research, vol. 2, issue 2, 2005, pp. 48-57.

5. Экспериментальный образец программного комплекса «Автоматическая интеллектуальная система сбора данных из различных интернет источников» / Experimental sample of the software complex «Automatic intelligent system for collecting data from various Internet sources». Available at: https://actcognitive.org/files/aicrawler_2_rukovodstvo_operatora.pdf, accessed April 14, 2023 (in Russian).)

6. Bannister K. Understanding Sentiment Analysis: What It Is & Why It’s Used. Available at: https://www.brandwatch.com/blog/understanding-sentiment-analysis/, accessed April 14, 2023.

7. Отчет о патентных исследованиях по тематике «ферма данных» / Patent Research Report on Data Farm. Available at: https://ai.psuti.ru/docs/Patent_search.pdf, accessed April 14, 2023.

8. Левашкин С.П., Агапов С.Н. и др, Исследование адаптивно-компартментной модели распространения КОВИД-19 в некоторых регионах РФ методами оптимизации, Математическая биология и биоинформатика, том 16, вып. 1, 2021 г., стр. 136-151 / Levashkin S.P., Agapov S.N. et al. Study of SEIRD Adaptive-Compartmental Model of COVID-19 Epidemic Spread in Russian Federation Using Optimization Methods. Mathematical Biology and Bioinformatics, vol. 16, issue 1, 2021, pp. 136-151.

9. Проект 'ФЕРМА ДАННЫХ'. Визуализация данных. Научно-исследовательская лаборатория искусственного интеллекта / Project 'DATA FARM'. Artificial Intelligence Research Laboratory. Available at: https://lab-ai.ru/dashboard, accessed April 14, 2023.

10. Левашкин С.П., Захарова О.И. и др. Модульная система сбора данных. Свидетельство о регистрации программы для ЭВМ, № 2022617725. Дата государственной регистрации в реестре программ для ЭВМ 25.04.2022 / Levashkin S.P., Zakharova O.I. et al. Modular data collection system. Certificate of registration of a computer program, № 2022617725. Date of state registration in the register of computer programs 25.04.2022 (in Russian).


Рецензия

Для цитирования:


ЛЕВАШКИН С.П., ИВАНОВ К.Н., КУШУКОВ С.В. Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников. Труды Института системного программирования РАН. 2023;35(2):57-72. https://doi.org/10.15514/ISPRAS-2023-35(2)-5

For citation:


LEVASHKIN S.P., IVANOV K.N., KUSHUKOV S.V. Data farm: Information system for collecting, storing and processing unstructured data from heterogeneous sources. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(2):57-72. (In Russ.) https://doi.org/10.15514/ISPRAS-2023-35(2)-5



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)