Реализация функций управления задачами и ресурсами высокопроизводительной вычислительной системы в "СПО Супер-ЭВМ"
https://doi.org/10.15514/ISPRAS-2022-34(2)-13
Аннотация
В данной работе приводится общее описание программного обеспечения Slurm-ВНИИТФ, разработки ФГУП РФЯЦ-ВНИИТФ им. академ. Е.И. Забабахина, включая его архитектуру и возможности по управлению ресурсами и планированию прохождения задач на высокопроизводительных вычислительных системах, предназначенных для решения задач численного моделирования (ВВС). Проведенные в ходе многолетних работ, связанных с эксплуатацией ВВС, исследования, показывают, что базовых возможностей программного обеспечения Slurm (Simple linux utility for resource management) явно недостаточно для эффективного использования вычислительных ресурсов в крупных вычислительных центрах, поэтому авторами данной публикации предлагается усовершенствованная политика управления задачами и ресурсами, описываются модули расширения (плагины) к Slurm, разработанные в ФГУП РФЯЦ-ВНИИТФ им. академ. Е.И. Забабахина и реализующие эту политику.
Об авторах
Алексей Олегович ИГНАТЬЕВРоссия
Начальник лаборатории
Алексей Алексеевич КАЛИНИН
Россия
Начальник группы
Сергей Юрьевич МОКШИН
Россия
Начальник отдела
Список литературы
1. Игнатьев А.О., Мокшин С.Ю. Типовая архитектура высокопроизводительной вычислительной системы для решения задач численного моделирования, Препринт РФЯЦ-ВНИИТФ № 265, Снежинск, 2020 г., 21 с. / Ignatyev A.O., Mokshin S.Yu. Base architecture of the mathematical modelling HPC system, Preprint FSUE «RFNC-VNIITF named after Academ. E.I. Zababakhin» № 265, Snezhinsk, 2020, 21 p. (in Russian).
2. «СПО Супер-ЭВМ», Available at: http://vniitf.ru/article/spo-super-evm, accessed 01.04.2022 (in Russian).
3. Slurm workload manager, Available at: https://slurm.schedmd.com/documentation.html, accessed 01.04.2022.
4. MPI: The Message Passing Interface. Available at: http://parallel.ru/tech/tech_dev/mpi.html, accessed 01.06.2020.
5. The OpenMP API specification for parallel programming. Available at: https://www.openmp.org/, accessed 01.04.2022.
6. Maui Scheduler, Available at: https://github.com/TempleHPC/maui-scheduler, accessed 01.04.2022.
7. Moab Cluster Suite, Available at: https://adaptivecomputing.com/moab-hpc-suite/, accessed 01.04.2022.
8. Torque Resource Manager, Available at: https://adaptivecomputing.com/cherry-services/torque-resource-manager/, accessed 01.04.2022.
9. YAML, Available at: http://yaml.org /, accessed 01.04.2022.
Рецензия
Для цитирования:
ИГНАТЬЕВ А.О., КАЛИНИН А.А., МОКШИН С.Ю. Реализация функций управления задачами и ресурсами высокопроизводительной вычислительной системы в "СПО Супер-ЭВМ". Труды Института системного программирования РАН. 2022;34(2):159-178. https://doi.org/10.15514/ISPRAS-2022-34(2)-13
For citation:
IGNATYEV A.O., KALININ A.A., MOKSHIN S.Yu. Task and resources management function in HPC operation system «SPO Super-EVM». Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):159-178. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-13