1. Введение
Консорциум «Частицы, Вселенная, Ядра и Адроны для Национальной исследовательской инфраструктуры данных» (PUNCH4NFDI) – это немецкий консорциум, финансируемый Немецким научно-исследовательским сообществом (DFG). Он объединяет около 9000 ученых из сообществ физики частиц, астрофизики, астрочастиц, адронной и ядерной физики. Основная цель консорциума – создание федеративной платформы научных данных, соответствующей принципам FAIR (находимость, доступность, совместимость, повторное использование). Эта платформа призвана обеспечить единый доступ к разнообразным и гетерогенным вычислительным и хранилищным ресурсам, предоставленным его участниками по всей Германии, решая общую задачу анализа экспоненциально растущих объемов данных с помощью сложных алгоритмов.
2. Федеративная гетерогенная вычислительная инфраструктура – Compute4PUNCH
Концепция Compute4PUNCH решает задачу обеспечения бесшовного доступа к широкому спектру предоставленных в натуральной форме ресурсов для высокопроизводительных вычислений (HPC), вычислений с высокой пропускной способностью (HTC) и облачных ресурсов. Эти ресурсы различаются архитектурой, ОС, программным обеспечением и системами аутентификации, уже функционируют и используются совместно, что требует ненавязчивого подхода к интеграции.
2.1 Основная архитектура и технологии
Федерация построена на основе наложенной пакетной системы на базе HTCondor. Мета-планировщик ресурсов COBalD/TARDIS динамически и прозрачно интегрирует гетерогенные ресурсы в этот единый пул. Инфраструктура аутентификации и авторизации (AAI) на основе токенов обеспечивает стандартизированный доступ, сводя к минимуму изменения, требуемые на стороне поставщиков ресурсов.
2.2 Доступ и пользовательский интерфейс
Точки входа для пользователей включают традиционные узлы входа (login nodes) и сервис JupyterHub, предлагая гибкие интерфейсы для работы с федеративным ландшафтом ресурсов.
2.3 Предоставление программного окружения
Для удовлетворения разнообразных программных потребностей инфраструктура использует технологии контейнеризации (например, Docker, Singularity) и виртуальную файловую систему CERN (CVMFS) для масштабируемой, распределенной доставки специализированных программных стеков сообществ.
3. Федеративная инфраструктура хранения данных – Storage4PUNCH
Параллельно с вычислительной инфраструктурой, концепция Storage4PUNCH объединяет в федерацию системы хранения данных, предоставленные сообществами, в основном на базе технологий dCache и XRootD, хорошо зарекомендовавших себя в физике высоких энергий (HEP).
3.1 Федерация хранилищ и технологии
Федерация создает общее пространство имен и уровень доступа к географически распределенным ресурсам хранения, используя протоколы и методы, проверенные в крупных коллаборациях, таких как CERN.
3.2 Кэширование и интеграция метаданных
В рамках проекта оцениваются существующие технологии для интеллектуального кэширования данных и обработки метаданных, чтобы обеспечить более глубокую интеграцию и более эффективное определение местоположения и доступ к данным.
4. Технические детали и математический аппарат
Ключевая задача планирования может быть смоделирована как проблема оптимизации ресурсов. Пусть $R = \{r_1, r_2, ..., r_n\}$ представляет множество гетерогенных ресурсов, каждый из которых имеет атрибуты, такие как архитектура, доступные ядра $c_i$, память $m_i$ и время ожидания в очереди $w_i$. Пусть $J = \{j_1, j_2, ..., j_m\}$ представляет задания с требованиями $\hat{c}_j, \hat{m}_j$.
Мета-планировщик (COBalD/TARDIS) стремится максимизировать общую полезность или пропускную способность. Упрощенная целевая функция для размещения заданий может заключаться в минимизации общего времени выполнения (makespan) или максимизации использования ресурсов с учетом ограничений:
$\text{Минимизировать } \max_{r \in R} (\text{completionTime}(r))$
при условиях: $\sum_{j \in J_r} \hat{c}_j \leq c_r \quad \text{и} \quad \sum_{j \in J_r} \hat{m}_j \leq m_r \quad \forall r \in R$
где $J_r$ – множество заданий, назначенных ресурсу $r$. Динамический характер обрабатывается TARDIS, который «обманывает» HTCondor, заставляя его видеть удаленные ресурсы как часть своего локального пула.
5. Экспериментальные результаты и статус прототипа
В статье сообщается о текущем статусе и первых опытах работы с научными приложениями на доступных прототипах. Хотя конкретные показатели бенчмарков в предоставленном отрывке не детализированы, подразумевается успешное выполнение реальных научных рабочих нагрузок. Продемонстрирована возможность интеграции HTCondor с COBalD/TARDIS для динамического объединения ресурсов из различных административных доменов. Протестирован первоначальный доступ пользователей через JupyterHub и AAI на основе токенов, что подтвердило концепцию единой точки входа. Использование CVMFS было проверено для доставки необходимых программных сред по всей федеративной инфраструктуре.
Концептуальная архитектурная диаграмма: Архитектуру системы можно визуализировать как многоуровневую модель. Верхний Уровень доступа пользователей (JupyterHub, узлы входа) соединяется с Уровнем федерации и планирования (HTCondor + наложение COBalD/TARDIS). Этот уровень находится над Уровнем абстракции ресурсов (токен AAI, контейнеры/CVMFS), который, в свою очередь, взаимодействует с разнообразным Уровнем физических ресурсов, включающим HPC-кластеры, HTC-фермы и облачные инстансы различных учреждений. Доступ к данным аналогичным образом проходит от пользователей через уровень федерации Storage4PUNCH к базовым системам хранения dCache и XRootD.
6. Фреймворк анализа: концептуальный кейс
Рассмотрим анализ в области многоканальной астрофизики, направленный на поиск нейтринных аналогов гамма-всплесков. Рабочий процесс включает:
- Обнаружение данных: Исследователь использует федеративный каталог метаданных (находящийся в оценке в рамках Storage4PUNCH) для поиска соответствующих данных о событиях нейтрино от IceCube и данных гамма-излучения от Fermi-LAT, хранящихся в экземплярах dCache в DESY и Билефельде.
- Отправка рабочего процесса: Через интерфейс JupyterHub исследователь определяет анализ с перебором параметров. Указываются требования к заданию (ПО: Python, набор программного обеспечения IceCube через CVMFS; вычисления: 1000 CPU-часов).
- Оркестрация: Наложенная система HTCondor под управлением COBalD/TARDIS динамически сопоставляет и отправляет сотни заданий на доступные слоты в ресурсах HPC KIT, HTC Бонна и облачных ресурсах. Токен AAI обеспечивает бесшовную аутентификацию.
- Выполнение и доступ к данным: Задания загружают программное обеспечение из CVMFS, читают входные данные напрямую из федеративного хранилища через шлюзы XRootD и записывают промежуточные результаты во временное пространство хранения.
- Агрегация результатов: Итоговые результаты агрегируются и записываются обратно в постоянное, соответствующее принципам FAIR хранилище в рамках федерации Storage4PUNCH.
Этот кейс демонстрирует ценностное предложение: ученый взаимодействует с единой, целостной системой, чтобы использовать распределенные по стране гетерогенные ресурсы, не управляя при этом лежащей в основе сложностью.
7. Перспективы применения и направления развития
Совместная инфраструктура Compute4PUNCH и Storage4PUNCH имеет значительный потенциал за пределами первоначальных сообществ PUNCH:
- Междоменная федерация: Модель может быть расширена на другие консорциумы NFDI или инициативы Европейского облака открытой науки (EOSC), создавая истинную общеевропейскую федеративную инфраструктуру.
- Интеграция периферийных вычислений: Для таких областей, как радиоастрономия или мониторинг детекторов, логичным следующим шагом может стать интеграция периферийных вычислительных ресурсов вблизи датчиков.
- Поддержка рабочих нагрузок ИИ/МО: Улучшение планировщика для нативной поддержки ресурсов GPU/акселераторов и фреймворков, таких как Kubernetes, для задач обучения машинному обучению в крупном масштабе.
- Продвинутое управление данными: Более глубокая интеграция интеллектуального размещения данных, управления жизненным циклом и активных каталогов метаданных для оптимизации рабочих процессов, интенсивно использующих данные.
- Гибридные квантовые вычисления: По мере развития квантовых вычислений федерация могла бы включать квантовые процессоры в качестве специализированных ресурсов для определенных этапов алгоритмов.
Успех этой федерации будет зависеть от устойчивого финансирования, операционной надежности и продолжающейся поддержки сообществом федеративной модели в противовес локальной оптимизации.
8. Ссылки
- Консорциум PUNCH4NFDI. «PUNCH4NFDI – Частицы, Вселенная, Ядра и Адроны для NFDI». Белая книга, 2021.
- Thain, D., Tannenbaum, T., & Livny, M. «Распределенные вычисления на практике: опыт Condor». Concurrency and Computation: Practice and Experience, 17(2-4), 323-356, 2005.
- Blomer, J., et al. «CernVM-FS: доставка научного программного обеспечения на глобально распределенные вычислительные ресурсы». Journal of Physics: Conference Series, 396(5), 052018, 2012.
- Fuhrmann, P., & Gulzow, V. «dCache, система хранения для будущего». В European Conference on Parallel Processing (стр. 1106-1113). Springer, Berlin, Heidelberg, 2006.
- Коллаборация XRootD. «XRootD – Высокомасштабируемая архитектура для доступа к данным». WSEAS Transactions on Computers, 10(11), 2011.
- Isard, M., et al. «Quincy: честное планирование для распределенных вычислительных кластеров». В Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles (стр. 261-276), 2009. (Для контекста теории планирования).
- Wilkinson, M. D., et al. «Руководящие принципы FAIR для управления научными данными и их курирования». Scientific data, 3(1), 1-9, 2016.
9. Оригинальный анализ: Ключевая идея, логика, сильные и слабые стороны, практические выводы
Ключевая идея: PUNCH4NFDI не строит новый суперкомпьютер; он создает федеративный уровень минимально необходимого вмешательства. Это прагматичный, политически продуманный ответ на реальное ограничение – фрагментированный, принадлежащий сообществам ландшафт исследовательских вычислений в Германии. Истинная инновация заключается не в отдельных технологиях – HTCondor, dCache, CVMFS проверены в бою, – а в их оркестровке в целостную национальную систему, где AAI на основе токенов выступает в роли связующего звена. Это классическая стратегия «наложенной сети», примененная к киберинфраструктуре, напоминающая о том, как сам интернет был построен поверх разнородных физических сетей. В то время как Европейское облако открытой науки (EOSC) борется с аналогичными проблемами федерации, подход PUNCH предлагает конкретный, рабочий план.
Логика: Логика убедительно проста: 1) Принять гетерогенность как постоянное состояние, а не как проблему, которую нужно устранить. 2) Использовать легковесное мета-планирование (COBalD/TARDIS) для создания виртуального пула, избегая необходимости модифицировать устоявшиеся локальные планировщики (SLURM, PBS и т.д.). 3) Разделить управление идентификацией и доступом с помощью токенов, обойдя кошмар согласования институциональных учетных записей. 4) Отделить программное обеспечение от инфраструктуры через CVMFS/контейнеры. 5) Применить ту же логику федерации к хранилищам. Поток идет от простоты для пользователя (JupyterHub) вниз через уровни абстракции к лежащей в основе сложности.
Сильные и слабые стороны: Подавляющее преимущество – практическая возможность развертывания. Требуя минимальных изменений от поставщиков ресурсов, она снижает барьер для участия, что критически важно для запуска консорциума. Использование проверенных инструментов HEP обеспечивает надежность и снижает риски разработки. Однако недостатки заключаются в компромиссах. Модель наложения может вносить дополнительные накладные расходы на отправку заданий и доступ к данным по сравнению с тесно интегрированной системой. Абстракция «наименьшего общего знаменателя» может ограничить доступ к уникальным функциям конкретных HPC-систем. Самое главное, модель долгосрочной устойчивости не доказана – кто платит за центральную координацию, поддержку мета-планировщика и пользовательскую поддержку? Проект рискует создать блестящий прототип, который зачахнет после первоначального 5-летнего финансирования DFG.
Практические выводы: Для других консорциумов ключевой вывод заключается в том, чтобы начать с управления и легковесной интеграции, а не с грандиозного технического перепроектирования. 1) Немедленно внедрить AAI на основе токенов; это фундаментальный катализатор. 2) Расставить приоритеты в пользовательском опыте (JupyterHub), чтобы стимулировать внедрение; ученые не будут использовать громоздкую систему. 3) Инструментировать все с первого дня. Чтобы обеспечить будущее финансирование, необходимо генерировать убедительные метрики об увеличении использования ресурсов, межинституциональном сотрудничестве и научной производительности. 4) Планировать «вторую федерацию» – как взаимодействовать с другими консорциумами NFDI или EOSC. Техническая архитектура должна быть явно спроектирована для вложенной федерации. Наконец, необходимо разработать четкую модель распределения затрат на центральные сервисы, перейдя от грантов на проекты к кооперативной операционной модели финансирования, подобной WLCG (Worldwide LHC Computing Grid). Технология готова; непреходящая проблема – социотехническая.