选择语言

Compute4PUNCH 与 Storage4PUNCH:面向粒子物理、天体物理与核物理的联邦基础设施

分析PUNCH4NFDI联盟的联邦计算与存储基础设施概念,该概念旨在整合德国各地异构的高性能计算、高吞吐量计算及云资源。
computepowertoken.com | PDF Size: 0.5 MB
评分: 4.5/5
您的评分
您已经为此文档评过分
PDF文档封面 - Compute4PUNCH 与 Storage4PUNCH:面向粒子物理、天体物理与核物理的联邦基础设施

1. 引言

PUNCH4NFDI(面向国家研究数据基础设施的粒子、宇宙、原子核与强子)联盟由德国科学基金会资助,代表了德国粒子物理、天体物理、天体粒子物理、强子物理和核物理领域约9,000名科学家。作为国家NFDI计划的一部分,其主要目标是建立一个联邦化且符合FAIR(可发现、可访问、可互操作、可重用)原则的科学数据平台。该平台旨在无缝访问其成员机构贡献的多样化、异构的计算和存储资源,以应对使用复杂算法分析呈指数级增长的数据量这一共同挑战。本文档重点介绍构成该联邦基础设施核心的Compute4PUNCHStorage4PUNCH的技术概念。

2. 联邦异构计算基础设施 – Compute4PUNCH

Compute4PUNCH旨在解决如何有效利用遍布德国、由各方实物贡献的高吞吐量计算、高性能计算和云资源这一挑战。这些资源在架构、操作系统、软件堆栈和认证机制方面各不相同。

2.1. 核心架构与覆盖层系统

Compute4PUNCH的基石是基于HTCondor创建一个联邦覆盖层批处理系统。其关键创新在于使用了COBalD/TARDIS资源元调度器。TARDIS(TARDIS作为资源调度器进行原地调度)能够动态、透明地将外部异构资源集成到HTCondor池中。它充当一个“引导”系统,向外部集群(如基于Slurm的HPC系统)提交占位作业,这些占位作业随后从中央HTCondor队列中拉取并执行实际的用户作业。这种方法最大限度地减少了对资源提供方现有操作设置的侵入,这是其被采纳的关键要求。

资源匹配和调度逻辑可以通过一个优化函数抽象表示。设 $R = \{r_1, r_2, ..., r_n\}$ 为可用异构资源集合,每个资源具有架构 $arch(r_i)$、可用核心数 $c(r_i)$、内存 $m(r_i)$ 和队列等待时间 $w(r_i)$ 等属性。设 $J = \{j_1, j_2, ..., j_m\}$ 为用户作业集合,每个作业有需求 $req(j_k)$。元调度器的目标是找到一个映射 $M: J \rightarrow R$,以最大化目标函数 $F$,该函数通常是效率和公平性的加权和:

$F(M) = \alpha \cdot \sum_{j_k} U(j_k, M(j_k)) - \beta \cdot \sum_{r_i} L(r_i, M^{-1}(r_i))$

其中,$U$ 是衡量资源满足作业需求程度的效用函数(考虑通过CVMFS实现的软件环境兼容性),$L$ 是惩罚任何单一资源过度订阅的负载函数。COBalD/TARDIS通过启发式方法解决这个动态的在线调度问题。

2.2. 访问与软件环境

用户访问通过基于令牌的认证与授权基础设施实现标准化。主要入口点是传统的登录节点和JupyterHub服务,后者为交互式分析和原型设计提供了熟悉的基于Web的界面。

为了处理多样化的软件依赖,该基础设施利用了容器技术(如Docker、Singularity/Apptainer)和CERN虚拟机文件系统。CVMFS提供了一个可扩展、只读、全球分布的软件安装命名空间。特定社区的软件堆栈被发布到CVMFS存储库,确保任何计算节点,无论其物理位置如何,都能即时、一致地访问所需的软件环境,从而消除了本地安装的开销。

3. 联邦存储基础设施 – Storage4PUNCH

Storage4PUNCH专注于联邦化社区提供的存储系统,这些系统主要基于dCacheXRootD技术,两者在高能物理领域都已非常成熟。

3.1. 联邦与缓存策略

联邦化创建了一个统一的命名空间,允许用户跨多个机构的存储元素访问数据,就像访问单个系统一样。为实现此目标,采用了XRootD的联邦协议dCache的前端池化等技术。系统执行智能的数据定位和路由。

正在评估的一个关键组件是缓存。全局或区域性的缓存层可以显著减少频繁访问数据集的延迟和广域网负载。对于特定数据访问模式,大小为 $S$ 的缓存的命中率 $H$ 可以进行建模。如果访问数据项 $d_i$ 的概率遵循类Zipf分布 $P(i) \sim 1 / i^{\alpha}$,则LRU缓存的预期命中率约为:

$H(S) \approx \sum_{i=1}^{S} P(i)$

其中 $\alpha$ 是偏斜参数。对于具有高数据重用性的科学工作流(在分析链中很常见),即使是中等大小的缓存也能产生较高的 $H$ 值,这证明了部署缓存的合理性。该项目还在评估用于更深层次集成的元数据处理解决方案,旨在不仅提供跨联邦的文件访问,还提供数据发现能力。

4. 技术细节与数学框架

联邦系统的性能取决于高效的资源发现和调度。系统状态可以建模为一个图 $G=(V,E)$,其中顶点 $V$ 代表资源(计算节点、存储端点),边 $E$ 代表具有带宽 $bw(e)$ 和延迟 $lat(e)$ 的网络链路。一个工作流 $W$ 是具有数据依赖关系 $D$ 的任务 $T$ 的有向无环图。

调度问题变为:将每个任务 $t \in T$ 放置在计算资源 $r_c \in V_c$ 上,并将其所需的输入数据从存储资源 $r_s \in V_s$ 路由过来,使得在满足约束条件的前提下,总完工时间(工作流完成时间)最小化:

$\text{最小化 } \max_{t \in T} (ft(t))$
约束条件:
$\forall r \in V_c, \sum_{t 被置于 r} c(t) \leq C(r)$ (CPU容量)
$\forall d \in D, \text{传输时间}(d) = \frac{大小(d)}{\min\_bw(路径)} + \sum_{e \in 路径} lat(e)$

其中 $ft(t)$ 是任务 $t$ 的完成时间,$c(t)$ 是其CPU需求,$C(r)$ 是资源 $r$ 的容量。联邦系统使用HTCondor和COBalD/TARDIS内的启发式算法来实时逼近这个NP难问题的解。

5. 实验结果与原型性能

本文报告了运行原型的初步经验。虽然提供的摘要中未详细说明具体的定量基准测试,但文本暗示了科学应用在联邦基础设施上的成功执行。

图表描述(推断的性能指标): 一个假设的性能图表可能会显示随时间变化的两个关键指标:1) 联邦池中的聚合资源利用率,展示覆盖层系统如何有效填补不同贡献中心之间的容量缺口。2) 作业周转时间,比较联邦场景与孤立资源使用的情况。联邦系统将显示出更低的平均周转时间和更小的方差,特别是对于资源需求灵活的作业,因为它们可以被路由到队列最短的资源。通过TARDIS集成HPC资源将显示一条独特的曲线,最初由于引导作业机制会增加延迟,但为合适的工作负载提供了访问原本无法使用的高核心数节点的途径。

据报道,CVMFS的使用成功地提供了统一的软件环境,这是用户采纳的关键成功因素。基于令牌的AAI已经实现,为安全的多机构访问提供了必要的基础。

6. 分析框架:概念性案例研究

案例:多信使天体物理分析。 一位天体粒子物理学家需要分析费米大面积望远镜和冰立方中微子天文台探测到的伽马射线暴数据,并将其与ASAS-SN的光学后续观测相关联。该工作流涉及:A) 在针对高I/O优化的HTC集群上处理太字节级的原始光子数据(费米)。B) 在具有多核心的HPC集群上运行用于中微子事件重建的蒙特卡洛模拟(冰立方)。C) 使用GPU节点对光学数据进行图像分析。

通过Compute4PUNCH/Storage4PUNCH进行联邦执行:
1. 用户通过JupyterHub提交一个单一的高级工作流描述(例如,使用通用工作流语言)。
2. AAI令牌在所有系统中对用户进行身份验证。
3. 由COBalD/TARDIS引导的HTCondor覆盖层分析工作流DAG:
- 任务A被匹配并分派到DESY靠近dCache存储的HTC工作节点。
- 任务B对10,000 CPU小时的需求触发TARDIS在KIT的基于Slurm的HPC集群上配置计算槽位。
- 任务C被发送到波恩大学的GPU分区。
4. 所有任务从PUNCH CVMFS存储库拉取相同的分析软件堆栈(Python、特定的科学库)。
5. 中间数据通过联邦的Storage4PUNCH命名空间(例如使用XRootD)进行交换,频繁访问的校准文件由区域缓存提供。
6. 最终结果被汇总并返回给用户。

这个案例展示了其价值主张:物理学家与一个单一的逻辑基础设施交互,而不是管理跨越三个不同系统的独立登录、软件安装和数据传输。

7. 核心见解与分析视角

核心见解: PUNCH4NFDI并非在构建另一个单一的超算中心;它是在设计一个联邦层——一个面向国家级、异构研究计算的“元操作系统”。其真正的创新在于,务实地将现有的、存在行政壁垒的资源编排成一个连贯的实用工具,优先考虑最小侵入性而非技术纯粹性。这不像谷歌的Borg,而更像一个为计算作业服务的、覆盖全欧盟的精密空中交通管制系统。

逻辑流程: 其逻辑优雅地递归。从不妥协的约束开始:不干扰现有社区的正常运行。这迫使采用基于拉取、覆盖层的架构(HTCondor + TARDIS),而非基于推送的集中式调度器。该覆盖层反过来又需要一个通用的软件交付机制(CVMFS/容器)和一个统一的身份层(令牌AAI)。存储联邦遵循一条平行的路径,利用了久经考验的HEP工具(dCache/XRootD)。整个流程是约束驱动设计的典范,其中每个技术选择都是多机构协作的社会政治现实直接导致的结果。

优势与不足:
优势: 该架构在设计上极具可联邦性。它通过设计横向扩展治理,降低了新资源提供者的准入门槛。使用HTCondor和CVMFS利用了来自LHC合作项目数十年的社区信任和运维经验,降低了技术风险。专注于“实物贡献”资源具有财务可持续性,将碎片化问题转化为多样性优势。
不足: 显而易见的问题是性能开销。双重调度(元调度器 + 本地批处理系统)和引导作业模型不可避免地增加了延迟,使其不适合细粒度、紧耦合的MPI作业——这对纯HPC工作负载是一个重大限制。对CVMFS的依赖虽然稳健,但为软件交付创造了一个单点故障,并且可能难以处理高度专有或需要许可的代码。此外,正如FAIR数据原则所指出的,真正的互操作性需要丰富的元数据;当前Storage4PUNCH的描述似乎主要侧重于字节级访问,而非语义发现。

可操作的见解:
1. 对于PUNCH团队: 加倍重视性能表征。发布透明的基准测试,比较典型工作流在联邦模式与原生模式下的作业吞吐量和延迟。这些数据对于说服持怀疑态度的HPC中心管理者和用户至关重要。为联邦层本身主动开发一个“一级”支持模型;其复杂性已成为一个关键依赖项。
2. 对于其他联盟(例如生物信息学或气候科学领域): 不要仅仅复制技术栈。复制使其成为可能的治理模式。关键经验是“实物贡献”协议,它协调了各机构的激励。从联邦化身份认证和软件分发开始,正如PUNCH所做的那样;这些是基础。
3. 对于资助机构(DFG、欧盟): 此模型应成为未来国家研究基础设施招标的蓝图。资助“粘合剂”(协调、联邦层的核心开发运维),让机构资助“砖块”(实际的计算/存储)。这比建设新的集中式设施更能有效利用现有的资本投资,这一原则在欧洲开放科学云的战略愿景中得到了呼应。

总之,Compute4PUNCH和Storage4PUNCH代表了一个成熟、务实且高度可复制的21世纪大规模科学基础设施模型。它牺牲了一些理论性能,换取了在可访问性、韧性和政治可行性方面的巨大收益。其成功将不以FLOPS衡量,而是以有多少博士生能够完成他们的分析,而无需成为五个不同集群的专家系统管理员来衡量。

8. 未来应用与发展路线图

PUNCH4NFDI基础设施为多项未来发展奠定了基础:

  • 与机器学习工作流集成: 联邦可以扩展以支持专门的AI/ML加速器(例如NVIDIA DGX pod、Google TPU)作为一种资源类型。像Kubeflow这样的框架可以与HTCondor集成,由TARDIS管理跨传统HTC资源和专注于ML的资源的混合作业放置。
  • 主动数据放置与工作流感知调度: 超越缓存,系统可以实现预测性数据预置。通过分析用户提交的工作流DAG,它可以在作业开始执行之前,将所需的数据集从远程Storage4PUNCH端点预取到计划计算资源附近的本地缓存中,从而有效隐藏数据传输延迟。这需要计算元调度器与存储联邦的命名空间和监控数据之间更紧密的集成。
  • 扩展到边缘计算: 对于射电天文学或中微子物理学等传感器产生海量数据流的领域,联邦模型可以纳入边缘计算站点。轻量级的TARDIS代理可以在天文台运行,从中央队列拉取预处理任务,在现场过滤和缩减数据,然后仅将相关事件传输到中央存储。
  • 绿色计算与碳感知调度: 元调度器可以增强德国各地电网的碳强度数据。然后,它可以在可再生能源(如北部的风能)发电高峰期,优先将作业路由到可再生能源渗透率高的地区的数据中心,从而最小化大规模计算的碳足迹——这是研究基础设施的一个新兴优先事项,正如Linux基金会的Carbon Call倡议所强调的。
  • 与国际合作伙伴的跨联邦互联: 逻辑上的下一步是将德国的PUNCH联邦与国外类似的基础设施连接起来,例如全球LHC计算网格、开放科学网格或欧洲开放科学云。这将创建一个全球性的、多学科的研究基础设施,尽管这将在政策协调、安全和核算方面带来重大挑战。

9. 参考文献

  1. PUNCH4NFDI联盟. "PUNCH4NFDI - 面向NFDI的粒子、宇宙、原子核与强子." 白皮书,2021.
  2. Thain, D., Tannenbaum, T., & Livny, M. "分布式计算实践:Condor经验." Concurrency - Practice and Experience, 17(2-4), 323-356, 2005. https://doi.org/10.1002/cpe.938
  3. Blomer, J., 等. "CernVM-FS:向全球分布式计算资源交付科学软件." International Journal of High Performance Computing Applications, 28(2), 158-174, 2014. https://doi.org/10.1177/1094342013509700
  4. Giffels, M., 等. "COBalD/TARDIS – 面向联邦HTCondor池的动态、基于引导的资源供应." 收录于 Proceedings of CHEP 2018, 2018.
  5. Wilkinson, M. D., 等. "科学数据管理与管理的FAIR指导原则." Scientific Data, 3:160018, 2016. https://doi.org/10.1038/sdata.2016.18
  6. European Commission. "欧洲开放科学云战略实施路线图." 2018.
  7. Linux Foundation. "Carbon Call:一项面向可靠碳核算的全球倡议." 2022. https://www.linuxfoundation.org/research/carbon-call
  8. Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. "使用循环一致对抗网络的无配对图像到图像翻译." 收录于 Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. (作为可能受益于联邦异构资源访问的复杂计算工作负载示例引用).