面向PUNCH4NFDI的联邦异构计算与存储基础设施

1. 引言

面向国家研究数据基础设施的粒子、宇宙、原子核与强子研究（PUNCH4NFDI）是由德国研究联合会（DFG）资助的一个主要德国联盟。它代表了来自粒子物理、天体物理、天体粒子物理、强子物理和核物理领域的大约9000名科学家。该联盟的首要目标是建立一个联邦化的、符合FAIR（可发现、可访问、可互操作、可重用）原则的科学数据平台。该平台旨在为分布在参与机构中的多样化和异构的计算与存储资源提供无缝访问，以应对海量数据和复杂、资源密集型算法的共同挑战。本文档重点介绍为整合这些实物贡献资源而开发的架构概念——Compute4PUNCH和Storage4PUNCH。

2. 联邦异构计算基础设施 – Compute4PUNCH

Compute4PUNCH概念旨在应对为各类机构贡献的现有高吞吐量计算（HTC）、高性能计算（HPC）和云资源提供统一访问的挑战。这些资源在架构、操作系统、软件和认证方面各不相同。关键约束在于最小化对现有、由多个社区共享的运营系统的改动。

2.1 核心架构与集成策略

该策略采用联邦覆盖层批处理系统。不修改本地资源管理器（如SLURM、PBS），而是创建一个基于HTCondor的覆盖层资源池。COBalD/TARDIS资源元调度器动态、透明地将异构后端（HPC集群、HTC农场、云虚拟机）集成到这个统一的资源池中。它充当一个“先导”系统，提交占位作业以声明资源，然后部署实际的用户工作负载。

2.2 用户访问与软件环境

访问通过传统的登录节点和作为中央入口点的JupyterHub服务提供。基于令牌的认证与授权基础设施（AAI）标准化了访问。软件环境的复杂性通过容器技术（Docker、Singularity/Apptainer）和CERN虚拟机文件系统（CVMFS）进行管理，后者以可扩展的、只读方式交付预配置的、特定于社区的软件栈。

3. 联邦存储基础设施 – Storage4PUNCH

Storage4PUNCH旨在整合社区提供的存储系统，这些系统主要基于在高能物理（HEP）领域成熟的技术dCache或XRootD。该联邦创建了一个公共的命名空间和访问层。该概念还评估了用于缓存（以减少延迟和广域网流量）和元数据处理的现有技术，旨在实现更深层次的集成，以促进跨联邦存储的数据发现和管理。

4. 技术实现与核心组件

4.1 计算联邦：HTCondor 与 COBalD/TARDIS

HTCondor： 在联邦资源池内提供作业管理层、队列和调度。其ClassAd机制允许将复杂的作业需求与动态资源属性进行匹配。
COBalD/TARDIS： 位于HTCondor与异构后端之间。TARDIS将HTCondor的“先导”作业转换为后端特定的提交命令（例如，一个SLURM作业脚本）。COBalD根据策略、成本和队列状态，实现何时以及在何处生成这些先导作业的决策逻辑。其核心功能可以建模为一个优化问题：$\text{最大化 } U = \sum_{r \in R} (w_r \cdot u_r(\text{alloc}_r)) \text{ 约束条件为 } \text{alloc}_r \leq \text{cap}_r, \forall r \in R$，其中 $U$ 是总效用，$R$ 是资源类型集合，$w_r$ 是权重，$u_r$ 是资源类型 $r$ 的效用函数，$\text{alloc}_r$ 是已分配容量，$\text{cap}_r$ 是总容量。

4.2 存储联邦：dCache 与 XRootD

dCache： 一个分层存储管理系统，常用作磁带归档的前端。它提供类POSIX接口（NFS、WebDAV）和HEP特定协议（xrootd、gridftp）。
XRootD： 一个用于可扩展、容错数据访问的协议和套件。其“重定向器”组件支持构建联邦，将客户端查询定向到适当的数据服务器。
联邦创建了一个逻辑层，将多个物理实例呈现为单一系统，这对于数据位置感知调度至关重要。

4.3 软件与数据交付：容器与 CVMFS

容器： 确保在不同主机系统间实现可复现的软件环境。它们封装了复杂的依赖关系（例如，特定版本的ROOT、Geant4）。
CVMFS： 一个用于软件分发的全局分布式文件系统。它使用HTTP和积极的缓存机制。其内容发布一次即可随处可用，从而大规模解决了软件部署问题。发布过程涉及一个“0级”服务器和复制到“1级”镜像。

5. 原型状态与初步经验

本文报告称，Compute4PUNCH和Storage4PUNCH的原型均已部署。初步的科学应用已在可用原型上成功执行，证明了这些概念的可行性。摘要中未提供具体的性能指标或详细的案例研究，但成功的执行验证了集成方法和所选技术栈。

6. 核心见解与战略分析

联邦优先于深度集成： 该项目优先考虑对现有系统进行轻量级联邦，而非深度、破坏性的集成，这对于一个拥有强大、独立合作伙伴的联盟来说是一个务实的选择。
利用HEP传统技术： 高度依赖经过实战检验的HEP技术（HTCondor、dCache、XRootD、CVMFS）降低了风险并加速了开发。
抽象是关键： 成功取决于多个抽象层：COBalD/TARDIS抽象计算资源，存储联邦抽象数据位置，容器/CVMFS抽象软件环境。
以用户为中心的访问： 提供熟悉的入口点（JupyterHub、登录节点）降低了多样化用户群体的采用门槛。

7. 原创分析：核心洞察、逻辑流程、优势与不足、可操作见解

核心洞察： PUNCH4NFDI并非在建造一台新的超级计算机；它是在协调一场由现有、各异“乐器”组成的交响乐。其真正的创新在于元层——由COBalD/TARDIS和联邦协议组成的“乐队指挥”——它在不要求底层提供者同质化的前提下，创建了一个统一的资源池。这对于政治结构复杂、多机构的合作而言是一个战略上的妙招，让人联想到人工智能中的联邦学习范式（如谷歌在联邦平均算法中的工作），即数据保持分布式，但模型被聚合。

逻辑流程： 该架构遵循清晰的关注点分离。1) 访问与身份： 基于令牌的AAI认证用户。2) 计算抽象： 用户向HTCondor提交作业。COBalD/TARDIS监控队列，决定哪个后端（例如，某大学的HPC集群）有容量，并部署一个先导作业以“声明”这些资源供HTCondor池使用。实际的用户作业随后在此先导作业内运行。3) 软件环境： 作业通过CVMFS或从容器注册表拉取其特定的软件栈。4) 数据访问： 作业通过联邦存储层（dCache/XRootD）读写数据，该层将请求重定向到实际的数据位置。

优势与不足： 其优势在于无可否认的务实性。通过封装现有系统，它实现了快速部署并获得了资源所有者的支持。使用经过HEP验证的技术栈（由CERN的全球LHC计算网格的成功所验证）是一个主要的风险缓解因素。然而，不足之处在于元调度层固有的复杂性。COBalD/TARDIS必须在具有不同策略、成本（例如，云积分）和性能特征的异构系统间做出智能的资源供应决策。策略调优不当可能导致资源利用率低下或作业饥饿。此外，虽然存储联邦提供了统一的访问，但诸如全局命名空间索引、元数据目录联邦和智能数据放置（类似于Lustre并行文件系统中的理念或自动数据分层的研究）等高级数据管理功能似乎是未来的评估项目，代表了当前的局限性。

可操作见解： 对于其他联盟（例如，在生物信息学或气候科学领域），关键启示是从一开始就大力投资于元调度器和抽象层的设计。PUNCH的方法建议使用像HTCondor这样的稳定技术，从一个最小可行的联邦开始，而不是尝试从零开始构建。应以清晰、最小化的类API要求（例如，“必须支持SSH或特定的批处理系统命令”）来吸引资源提供者参与。至关重要的是，项目必须为联邦层本身开发强大的监控和审计工具——理解跨站点利用率和诊断这个复杂链中的故障将是运营的重中之重。未来的路线图应明确解决与工作流管理系统（如Nextflow或Apache Airflow）的集成，以及开发所评估的缓存和元数据服务，从而从简单的联邦迈向智能的、性能优化的数据物流。

8. 技术细节与数学框架

COBalD/TARDIS处理的资源分配问题可以表述为一个在线优化问题。设 $Q(t)$ 为时间 $t$ 时HTCondor中待处理作业的队列，每个作业具有估计运行时间 $\hat{r}_i$ 和资源请求向量 $\vec{c}_i$（CPU、内存、GPU）。设 $B$ 为后端集合，每个后端具有时变可用容量 $\vec{C}_b(t)$ 和用于分配资源 $\vec{c}$ 持续时长 $\Delta t$ 的成本函数 $f_b(\vec{c}, \Delta t)$。元调度器的目标是在遵守后端策略和预算约束的同时，最小化平均作业周转时间 $T_{ta}$。一个简化的启发式决策规则，用于在后端 $b$ 上生成先导作业，可以是：$\text{若 } \frac{|\{j \in Q(t): \vec{c}_j \preceq \vec{C}_b(t)\}|}{\text{Cost}_b} > \theta \text{ 则生成}$，其中 $\preceq$ 表示“适配于”，$\text{Cost}_b$ 是归一化成本，$\theta$ 是阈值。这捕捉了队列需求与供应成本之间的权衡。

9. 实验结果与原型指标

虽然提供的PDF摘要未包含具体的定量结果，但成功的原型意味着关键的质量和潜在的定量成果：

功能成功： 展示了通过HTCondor/JupyterHub提交单个作业，并使其透明地在远程HPC或HTC资源上执行的能力，软件来自CVMFS，数据来自联邦存储。
待跟踪的关键指标（未来）：
- 作业成功率： 在联邦中成功完成的作业百分比。
- 平均等待时间： 从提交到开始的时间，与本地后端队列相比。
- 资源利用率： 联邦资源池交付的总CPU小时数。
- 数据传输效率： 作业通过联邦层访问远程存储的吞吐量和延迟。
图表描述： 概念架构图将显示：用户与JupyterHub/登录节点交互。这些节点连接到中央HTCondor中央管理器。COBalD/TARDIS组件与HTCondor和多个资源后端（HPC集群A、HTC农场B、云C）交互。每个后端都有一个本地批处理系统（SLURM、PBS等）。箭头表示作业提交和先导部署。单独部分显示连接到后端并可被作业访问的联邦存储（dCache、XRootD实例）。CVMFS 1级镜像显示为一个所有后端均可访问的层。

10. 分析框架：概念性工作流示例

场景： 一位天体粒子物理学家需要使用一个复杂的、自定义的分析流程（基于Python/ROOT）处理1000张望远镜图像。

用户入口： 研究人员登录PUNCH JupyterHub。
环境设置： 在Jupyter笔记本中，他们选择一个由Singularity容器支持的预定义内核，该容器包含其特定的软件栈（已发布到CVMFS）。
作业定义： 他们编写一个定义分析任务的脚本，并使用PUNCH辅助库创建一个HTCondor提交描述，指定所需的CPU、内存和输入数据引用（例如，`root://fed-storage.punch.org/path/to/images_*.fits`）。
提交与调度： 作业被提交到HTCondor资源池。COBalD/TARDIS看到1000个短作业，决定在一个高吞吐量农场（后端B）上生成多个先导作业，该农场具有用于输入数据的快速本地存储缓存。
执行： 先导作业在后端B上声明计算槽位。每个先导作业拉取容器，通过XRootD联邦（可能重定向到本地缓存）获取其分配的输入文件，执行分析，并将结果写回联邦存储。
完成： HTCondor汇总作业完成状态。研究人员的笔记本现在可以从输出存储位置查询和可视化结果。

此示例突显了完整的抽象：用户完全无需了解后端B上的SLURM命令、如何在那里安装ROOT，或数据文件的物理位置。

11. 未来应用与发展路线图

PUNCH4NFDI基础设施为变革性应用奠定了基础：

多信使天体物理工作流： 引力波（LIGO/Virgo）、中微子（IceCube）和电磁观测台数据之间的实时关联分析，需要跨地理分布式资源进行紧急计算。
大规模AI/ML模型训练： 联邦学习实验，其中训练过程本身分布在计算联邦上，模型在中心聚合——这是与数据联邦并行的计算联邦。
复杂实验的数字孪生： 运行大规模模拟集合，为粒子探测器或望远镜阵列创建数字副本，利用HPC进行模拟，利用HTC进行参数扫描。

发展路线图：

短期（1-2年）： 巩固Compute4PUNCH和Storage4PUNCH核心服务的生产级部署。集成高级监控（Prometheus/Grafana）和计费/核算工具。
中期（3-4年）： 实施并集成所评估的缓存和全局元数据目录服务。开发与工作流管理系统的更紧密集成。探索在需求高峰期间“突发”到商业云。
长期（5年以上）： 向服务于PUNCH科学的“智能数据湖仓”演进，整合数据发现、溯源跟踪和由联邦元数据驱动的自动化数据生命周期管理。作为其他NFDI联盟和国际合作的蓝图。

12. 参考文献

PUNCH4NFDI联盟. (2024). PUNCH4NFDI白皮书. [官方联盟文档].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Krebs, K., 等. (2022). COBalD/TARDIS – A dynamic resource provisioning framework for heterogeneous computing environments. Journal of Physics: Conference Series, 2438(1), 012045. （元调度器参考文献）.
Blomer, J., 等. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004. https://doi.org/10.1088/1742-6596/331/5/052004
dCache协作组. (2023). dCache.org [软件与文档]. https://www.dcache.org
XRootD协作组. (2023). XRootD文档. http://xrootd.org/docs.html
McMahan, B., Moore, E., Ramage, D., Hampson, S., & y Arcas, B. A. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). （联邦学习类比引用）.
欧洲核子研究组织（CERN）. (2023). 全球LHC计算网格（WLCG）. https://wlcg.web.cern.ch （作为大规模联邦先例引用）.