PUNCH4NFDIのための連合型異種計算・ストレージインフラストラクチャ

1. はじめに

Particles, Universe, NuClei and Hadrons for the National Research Data Infrastructure (PUNCH4NFDI) は、DFG（ドイツ研究振興協会）によって資金提供されている主要なドイツのコンソーシアムです。これは、素粒子物理学、天文学、宇宙線物理学、ハドロン物理学、原子核物理学のコミュニティから約9,000人の科学者を代表しています。コンソーシアムの主な目標は、連合型のFAIR（検索可能、アクセス可能、相互運用可能、再利用可能）な科学データプラットフォームを確立することです。このプラットフォームは、参加機関に分散する多様で異種の計算およびストレージリソースへのシームレスなアクセスを提供し、膨大なデータ量と複雑でリソース集約的なアルゴリズムという共通の課題に対処することを目指しています。この文書は、これらの現物提供リソースを連合化するために開発されたアーキテクチャコンセプト—Compute4PUNCHとStorage4PUNCH—に焦点を当てています。

2. 連合型異種計算インフラストラクチャ – Compute4PUNCH

Compute4PUNCHコンセプトは、様々な機関が提供する既存の多様な高スループット計算（HTC）、高性能計算（HPC）、クラウドリソースへの統一アクセスを提供するという課題に対処します。これらのリソースは、アーキテクチャ、OS、ソフトウェア、認証において異なります。重要な制約は、複数のコミュニティで共有されている既存の運用システムへの変更を最小限に抑えることです。

2.1 コアアーキテクチャと統合戦略

この戦略は、連合型オーバーレイバッチシステムを採用しています。ローカルのリソースマネージャー（SLURM、PBSなど）を変更する代わりに、HTCondorベースのオーバーレイプールが作成されます。COBalD/TARDISリソースメタスケジューラは、異種のバックエンド（HPCクラスター、HTCファーム、クラウドVM）をこの統一プールに動的かつ透過的に統合します。これは「パイロット」システムとして機能し、プレースホルダージョブを送信してリソースを確保し、その後、実際のユーザーワークロードをデプロイします。

2.2 ユーザーアクセスとソフトウェア環境

アクセスは、従来のログインノードとJupyterHubサービスを介して提供され、中央のエントリーポイントとして機能します。トークンベースの認証・認可基盤（AAI）がアクセスを標準化します。ソフトウェア環境の複雑さは、コンテナ技術（Docker、Singularity/Apptainer）とCERN Virtual Machine File System（CVMFS）によって管理されます。CVMFSは、事前設定されたコミュニティ固有のソフトウェアスタックを、スケーラブルで読み取り専用の方法で配信します。

3. 連合型ストレージインフラストラクチャ – Storage4PUNCH

Storage4PUNCHは、主に高エネルギー物理学（HEP）で確立されているdCacheまたはXRootD技術に基づく、コミュニティ提供のストレージシステムを連合化することを目指しています。この連合は、共通の名前空間とアクセス層を作成します。このコンセプトはまた、遅延とWANトラフィックを削減するためのキャッシング、およびメタデータ処理のための既存技術を評価し、連合ストレージ全体でのデータ発見と管理を容易にするためのより深い統合を目指しています。

4. 技術的実装とコアコンポーネント

4.1 計算連合: HTCondor & COBalD/TARDIS

HTCondor: 連合プール内でのジョブ管理層、キューイング、スケジューリングを提供します。そのClassAdメカニズムにより、複雑なジョブ要件と動的なリソースプロパティをマッチングすることができます。
COBalD/TARDIS: HTCondorと異種バックエンドの間に位置します。TARDISは、HTCondorの「パイロット」をバックエンド固有のサブミットコマンド（例：SLURMジョブスクリプト）に変換します。COBalDは、ポリシー、コスト、キューステータスに基づいて、これらのパイロットをいつ、どこで生成するかの決定ロジックを実装します。コア機能は最適化問題としてモデル化できます: $\text{Maximize } U = \sum_{r \in R} (w_r \cdot u_r(\text{alloc}_r)) \text{ subject to } \text{alloc}_r \leq \text{cap}_r, \forall r \in R$。ここで、$U$は総効用、$R$はリソースタイプの集合、$w_r$は重み、$u_r$はリソースタイプ$r$に対する効用関数、$\text{alloc}_r$は割り当て容量、$\text{cap}_r$は総容量です。

4.2 ストレージ連合: dCache & XRootD

dCache: 階層型ストレージ管理システムで、テープアーカイブのフロントエンドとしてよく使用されます。POSIXライクなインターフェース（NFS、WebDAV）とHEP固有のプロトコル（xrootd、gridftp）を提供します。
XRootD: スケーラブルでフォールトトレラントなデータアクセスのためのプロトコルおよびスイートです。その「リダイレクタ」コンポーネントは、クライアントクエリを適切なデータサーバーに誘導する連合の構築を可能にします。
連合は、複数の物理インスタンスを単一システムとして提示する論理層を作成し、データ局所性を考慮したスケジューリングに不可欠です。

4.3 ソフトウェア・データ配信: コンテナ & CVMFS

コンテナ: 多様なホストシステム間で再現性のあるソフトウェア環境を保証します。これらは複雑な依存関係（例：特定バージョンのROOT、Geant4）をカプセル化します。
CVMFS: ソフトウェア配布のためのグローバルな分散ファイルシステムです。HTTPと積極的なキャッシングを使用します。そのコンテンツは一度公開されるとどこでも利用可能になり、大規模なソフトウェアデプロイメントの問題を解決します。公開プロセスには、「ストラタム0」サーバーと「ストラタム1」ミラーへの複製が含まれます。

5. プロトタイプの現状と初期経験

本論文は、Compute4PUNCHとStorage4PUNCHの両方のプロトタイプがデプロイされたと報告しています。初期の科学アプリケーションは、利用可能なプロトタイプ上で正常に実行され、コンセプトの実現可能性が実証されました。要約では特定のパフォーマンス指標や詳細なケーススタディは提供されていませんが、成功した実行は、統合アプローチと選択された技術スタックを検証しています。

6. 主要な洞察と戦略的分析

統合よりも連合: このプロジェクトは、強力で独立したパートナーを持つコンソーシアムにとって現実的な選択として、既存システムへの破壊的で深い統合よりも、軽量な連合を優先しています。
HEPの遺産の活用: 実戦で鍛えられたHEP技術（HTCondor、dCache、XRootD、CVMFS）への強い依存は、リスクを低減し、開発を加速します。
抽象化が鍵: 成功は、複数の抽象化レイヤーにかかっています：COBalD/TARDISは計算リソースを抽象化し、ストレージ連合はデータの場所を抽象化し、コンテナ/CVMFSはソフトウェア環境を抽象化します。
ユーザー中心のアクセス: 慣れ親しんだエントリーポイント（JupyterHub、ログインノード）を提供することで、多様なユーザーベースの採用障壁を下げます。

7. 独自分析: 核心的洞察、論理的流れ、強みと欠点、実践的洞察

核心的洞察: PUNCH4NFDIは新しいスーパーコンピュータを構築しているのではなく、既存の異種の「楽器」のオーケストラを編成しています。その真の革新は、基盤となるプロバイダーに均質性を要求することなく統一リソースプールを作り出す、COBalD/TARDISと連合プロトコルで構成される「オーケストラの指揮者」であるメタレイヤーにあります。これは、政治的複雑性を持つ多機関協力における戦略的名手であり、データは分散したままだがモデルが集約されるAIにおける連合学習パラダイム（GoogleのFederated Averagingの研究など）を彷彿とさせます。

論理的流れ: このアーキテクチャは、関心の分離に従っています。1) アクセスとアイデンティティ: トークンベースAAIがユーザーを認証します。2) 計算抽象化: ユーザーはジョブをHTCondorにサブミットします。COBalD/TARDISはキューを監視し、どのバックエンド（例：大学のHPCクラスター）に容量があるかを決定し、HTCondorプールのためにそれらのリソースを「確保」するパイロットジョブをデプロイします。実際のユーザージョブは、このパイロット内で実行されます。3) ソフトウェア環境: ジョブは、CVMFSまたはコンテナレジストリから特定のソフトウェアスタックをプルします。4) データアクセス: ジョブは、連合ストレージレイヤー（dCache/XRootD）を介してデータを読み書きし、リクエストを実際のデータの場所にリダイレクトします。

強みと欠点: 強みは紛れもない実用主義です。既存システムをラップすることで、迅速な展開可能性とリソース所有者からの賛同を達成します。HEPで実証済みの技術スタック（CERNのWorldwide LHC Computing Gridの成功によって検証済み）の使用は、主要なリスク軽減策です。しかし、欠点はメタスケジューリングレイヤーの本質的な複雑さにあります。COBalD/TARDISは、異なるポリシー、コスト（例：クラウドクレジット）、パフォーマンスプロファイルを持つ異種システム全体で、インテリジェントなプロビジョニング決定を行わなければなりません。不適切に調整されたポリシーは、リソース利用の非効率やジョブの飢餓を引き起こす可能性があります。さらに、ストレージ連合は統一アクセスを提供しますが、グローバル名前空間インデックス作成、メタデータカタログ連合、インテリジェントなデータ配置（Lustre並列ファイルシステムのアイデアや自動データ階層化に関する研究に類似）などの高度なデータ管理機能は、将来の評価項目であるように見え、現在の制限を表しています。

実践的洞察: 他のコンソーシアム（例：バイオインフォマティクスや気候科学）にとっての重要なポイントは、初日からメタスケジューラと抽象化レイヤーの設計に大きく投資することです。PUNCHのアプローチは、新規構築を試みるよりも、HTCondorのような安定した技術を使用した最小限の実用的な連合から始めることを示唆しています。リソースプロバイダーは、明確で最小限のAPIのような要件（例：「SSHまたは特定のバッチシステムコマンドをサポートしなければならない」）で関与させるべきです。決定的に重要なのは、プロジェクトは連合レイヤー自体のための堅牢な監視および監査ツールを開発しなければならないことです—この複雑なチェーンにおけるクロスサイト利用状況の理解と障害診断は、運用上最も重要になります。将来のロードマップは、ワークフローマネージャー（NextflowやApache Airflowなど）の統合と、評価されたキャッシングおよびメタデータサービスの開発を明示的に扱い、単純な連合からインテリジェントでパフォーマンス最適化されたデータロジスティクスへと移行すべきです。

8. 技術的詳細と数学的枠組み

COBalD/TARDISが取り組むリソース割り当て問題は、オンライン最適化として捉えることができます。$Q(t)$を時刻$t$におけるHTCondor内の保留ジョブのキューとし、各ジョブは推定実行時間$\hat{r}_i$とリソース要求ベクトル$\vec{c}_i$（CPU、メモリ、GPU）を持ちます。$B$をバックエンドの集合とし、各バックエンドは時変の利用可能容量$\vec{C}_b(t)$と、リソース$\vec{c}$を期間$\Delta t$割り当てるためのコスト関数$f_b(\vec{c}, \Delta t)$を持ちます。メタスケジューラの目標は、バックエンドポリシーと予算制約を尊重しながら、平均ジョブターンアラウンドタイム$T_{ta}$を最小化することです。バックエンド$b$でパイロットを生成するための簡略化されたヒューリスティック決定ルールは次のようになります: $\text{Spawn if } \frac{|\{j \in Q(t): \vec{c}_j \preceq \vec{C}_b(t)\}|}{\text{Cost}_b} > \theta$。ここで、$\preceq$は「収まる」ことを表し、$\text{Cost}_b$は正規化されたコスト、$\theta$は閾値です。これは、キューの需要とプロビジョニングコストの間のトレードオフを捉えています。

9. 実験結果とプロトタイプ指標

提供されたPDFの要約には具体的な定量的結果は含まれていませんが、成功したプロトタイプは、以下の主要な定性的および潜在的な定量的結果を意味します：

機能的な成功: HTCondor/JupyterHubを介して単一ジョブをサブミットし、CVMFSからのソフトウェアと連合ストレージからのデータを使用して、リモートのHPCまたはHTCリソース上で透過的に実行する能力を実証。
追跡すべき主要指標（将来）:
- ジョブ成功率: 連合全体で正常に完了するジョブの割合。
- 平均待機時間: サブミットから開始までの時間。ネイティブバックエンドキューとの比較。
- リソース利用率: 連合プール全体で提供されるCPU時間の合計。
- データ転送効率: 連合レイヤーを介してリモートストレージにアクセスするジョブのスループットとレイテンシ。
図の説明: 概念的なアーキテクチャ図は以下を示すでしょう：ユーザーがJupyterHub/ログインノードと対話。これらは中央のHTCondor Central Managerに接続。COBalD/TARDISコンポーネントはHTCondorと複数のリソースバックエンド（HPCクラスターA、HTCファームB、クラウドC）の両方と対話。各バックエンドはローカルバッチシステム（SLURM、PBSなど）を持つ。矢印はジョブサブミットとパイロットデプロイメントを示す。別のセクションでは、バックエンドに接続されジョブからアクセス可能な連合ストレージ（dCache、XRootDインスタンス）を示す。CVMFS Stratum 1ミラーは、すべてのバックエンドからアクセス可能なレイヤーとして示される。

10. 分析フレームワーク: 概念的なワークフローの例

シナリオ: 宇宙線物理学者が、複雑なカスタム解析パイプライン（Python/ROOTベース）を使用して1,000枚の望遠鏡画像を処理する必要がある。

ユーザーエントリー: 研究者はPUNCH JupyterHubにログイン。
環境設定: Jupyterノートブックで、特定のソフトウェアスタック（CVMFSに公開）を含むSingularityコンテナによってバックアップされた事前定義されたカーネルを選択。
ジョブ定義: 解析タスクを定義するスクリプトを作成し、PUNCHヘルパーライブラリを使用してHTCondorサブミット記述を作成。必要なCPU、メモリ、入力データ参照（例：`root://fed-storage.punch.org/path/to/images_*.fits`）を指定。
サブミットとスケジューリング: ジョブはHTCondorプールにサブミットされる。COBalD/TARDISは、1,000の短いジョブを認識し、入力データの高速なローカルストレージキャッシュを持つ高スループットファーム（バックエンドB）上で複数のパイロットジョブを生成することを決定。
実行: パイロットはバックエンドB上のスロットを確保。各パイロットはコンテナをプルし、XRootD連合（ローカルキャッシュにリダイレクトされる可能性がある）を介して割り当てられた入力ファイルを取得し、解析を実行し、結果を連合ストレージに書き戻す。
完了: HTCondorはジョブ完了ステータスを集約。研究者のノートブックは、出力ストレージの場所から結果をクエリおよび可視化できるようになる。

この例は、完全な抽象化を強調しています：ユーザーは、バックエンドBでのSLURMコマンド、そこにROOTをインストールする方法、またはデータファイルの物理的な場所について知る必要はありませんでした。

11. 将来の応用と開発ロードマップ

PUNCH4NFDIインフラストラクチャは、変革的な応用の基盤を築きます：

マルチメッセンジャー天文学ワークフロー: 重力波（LIGO/Virgo）、ニュートリノ（IceCube）、電磁波観測データ間のリアルタイム相関解析。地理的に分散したリソースにわたる緊急計算を必要とする。
大規模なAI/MLモデルトレーニング: トレーニングプロセス自体が計算連合全体に分散され、モデルが中央で集約される連合学習実験—データ連合と並行する計算連合。
複雑な実験のデジタルツイン: 粒子検出器や望遠鏡アレイのデジタル対応物を作成するための大規模シミュレーションアンサンブルの実行。シミュレーションにはHPCを、パラメータスキャンにはHTCを活用。

開発ロードマップ:

短期（1-2年）: Compute4PUNCHおよびStorage4PUNCHコアサービスの本番グレードデプロイメントを固める。高度な監視（Prometheus/Grafana）および課金/アカウンティングツールを統合。
中期（3-4年）: 評価されたキャッシングおよびグローバルメタデータカタログサービスを実装・統合。ワークフロー管理システムとの緊密な統合を開発。需要ピーク時の商用クラウドへの「バースト」を探求。
長期（5年以上）: PUNCH科学のための「インテリジェントデータレイクハウス」へと進化。データ発見、プロベナンス追跡、連合メタデータによって強化された自動データライフサイクル管理を組み込む。他のNFDIコンソーシアムや国際協力のための青写真として機能。

12. 参考文献

PUNCH4NFDI Consortium. (2024). PUNCH4NFDI White Paper. [Official Consortium Documentation].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Krebs, K., et al. (2022). COBalD/TARDIS – A dynamic resource provisioning framework for heterogeneous computing environments. Journal of Physics: Conference Series, 2438(1), 012045. (メタスケジューラの参考文献).
Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004. https://doi.org/10.1088/1742-6596/331/5/052004
dCache Collaboration. (2023). dCache.org [Software and Documentation]. https://www.dcache.org
XRootD Collaboration. (2023). XRootD Documentation. http://xrootd.org/docs.html
McMahan, B., Moore, E., Ramage, D., Hampson, S., & y Arcas, B. A. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). (連合学習の類推で引用).
European Organization for Nuclear Research (CERN). (2023). Worldwide LHC Computing Grid (WLCG). https://wlcg.web.cern.ch (大規模連合の先例として引用).