PUNCH4NFDI를 위한 연합 이기종 컴퓨팅 및 스토리지 인프라

1. 서론

국가연구데이터인프라(NFDI)를 위한 입자, 우주, 원자핵 및 강입자(PUNCH4NFDI)는 독일연구재단(DFG)의 지원을 받는 주요 독일 컨소시엄입니다. 이 컨소시엄은 입자물리학, 천체물리학, 천체입자물리학, 강입자물리학, 핵물리학 분야의 약 9,000명의 과학자를 대표합니다. 컨소시엄의 주요 목표는 연합된 FAIR(검색 가능, 접근 가능, 상호 운용 가능, 재사용 가능) 과학 데이터 플랫폼을 구축하는 것입니다. 이 플랫폼은 참여 기관들에 분산된 다양하고 이기종적인 컴퓨팅 및 스토리지 자원에 대한 원활한 접근을 제공하여 방대한 데이터 양과 복잡한 자원 집약적 알고리즘의 공통적인 과제를 해결하는 것을 목표로 합니다. 본 문서는 이러한 현물 기여 자원들을 연합하기 위해 개발된 아키텍처 개념—Compute4PUNCH와 Storage4PUNCH—에 초점을 맞춥니다.

2. 연합 이기종 컴퓨팅 인프라 – Compute4PUNCH

Compute4PUNCH 개념은 다양한 기관들이 기여한 기존의 고처리량 컴퓨팅(HTC), 고성능 컴퓨팅(HPC), 클라우드 자원들에 대한 통합된 접근을 제공하는 과제를 다룹니다. 이러한 자원들은 아키텍처, 운영체제, 소프트웨어, 인증 방식에서 차이가 있습니다. 핵심 제약 조건은 여러 커뮤니티가 공유하는 기존 운영 시스템에 대한 변경을 최소화하는 것입니다.

2.1 핵심 아키텍처 및 통합 전략

이 전략은 연합 오버레이 배치 시스템을 사용합니다. 로컬 자원 관리자(SLURM, PBS 등)를 수정하는 대신, HTCondor 기반의 오버레이 풀이 생성됩니다. COBalD/TARDIS 자원 메타 스케줄러는 이기종 백엔드(HPC 클러스터, HTC 팜, 클라우드 VM)를 이 통합 풀에 동적이고 투명하게 통합합니다. 이는 "파일럿" 시스템 역할을 하여, 자원을 확보하기 위한 플레이스홀더 작업을 제출한 다음 실제 사용자 워크로드를 배포합니다.

2.2 사용자 접근 및 소프트웨어 환경

접근은 전통적인 로그인 노드와 중앙 진입점 역할을 하는 JupyterHub 서비스를 통해 제공됩니다. 토큰 기반 인증 및 권한 부여 인프라(AAI)가 접근을 표준화합니다. 소프트웨어 환경의 복잡성은 컨테이너 기술(Docker, Singularity/Apptainer)과 확장 가능한 읽기 전용 방식으로 사전 구성된 커뮤니티별 소프트웨어 스택을 제공하는 CERN 가상 머신 파일 시스템(CVMFS)을 통해 관리됩니다.

3. 연합 스토리지 인프라 – Storage4PUNCH

Storage4PUNCH는 주로 고에너지 물리학(HEP) 분야에서 잘 정립된 dCache 또는 XRootD 기술을 기반으로 하는 커뮤니티 제공 스토리지 시스템들을 연합하는 것을 목표로 합니다. 이 연합은 공통 네임스페이스와 접근 계층을 생성합니다. 이 개념은 또한 캐싱(지연 시간 및 광역 네트워크 트래픽 감소용) 및 메타데이터 처리를 위한 기존 기술들을 평가하여, 연합 스토리지 전반의 데이터 발견 및 관리를 용이하게 하기 위한 더 깊은 통합을 목표로 합니다.

4. 기술 구현 및 핵심 구성 요소

4.1 컴퓨팅 연합: HTCondor 및 COBalD/TARDIS

HTCondor: 연합 풀 내에서 작업 관리, 큐잉 및 스케줄링을 제공합니다. 그 ClassAd 메커니즘은 복잡한 작업 요구사항과 동적 자원 속성을 매칭할 수 있게 합니다.
COBalD/TARDIS: HTCondor와 이기종 백엔드 사이에 위치합니다. TARDIS는 HTCondor "파일럿"을 백엔드별 제출 명령(예: SLURM 작업 스크립트)으로 변환합니다. COBalD는 정책, 비용, 큐 상태를 기반으로 이러한 파일럿을 언제, 어디서 생성할지에 대한 결정 논리를 구현합니다. 핵심 기능은 최적화 문제로 모델링될 수 있습니다: $\text{Maximize } U = \sum_{r \in R} (w_r \cdot u_r(\text{alloc}_r)) \text{ subject to } \text{alloc}_r \leq \text{cap}_r, \forall r \in R$, 여기서 $U$는 총 효용, $R$은 자원 유형 집합, $w_r$은 가중치, $u_r$은 자원 유형 $r$에 대한 효용 함수, $\text{alloc}_r$은 할당된 용량, $\text{cap}_r$은 총 용량입니다.

4.2 스토리지 연합: dCache 및 XRootD

dCache: 계층적 스토리지 관리 시스템으로, 종종 테이프 아카이브의 프론트엔드로 사용됩니다. POSIX 유사 인터페이스(NFS, WebDAV) 및 HEP 특정 프로토콜(xrootd, gridftp)을 제공합니다.
XRootD: 확장 가능하고 내결함성 있는 데이터 접근을 위한 프로토콜 및 제품군입니다. 그 "리디렉터" 구성 요소는 클라이언트 쿼리를 적절한 데이터 서버로 안내하는 연합 구축을 가능하게 합니다.
연합은 여러 물리적 인스턴스를 단일 시스템으로 제시하는 논리적 계층을 생성하며, 데이터 지역성 인지 스케줄링에 중요합니다.

4.3 소프트웨어 및 데이터 전달: 컨테이너 및 CVMFS

컨테이너: 다양한 호스트 시스템 전반에서 재현 가능한 소프트웨어 환경을 보장합니다. 복잡한 의존성(예: ROOT, Geant4의 특정 버전)을 캡슐화합니다.
CVMFS: 소프트웨어 배포를 위한 글로벌 분산 파일 시스템입니다. HTTP와 적극적인 캐싱을 사용합니다. 그 콘텐츠는 한 번 게시되면 모든 곳에서 사용 가능해지며, 대규모 소프트웨어 배포 문제를 해결합니다. 게시 프로세스에는 "스트라텀 0" 서버와 "스트라텀 1" 미러로의 복제가 포함됩니다.

5. 프로토타입 현황 및 초기 경험

본 논문은 Compute4PUNCH와 Storage4PUNCH 모두에 대한 프로토타입이 배포되었다고 보고합니다. 초기 과학 응용 프로그램들이 사용 가능한 프로토타입에서 성공적으로 실행되어 개념의 실현 가능성을 입증했습니다. 초록에서는 구체적인 성능 지표나 상세한 사례 연구는 제공되지 않지만, 성공적인 실행은 통합 접근 방식과 선택된 기술 스택을 검증합니다.

6. 핵심 통찰 및 전략적 분석

통합보다 연합: 이 프로젝트는 강력하고 독립적인 파트너들로 구성된 컨소시엄에 있어 실용적인 선택으로, 기존 시스템에 대한 심층적이고 파괴적인 통합보다 경량 연합을 우선시합니다.
HEP 유산 활용: 검증된 HEP 기술(HTCondor, dCache, XRootD, CVMFS)에 대한 높은 의존도는 위험을 줄이고 개발을 가속화합니다.
추상화가 핵심: 성공은 다중 추상화 계층에 달려 있습니다: COBalD/TARDIS는 컴퓨팅 자원을 추상화하고, 스토리지 연합은 데이터 위치를 추상화하며, 컨테이너/CVMFS는 소프트웨어 환경을 추상화합니다.
사용자 중심 접근: 익숙한 진입점(JupyterHub, 로그인 노드)을 제공함으로써 다양한 사용자 기반의 도입 장벽을 낮춥니다.

7. 원본 분석: 핵심 통찰, 논리적 흐름, 강점 및 약점, 실행 가능한 통찰

핵심 통찰: PUNCH4NFDI는 새로운 슈퍼컴퓨터를 구축하는 것이 아닙니다. 이는 기존의 서로 다른 악기들의 교향곡을 조율하고 있습니다. 그 진정한 혁신은 COBalD/TARDIS와 연합 프로토콜로 구성된 "오케스트라 지휘자"인 메타 계층에 있습니다. 이 계층은 기반 제공자들에게 동질성을 요구하지 않으면서 통합 자원 풀을 생성합니다. 이는 정치적으로 복잡한 다기관 협업을 위한 전략적 명수로서, 데이터는 분산된 상태로 유지되지만 모델은 집계되는 AI의 연합 학습 패러다임(예: Google의 Federated Averaging 연구)을 연상시킵니다.

논리적 흐름: 아키텍처는 관심사의 명확한 분리를 따릅니다. 1) 접근 및 신원: 토큰 기반 AAI가 사용자를 인증합니다. 2) 컴퓨팅 추상화: 사용자가 HTCondor에 작업을 제출합니다. COBalD/TARDIS는 큐를 모니터링하고, 어떤 백엔드(예: 대학의 HPC 클러스터)에 용량이 있는지 결정한 후, HTCondor 풀을 위해 해당 자원을 "확보"하기 위한 파일럿 작업을 배포합니다. 실제 사용자 작업은 그런 다음 이 파일럿 내에서 실행됩니다. 3) 소프트웨어 환경: 작업은 CVMFS를 통해 또는 컨테이너 레지스트리에서 특정 소프트웨어 스택을 가져옵니다. 4) 데이터 접근: 작업은 연합 스토리지 계층(dCache/XRootD)을 통해 데이터를 읽고 쓰며, 이 계층은 요청을 실제 데이터 위치로 리디렉션합니다.

강점 및 약점: 강점은 부인할 수 없는 실용주의입니다. 기존 시스템을 감싸는 방식으로 빠른 배포 가능성과 자원 소유자들의 참여를 달성합니다. HEP 검증 기술 스택(CERN의 Worldwide LHC Computing Grid 성공으로 검증됨)의 사용은 주요 위험 완화 요소입니다. 그러나 약점은 메타 스케줄링 계층의 본질적인 복잡성에 있습니다. COBalD/TARDIS는 서로 다른 정책, 비용(예: 클라우드 크레딧), 성능 프로파일을 가진 이기종 시스템 전반에 걸쳐 지능적인 프로비저닝 결정을 내려야 합니다. 잘 조정되지 않은 정책은 비효율적인 자원 활용이나 작업 기아 상태를 초래할 수 있습니다. 더욱이, 스토리지 연합이 통합 접근을 제공하는 동안, 글로벌 네임스페이스 인덱싱, 메타데이터 카탈로그 연합, 지능형 데이터 배치(Lustre 병렬 파일 시스템의 아이디어나 자동화된 데이터 계층화 연구와 유사한)와 같은 고급 데이터 관리 기능들은 향후 평가 항목으로 보이며, 현재의 한계를 나타냅니다.

실행 가능한 통찰: 다른 컨소시엄(예: 생물정보학 또는 기후 과학 분야)을 위해 얻을 수 있는 교훈은 첫날부터 메타 스케줄러와 추상화 계층 설계에 막대한 투자를 하는 것입니다. PUNCH 접근 방식은 백지 상태에서 구축을 시도하기보다는 HTCondor와 같은 안정적인 기술을 사용한 최소한의 실행 가능한 연합으로 시작할 것을 제안합니다. 자원 제공자들은 명확하고 최소한의 API와 같은 요구사항(예: "SSH 또는 특정 배치 시스템 명령을 지원해야 함")으로 참여해야 합니다. 결정적으로, 프로젝트는 연합 계층 자체에 대한 강력한 모니터링 및 감사 도구를 개발해야 합니다—이 복잡한 체인에서의 사이트 간 활용도를 이해하고 장애를 진단하는 것이 운영상 가장 중요할 것입니다. 향후 로드맵은 워크플로 관리 시스템(Nextflow 또는 Apache Airflow와 같은)의 통합과 평가된 캐싱 및 메타데이터 서비스의 개발을 명시적으로 다루어 단순한 연합에서 지능적이고 성능 최적화된 데이터 물류로 나아가야 합니다.

8. 기술적 세부 사항 및 수학적 프레임워크

COBalD/TARDIS가 해결하는 자원 할당 문제는 온라인 최적화로 구성될 수 있습니다. $Q(t)$를 시간 $t$에서 HTCondor의 대기 중인 작업 큐라고 하고, 각 작업은 예상 실행 시간 $\hat{r}_i$와 자원 요청 벡터 $\vec{c}_i$(CPU, 메모리, GPU)를 가집니다. $B$를 백엔드 집합이라고 하고, 각 백엔드는 시간에 따라 변하는 가용 용량 $\vec{C}_b(t)$와 자원 $\vec{c}$를 기간 $\Delta t$ 동안 할당하는 비용 함수 $f_b(\vec{c}, \Delta t)$를 가집니다. 메타 스케줄러의 목표는 백엔드 정책과 예산 제약을 준수하면서 평균 작업 처리 시간 $T_{ta}$를 최소화하는 것입니다. 백엔드 $b$에서 파일럿을 생성하기 위한 단순화된 휴리스틱 결정 규칙은 다음과 같을 수 있습니다: $\text{Spawn if } \frac{|\{j \in Q(t): \vec{c}_j \preceq \vec{C}_b(t)\}|}{\text{Cost}_b} > \theta$, 여기서 $\preceq$는 "내부에 맞음"을 나타내고, $\text{Cost}_b$는 정규화된 비용이며, $\theta$는 임계값입니다. 이는 큐 수요와 프로비저닝 비용 사이의 트레이드오프를 포착합니다.

9. 실험 결과 및 프로토타입 지표

제공된 PDF 초록에는 구체적인 정량적 결과가 포함되어 있지 않지만, 성공적인 프로토타입은 핵심 질적 및 잠재적 정량적 결과를 의미합니다:

기능적 성공: HTCondor/JupyterHub를 통해 단일 작업을 제출하고, CVMFS의 소프트웨어와 연합 스토리지의 데이터를 사용하여 원격 HPC 또는 HTC 자원에서 투명하게 실행할 수 있는 능력을 입증했습니다.
추적할 핵심 지표(향후):
- 작업 성공률: 연합 전반에서 성공적으로 완료된 작업의 비율.
- 평균 대기 시간: 제출부터 시작까지의 시간, 네이티브 백엔드 큐와 비교.
- 자원 활용률: 연합 풀 전반에서 제공된 총 CPU-시간.
- 데이터 전송 효율성: 연합 계층을 통해 원격 스토리지에 접근하는 작업의 처리량 및 지연 시간.
다이어그램 설명: 개념적 아키텍처 다이어그램은 다음과 같이 보여줍니다: 사용자가 JupyterHub/로그인 노드와 상호작용합니다. 이들은 중앙 HTCondor 중앙 관리자에 연결됩니다. COBalD/TARDIS 구성 요소는 HTCondor와 여러 자원 백엔드(HPC 클러스터 A, HTC 팜 B, 클라우드 C) 모두와 상호작용합니다. 각 백엔드는 로컬 배치 시스템(SLURM, PBS 등)을 가집니다. 화살표는 작업 제출 및 파일럿 배포를 나타냅니다. 별도의 섹션은 백엔드에 연결되고 작업이 접근할 수 있는 연합 스토리지(dCache, XRootD 인스턴스)를 보여줍니다. CVMFS 스트라텀 1 미러는 모든 백엔드가 접근할 수 있는 계층으로 표시됩니다.

10. 분석 프레임워크: 개념적 워크플로 예시

시나리오: 천체입자물리학자가 복잡한 맞춤형 분석 파이프라인(Python/ROOT 기반)을 사용하여 1,000개의 망원경 이미지를 처리해야 합니다.

사용자 진입: 연구자가 PUNCH JupyterHub에 로그인합니다.
환경 설정: Jupyter 노트북에서, 그들은 특정 소프트웨어 스택(CVMFS에 게시됨)을 포함하는 Singularity 컨테이너로 지원되는 사전 정의된 커널을 선택합니다.
작업 정의: 그들은 분석 작업을 정의하는 스크립트를 작성하고 PUNCH 도우미 라이브러리를 사용하여 필요한 CPU, 메모리 및 입력 데이터 참조(예: `root://fed-storage.punch.org/path/to/images_*.fits`)를 지정하는 HTCondor 제출 설명을 생성합니다.
제출 및 스케줄링: 작업이 HTCondor 풀에 제출됩니다. COBalD/TARDIS는 1,000개의 짧은 작업을 보고, 입력 데이터에 대한 빠른 로컬 스토리지 캐시를 가진 고처리량 팜(백엔드 B)에 여러 파일럿 작업을 생성하기로 결정합니다.
실행: 파일럿들이 백엔드 B의 슬롯을 확보합니다. 각 파일럿은 컨테이너를 가져오고, XRootD 연합(로컬 캐시로 리디렉션될 수 있음)을 통해 할당된 입력 파일들을 가져와 분석을 실행하고 결과를 연합 스토리지에 다시 씁니다.
완료: HTCondor가 작업 완료 상태를 집계합니다. 연구자의 노트북은 이제 출력 스토리지 위치에서 결과를 쿼리하고 시각화할 수 있습니다.

이 예시는 완전한 추상화를 강조합니다: 사용자는 백엔드 B의 SLURM 명령, 거기에 ROOT를 설치하는 방법, 또는 데이터 파일의 물리적 위치에 대해 전혀 알 필요가 없었습니다.

11. 미래 응용 및 개발 로드맵

PUNCH4NFDI 인프라는 변혁적인 응용을 위한 기반을 마련합니다:

다중 메신저 천체물리학 워크플로: 중력파(LIGO/Virgo), 중성미자(IceCube), 전자기 관측소 데이터 간의 실시간 상관 분석으로, 지리적으로 분산된 자원들에 걸친 긴급 컴퓨팅이 필요합니다.
대규모 AI/ML 모델 학습: 학습 과정 자체가 컴퓨팅 연합 전반에 분산되고 모델이 중앙에서 집계되는 연합 학습 실험—데이터 연합에 대한 컴퓨팅 병렬.
복잡한 실험의 디지털 트윈: 입자 검출기나 망원경 배열의 디지털 대응물을 생성하기 위한 대규모 시뮬레이션 앙상블 실행으로, 시뮬레이션에는 HPC를, 매개변수 스캔에는 HTC를 활용합니다.

개발 로드맵:

단기(1-2년): Compute4PUNCH 및 Storage4PUNCH 핵심 서비스의 프로덕션 등급 배포를 공고히 합니다. 고급 모니터링(Prometheus/Grafana) 및 청구/회계 도구를 통합합니다.
중기(3-4년): 평가된 캐싱 및 글로벌 메타데이터 카탈로그 서비스를 구현하고 통합합니다. 워크플로 관리 시스템과의 긴밀한 통합을 개발합니다. 수요 정점 시 상용 클라우드로의 "버스팅"을 탐구합니다.
장기(5년 이상): PUNCH 과학을 위한 "지능형 데이터 레이크하우스"로 진화하여, 연합 메타데이터로 구동되는 데이터 발견, 출처 추적, 자동화된 데이터 생명주기 관리를 통합합니다. 다른 NFDI 컨소시엄 및 국제 협업을 위한 청사진 역할을 합니다.

12. 참고문헌

PUNCH4NFDI 컨소시엄. (2024). PUNCH4NFDI 백서. [공식 컨소시엄 문서].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Krebs, K., et al. (2022). COBalD/TARDIS – A dynamic resource provisioning framework for heterogeneous computing environments. Journal of Physics: Conference Series, 2438(1), 012045. (메타 스케줄러 참고문헌).
Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004. https://doi.org/10.1088/1742-6596/331/5/052004
dCache 협업. (2023). dCache.org [소프트웨어 및 문서]. https://www.dcache.org
XRootD 협업. (2023). XRootD 문서. http://xrootd.org/docs.html
McMahan, B., Moore, E., Ramage, D., Hampson, S., & y Arcas, B. A. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). (연합 학습 유사성 인용).
유럽 입자 물리 연구소 (CERN). (2023). Worldwide LHC Computing Grid (WLCG). https://wlcg.web.cern.ch (대규모 연합 선례 인용).