Compute4PUNCH & Storage4PUNCH: Infraestrutura Federada para Física de Partículas, Astrofísica e Física Nuclear

1. Introdução

O consórcio PUNCH4NFDI (Particles, Universe, NuClei and Hadrons for the National Research Data Infrastructure), financiado pela Fundação Alemã de Investigação (DFG), representa aproximadamente 9.000 cientistas das comunidades de física de partículas, astrofísica, astropartículas, hádrões e física nuclear na Alemanha. Integrado na iniciativa nacional NFDI, o seu principal objetivo é estabelecer uma plataforma federada de dados científicos FAIR (Findable, Accessible, Interoperable, Reusable). Esta plataforma visa fornecer acesso transparente aos diversos e heterogéneos recursos de computação e armazenamento contribuídos pelas suas instituições membro, abordando o desafio comum de analisar volumes de dados que crescem exponencialmente com algoritmos complexos. Este documento centra-se nos conceitos técnicos do Compute4PUNCH e do Storage4PUNCH, que constituem a espinha dorsal desta infraestrutura federada.

2. Infraestrutura Federada de Computação Heterogénea – Compute4PUNCH

O Compute4PUNCH aborda o desafio de utilizar eficazmente uma vasta gama de recursos de computação de alto rendimento (HTC), computação de alto desempenho (HPC) e cloud, distribuídos por toda a Alemanha e contribuídos em espécie. Estes recursos variam em arquitetura, sistemas operativos, pilhas de software e mecanismos de autenticação.

2.1. Arquitetura Central & Sistema de Sobreposição

A pedra angular do Compute4PUNCH é a criação de um sistema de lote federado de sobreposição baseado no HTCondor. A inovação chave é a utilização do meta-agendador de recursos COBalD/TARDIS. O TARDIS (TARDIS Acts as a Resource Dispatcher for In-place Scheduling) integra dinâmica e transparentemente recursos externos e heterogéneos no pool HTCondor. Atua como um sistema "piloto", submetendo trabalhos de placeholder para clusters externos (como sistemas HPC baseados em Slurm) que, em seguida, recolhem e executam trabalhos reais de utilizadores da fila central do HTCondor. Esta abordagem minimiza a intrusão nas configurações operacionais existentes dos fornecedores de recursos, um requisito crítico para a sua adoção.

A lógica de correspondência e agendamento de recursos pode ser representada abstratamente por uma função de otimização. Seja $R = \{r_1, r_2, ..., r_n\}$ o conjunto de recursos heterogéneos disponíveis, cada um com atributos como arquitetura $arch(r_i)$, núcleos disponíveis $c(r_i)$, memória $m(r_i)$ e tempo de espera na fila $w(r_i)$. Seja $J = \{j_1, j_2, ..., j_m\}$ o conjunto de trabalhos de utilizador com requisitos $req(j_k)$. O objetivo do meta-agendador é encontrar um mapeamento $M: J \rightarrow R$ que maximize uma função objetivo $F$, frequentemente uma soma ponderada de eficiência e equidade:

$F(M) = \alpha \cdot \sum_{j_k} U(j_k, M(j_k)) - \beta \cdot \sum_{r_i} L(r_i, M^{-1}(r_i))$

onde $U$ é uma função de utilidade que mede o quão bem um recurso satisfaz os requisitos de um trabalho (considerando a compatibilidade do ambiente de software via CVMFS), e $L$ é uma função de carga que penaliza a sobre-subscrição de qualquer recurso individual. O COBalD/TARDIS resolve heuristicamente este problema de agendamento dinâmico e online.

2.2. Acesso & Ambiente de Software

O acesso do utilizador é padronizado através de uma Infraestrutura de Autenticação e Autorização (AAI) baseada em tokens. Os pontos de entrada principais são os nós de login tradicionais e um serviço JupyterHub, fornecendo uma interface web familiar para análise interativa e prototipagem.

Para lidar com diversas dependências de software, a infraestrutura aproveita tecnologias de contentores (ex.: Docker, Singularity/Apptainer) e o CERN Virtual Machine File System (CVMFS). O CVMFS fornece um espaço de nomes escalável, só de leitura e globalmente distribuído para instalações de software. Pilhas de software específicas da comunidade são publicadas em repositórios CVMFS, garantindo que qualquer nó de computação, independentemente da sua localização física, possa aceder ao ambiente de software necessário de forma instantânea e consistente, eliminando a sobrecarga de instalação local.

3. Infraestrutura Federada de Armazenamento – Storage4PUNCH

O Storage4PUNCH centra-se na federação de sistemas de armazenamento fornecidos pela comunidade, que são predominantemente baseados nas tecnologias dCache ou XRootD, ambas bem estabelecidas na Física de Altas Energias (HEP).

3.1. Estratégias de Federação e Cache

A federação cria um espaço de nomes unificado, permitindo que os utilizadores acedam a dados através de múltiplos elementos de armazenamento institucionais como se fossem um único sistema. Tecnologias como o protocolo de federação do XRootD e o agrupamento de frontends do dCache são empregues para alcançar isto. O sistema realiza localização e encaminhamento inteligente de dados.

Um componente crítico em avaliação é o cache. Uma camada de cache global ou regional pode reduzir significativamente a latência e a carga da rede de longa distância para conjuntos de dados frequentemente acedidos. A taxa de acerto $H$ de um cache de tamanho $S$ para um padrão de acesso a dados pode ser modelada. Se a probabilidade de aceder ao item de dados $d_i$ seguir uma distribuição do tipo Zipf $P(i) \sim 1 / i^{\alpha}$, a taxa de acerto esperada para um cache LRU é aproximadamente:

$H(S) \approx \sum_{i=1}^{S} P(i)$

onde $\alpha$ é o parâmetro de assimetria. Para fluxos de trabalho científicos com alta reutilização de dados (comum em cadeias de análise), mesmo caches de tamanho moderado podem produzir um $H$ elevado, justificando a sua implementação. O projeto está também a avaliar soluções de gestão de metadados para uma integração mais profunda, visando fornecer não apenas acesso a ficheiros, mas também capacidades de descoberta de dados através da federação.

4. Detalhes Técnicos & Enquadramento Matemático

O desempenho da federação depende da descoberta e agendamento eficiente de recursos. O estado do sistema pode ser modelado como um grafo $G=(V,E)$, onde os vértices $V$ representam recursos (nós de computação, endpoints de armazenamento) e as arestas $E$ representam ligações de rede com largura de banda $bw(e)$ e latência $lat(e)$. Um fluxo de trabalho $W$ é um Grafo Acíclico Dirigido (DAG) de tarefas $T$ com dependências de dados $D$.

O problema de agendamento torna-se: Colocar cada tarefa $t \in T$ num recurso de computação $r_c \in V_c$ e encaminhar os seus dados de entrada necessários a partir de recursos de armazenamento $r_s \in V_s$ de modo a minimizar o makespan total (tempo de conclusão do fluxo de trabalho), sujeito a restrições:

$\text{minimize } \max_{t \in T} (ft(t))$
sujeito a:
$\forall r \in V_c, \sum_{t colocada\ em\ r} c(t) \leq C(r)$ (capacidade de CPU)
$\forall d \in D, \text{transfer\_time}(d) = \frac{size(d)}{\min\_bw(path)} + \sum_{e \in path} lat(e)$

Onde $ft(t)$ é o tempo de fim da tarefa $t$, $c(t)$ a sua procura de CPU e $C(r)$ a capacidade do recurso $r$. O sistema federado utiliza algoritmos heurísticos dentro do HTCondor e do COBalD/TARDIS para aproximar soluções para este problema NP-difícil em tempo real.

5. Resultados Experimentais & Desempenho do Protótipo

O artigo relata experiências iniciais com protótipos operacionais. Embora benchmarks quantitativos específicos não sejam detalhados no excerto fornecido, o texto implica a execução bem-sucedida de aplicações científicas na infraestrutura federada.

Descrição do Gráfico (Métricas de Desempenho Inferidas): Um gráfico de desempenho hipotético provavelmente mostraria duas métricas-chave ao longo do tempo: 1) Utilização Agregada de Recursos através do pool federado, demonstrando como o sistema de sobreposição preenche eficazmente as lacunas de capacidade entre os diferentes centros contribuintes. 2) Tempo de Resposta do Trabalho comparando um cenário federado com o uso isolado de recursos. O sistema federado mostraria uma média e variância mais baixas no tempo de resposta, especialmente para trabalhos com requisitos de recursos flexíveis, uma vez que podem ser encaminhados para os recursos com a fila mais curta. A integração de recursos HPC via TARDIS mostraria uma curva distinta, adicionando inicialmente latência devido ao mecanismo de trabalho piloto, mas fornecendo acesso a nós de alto número de núcleos de outra forma indisponíveis para cargas de trabalho adequadas.

Relata-se que o uso do CVMFS fornece com sucesso ambientes de software uniformes, um fator crítico de sucesso para a adoção pelos utilizadores. A AAI baseada em tokens foi implementada, fornecendo a base necessária para um acesso seguro e multi-institucional.

6. Enquadramento de Análise: Um Estudo de Caso Conceptual

Caso: Análise de Astrofísica Multi-Mensageira. Um astrofísico de partículas precisa de analisar dados de uma explosão de raios gama (GRB) detetada pelo Fermi-LAT e pelo IceCube, correlacionando-a com observações óticas de seguimento do ASAS-SN. O fluxo de trabalho envolve: A) Processar terabytes de dados brutos de fotões (Fermi) numa quinta HTC otimizada para I/O elevado. B) Executar simulações de Monte Carlo para reconstrução de eventos de neutrinos (IceCube) num cluster HPC com muitos núcleos. C) Realizar análise de imagem em dados óticos utilizando nós GPU.

Execução Federada via Compute4PUNCH/Storage4PUNCH:
1. O utilizador submete uma única descrição de fluxo de trabalho de alto nível (ex.: usando a Common Workflow Language - CWL) via JupyterHub.
2. O token AAI autentica o utilizador em todos os sistemas.
3. A sobreposição HTCondor, orientada pelo COBalD/TARDIS, analisa o DAG do fluxo de trabalho:
- A Tarefa A é correspondida e enviada para trabalhadores HTC no DESY próximos ao armazenamento suportado por dCache.
- O requisito da Tarefa B por 10.000 horas de CPU desencadeia o TARDIS a provisionar slots num cluster HPC baseado em Slurm no KIT.
- A Tarefa C é enviada para uma partição GPU na Universidade de Bona.
4. Todas as tarefas recolhem a mesma pilha de software de análise (Python, bibliotecas científicas específicas) do repositório PUNCH CVMFS.
5. Os dados intermédios são trocados através do espaço de nomes federado Storage4PUNCH (ex.: usando XRootD), com ficheiros de calibração frequentemente acedidos a serem servidos a partir de um cache regional.
6. Os resultados finais são agregados e devolvidos ao utilizador.

Este caso demonstra a proposta de valor: o físico interage com uma única infraestrutura lógica, em vez de gerir logins separados, instalações de software e transferências de dados em três sistemas distintos.

7. Ideia Central & Perspetiva do Analista

Ideia Central: O PUNCH4NFDI não está a construir outro supercomputador monolítico; está a projetar uma camada de federação—um "meta-sistema operativo" para a computação de investigação heterogénea à escala nacional. A sua verdadeira inovação é a orquestração pragmática de recursos existentes, politicamente isolados, numa utilidade coerente, priorizando a intrusão mínima em detrimento da pureza tecnológica. Isto é menos como o Borg da Google e mais como um sofisticado sistema de controlo de tráfego aéreo à escala da UE para trabalhos de computação.

Fluxo Lógico: A lógica é elegantemente recursiva. Começa com a restrição não negociável: não perturbar as operações comunitárias existentes. Isto força uma arquitetura de sobreposição baseada em pull (HTCondor + TARDIS) em vez de um agendador centralizado baseado em push. Essa sobreposição, por sua vez, necessita de um mecanismo universal de entrega de software (CVMFS/Contentores) e de uma camada de identidade unificada (Token AAI). A federação de armazenamento segue um caminho paralelo, aproveitando ferramentas HEP testadas em batalha (dCache/XRootD). Todo o fluxo é uma aula magistral em design orientado por restrições, onde cada escolha técnica é uma consequência direta da realidade sociopolítica da colaboração multi-institucional.

Pontos Fortes & Fraquezas:
Pontos Fortes: A arquitetura é brilhantemente federável. Escala a governação horizontalmente por design, baixando as barreiras para novos fornecedores de recursos. Usar HTCondor e CVMFS aproveita décadas de confiança da comunidade e experiência operacional das colaborações do LHC, reduzindo o risco técnico. O foco em recursos "em espécie" é financeiramente sustentável, transformando um problema de fragmentação numa vantagem de diversidade.
Fraquezas: O elefante na sala é a sobrecarga de desempenho. O duplo agendamento (meta-agendador + sistema de lote local) e o modelo de trabalho piloto adicionam inevitavelmente latência, tornando-o inadequado para trabalhos MPI de grão fino e fortemente acoplados—uma limitação significativa para cargas de trabalho HPC puras. A dependência do CVMFS, embora robusta, cria um ponto único de falha para a entrega de software e pode ter dificuldades com códigos altamente proprietários ou licenciados. Além disso, como observado nos princípios de dados FAIR, a verdadeira interoperabilidade requer metadados ricos; a descrição atual do Storage4PUNCH parece focada principalmente no acesso a nível de byte, não na descoberta semântica.

Ideias Acionáveis:
1. Para a Equipa PUNCH: Redobrar a caracterização de desempenho. Publicar benchmarks transparentes comparando o rendimento e a latência federados vs. nativos para fluxos de trabalho canónicos. Estes dados são cruciais para convencer gestores e utilizadores céticos de centros HPC. Desenvolver proativamente um modelo de suporte "Tier-1" para a própria camada de federação; a sua complexidade torna-se uma dependência crítica.
2. Para Outros Consórcios (ex.: em Bioinformática ou Ciências do Clima): Não copiem apenas a pilha tecnológica. Copiem o modelo de governação que a permitiu. A lição chave é o acordo de "contribuição em espécie" que alinha os incentivos institucionais. Comecem por federar a autenticação e a distribuição de software, como o PUNCH fez; estas são fundamentais.
3. Para Agências de Financiamento (DFG, UE): Este modelo deve ser o plano para futuros concursos de infraestruturas de investigação nacionais. Financiem a "cola" (coordenação, devops centrais para a camada de federação) e deixem as instituições financiar os "tijolos" (computação/armazenamento reais). Isto aproveita os investimentos de capital existentes de forma mais eficaz do que construir novas instalações centralizadas, um princípio ecoado na visão estratégica da European Open Science Cloud (EOSC).

Em conclusão, o Compute4PUNCH e o Storage4PUNCH representam um modelo maduro, pragmático e altamente replicável para a infraestrutura científica de grande escala do século XXI. Troca algum desempenho teórico por ganhos imensos em acessibilidade, resiliência e viabilidade política. O seu sucesso será medido não em FLOPS, mas no número de estudantes de doutoramento que podem completar a sua análise sem se tornarem administradores de sistemas especialistas para cinco clusters diferentes.

8. Aplicações Futuras & Roteiro de Desenvolvimento

A infraestrutura PUNCH4NFDI estabelece uma base para vários avanços futuros:

Integração com Fluxos de Trabalho de Aprendizagem Automática: A federação pode ser estendida para suportar aceleradores especializados de IA/ML (ex.: pods NVIDIA DGX, Google TPUs) como um tipo de recurso. Frameworks como o Kubeflow poderiam ser integrados juntamente com o HTCondor, com o TARDIS a gerir colocações híbridas de trabalhos entre recursos HTC tradicionais e focados em ML.
Colocação Proativa de Dados & Agendamento Consciente do Fluxo de Trabalho: Indo além do cache, o sistema poderia implementar a preparação preditiva de dados. Ao analisar DAGs de fluxos de trabalho submetidos pelos utilizadores, poderia pré-recolher conjuntos de dados necessários de endpoints remotos do Storage4PUNCH para caches locais perto dos recursos de computação agendados antes do início da execução do trabalho, escondendo efetivamente a latência de transferência de dados. Isto requer uma integração mais apertada entre o meta-agendador de computação e o espaço de nomes e dados de monitorização da federação de armazenamento.
Expansão para Computação na Periferia: Para áreas como a radioastronomia ou a física de neutrinos, onde os sensores geram vastos fluxos de dados, o modelo de federação poderia incorporar locais de computação na periferia. Agentes TARDIS leves poderiam funcionar em observatórios, recolhendo tarefas de pré-processamento da fila central para filtrar e reduzir dados no local antes de transmitir apenas eventos relevantes para o armazenamento central.
Computação Verde & Agendamento Consciente do Carbono: O meta-agendador poderia ser melhorado com dados de intensidade de carbono das redes elétricas em toda a Alemanha. Poderia então encaminhar preferencialmente trabalhos para centros de dados em regiões com alta penetração de energias renováveis (ex.: energia eólica no norte) em momentos de pico de produção, minimizando a pegada de carbono de computações em grande escala—uma prioridade emergente para infraestruturas de investigação, como destacado pela iniciativa Carbon Call da Linux Foundation.
Inter-Federação com Parceiros Internacionais: O próximo passo lógico é conectar a federação alemã PUNCH com infraestruturas semelhantes no estrangeiro, como a Worldwide LHC Computing Grid (WLCG), a Open Science Grid (OSG) ou a European Open Science Cloud (EOSC). Isto criaria uma infraestrutura de investigação global e multidisciplinar, embora levantasse desafios significativos no alinhamento de políticas, segurança e contabilização.

9. Referências

Consórcio PUNCH4NFDI. "PUNCH4NFDI - Particles, Universe, NuClei and Hadrons for the NFDI." White Paper, 2021.
Thain, D., Tannenbaum, T., & Livny, M. "Distributed computing in practice: the Condor experience." Concurrency - Practice and Experience, 17(2-4), 323-356, 2005. https://doi.org/10.1002/cpe.938
Blomer, J., et al. "CernVM-FS: delivering scientific software to globally distributed computing resources." International Journal of High Performance Computing Applications, 28(2), 158-174, 2014. https://doi.org/10.1177/1094342013509700
Giffels, M., et al. "COBalD/TARDIS – Dynamic, Pilot-based Resource Provisioning for a Federated HTCondor Pool." In Proceedings of CHEP 2018, 2018.
Wilkinson, M. D., et al. "The FAIR Guiding Principles for scientific data management and stewardship." Scientific Data, 3:160018, 2016. https://doi.org/10.1038/sdata.2016.18
Comissão Europeia. "European Open Science Cloud (EOSC) Strategic Implementation Roadmap." 2018.
Linux Foundation. "Carbon Call: A Global Initiative for Reliable Carbon Accounting." 2022. https://www.linuxfoundation.org/research/carbon-call
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. (Citado como um exemplo de uma carga de trabalho computacional complexa que poderia beneficiar do acesso federado e heterogéneo a recursos).