1. Pengenalan
Konsortium PUNCH4NFDI (Zarah, Alam Semesta, Nuklei dan Hadron untuk Infrastruktur Data Penyelidikan Kebangsaan), yang dibiayai oleh Yayasan Penyelidikan Jerman (DFG), mewakili kira-kira 9,000 saintis daripada komuniti fizik zarah, astro-, astro-zarah, hadron dan nuklear di Jerman. Tertanam dalam inisiatif NFDI kebangsaan, matlamat utamanya adalah untuk mewujudkan platform data sains teragih dan FAIR (Boleh Ditemui, Boleh Diakses, Boleh Saling Operasi, Boleh Diguna Semula). Platform ini bertujuan untuk menyediakan akses lancar kepada pelbagai sumber pengkomputeran dan storan heterogen yang disumbangkan oleh institusi ahlinya, menangani cabaran umum menganalisis jumlah data yang berkembang secara eksponen dengan algoritma kompleks. Dokumen ini memberi tumpuan kepada konsep teknikal Compute4PUNCH dan Storage4PUNCH, yang membentuk tulang belakang infrastruktur teragih ini.
2. Infrastruktur Pengkomputeran Heterogen Teragih – Compute4PUNCH
Compute4PUNCH menangani cabaran menggunakan secara berkesan pelbagai sumber Pengkomputeran Berbilang-Tugas Tinggi (HTC), Pengkomputeran Prestasi Tinggi (HPC) dan Awan yang disumbangkan secara in-kind dan diagihkan di seluruh Jerman. Sumber-sumber ini berbeza dari segi seni bina, sistem pengendalian, timbunan perisian dan mekanisme pengesahan.
2.1. Seni Bina Teras & Sistem Lapisan Atas
Asas utama Compute4PUNCH ialah penciptaan sistem kelompok lapisan atas teragih berdasarkan HTCondor. Inovasi utama ialah penggunaan penjadual-meta sumber COBalD/TARDIS. TARDIS (TARDIS Bertindak sebagai Penghantar Sumber untuk Penjadualan di Tempat) secara dinamik dan telus mengintegrasikan sumber luaran yang heterogen ke dalam kolam HTCondor. Ia bertindak sebagai sistem "perintis", menghantar kerja placeholder kepada kelompok luaran (seperti sistem HPC berasaskan Slurm) yang kemudian menarik dan melaksanakan kerja pengguna sebenar daripada barisan HTCondor pusat. Pendekatan ini meminimumkan gangguan terhadap persediaan operasi sedia ada penyedia sumber, satu keperluan kritikal untuk penerimaan.
Logik pemadanan dan penjadualan sumber boleh diwakili secara abstrak oleh fungsi pengoptimuman. Biarkan $R = \{r_1, r_2, ..., r_n\}$ menjadi set sumber heterogen yang tersedia, setiap satu dengan atribut seperti seni bina $arch(r_i)$, teras tersedia $c(r_i)$, ingatan $m(r_i)$ dan masa tunggu barisan $w(r_i)$. Biarkan $J = \{j_1, j_2, ..., j_m\}$ menjadi set kerja pengguna dengan keperluan $req(j_k)$. Matlamat penjadual-meta adalah untuk mencari pemetaan $M: J \rightarrow R$ yang memaksimumkan fungsi objektif $F$, selalunya jumlah wajaran kecekapan dan keadilan:
$F(M) = \alpha \cdot \sum_{j_k} U(j_k, M(j_k)) - \beta \cdot \sum_{r_i} L(r_i, M^{-1}(r_i))$
di mana $U$ ialah fungsi utiliti yang mengukur sejauh mana sumber memenuhi keperluan kerja (dengan mempertimbangkan keserasian persekitaran perisian melalui CVMFS), dan $L$ ialah fungsi beban yang mengenakan penalti untuk langganan berlebihan mana-mana sumber tunggal. COBalD/TARDIS secara heuristik menyelesaikan masalah penjadualan dalam talian yang dinamik ini.
2.2. Akses & Persekitaran Perisian
Akses pengguna distandardkan melalui Infrastruktur Pengesahan dan Pemberian Kuasa (AAI) berasaskan token. Titik masuk utama ialah nod log masuk tradisional dan perkhidmatan JupyterHub, menyediakan antara muka berasaskan web yang biasa untuk analisis interaktif dan pembuatan prototaip.
Untuk mengendalikan kebergantungan perisian yang pelbagai, infrastruktur ini memanfaatkan teknologi kontena (cth., Docker, Singularity/Apptainer) dan Sistem Fail Mesin Maya CERN (CVMFS). CVMFS menyampaikan ruang nama yang boleh diskalakan, baca-sahaja dan diagihkan secara global untuk pemasangan perisian. Timbunan perisian khusus komuniti diterbitkan ke repositori CVMFS, memastikan mana-mana nod pengkomputeran, tanpa mengira lokasi fizikalnya, boleh mengakses persekitaran perisian yang diperlukan dengan serta-merta dan konsisten, menghapuskan kos tambahan pemasangan tempatan.
3. Infrastruktur Storan Teragih – Storage4PUNCH
Storage4PUNCH memberi tumpuan kepada pengagihan sistem storan yang dibekalkan komuniti, yang kebanyakannya berdasarkan teknologi dCache atau XRootD, kedua-duanya mantap dalam Fizik Tenaga Tinggi (HEP).
3.1. Strategi Pengagihan & Pengecasan
Pengagihan ini mewujudkan ruang nama bersatu, membolehkan pengguna mengakses data merentasi pelbagai elemen storan institusi seolah-olah ia adalah sistem tunggal. Teknologi seperti protokol pengagihan XRootD dan pengumpulan hadapan dCache digunakan untuk mencapainya. Sistem ini melakukan lokasi dan penghalaan data pintar.
Komponen kritikal yang sedang dinilai ialah pengecasan. Lapisan cache global atau serantau boleh mengurangkan kependaman dan beban rangkaian kawasan luas dengan ketara untuk set data yang kerap diakses. Kadar hentaman $H$ cache bersaiz $S$ untuk corak akses data boleh dimodelkan. Jika kebarangkalian mengakses item data $d_i$ mengikuti taburan seperti Zipf $P(i) \sim 1 / i^{\alpha}$, kadar hentaman yang dijangkakan untuk cache LRU adalah lebih kurang:
$H(S) \approx \sum_{i=1}^{S} P(i)$
di mana $\alpha$ ialah parameter kecondongan. Untuk aliran kerja saintifik dengan penggunaan semula data yang tinggi (biasa dalam rantaian analisis), cache bersaiz sederhana pun boleh menghasilkan $H$ yang tinggi, mewajarkan penyebarannya. Projek ini juga menilai penyelesaian pengendalian metadata untuk integrasi yang lebih mendalam, bertujuan untuk menyediakan bukan sahaja akses fail tetapi juga keupayaan penemuan data merentasi pengagihan.
4. Butiran Teknikal & Kerangka Matematik
Prestasi pengagihan bergantung pada penemuan dan penjadualan sumber yang cekap. Keadaan sistem boleh dimodelkan sebagai graf $G=(V,E)$, di mana bucu $V$ mewakili sumber (nod pengkomputeran, hujung storan) dan tepi $E$ mewakili pautan rangkaian dengan lebar jalur $bw(e)$ dan kependaman $lat(e)$. Aliran kerja $W$ ialah Graf Asiklik Berarah (DAG) tugas $T$ dengan kebergantungan data $D$.
Masalah penjadualan menjadi: Letakkan setiap tugas $t \in T$ pada sumber pengkomputeran $r_c \in V_c$ dan hala data input yang diperlukan daripada sumber storan $r_s \in V_s$ supaya jumlah makespan (masa siap aliran kerja) diminimumkan, tertakluk kepada kekangan:
$\text{minimize } \max_{t \in T} (ft(t))$
subject to:
$\forall r \in V_c, \sum_{t placed\ on\ r} c(t) \leq C(r)$ (kapasiti CPU)
$\forall d \in D, \text{transfer\_time}(d) = \frac{size(d)}{\min\_bw(path)} + \sum_{e \in path} lat(e)$
Di mana $ft(t)$ ialah masa siap tugas $t$, $c(t)$ permintaan CPUnya, dan $C(r)$ kapasiti sumber $r$. Sistem teragih menggunakan algoritma heuristik dalam HTCondor dan COBalD/TARDIS untuk menganggarkan penyelesaian kepada masalah NP-hard ini secara masa nyata.
5. Keputusan Eksperimen & Prestasi Prototaip
Kertas kerja ini melaporkan pengalaman awal dengan prototaip operasi. Walaupun penanda aras kuantitatif khusus tidak diperincikan dalam petikan yang diberikan, teks ini membayangkan pelaksanaan aplikasi saintifik yang berjaya pada infrastruktur teragih.
Penerangan Carta (Metrik Prestasi Diandaikan): Satu carta prestasi hipotesis mungkin menunjukkan dua metrik utama sepanjang masa: 1) Penggunaan Sumber Agregat merentasi kolam teragih, menunjukkan bagaimana sistem lapisan atas berkesan mengisi jurang kapasiti antara pusat penyumbang yang berbeza. 2) Masa Pusing Ganti Kerja membandingkan senario teragih dengan penggunaan sumber terpencil. Sistem teragih akan menunjukkan purata dan varians yang lebih rendah dalam masa pusing ganti, terutamanya untuk kerja dengan keperluan sumber yang fleksibel, kerana ia boleh dihalakan ke sumber dengan barisan terpendek. Integrasi sumber HPC melalui TARDIS akan menunjukkan lengkung yang berbeza, pada mulanya menambah kependaman disebabkan mekanisme kerja perintis tetapi menyediakan akses ke nod berbilang-teras tinggi yang sebaliknya tidak tersedia untuk beban kerja yang sesuai.
Penggunaan CVMFS dilaporkan berjaya menyediakan persekitaran perisian yang seragam, satu faktor kejayaan kritikal untuk penerimaan pengguna. AAI berasaskan token telah dilaksanakan, menyediakan asas yang diperlukan untuk akses pelbagai institusi yang selamat.
6. Kerangka Analisis: Kajian Kes Konseptual
Kes: Analisis Astrofizik Multi-Mesej. Seorang ahli fizik astro-zarah perlu menganalisis data daripada letupan sinar gama (GRB) yang dikesan oleh Fermi-LAT dan IceCube, mengaitkannya dengan susulan optik daripada ASAS-SN. Aliran kerja melibatkan: A) Memproses terabait data foton mental (Fermi) di ladang HTC yang dioptimumkan untuk I/O tinggi. B) Menjalankan simulasi Monte Carlo untuk pembinaan semula peristiwa neutrino (IceCube) pada kelompok HPC dengan banyak teras. C) Melakukan analisis imej pada data optik menggunakan nod GPU.
Pelaksanaan Teragih melalui Compute4PUNCH/Storage4PUNCH:
1. Pengguna menghantar satu penerangan aliran kerja peringkat tinggi (cth., menggunakan Bahasa Aliran Kerja Biasa - CWL) melalui JupyterHub.
2. Token AAI mengesahkan pengguna merentasi semua sistem.
3. Lapisan atas HTCondor, dipandu oleh COBalD/TARDIS, menganalisis DAG aliran kerja:
- Tugas A dipadankan dan dihantar ke pekerja HTC berhampiran storan yang disokong dCache di DESY.
- Keperluan Tugas B untuk 10,000 jam-CPU mencetuskan TARDIS untuk menyediakan slot pada kelompok HPC berasaskan Slurm di KIT.
- Tugas C dihantar ke partisi GPU di Universiti Bonn.
4. Semua tugas menarik timbunan perisian analisis yang sama (Python, pustaka sains khusus) daripada repositori PUNCH CVMFS.
5. Data perantaraan ditukar melalui ruang nama Storage4PUNCH teragih (cth., menggunakan XRootD), dengan fail penentukuran yang kerap diakses dihidangkan daripada cache serantau.
6. Keputusan akhir dikumpulkan dan dikembalikan kepada pengguna.
Kes ini menunjukkan proposisi nilai: ahli fizik berinteraksi dengan satu infrastruktur logik tunggal dan bukannya menguruskan log masuk berasingan, pemasangan perisian dan pemindahan data merentasi tiga sistem yang berbeza.
7. Inti Pati & Perspektif Penganalisis
Inti Pati: PUNCH4NFDI tidak membina satu lagi superkomputer monolitik; ia merekayasa lapisan pengagihan—satu "sistem pengendalian meta" untuk pengkomputeran penyelidikan berskala kebangsaan yang heterogen. Inovasi sebenarnya ialah orkestrasi pragmatik sumber sedia ada yang tersekat secara politik menjadi utiliti yang koheren, mengutamakan gangguan minimum berbanding kesucian teknologi. Ini kurang seperti Borg Google dan lebih seperti sistem kawalan trafik udara seluruh EU yang canggih untuk kerja pengkomputeran.
Aliran Logik: Logiknya elegan secara rekursif. Mulakan dengan kekangan yang tidak boleh dirunding: jangan ganggu operasi komuniti sedia ada. Ini memaksa seni bina lapisan atas berasaskan tarikan (HTCondor + TARDIS) dan bukannya penjadual berpusat berasaskan tolakan. Lapisan atas itu, seterusnya, memerlukan mekanisme penghantaran perisian universal (CVMFS/Kontena) dan lapisan identiti bersatu (Token AAI). Pengagihan storan mengikut laluan selari, memanfaatkan alat HEP yang teruji (dCache/XRootD). Keseluruhan aliran ini adalah kelas induk dalam reka bentuk berasaskan kekangan, di mana setiap pilihan teknikal adalah akibat langsung daripada realiti sosio-politik kerjasama pelbagai institusi.
Kekuatan & Kelemahan:
Kekuatan: Seni bina ini secara cemerlang boleh diagihkan. Ia menskalakan tadbir urus secara mendatar secara reka bentuk, menurunkan halangan untuk penyedia sumber baharu. Menggunakan HTCondor dan CVMFS memanfaatkan dekad kepercayaan komuniti dan kepakaran operasi daripada kerjasama LHC, mengurangkan risiko teknikal. Tumpuan pada sumber "in-kind" adalah mampan dari segi kewangan, mengubah masalah fragmentasi menjadi kelebihan kepelbagaian.
Kelemahan: Gajah dalam bilik ialah kos tambahan prestasi. Penjadualan berganda (penjadual-meta + sistem kelompok tempatan) dan model kerja perintis tidak dapat tidak menambah kependaman, menjadikannya tidak sesuai untuk kerja MPI berbutir halus dan rapat—satu batasan ketara untuk beban kerja HPC tulen. Kebergantungan pada CVMFS, walaupun teguh, mewujudkan satu titik kegagalan untuk penghantaran perisian dan mungkin bergelut dengan kod yang sangat proprietari atau berlesen. Tambahan pula, seperti yang dinyatakan dalam prinsip data FAIR, kebolehoperasian sebenar memerlukan metadata yang kaya; penerangan Storage4PUNCH semasa nampaknya sangat tertumpu pada akses peringkat bait, bukan penemuan semantik.
Wawasan Boleh Tindak:
1. Untuk Pasukan PUNCH: Gandakan penumpuan pada pencirian prestasi. Terbitkan penanda aras telus yang membandingkan aliran kerja teragih vs. asli untuk kerja aliran kerja kanonik. Data ini penting untuk meyakinkan pengurus pusat HPC dan pengguna yang skeptikal. Proaktif membangunkan model sokongan "Tier-1" untuk lapisan pengagihan itu sendiri; kerumitannya menjadi kebergantungan kritikal.
2. Untuk Konsortium Lain (cth., dalam Bio-informatik atau Sains Iklim): Jangan hanya menyalin timbunan teknologi. Salin model tadbir urus yang memungkinkannya. Pengajaran utama ialah perjanjian "sumbangan in-kind" yang menyelaraskan insentif institusi. Mulakan dengan mengagihkan pengesahan dan pengedaran perisian, seperti yang dilakukan PUNCH; ini adalah asas.
3. Untuk Agensi Pembiayaan (DFG, EU): Model ini sepatutnya menjadi cetak biru untuk panggilan infrastruktur penyelidikan kebangsaan masa depan. Biayai "gam" (penyelarasan, devops teras untuk lapisan pengagihan) dan biarkan institusi membiayai "batu bata" (pengkomputeran/storan sebenar). Ini memanfaatkan pelaburan modal sedia ada dengan lebih berkesan daripada membina kemudahan berpusat baharu, satu prinsip yang digema dalam visi strategik Awan Sains Terbuka Eropah (EOSC).
Kesimpulannya, Compute4PUNCH dan Storage4PUNCH mewakili model yang matang, pragmatik dan sangat boleh direplikasi untuk infrastruktur sains berskala besar abad ke-21. Ia menukar sedikit prestasi teori untuk keuntungan besar dalam kebolehaksesan, ketahanan dan kebolehlaksanaan politik. Kejayaannya akan diukur bukan dalam FLOPS, tetapi dalam bilangan pelajar PhD yang dapat menyelesaikan analisis mereka tanpa menjadi pentadbir sistem pakar untuk lima kelompok yang berbeza.
8. Aplikasi Masa Depan & Peta Hala Tuju Pembangunan
Infrastruktur PUNCH4NFDI meletakkan asas untuk beberapa kemajuan masa depan:
- Integrasi dengan Aliran Kerja Pembelajaran Mesin: Pengagihan boleh diperluaskan untuk menyokong pemecut AI/ML khusus (cth., pod NVIDIA DGX, Google TPU) sebagai sejenis sumber. Kerangka kerja seperti Kubeflow boleh diintegrasikan bersama HTCondor, dengan TARDIS mengurus penempatan kerja hibrid merentasi sumber HTC tradisional dan berfokuskan ML.
- Penempatan Data Proaktif & Penjadualan Sedar Aliran Kerja: Melangkaui pengecasan, sistem boleh melaksanakan pentas data ramalan. Dengan menganalisis DAG aliran kerja yang dihantar oleh pengguna, ia boleh mengambil data yang diperlukan terlebih dahulu daripada hujung Storage4PUNCH jauh ke cache tempatan berhampiran sumber pengkomputeran yang dijadualkan sebelum pelaksanaan kerja bermula, secara efektif menyembunyikan kependaman pemindahan data. Ini memerlukan integrasi yang lebih ketat antara penjadual-meta pengkomputeran dan ruang nama serta data pemantauan pengagihan storan.
- Pengembangan ke Pengkomputeran Pinggir: Untuk bidang seperti astronomi radio atau fizik neutrino, di mana sensor menjana aliran data yang besar, model pengagihan boleh menggabungkan tapak pengkomputeran pinggir. Agen TARDIS ringan boleh berjalan di balai cerap, menarik tugas pra-pemprosesan daripada barisan pusat untuk menapis dan mengurangkan data di tapak sebelum menghantar hanya peristiwa berkaitan ke storan pusat.
- Pengkomputeran Hijau & Penjadualan Sedar Karbon: Penjadual-meta boleh dipertingkatkan dengan data intensiti karbon daripada grid elektrik di seluruh Jerman. Ia kemudian boleh mengutamakan penghalaan kerja ke pusat data di kawasan dengan penembusan tenaga boleh diperbaharui yang tinggi (cth., kuasa angin di utara) pada waktu pengeluaran puncak, meminimumkan jejak karbon pengiraan berskala besar—satu keutamaan yang muncul untuk infrastruktur penyelidikan seperti yang diketengahkan oleh inisiatif Carbon Call Yayasan Linux.
- Pengagihan Antara dengan Rakan Antarabangsa: Langkah logik seterusnya ialah menyambungkan pengagihan PUNCH Jerman dengan infrastruktur serupa di luar negara, seperti Grid Pengkomputeran LHC Sedunia (WLCG), Grid Sains Terbuka (OSG) atau Awan Sains Terbuka Eropah (EOSC). Ini akan mewujudkan infrastruktur penyelidikan global dan pelbagai disiplin, walaupun ia akan menimbulkan cabaran ketara dalam penyelarasan dasar, keselamatan dan perakaunan.
9. Rujukan
- Konsortium PUNCH4NFDI. "PUNCH4NFDI - Particles, Universe, NuClei and Hadrons for the NFDI." Kertas Putih, 2021.
- Thain, D., Tannenbaum, T., & Livny, M. "Distributed computing in practice: the Condor experience." Concurrency - Practice and Experience, 17(2-4), 323-356, 2005. https://doi.org/10.1002/cpe.938
- Blomer, J., et al. "CernVM-FS: delivering scientific software to globally distributed computing resources." International Journal of High Performance Computing Applications, 28(2), 158-174, 2014. https://doi.org/10.1177/1094342013509700
- Giffels, M., et al. "COBalD/TARDIS – Dynamic, Pilot-based Resource Provisioning for a Federated HTCondor Pool." Dalam Proceedings of CHEP 2018, 2018.
- Wilkinson, M. D., et al. "The FAIR Guiding Principles for scientific data management and stewardship." Scientific Data, 3:160018, 2016. https://doi.org/10.1038/sdata.2016.18
- European Commission. "European Open Science Cloud (EOSC) Strategic Implementation Roadmap." 2018.
- Linux Foundation. "Carbon Call: A Global Initiative for Reliable Carbon Accounting." 2022. https://www.linuxfoundation.org/research/carbon-call
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." Dalam Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. (Dirujuk sebagai contoh beban kerja pengkomputeran kompleks yang boleh mendapat manfaat daripada akses sumber heterogen teragih).