1. Pengenalan
Konsortium PUNCH4NFDI (Zarahan, Alam Semesta, Nuklei dan Hadron untuk Infrastruktur Data Penyelidikan Kebangsaan), yang dibiayai oleh Yayasan Penyelidikan Jerman (DFG), mewakili kira-kira 9,000 saintis daripada komuniti fizik zarah, astro-, astro-zarah, hadron dan nuklear di Jerman. Terbenam dalam inisiatif NFDI kebangsaan, matlamat utamanya adalah untuk mewujudkan platform data sains teragih dan FAIR (Boleh Ditemui, Boleh Diakses, Boleh Saling Operasi, Boleh Diguna Semula). Platform ini bertujuan untuk menyediakan akses lancar kepada pelbagai sumber pengkomputeran dan storan heterogen yang disumbangkan oleh institusi ahlinya, menangani cabaran umum menganalisis jumlah data yang berkembang secara eksponen dengan algoritma kompleks. Dokumen ini memperincikan konsep Compute4PUNCH dan Storage4PUNCH yang dibangunkan untuk mengagihkan sumber-sumber ini.
2. Infrastruktur Pengkomputeran Heterogen Teragih – Compute4PUNCH
Compute4PUNCH menangani cabaran menggunakan secara berkesan pelbagai sumber Pengkomputeran Berbilangan Tinggi (HTC), Pengkomputeran Prestasi Tinggi (HPC) dan sumber Awan yang disumbangkan secara in-kind dan diagihkan di seluruh Jerman. Sumber-sumber ini berbeza dari segi seni bina, OS, perisian dan pengesahan, dan sudah beroperasi untuk tujuan lain, yang menghadkan skop pengubahsuaian.
2.1 Seni Bina Teras & Teknologi
Pengagihan dicapai melalui sistem lapisan meta-penjadualan. Teknologi teras adalah:
- HTCondor: Membentuk tulang belakang sistem kelompok teragih, menguruskan barisan kerja dan pemadanan sumber merentasi kolam heterogen.
- COBalD/TARDIS: Bertindak sebagai meta-penjadual sumber. Ia menyepadukan sumber luaran (cth., dari pusat HPC atau awan) secara dinamik dan telus ke dalam kolam HTCondor. TARDIS "menterjemah" keperluan kerja HTCondor kepada arahan untuk API sumber luaran (seperti OpenStack atau Slurm), manakala COBalD membuat keputusan strategik bila untuk memperoleh atau melepaskan sumber luaran ini berdasarkan kos dan permintaan, mengoptimumkan untuk fungsi utiliti $U(R, C)$ di mana $R$ ialah prestasi sumber dan $C$ ialah kos.
- AAI Berasaskan Token (Infrastruktur Pengesahan dan Pemberian Kuasa): Menyediakan akses selamat dan piawai merentasi semua sumber, meminimumkan keperluan untuk akaun pengguna individu pada setiap sistem.
- CVMFS (Sistem Fail Mesin Maya CERN) & Kontena: Memastikan peruntukan persekitaran perisian khusus komuniti yang boleh diskalakan. CVMFS menyampaikan repositori perisian, manakala teknologi kontena (cth., Docker, Singularity) menyediakan persekitaran masa jalan terpencil dan boleh dihasilkan semula, menyelesaikan masalah kebergantungan perisian merentasi infrastruktur pelbagai.
2.2 Akses & Antara Muka Pengguna
Titik kemasukan pengguna direka untuk kemudahan penggunaan:
- Nod Log Masuk Tradisional: Menyediakan antara muka baris arahan yang biasa untuk pengguna maju.
- JupyterHub: Menawarkan persekitaran pengkomputeran interaktif berasaskan web (notebook), merendahkan halangan untuk penerokaan dan analisis data.
Kedua-dua antara muka menyediakan akses kepada keseluruhan landskap pengkomputeran teragih, mengabstraksikan kerumitan asas.
3. Infrastruktur Storan Teragih – Storage4PUNCH
Storage4PUNCH memberi tumpuan kepada mengagihkan sistem storan yang dibekalkan komuniti, terutamanya berdasarkan teknologi dCache dan XRootD, yang telah mantap dalam Fizik Tenaga Tinggi (HEP). Pengagihan ini mewujudkan ruang nama dan lapisan akses bersama. Konsep ini juga menilai teknologi sedia ada untuk:
- Pengecasan: Untuk meningkatkan kependaman akses data dan mengurangkan trafik WAN, serupa dengan konsep yang digunakan dalam grid data global seperti Grid Pengkomputeran LHC Sedunia (WLCG).
- Pengendalian Metadata: Bertujuan untuk penyepaduan lebih mendalam untuk membolehkan penemuan data berdasarkan atribut metadata, melangkaui lokasi fail mudah.
Persekitaran gabungan Compute4PUNCH dan Storage4PUNCH membolehkan penyelidik melaksanakan tugas analisis yang memerlukan sumber yang memerlukan akses terkoordinasi kepada kedua-dua kuasa pengkomputeran dan set data besar.
4. Butiran Teknikal & Kerangka Matematik
Penjadualan sumber oleh COBalD/TARDIS boleh dimodelkan sebagai masalah pengoptimuman. Biarkan $J = \{j_1, j_2, ..., j_n\}$ menjadi satu set kerja dalam barisan HTCondor, dan $P = \{p_1, p_2, ..., p_m\}$ menjadi kolam sumber tersedia (temptan dan luaran). Setiap kerja $j_i$ mempunyai keperluan $R_i$ (teras CPU, ingatan, GPU, perisian). Setiap sumber $p_k$ mempunyai keupayaan $C_k$ dan fungsi kos $\text{Cost}(p_k, t)$, yang mungkin kewangan atau berdasarkan keutamaan/kredit.
Matlamat meta-penjadual adalah untuk mencari pemetaan $M: J \rightarrow P$ yang meminimumkan jumlah kos atau masa selesai sambil memenuhi kekangan: $$\text{minimize } \sum_{j_i \in J} \text{Cost}(M(j_i), t)$$ $$\text{subject to } R_i \subseteq C_{M(j_i)} \text{ for all } j_i \in J.$$ COBalD menggunakan strategi heuristik atau pembelajaran mesin untuk menyelesaikan masalah pengoptimuman dalam talian dinamik ini apabila kerja dan ketersediaan sumber berubah.
5. Keputusan Eksperimen & Prestasi Prototaip
Kertas kerja ini melaporkan pengalaman awal dengan aplikasi saintifik pada prototaip yang tersedia. Walaupun nombor penanda aras khusus tidak diperincikan dalam petikan yang diberikan, pelaksanaan berjaya aplikasi komuniti pelbagai mengesahkan seni bina tersebut. Penunjuk prestasi utama (KPI) untuk pengagihan sedemikian biasanya termasuk:
- Pemprosesan Kerja: Bilangan kerja diselesaikan setiap hari merentasi sistem teragih.
- Penggunaan Sumber: Peratusan masa sumber yang disumbangkan (terutamanya luaran, boleh pecah) digunakan secara aktif, menunjukkan kecekanaan peruntukan dinamik COBalD.
- Kecekanaan Pemindahan Data: Kependaman dan lebar jalur untuk kerja yang mengakses data dari pengagihan Storage4PUNCH, penting untuk analisis berat I/O.
- Kepuasan Pengguna: Pengurangan kerumitan penyerahan kerja dan masa menunggu, diukur melalui tinjauan pengguna.
Fasa prototaip adalah penting untuk ujian tekanan penyepaduan AAI, keteguhan lapisan HTCondor, dan kebolehskalaan CVMFS untuk menyampaikan perisian kepada beribu-ribu kerja serentak.
6. Kerangka Analisis: Satu Senario Penggunaan
Senario: Seorang penyelidik fizik nuklear perlu memproses 1 Petabait data pengesan menggunakan rantai simulasi Monte Carlo yang kompleks.
- Akses: Penyelidik log masuk ke PUNCH JupyterHub dengan kelayakan institusi mereka (melalui AAI berasaskan token).
- Perisian: Notebook mereka secara automatik memasang timbunan perisian yang diperlukan dari CVMFS dan memulakan kontena dengan perpustakaan simulasi khusus.
- Data: Kod notebook merujuk data menggunakan ruang nama Storage4PUNCH teragih (cth., `root://punch-federation.de/path/to/data`). Protokol XRootD mengendalikan lokasi dan pemindahan.
- Pengkomputeran: Penyelidik menyerahkan 10,000 kerja selari melalui pembungkus Python yang berantara dengan API REST HTCondor. COBalD/TARDIS memperuntukkan secara dinamik campuran pekerja HTCondor tempatan dan nod awan HPC pecah untuk mengendalikan beban puncak.
- Orkestrasi: HTCondor menguruskan kitar hayat kerja. Output ditulis kembali ke storan teragih. Penyelidik memantau kemajuan melalui papan pemuka JupyterHub.
Senario ini menunjukkan penyepaduan lancar yang ditujukan oleh kerangka kerja, mengabstraksikan kerumitan infrastruktur.
7. Aplikasi Masa Depan & Peta Hala Tuju Pembangunan
Infrastruktur PUNCH4NFDI adalah cetak biru untuk pengagihan penyelidikan berskala kebangsaan.
- Pengagihan Rentas Konsortium: Model ini boleh diperluaskan kepada konsortium NFDI lain (cth., untuk sains hayat, kejuruteraan), mewujudkan tulang belakang Infrastruktur Data Penyelidikan Kebangsaan sebenar. Perkongsian AAI dan sumber antara konsortium akan menjadi kunci.
- Penyepaduan Sumber Pinggir & Kuantum: Apabila pengkomputeran pinggir (untuk pra-pemprosesan data instrumen) dan pengkomputeran kuantum matang, seni bina meta-penjadual boleh diperluaskan untuk memasukkan ini sebagai jenis sumber khusus.
- Pengoptimuman Beban Kerja AI/ML: Algoritma penjadualan boleh menyepadukan peramal untuk masa jalan kerja AI/ML (serupa dengan pendekatan dalam projek seperti `Optuna` atau `Ray Tune`) untuk mengoptimumkan penempatan lebih lanjut, terutamanya untuk sumber GPU.
- Metadata & Tasik Data Dipertingkat: Penyepaduan katalog metadata yang lebih mendalam boleh mengembangkan Storage4PUNCH menjadi tasik data aktif, membolehkan penjadualan berpusatkan data di mana kerja pengkomputeran dihantar ke lokasi data.
- Tumpuan Kelestarian: Versi masa depan boleh mengoptimumkan untuk jejak karbon, lebih mengutamakan penjadualan kerja ke pusat data dengan campuran tenaga boleh diperbaharui yang lebih tinggi, selaras dengan inisiatif Pengkomputeran Hijau yang dilihat dalam projek seperti `Perjanjian Hijau Eropah`.
8. Rujukan
- Konsortium PUNCH4NFDI. (2024). "Kertas Putih PUNCH4NFDI." NFDI.
- Thain, D., Tannenbaum, T., & Livny, M. (2005). "Pengkomputeran teragih dalam amalan: pengalaman Condor." Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
- Giffels, M., et al. (2022). "COBalD/TARDIS – Peruntukan sumber tangkas untuk kolam HTCondor." Journal of Physics: Conference Series, 2438(1), 012077.
- Blomer, J., et al. (2011). "Sistem Fail Mesin Maya CERN: Sistem pengedaran perisian boleh skala, boleh dipercayai dan cekap." Journal of Physics: Conference Series, 331(5), 052004.
- Grid Pengkomputeran LHC Sedunia (WLCG). "Pengagihan Storan dengan XRootD dan dCache." https://wlcg.web.cern.ch/
- Wilkinson, M., et al. (2016). "Prinsip Panduan FAIR untuk pengurusan dan penjagaan data saintifik." Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18
9. Perspektif Penganalisis: Inti Pati, Aliran Logik, Kekuatan & Kelemahan, Pandangan Boleh Tindak
Inti Pati: PUNCH4NFDI tidak membina superkomputer baru; ia membina sistem pengendalian pengagihan. Inovasi sebenarnya adalah pendekatan berasaskan lapisan yang pragmatik, yang membungkus sumber institusi sedia ada, birokratik dan heterogen ke dalam satu platform mesra pengguna. Ini kurang mengenai kejayaan teknologi mentah dan lebih mengenai orkestrasi sosio-teknikal pada skala kebangsaan. Ia secara langsung menghadapi "tragedi milik bersama" dalam pengkomputeran penyelidikan, di mana sumber dipisahkan dan kurang digunakan, dengan mewujudkan pasaran terurus untuk kitaran pengkomputeran dan bait storan.
Aliran Logik: Logiknya sangat pragmatik. 1) Terima Heterogeniti sebagai Warganegara Kelas Pertama: Daripada memaksa pemiawaian (yang tidak boleh dimulakan secara politik), mereka mengabstraksikannya dengan HTCondor dan kontena. 2) Minimumkan Geseran Pembekal: Model COBalD/TARDIS adalah genius—ia adalah penjadual parasit yang tidak memerlukan pusat HPC mengubah dasar tempatan mereka, menjadikan penerimaan boleh diterima. 3) Maksimumkan Kesederhanaan Pengguna: JupyterHub dan token-AAI adalah ciri utama untuk penerimaan, menyembunyikan kerumitan belakang yang besar di sebalik tab pelayar. 4) Manfaatkan Kepercayaan Komuniti: Membina berdasarkan alat HEP yang teruji (dCache, XRootD, CVMFS) bukan sahaja teknikal kukuh; ia memberikan kredibiliti serta-merta dan mengurangkan risiko operasi.
Kekuatan & Kelemahan: Kekuatannya adalah kebolehpasangannya. Ini bukan fantasi kertas penyelidikan; ia adalah prototaip berfungsi menggunakan komponen sumber terbuka matang. Visi storan teragih, jika direalisasikan sepenuhnya dengan metadata, boleh menjadi transformatif. Walau bagaimanapun, kelemahan terdapat pada sambungan. Overhed prestasi lapisan meta-penjadual dan pergerakan data kawasan luas boleh menafikan manfaat untuk aplikasi HPC yang rapat berpasangan. Model ini secara semula jadi terbaik untuk beban kerja berbilangan tinggi, longgar berpasangan. Terdapat juga bom masa tadbir urus: siapa yang mengutamakan kerja apabila permintaan melebihi bekalan teragih? Kertas kerja ini mengabaikan pertempuran politik yang tidak dapat dielakkan mengenai algoritma bahagian saksama dan atribusi kos antara institusi. Akhirnya, walaupun mereka menyebut sumber "Awan", model ekonomi untuk pecah kepada awan komersial (AWS, Google Cloud) dengan wang sebenar, bukan hanya kredit, adalah wilayah yang belum diterokai penuh dengan bahaya belanjawan.
Pandangan Boleh Tindak: 1) Untuk konsortium lain: Salin cetak biru ini serta-merta. Corak seni bina boleh diguna semula. Mulakan dengan AAI dan pintu masuk kerja mudah. 2) Untuk PUNCH4NFDI sendiri: Terbitkan data prestasi keras. Mereka mesti menunjukkan secara telus kos overhed pengagihan berbanding akses asli untuk membina kepercayaan. 3) Bangunkan dasar bahagian saksama berbutir, pelbagai dimensi SEKARANG, sebelum konflik timbul. Libatkan peguam dan akauntan, bukan hanya ahli fizik. 4) Teroka penyepaduan dengan pengurus aliran kerja (Nextflow, Snakemake). Ini menjadi piawai de facto untuk sains boleh dihasilkan semula; penyepaduan asli akan menjadi kejayaan besar. 5) Pertimbangkan "Model Kematangan Pengagihan" untuk mendaftar pembekal sumber secara beransur-ansur, dari akses kelompok mudah kepada penjadualan bersama data/pengkomputeran penuh. Ini bukan sekadar infrastruktur; ia adalah model baru untuk mengatur kapasiti penyelidikan kebangsaan. Kejayaannya akan bergantung kepada tadbir urus dan sokongan komuniti sama seperti keanggunan kodnya.