Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای فیزیک ذرات، اخترفیزیک و هسته‌ای

1. مقدمه

کنسرسیوم PUNCH4NFDI (ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های پژوهشی) که توسط بنیاد پژوهشی آلمان (DFG) تأمین مالی می‌شود، نماینده حدود ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای در آلمان است. این کنسرسیوم که در چارچوب ابتکار ملی NFDI جای گرفته، هدف اصلی آن ایجاد یک پلتفرم علمی داده‌ای فدرال و FAIR (قابل جستجو، قابل دسترسی، قابلیت همکاری و استفاده مجدد) است. این پلتفرم هدفش فراهم‌آوردن دسترسی یکپارچه به منابع محاسباتی و ذخیره‌سازی متنوع و ناهمگونی است که توسط مؤسسات عضو ارائه می‌شوند و به چالش مشترک تحلیل حجم داده‌های به‌طور نمایی در حال رشد با الگوریتم‌های پیچیده می‌پردازد. این سند به تفصیل مفاهیم Compute4PUNCH و Storage4PUNCH را شرح می‌دهد که برای فدرال‌سازی این منابع توسعه یافته‌اند.

2. زیرساخت محاسباتی ناهمگون فدرال – Compute4PUNCH

Compute4PUNCH به چالش استفاده مؤثر از طیف گسترده‌ای از منابع محاسباتی با توان عملیاتی بالا (HTC)، محاسبات با کارایی بالا (HPC) و منابع ابری اهدایی در سراسر آلمان می‌پردازد. این منابع از نظر معماری، سیستم عامل، نرم‌افزار و احراز هویت متفاوت هستند و در حال حاضر برای اهداف دیگر عملیاتی شده‌اند که دامنه اصلاحات را محدود می‌کند.

2.1 معماری هسته و فناوری‌ها

فدرال‌سازی از طریق یک سیستم رویه‌ای فرازمان‌بندی (meta-scheduling overlay) محقق می‌شود. فناوری‌های هسته عبارتند از:

HTCondor: ستون فقرات سیستم دسته‌ای فدرال را تشکیل می‌دهد و صف‌های کار و تطبیق منابع را در سراسر مخزن ناهمگون مدیریت می‌کند.
COBalD/TARDIS: به عنوان فرازمان‌بند منابع عمل می‌کند. این سیستم به صورت پویا و شفاف، منابع خارجی (مانند مراکز HPC یا ابرها) را در مخزن HTCondor ادغام می‌کند. TARDIS نیازمندی‌های کار HTCondor را به دستورات برای رابط‌های برنامه‌نویسی کاربردی (API) منابع خارجی (مانند OpenStack یا Slurm) «ترجمه» می‌کند، در حالی که COBalD تصمیمات استراتژیک درباره زمان کسب یا آزادسازی این منابع خارجی بر اساس هزینه و تقاضا می‌گیرد و برای یک تابع مطلوبیت $U(R, C)$ بهینه‌سازی می‌کند که در آن $R$ عملکرد منبع و $C$ هزینه است.
AAI مبتنی بر توکن (زیرساخت احراز هویت و مجوزدهی): دسترسی استاندارد و ایمن را در تمام منابع فراهم می‌کند و نیاز به حساب‌های کاربری جداگانه در هر سیستم را به حداقل می‌رساند.
CVMFS (سیستم فایل ماشین مجازی سرن) و کانتینرها: تأمین مقیاس‌پذیر محیط‌های نرم‌افزاری خاص جامعه را تضمین می‌کنند. CVMFS مخازن نرم‌افزاری را ارائه می‌دهد، در حالی که فناوری‌های کانتینر (مانند Docker، Singularity) محیط‌های زمان اجرای ایزوله و قابل تکرار را فراهم می‌کنند و مشکل وابستگی نرم‌افزاری در زیرساخت‌های متنوع را حل می‌کنند.

2.2 دسترسی و رابط کاربری

نقاط ورود کاربر برای سهولت استفاده طراحی شده‌اند:

گره‌های ورود سنتی: یک رابط خط فرمان آشنا برای کاربران پیشرفته ارائه می‌دهند.
JupyterHub: یک محیط محاسباتی تعاملی مبتنی بر وب (نوت‌بوک) ارائه می‌دهد که مانع برای کاوش و تحلیل داده را کاهش می‌دهد.

هر دو رابط، دسترسی به کل چشم‌انداز محاسباتی فدرال را فراهم می‌کنند و پیچیدگی زیربنایی را انتزاع می‌دهند.

3. زیرساخت ذخیره‌سازی فدرال – Storage4PUNCH

Storage4PUNCH بر فدرال‌سازی سیستم‌های ذخیره‌سازی ارائه شده توسط جامعه متمرکز است که عمدتاً بر پایه فناوری‌های dCache و XRootD هستند و در فیزیک انرژی بالا (HEP) به خوبی جا افتاده‌اند. این فدرال‌سازی یک فضای نام مشترک و لایه دسترسی ایجاد می‌کند. این مفهوم همچنین فناوری‌های موجود را برای موارد زیر ارزیابی می‌کند:

کش (Caching): برای بهبود تأخیر دسترسی به داده و کاهش ترافیک شبکه گسترده (WAN)، مشابه مفاهیم مورد استفاده در شبکه‌های داده جهانی مانند شبکه محاسباتی جهانی LHC (WLCG).
مدیریت فراداده (Metadata): با هدف یکپارچه‌سازی عمیق‌تر برای فعال‌سازی کشف داده بر اساس ویژگی‌های فراداده، فراتر از مکان ساده فایل.

محیط ترکیبی Compute4PUNCH و Storage4PUNCH به پژوهشگران این امکان را می‌دهد که وظایف تحلیل‌گرانه با نیازمندی منابع بالا را اجرا کنند که نیازمند دسترسی هماهنگ به قدرت محاسباتی و مجموعه‌داده‌های بزرگ است.

4. جزئیات فنی و چارچوب ریاضی

زمان‌بندی منابع توسط COBalD/TARDIS را می‌توان به عنوان یک مسئله بهینه‌سازی مدل کرد. فرض کنید $J = \{j_1, j_2, ..., j_n\}$ مجموعه‌ای از کارها در صف HTCondor باشد و $P = \{p_1, p_2, ..., p_m\}$ مخزن منابع در دسترس (محلی و خارجی) باشد. هر کار $j_i$ نیازمندی‌های $R_i$ (هسته‌های CPU، حافظه، GPU، نرم‌افزار) را دارد. هر منبع $p_k$ قابلیت‌های $C_k$ و یک تابع هزینه $\text{Cost}(p_k, t)$ را دارد که ممکن است پولی یا بر اساس اولویت/اعتبار باشد.

هدف فرازمان‌بند یافتن یک نگاشت $M: J \rightarrow P$ است که کل هزینه یا زمان تکمیل (makespan) را به حداقل برساند در حالی که محدودیت‌ها را برآورده کند: $$\text{minimize } \sum_{j_i \in J} \text{Cost}(M(j_i), t)$$ $$\text{subject to } R_i \subseteq C_{M(j_i)} \text{ for all } j_i \in J.$$ COBalD از راهبردهای ابتکاری یا یادگیری ماشین برای حل این مسئله بهینه‌سازی پویا و برخط استفاده می‌کند زیرا کارها و در دسترس بودن منابع تغییر می‌کنند.

5. نتایج آزمایشی و عملکرد نمونه اولیه

مقاله تجربیات اولیه با کاربردهای علمی روی نمونه‌های اولیه موجود را گزارش می‌دهد. در حالی که اعداد معیار خاص در گزیده ارائه شده به تفصیل شرح داده نشده است، اجرای موفقیت‌آمیز کاربردهای متنوع جامعه، معماری را تأیید می‌کند. شاخص‌های کلیدی عملکرد (KPI) برای چنین فدراسیونی معمولاً شامل موارد زیر است:

توان عملیاتی کار (Job Throughput): تعداد کارهای تکمیل شده در روز در سراسر سیستم فدرال.
میزان استفاده از منابع (Resource Utilization): درصد زمانی که منابع اهدایی (به ویژه منابع خارجی و قابل انفجار) به طور فعال استفاده می‌شوند، که کارایی تأمین پویای COBalD را نشان می‌دهد.
کارایی انتقال داده (Data Transfer Efficiency): تأخیر و پهنای باند برای کارهایی که به داده‌ها از فدراسیون Storage4PUNCH دسترسی دارند، که برای تحلیل‌های با ورودی/خروجی سنگین حیاتی است.
رضایت کاربر (User Satisfaction): کاهش پیچیدگی ارسال کار و زمان انتظار، که از طریق نظرسنجی‌های کاربران اندازه‌گیری می‌شود.

فاز نمونه اولیه برای آزمایش استرس یکپارچه‌سازی AAI، استحکام رویه HTCondor و مقیاس‌پذیری CVMFS برای ارائه نرم‌افزار به هزاران کار همزمان حیاتی است.

6. چارچوب تحلیل: یک سناریوی کاربردی

سناریو: یک پژوهشگر فیزیک هسته‌ای نیاز دارد ۱ پتابایت داده آشکارساز را با استفاده از یک زنجیره شبیه‌سازی مونت کارلو پیچیده پردازش کند.

دسترسی: پژوهشگر با اعتبارنامه مؤسسه خود (از طریق AAI مبتنی بر توکن) وارد PUNCH JupyterHub می‌شود.
نرم‌افزار: نوت‌بوک او به طور خودکار پشته نرم‌افزاری مورد نیاز را از CVMFS بارگذاری می‌کند و یک کانتینر با کتابخانه‌های شبیه‌سازی خاص را نمونه‌سازی می‌کند.
داده: کد نوت‌بوک با استفاده از فضای نام فدرال Storage4PUNCH به داده ارجاع می‌دهد (مثلاً `root://punch-federation.de/path/to/data`). پروتکل‌های XRootD مکان و انتقال را مدیریت می‌کنند.
محاسبه: پژوهشگر ۱۰۰۰۰ کار موازی را از طریق یک پوشش (wrapper) پایتون که با REST API مربوط به HTCondor ارتباط برقرار می‌کند، ارسال می‌کند. COBalD/TARDIS به صورت پویا ترکیبی از کارگران محلی HTCondor و گره‌های ابری HPC قابل انفجار را برای مدیریت بار اوج تأمین می‌کند.
هماهنگی (Orchestration): HTCondor چرخه حیات کار را مدیریت می‌کند. خروجی به ذخیره‌سازی فدرال بازنویسی می‌شود. پژوهشگر پیشرفت را از طریق داشبورد JupyterHub نظارت می‌کند.

این سناریو یکپارچه‌سازی بی‌درزی را نشان می‌دهد که چارچوب برای آن هدف‌گیری کرده است و پیچیدگی زیرساخت را انتزاع می‌دهد.

7. کاربردهای آینده و نقشه راه توسعه

زیرساخت PUNCH4NFDI یک الگو برای فدراسیون پژوهشی در مقیاس ملی است.

فدراسیون فراکنسرسیومی: این مدل می‌تواند به سایر کنسرسیوم‌های NFDI (مثلاً برای علوم زیستی، مهندسی) گسترش یابد و یک ستون فقرات واقعی زیرساخت ملی داده‌های پژوهشی ایجاد کند. AAI بین کنسرسیومی و توافق‌های اشتراک منابع کلیدی خواهند بود.
یکپارچه‌سازی منابع لبه و کوانتومی: با بلوغ محاسبات لبه (برای پیش‌پردازش داده ابزار) و محاسبات کوانتومی، معماری فرازمان‌بند می‌تواند گسترش یابد تا اینها را به عنوان انواع منابع تخصصی دربرگیرد.
بهینه‌سازی بار کاری هوش مصنوعی/یادگیری ماشین: الگوریتم‌های زمان‌بندی می‌توانند پیش‌بین‌کننده‌هایی برای زمان‌های اجرای کارهای هوش مصنوعی/یادگیری ماشین (مشابه رویکردهای موجود در پروژه‌هایی مانند `Optuna` یا `Ray Tune`) را ادغام کنند تا به ویژه برای منابع GPU، جای‌گذاری را بیشتر بهینه کنند.
فراداده و دریاچه‌های داده پیشرفته: یکپارچه‌سازی عمیق‌تر کاتالوگ‌های فراداده می‌تواند Storage4PUNCH را به یک دریاچه داده فعال تبدیل کند و زمان‌بندی متمرکز بر داده را فعال کند که در آن کارهای محاسباتی به مکان داده ارسال می‌شوند.
تمرکز بر پایداری: نسخه‌های آینده می‌توانند برای ردپای کربن بهینه‌سازی کنند و ترجیحاً کارها را به مراکز داده با ترکیب انرژی تجدیدپذیر بالاتر زمان‌بندی کنند که با ابتکارهای محاسبات سبز دیده شده در پروژه‌هایی مانند `معامله سبز اروپا` همسو است.

8. مراجع

کنسرسیوم PUNCH4NFDI. (2024). «مقاله سفید PUNCH4NFDI». NFDI.
Thain, D., Tannenbaum, T., & Livny, M. (2005). «محاسبات توزیع شده در عمل: تجربه Condor». Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Giffels, M., et al. (2022). «COBalD/TARDIS – تأمین چابک منابع برای مخازن HTCondor». Journal of Physics: Conference Series, 2438(1), 012077.
Blomer, J., et al. (2011). «سیستم فایل ماشین مجازی سرن: یک سیستم توزیع نرم‌افزار مقیاس‌پذیر، قابل اعتماد و کارآمد». Journal of Physics: Conference Series, 331(5), 052004.
شبکه محاسباتی جهانی LHC (WLCG). «فدراسیون ذخیره‌سازی با XRootD و dCache». https://wlcg.web.cern.ch/
Wilkinson, M., et al. (2016). «اصول راهنمای FAIR برای مدیریت و سرپرستی داده‌های علمی». Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18

9. دیدگاه تحلیلگر: بینش کلیدی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش کلیدی: PUNCH4NFDI در حال ساختن یک ابررایانه جدید نیست؛ در حال ساختن یک سیستم عامل فدراسیون است. نوآوری واقعی آن رویکرد عمل‌گرایانه و مبتنی بر رویه است که منابع نهادی موجود، بوروکراتیک و ناهمگون را در یک پلتفرم کاربرپسند واحد می‌پیچد. این کمتر درباره پیشرفت فناورانه خام است و بیشتر درباره هماهنگی اجتماعی-فنی در مقیاس ملی است. این مستقیماً با «تراژدی منابع مشترک» در محاسبات پژوهشی مواجه می‌شود، جایی که منابع جزیره‌ای و کم‌استفاده هستند، با ایجاد یک بازار مدیریت شده برای چرخه‌های محاسباتی و بایت‌های ذخیره‌سازی.

جریان منطقی: منطق به طرز بی‌عیبی عمل‌گرایانه است. ۱) ناهمگونی را به عنوان یک شهروند درجه یک بپذیرید: به جای تحمیل استانداردسازی (که از نظر سیاسی غیرممکن است)، آن را با HTCondor و کانتینرها انتزاع می‌دهند. ۲) اصطکاک ارائه‌دهنده را به حداقل برسانید: مدل COBalD/TARDIS نبوغ‌آمیز است – این یک زمان‌بند انگلی است که نیاز ندارد مراکز HPC سیاست‌های محلی خود را تغییر دهند و پذیرش را دلپذیر می‌کند. ۳) سادگی کاربر را به حداکثر برسانید: JupyterHub و token-AAI ویژگی‌های کلیدی برای پذیرش هستند که پیچیدگی عظیم backend را پشت یک تب مرورگر پنهان می‌کنند. ۴) از اعتماد جامعه استفاده کنید: ساختن بر روی ابزارهای آزموده شده HEP (dCache، XRootD، CVMFS) نه تنها از نظر فنی صحیح است؛ بلکه اعتبار فوری فراهم می‌کند و ریسک عملیاتی را کاهش می‌دهد.

نقاط قوت و ضعف: نقطه قوت آن قابلیت استقرار است. این یک فانتزی مقاله پژوهشی نیست؛ یک نمونه اولیه کاری است که از مؤلفه‌های منبع باز بالغ استفاده می‌کند. چشم‌انداز ذخیره‌سازی فدرال، اگر به طور کامل با فراداده محقق شود، می‌تواند تحول‌آفرین باشد. با این حال، نقاط ضعف در درزها هستند. سربار عملکرد لایه فرازمان‌بند و حرکت داده در محدوده گسترده می‌تواند مزایا را برای کاربردهای HPC با اتصال محکم خنثی کند. این مدل ذاتاً برای بارهای کاری با توان عملیاتی بالا و اتصال شل بهترین است. همچنین یک بمب ساعتی حکمرانی وجود دارد: وقتی تقاضا از عرضه فدرال فراتر رود، چه کسی کارها را اولویت‌بندی می‌کند؟ مقاله بر روی نبردهای سیاسی اجتناب‌ناپذیر بر سر الگوریتم‌های سهم عادلانه و انتساب هزینه بین مؤسسات سرپوش می‌گذارد. در نهایت، در حالی که آنها از منابع «ابر» نام می‌برند، مدل اقتصادی برای انفجار به ابرهای تجاری (AWS، Google Cloud) با پول واقعی، نه فقط اعتبار، قلمرویی کشف‌نشده است که با خطر بودجه‌ای همراه است.

بینش‌های عملی: ۱) برای سایر کنسرسیوم‌ها: فوراً از این الگو کپی کنید. الگوی معماری قابل استفاده مجدد است. با AAI و یک دروازه کار ساده شروع کنید. ۲) برای خود PUNCH4NFDI: داده‌های عملکرد سخت را منتشر کنید. آنها باید به طور شفاف هزینه سربار فدراسیون در مقابل دسترسی بومی را برای ایجاد اعتماد نشان دهند. ۳) یک سیاست سهم عادلانه دقیق و چندبعدی را اکنون، قبل از بروز تعارضات، توسعه دهید. وکلا و حسابداران را، نه فقط فیزیکدانان، درگیر کنید. ۴) یکپارچه‌سازی با مدیران گردش کار (Nextflow، Snakemake) را بررسی کنید. اینها در حال تبدیل شدن به استاندارد بالفعل برای علم قابل تکرار هستند؛ یکپارچه‌سازی بومی یک پیروزی بزرگ خواهد بود. ۵) یک «مدل بلوغ فدراسیون» را برای جذب تدریجی ارائه‌دهندگان منابع، از دسترسی دسته‌ای ساده تا زمان‌بندی مشترک کامل داده/محاسبه، در نظر بگیرید. این فقط زیرساخت نیست؛ یک مدل جدید برای سازماندهی ظرفیت پژوهشی ملی است. موفقیت آن به همان اندازه که به ظرافت کد آن بستگی دارد، به حکمرانی و پذیرش جامعه نیز وابسته خواهد بود.