انتخاب زبان

Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای فیزیک ذرات، اخترفیزیک و هسته‌ای

تحلیل مفاهیم زیرساخت محاسباتی و ذخیره‌سازی فدرال کنسرسیوم PUNCH4NFDI، یکپارچه‌سازی منابع ناهمگون HPC، HTC و ابری در سراسر آلمان.
computepowertoken.com | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای فیزیک ذرات، اخترفیزیک و هسته‌ای

1. مقدمه

ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های پژوهشی (PUNCH4NFDI) یک کنسرسیوم آلمانی است که توسط DFG (بنیاد پژوهشی آلمان) تأمین مالی می‌شود. این کنسرسیوم تقریباً ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای را نمایندگی می‌کند. هدف اصلی این کنسرسیوم ایجاد یک پلتفرم علمی داده‌ای فدرال و FAIR (قابل جستجو، قابل دسترسی، قابل تعامل و قابل استفاده مجدد) است. این پلتفرم قصد دارد دسترسی یکپارچه‌ای به منابع محاسباتی و ذخیره‌سازی متنوع و ناهمگونی که توسط مؤسسات عضو در سراسر آلمان تأمین می‌شود، فراهم کند و چالش مشترک تحلیل حجم‌های داده‌ای با رشد نمایی با الگوریتم‌های پیچیده را مورد توجه قرار دهد.

2. زیرساخت محاسباتی ناهمگون فدرال – Compute4PUNCH

مفهوم Compute4PUNCH چالش فراهم‌آوری دسترسی یکپارچه به طیف گسترده‌ای از منابع محاسباتی با کارایی بالا (HTC)، محاسباتی با عملکرد بالا (HPC) و منابع ابری اهدایی را مورد توجه قرار می‌دهد. این منابع از نظر معماری، سیستم عامل، نرم‌افزار و احراز هویت متفاوت هستند و در حال حاضر عملیاتی و اشتراک‌گذاری شده‌اند که رویکردی برای یکپارچه‌سازی غیرمزاحم را ضروری می‌سازد.

2.1 معماری هسته‌ای و فناوری‌ها

این فدراسیون بر اساس یک سیستم دسته‌ای لایه‌ای مبتنی بر HTCondor ساخته شده است. برنامه‌ریز فرامنبع COBalD/TARDIS به صورت پویا و شفاف منابع ناهمگون را در این مخزن یکپارچه ادغام می‌کند. یک زیرساخت احراز هویت و مجوزدهی مبتنی بر توکن (AAI) دسترسی استانداردی فراهم می‌کند و تغییرات مورد نیاز در سطح ارائه‌دهنده منابع را به حداقل می‌رساند.

2.2 دسترسی و رابط کاربری

نقاط ورود کاربر شامل گره‌های ورود سنتی و یک سرویس JupyterHub است که رابط‌های انعطاف‌پذیری به منظره منابع فدرال ارائه می‌دهد.

2.3 تأمین محیط نرم‌افزاری

برای مدیریت نیازهای نرم‌افزاری متنوع، این زیرساخت از فناوری‌های کانتینر (مانند Docker، Singularity) و سیستم فایل ماشین مجازی سرن (CVMFS) برای تحویل مقیاس‌پذیر و توزیع‌شده پشته‌های نرم‌افزاری خاص جامعه استفاده می‌کند.

3. زیرساخت ذخیره‌سازی فدرال – Storage4PUNCH

به موازات محاسبات، مفهوم Storage4PUNCH سیستم‌های ذخیره‌سازی تأمین‌شده توسط جامعه را فدرال می‌کند که عمدتاً بر اساس فناوری‌های dCache و XRootD هستند و در فیزیک انرژی بالا (HEP) به خوبی جا افتاده‌اند.

3.1 فدراسیون ذخیره‌سازی و فناوری‌ها

این فدراسیون یک فضای نام مشترک و لایه دسترسی بر روی منابع ذخیره‌سازی توزیع‌شده جغرافیایی ایجاد می‌کند و از پروتکل‌ها و روش‌های اثبات‌شده در همکاری‌های بزرگ مقیاس مانند آن‌هایی که در سرن استفاده می‌شود، بهره می‌برد.

3.2 یکپارچه‌سازی کش و فراداده

این پروژه در حال ارزیابی فناوری‌های موجود برای کش هوشمند داده و مدیریت فراداده است تا یکپارچه‌سازی عمیق‌تر و مکان‌یابی و دسترسی کارآمدتر به داده را ممکن سازد.

4. جزئیات فنی و چارچوب ریاضی

چالش اصلی برنامه‌ریزی را می‌توان به عنوان یک مسئله بهینه‌سازی منابع مدل کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه منابع ناهمگون را نشان می‌دهد که هر کدام دارای ویژگی‌هایی مانند معماری، هسته‌های در دسترس $c_i$، حافظه $m_i$ و زمان انتظار صف $w_i$ هستند. همچنین فرض کنید $J = \{j_1, j_2, ..., j_m\}$ نشان‌دهنده کارها با نیازمندی‌های $\hat{c}_j, \hat{m}_j$ باشد.

برنامه‌ریز فرامنبع (COBalD/TARDIS) هدفش بیشینه‌کردن کارایی کلی یا توان عملیاتی است. یک تابع هدف ساده‌شده برای قرارگیری کار می‌تواند کمینه کردن زمان کل اجرا یا بیشینه کردن استفاده از منابع باشد، با در نظر گرفتن محدودیت‌ها:

$\text{کمینه کردن } \max_{r \in R} (\text{زمان تکمیل}(r))$

با قید: $\sum_{j \in J_r} \hat{c}_j \leq c_r \quad \text{و} \quad \sum_{j \in J_r} \hat{m}_j \leq m_r \quad \forall r \in R$

که در آن $J_r$ مجموعه کارهای تخصیص‌یافته به منبع $r$ است. ماهیت پویا توسط TARDIS مدیریت می‌شود که HTCondor را «فریب می‌دهد» تا منابع دور را به عنوان بخشی از مخزن محلی خود ببیند.

5. نتایج آزمایشی و وضعیت نمونه اولیه

این مقاله وضعیت کنونی و اولین تجربیات با کاربردهای علمی روی نمونه‌های اولیه موجود را گزارش می‌دهد. اگرچه اعداد معیار خاصی در بخش ارائه‌شده جزئیات داده نشده است، اما اجرای موفقیت‌آمیز بارهای کاری علمی واقعی اشاره شده است. یکپارچه‌سازی HTCondor با COBalD/TARDIS نشان داده است که می‌تواند منابع از دامنه‌های اداری مختلف را به صورت پویا ادغام کند. دسترسی اولیه کاربر از طریق JupyterHub و AAI مبتنی بر توکن آزمایش شده است که اثبات مفهومی برای نقطه ورود یکپارچه ارائه می‌دهد. استفاده از CVMFS برای تحویل محیط‌های نرم‌افزاری لازم در سراسر زیرساخت فدرال تأیید شده است.

نمودار معماری مفهومی: معماری سیستم را می‌توان به عنوان یک مدل چندلایه تجسم کرد. لایه بالایی لایه دسترسی کاربر (JupyterHub، گره‌های ورود) به لایه فدراسیون و برنامه‌ریزی (HTCondor + لایه COBalD/TARDIS) متصل می‌شود. این لایه بر روی لایه انتزاع منابع (توکن AAI، کانتینر/CVMFS) قرار دارد که در نهایت با لایه منابع فیزیکی متنوع خوشه‌های HPC، مزرعه‌های HTC و نمونه‌های ابری از مؤسسات مختلف رابط برقرار می‌کند. جریان دسترسی به داده نیز به طور مشابه از کاربران از طریق لایه فدراسیون Storage4PUNCH به سیستم‌های ذخیره‌سازی زیرین dCache و XRootD می‌رود.

6. چارچوب تحلیل: یک مطالعه موردی مفهومی

یک تحلیل اخترفیزیک چندپیام‌رسان را در نظر بگیرید که به دنبال همتایان نوترینویی برای انفجارهای پرتو گاما است. گردش کار شامل موارد زیر است:

  1. کشف داده: یک پژوهشگر از فهرست فراداده فدرال (که در Storage4PUNCH در حال ارزیابی است) برای یافتن داده‌های رویداد نوترینوی مرتبط از IceCube و داده‌های پرتو گاما از Fermi-LAT استفاده می‌کند که در نمونه‌های dCache در DESY و بیله‌فلد ذخیره شده‌اند.
  2. ارسال گردش کار: پژوهشگر از طریق رابط JupyterHub یک تحلیل جاروب پارامتر را تعریف می‌کند. نیازمندی‌های کار (نرم‌افزار: پایتون، پشته نرم‌افزاری IceCube از طریق CVMFS؛ محاسبات: ۱۰۰۰ ساعت-پردازنده) مشخص می‌شود.
  3. هماهنگی: لایه HTCondor، تحت هدایت COBalD/TARDIS، به صورت پویا صدها کار را با شکاف‌های موجود در HPC مؤسسه KIT، HTC بن و منابع ابری مطابقت داده و ارسال می‌کند. توکن AAI احراز هویت را به صورت یکپارچه مدیریت می‌کند.
  4. اجرا و دسترسی به داده: کارها نرم‌افزار را از CVMFS می‌کشند، داده‌های ورودی را مستقیماً از طریق درگاه‌های XRootD از ذخیره‌سازی فدرال می‌خوانند و نتایج میانی را در یک فضای ذخیره‌سازی موقت می‌نویسند.
  5. تجمع نتایج: نتایج نهایی تجمع یافته و به یک مخزن پایدار و منطبق با اصول FAIR درون فدراسیون Storage4PUNCH بازنویسی می‌شوند.

این مورد، ارزش پیشنهادی را نشان می‌دهد: یک دانشمند با یک سیستم منسجم واحد تعامل می‌کند تا از منابع ناهمگون پراکنده در سطح ملی بهره‌برداری کند بدون آنکه پیچیدگی زیرین را مدیریت کند.

7. چشم‌انداز کاربرد و جهت‌گیری‌های آینده

زیرساخت ترکیبی Compute4PUNCH و Storage4PUNCH پتانسیل قابل توجهی فراتر از جوامع اولیه PUNCH دارد:

  • فدراسیون بین‌حوزه‌ای: این مدل می‌تواند به سایر کنسرسیوم‌های NFDI یا ابتکارات ابر علم باز اروپا (EOSC) گسترش یابد و یک زیرساخت فدرال واقعاً فرااروپایی ایجاد کند.
  • یکپارچه‌سازی محاسبات لبه: برای حوزه‌هایی مانند رادیواخترشناسی یا پایش آشکارساز، یکپارچه‌سازی منابع محاسباتی لبه نزدیک به حسگرها می‌تواند گام منطقی بعدی باشد.
  • پشتیبانی از بارهای کاری هوش مصنوعی/یادگیری ماشین: تقویت برنامه‌ریز برای پشتیبانی بومی از منابع GPU/شتاب‌دهنده و چارچوب‌هایی مانند Kubernetes برای کارهای آموزش یادگیری ماشین در مقیاس بزرگ.
  • مدیریت پیشرفته داده: یکپارچه‌سازی عمیق‌تر قرارگیری هوشمند داده، مدیریت چرخه حیات و فهرست‌های فراداده فعال برای بهینه‌سازی گردش‌های کار داده‌محور.
  • محاسبات کوانتومی ترکیبی: با بلوغ محاسبات کوانتومی، این فدراسیون می‌تواند پردازنده‌های کوانتومی را به عنوان منابع تخصصی برای مراحل خاص الگوریتم‌ها ادغام کند.

موفقیت این فدراسیون به تأمین مالی پایدار، استحکام عملیاتی و تداوم پذیرش جامعه از مدل فدرال به جای بهینه‌سازی محلی بستگی خواهد داشت.

8. مراجع

  1. کنسرسیوم PUNCH4NFDI. «PUNCH4NFDI – ذرات، کیهان، هسته‌ها و هادرون‌ها برای NFDI.» کتاب سفید، ۲۰۲۱.
  2. Thain, D., Tannenbaum, T., & Livny, M. «محاسبات توزیع‌شده در عمل: تجربه Condor.» همزمانی و محاسبه: تمرین و تجربه، ۱۷(۲-۴)، ۳۲۳-۳۵۶، ۲۰۰۵.
  3. Blomer, J., و همکاران. «CernVM-FS: تحویل نرم‌افزار علمی به منابع محاسباتی توزیع‌شده جهانی.» مجله فیزیک: مجموعه همایش، ۳۹۶(۵)، ۰۵۲۰۱۸، ۲۰۱۲.
  4. Fuhrmann, P., & Gulzow, V. «dCache، سیستم ذخیره‌سازی برای آینده.» در کنفرانس اروپایی پردازش موازی (صص. ۱۱۰۶-۱۱۱۳). Springer, Berlin, Heidelberg, 2006.
  5. همکاری XRootD. «XRootD – یک معماری بسیار مقیاس‌پذیر برای دسترسی به داده.» تراکنش‌های WSEAS در رایانه‌ها، ۱۰(۱۱)، ۲۰۱۱.
  6. Isard, M., و همکاران. «Quincy: برنامه‌ریزی منصفانه برای خوشه‌های محاسباتی توزیع‌شده.» در مجموعه مقالات سمپوزیوم ACM SIGOPS بیست و دوم در مورد اصول سیستم‌های عامل (صص. ۲۶۱-۲۷۶)، ۲۰۰۹. (برای زمینه نظریه برنامه‌ریزی).
  7. Wilkinson, M. D., و همکاران. «اصول راهنمای FAIR برای مدیریت و سرپرستی داده‌های علمی.» داده علمی، ۳(۱)، ۱-۹، ۲۰۱۶.

9. تحلیل اصلی: بینش کلیدی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش کلیدی: PUNCH4NFDI در حال ساختن یک ابررایانه جدید نیست؛ بلکه در حال مهندسی یک لایه فدراسیون با حداقل نفوذپذیری ممکن است. این یک پاسخ عمل‌گرایانه و زیرکانه سیاسی به محدودیت واقعی منظره محاسباتی پژوهشی تکه‌تکه و متعلق به جامعه آلمان است. نوآوری واقعی در فناوری‌های فردی نیست – HTCondor، dCache، CVMFS آزموده میدان هستند – بلکه در هماهنگی آن‌ها در یک سیستم ملی منسجم با یک AAI مبتنی بر توکن به عنوان چسب است. این یک استراتژی کلاسیک «شبکه لایه‌ای» است که به زیرساخت سایبری اعمال شده است، شبیه به نحوه ساخت اینترنت بر روی شبکه‌های فیزیکی متنوع. همان‌طور که ابر علم باز اروپا (EOSC) با چالش‌های مشابه فدراسیون دست و پنجه نرم می‌کند، رویکرد PUNCH یک نقشه راه عملیاتی و مشخص ارائه می‌دهد.

جریان منطقی: منطق به طور قانع‌کننده‌ای ساده است: ۱) ناهمگونی را به عنوان یک وضعیت دائمی بپذیرید، نه مشکلی برای حذف. ۲) از برنامه‌ریزی فرامنبع سبک‌وزن (COBalD/TARDIS) برای ایجاد یک مخزن مجازی استفاده کنید تا از نیاز به تغییر برنامه‌ریزهای محلی ریشه‌دار (SLURM، PBS و غیره) اجتناب شود. ۳) هویت و مدیریت دسترسی را از طریق توکن‌ها جدا کنید تا از کابوس تطبیق حساب‌های مؤسسه‌ای دوری شود. ۴) نرم‌افزار را از زیرساخت از طریق CVMFS/کانتینرها جدا کنید. ۵) همان منطق فدراسیون را به ذخیره‌سازی اعمال کنید. جریان از سادگی رو به کاربر (JupyterHub) به سمت پایین از طریق لایه‌های انتزاعی به پیچیدگی زیرین است.

نقاط قوت و ضعف: قوت غالب قابلیت استقرار عملی است. با درخواست حداقل تغییرات از ارائه‌دهندگان منابع، مانع مشارکت را کاهش می‌دهد که برای راه‌اندازی یک کنسرسیوم حیاتی است. استفاده از ابزارهای بالغ HEP اطمینان از قابلیت اطمینان را تضمین می‌کند و ریسک توسعه را کاهش می‌دهد. با این حال، نقاط ضعف در معاوضه‌ها نهفته است. مدل لایه‌ای می‌تواند سربار عملکردی در ارسال کار و دسترسی به داده در مقایسه با یک سیستم یکپارچه تنگاتنگ ایجاد کند. انتزاع «مخرج مشترک کمینه» ممکن است دسترسی به ویژگی‌های منحصر به فرد سیستم‌های HPC خاص را محدود کند. از همه مهم‌تر، مدل پایداری بلندمدت اثبات نشده است – چه کسی هزینه هماهنگی مرکزی، نگهداری برنامه‌ریز فرامنبع و پشتیبانی کاربر را می‌پردازد؟ این پروژه خطر ساختن یک نمونه اولیه درخشان را دارد که پس از تأمین مالی اولیه ۵ ساله DFG از بین می‌رود.

بینش‌های عملی: برای سایر کنسرسیوم‌ها، نکته کلیدی این است که با حاکمیت و یکپارچه‌سازی سبک‌وزن شروع کنید، نه یک بازطراحی فنی بزرگ. ۱) بلافاصله یک AAI مبتنی بر توکن را اتخاذ کنید؛ این توانمندساز بنیادین است. ۲) تجربه کاربری (JupyterHub) را برای هدایت پذیرش در اولویت قرار دهید؛ دانشمندان از یک سیستم دست و پاگیر استفاده نخواهند کرد. ۳) از روز اول همه چیز را ابزارسازی کنید. برای تضمین تأمین مالی آینده، آن‌ها باید معیارهای قانع‌کننده‌ای در مورد افزایش استفاده از منابع، همکاری بین‌مؤسسه‌ای و توان عملیاتی علمی تولید کنند. ۴) برای «فدراسیون دوم» برنامه‌ریزی کنید – چگونه با سایر کنسرسیوم‌های NFDI یا EOSC ارتباط برقرار کنیم. معماری فنی باید به صراحت برای فدراسیون تو در تو طراحی شده باشد. در نهایت، آن‌ها باید یک مدل واضح برای تقسیم هزینه خدمات مرکزی توسعه دهند و از کمک‌های پروژه‌ای فراتر رفته و به یک مدل تأمین مالی عملیاتی مشارکتی شبیه به WLCG (شبکه محاسباتی جهانی LHC) حرکت کنند. فناوری آماده است؛ چالش ماندگار، اجتماعی-فنی است.