اختر اللغة

Compute4PUNCH و Storage4PUNCH: البنية التحتية الموحدة لفيزياء الجسيمات والفيزياء الفلكية والفيزياء النووية

تحليل مفاهيم البنية التحتية الموحدة للحوسبة والتخزين لتحالف PUNCH4NFDI، التي تدمج موارد HPC وHTC والسحابة غير المتجانسة عبر ألمانيا.
computepowertoken.com | PDF Size: 0.5 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - Compute4PUNCH و Storage4PUNCH: البنية التحتية الموحدة لفيزياء الجسيمات والفيزياء الفلكية والفيزياء النووية

1. المقدمة

تحالف "الجسيمات، الكون، النوى والهادرونات للبنية التحتية الوطنية لبيانات البحث" (PUNCH4NFDI) هو تحالف ألماني يموله الاتحاد الألماني للبحوث (DFG). يمثل التحالف ما يقارب 9000 عالم من مجتمعات فيزياء الجسيمات، والفيزياء الفلكية، وفيزياء الجسيمات الفلكية، وفيزياء الهادرونات، والفيزياء النووية. الهدف الرئيسي للتحالف هو إنشاء منصة موحدة وعادلة (FAIR) لبيانات العلوم. تهدف هذه المنصة إلى توفير وصول موحد إلى موارد الحوسبة والتخزين المتنوعة وغير المتجانسة التي تقدمها المؤسسات الأعضاء في جميع أنحاء ألمانيا، لمعالجة التحدي المشترك المتمثل في تحليل أحجام البيانات المتزايدة بشكل كبير باستخدام خوارزميات معقدة.

2. البنية التحتية الموحدة غير المتجانسة للحوسبة – Compute4PUNCH

يتناول مفهوم Compute4PUNCH التحدي المتمثل في توفير وصول سلس إلى مجموعة واسعة من موارد الحوسبة عالية الإنتاجية (HTC)، والحوسبة عالية الأداء (HPC)، والموارد السحابية المتبرع بها عينياً. تختلف هذه الموارد في البنية المعمارية ونظام التشغيل والبرمجيات والمصادقة، وهي قيد التشغيل والمشاركة بالفعل، مما يستلزم نهج تكامل غير تدخلي.

2.1 البنية الأساسية والتقنيات

يُبنى الاتحاد على نظام دفعي تراكبي قائم على HTCondor. يقوم مجدول الموارد الفائق COBalD/TARDIS بدمج الموارد غير المتجانسة ديناميكياً وشفافياً في هذه المجموعة الموحدة. توفر بنية المصادقة والتفويض القائمة على الرموز (AAI) وصولاً قياسياً، مما يقلل من التغييرات المطلوبة على مستوى مزود المورد.

2.2 الواجهة والوصول للمستخدم

تشمل نقاط دخول المستخدم عُقد الدخول التقليدية وخدمة JupyterHub، مما يوفر واجهات مرنة للمشهد الموحد للموارد.

2.3 توفير بيئة البرمجيات

للتعامل مع احتياجات البرمجيات المتنوعة، تستفيد البنية التحتية من تقنيات الحاويات (مثل Docker، Singularity) ومن نظام ملفات الآلة الافتراضية التابع لـ CERN (CVMFS) لتوزيع مجموعات البرمجيات الخاصة بالمجتمع بشكل قابل للتوسع وموزع.

3. البنية التحتية الموحدة للتخزين – Storage4PUNCH

بالتوازي مع الحوسبة، يوحد مفهوم Storage4PUNCH أنظمة التخزين المقدمة من المجتمع، والتي تعتمد بشكل أساسي على تقنيتي dCache و XRootD، وهما تقنيتان راسختان في فيزياء الطاقة العالية (HEP).

3.1 توحيد التخزين والتقنيات

ينشئ الاتحاد مساحة اسم مشتركة وطبقة وصول فوق موارد التخزين الموزعة جغرافياً، باستخدام بروتوكولات وطرق مُجربة في تعاونيات واسعة النطاق مثل تلك الموجودة في CERN.

3.2 التخزين المؤقت ودمج البيانات الوصفية

يقوم المشروع بتقييم التقنيات الحالية للتخزين المؤقت الذكي للبيانات ومعالجة البيانات الوصفية لتمكين تكامل أعمق وتحديد موقع البيانات والوصول إليها بكفاءة أكبر.

4. التفاصيل التقنية والإطار الرياضي

يمكن نمذجة تحدي الجدولة الأساسي كمشكلة تحسين للموارد. لنفترض أن $R = \{r_1, r_2, ..., r_n\}$ تمثل مجموعة الموارد غير المتجانسة، ولكل منها سمات مثل البنية المعمارية، والنوى المتاحة $c_i$، والذاكرة $m_i$، ووقت انتظار قائمة الانتظار $w_i$. ولنفترض أن $J = \{j_1, j_2, ..., j_m\}$ تمثل المهام ذات المتطلبات $\hat{c}_j, \hat{m}_j$.

يهدف مجدول الموارد الفائق (COBalD/TARDIS) إلى تعظيم المنفعة أو الإنتاجية الكلية. يمكن أن تكون دالة الهدف المبسطة لوضع المهام هي تقليل المدة الزمنية الكلية أو تعظيم استخدام الموارد، مع مراعاة القيود:

$\text{تقليل } \max_{r \in R} (\text{وقت الإنجاز}(r))$

بشرط: $\sum_{j \in J_r} \hat{c}_j \leq c_r \quad \text{و} \quad \sum_{j \in J_r} \hat{m}_j \leq m_r \quad \forall r \in R$

حيث $J_r$ هي مجموعة المهام المخصصة للمورد $r$. يتم التعامل مع الطبيعة الديناميكية بواسطة TARDIS، الذي "يخدع" HTCondور ليرى الموارد البعيدة كجزء من مجموعته المحلية.

5. النتائج التجريبية وحالة النموذج الأولي

تتناول الورقة الحالة الحالية والتجارب الأولى مع التطبيقات العلمية على النماذج الأولية المتاحة. بينما لم يتم تفصيل أرقام معايير محددة في المقتطف المقدم، فإن التنفيذ الناجح لأحمال العمل العلمية الحقيقية مُفترض. لقد تم إثبات أن تكامل HTCondor مع COBalD/TARDIS يقوم بدمج الموارد من مجالات إدارية مختلفة ديناميكياً. تم اختبار الوصول الأولي للمستخدم عبر JupyterHub وبنية المصادقة والتفويض القائمة على الرموز، مما يوفر دليلاً على المفهوم لنقطة الدخول الموحدة. تم التحقق من صحة استخدام CVMFS لتوصيل بيئات البرمجيات اللازمة عبر البنية التحتية الموحدة.

مخطط البنية المعمارية المفاهيمي: يمكن تصور بنية النظام كنموذج متعدد الطبقات. ترتبط طبقة وصول المستخدم العلوية (JupyterHub، عُقد الدخول) بطبقة الاتحاد والجدولة (HTCondor + COBalD/TARDIS التراكبي). تقع هذه الطبقة فوق طبقة تجريد الموارد (Token AAI، الحاويات/CVMFS)، والتي تتصل أخيراً بطبقة الموارد المادية المتنوعة المتمثلة في مجموعات HPC، ومزارع HTC، وحالات السحابة من مؤسسات مختلفة. يتدفق الوصول إلى البيانات بشكل مماثل من المستخدمين عبر طبقة اتحاد Storage4PUNCH إلى أنظمة التخزين الأساسية dCache و XRootD.

6. إطار التحليل: دراسة حالة مفاهيمية

لنفكر في تحليل فيزياء فلكية متعدد الرسائل يبحث عن نظائر النيوترينو لانفجارات أشعة غاما. يتضمن سير العمل ما يلي:

  1. اكتشاف البيانات: يستخدم الباحث فهرس البيانات الوصفية الموحد (قيد التقييم في Storage4PUNCH) لتحديد موقع بيانات أحداث النيوترينو ذات الصلة من IceCube وبيانات أشعة غاما من Fermi-LAT، المخزنة في حالات dCache في DESY و Bielefeld.
  2. إرسال سير العمل: عبر واجهة JupyterHub، يحدد الباحث تحليلاً لمسح المعلمات. يتم تحديد متطلبات المهمة (البرمجيات: Python، مجموعة برمجيات IceCube عبر CVMFS؛ الحوسبة: 1000 ساعة معالج).
  3. التنسيق: يقوم نظام HTCondor التراكبي، بتوجيه من COBalD/TARDIS، بمطابقة وإرسال مئات المهام ديناميكياً إلى الفتحات المتاحة عبر HPC في KIT، وHTC في بون، وموارد السحابة. تتعامل بنية المصادقة والتفويض القائمة على الرموز مع المصادقة بسلاسة.
  4. التنفيذ والوصول إلى البيانات: تسحب المهام البرمجيات من CVMFS، وتقرأ بيانات الإدخال مباشرة من التخزين الموحد عبر بوابات XRootD، وتكتب النتائج الوسيطة إلى مساحة تخزين مؤقتة.
  5. تجميع النتائج: يتم تجميع النتائج النهائية وكتابتها مرة أخرى إلى مستودع دائم ومتوافق مع مبادئ FAIR داخل اتحاد Storage4PUNCH.

توضح هذه الحالة القيمة المقترحة: يتفاعل العالم مع نظام واحد متماسك للاستفادة من الموارد المتناثرة على المستوى الوطني وغير المتجانسة دون إدارة التعقيدات الأساسية.

7. آفاق التطبيق والاتجاهات المستقبلية

تمتلك البنية التحتية المشتركة لـ Compute4PUNCH و Storage4PUNCH إمكانات كبيرة تتجاوز مجتمعات PUNCH الأولية:

  • الاتحاد عبر المجالات: يمكن توسيع النموذج ليشمل تحالفات NFDI أخرى أو مبادرات السحابة الأوروبية المفتوحة للعلوم (EOSC)، مما يخلق بنية تحتية موحدة حقيقية على مستوى أوروبا.
  • دمج الحوسبة الطرفية: لمجالات مثل علم الفلك الراديوي أو مراقبة الكواشف، يمكن أن يكون دمج موارد الحوسبة الطرفية بالقرب من أجهزة الاستشعار خطوة منطقية تالية.
  • دعم أحمال عمل الذكاء الاصطناعي/التعلم الآلي: تعزيز المجدول لدعم موارد GPU/المسرعات وأطر العمل مثل Kubernetes لمهام تدريب التعلم الآلي واسعة النطاق بشكل أصلي.
  • إدارة البيانات المتقدمة: تكامل أعمق لوضع البيانات الذكي، وإدارة دورة الحياة، وفهارس البيانات الوصفية النشطة لتحسين سير العمل المكثفة بالبيانات.
  • الهجين مع الحوسبة الكمومية: مع نضج الحوسبة الكمومية، يمكن للاتحاد دمج المعالجات الكمومية كموارد متخصصة لخطوات خوارزمية محددة.

سيعتمد نجاح هذا الاتحاد على التمويل المستدام، والمتانة التشغيلية، واستمرار دعم المجتمع لنموذج الاتحاد على التحسين المحلي.

8. المراجع

  1. تحالف PUNCH4NFDI. "PUNCH4NFDI – الجسيمات، الكون، النوى والهادرونات لـ NFDI." ورقة بيضاء، 2021.
  2. Thain, D., Tannenbaum, T., & Livny, M. "Distributed computing in practice: the Condor experience." Concurrency and Computation: Practice and Experience, 17(2-4), 323-356, 2005.
  3. Blomer, J., et al. "CernVM-FS: delivering scientific software to globally distributed computing resources." Journal of Physics: Conference Series, 396(5), 052018, 2012.
  4. Fuhrmann, P., & Gulzow, V. "dCache, storage system for the future." In European Conference on Parallel Processing (pp. 1106-1113). Springer, Berlin, Heidelberg, 2006.
  5. XRootD Collaboration. "XRootD – A highly scalable architecture for data access." WSEAS Transactions on Computers, 10(11), 2011.
  6. Isard, M., et al. "Quincy: fair scheduling for distributed computing clusters." In Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles (pp. 261-276), 2009. (للخلفية النظرية للجدولة).
  7. Wilkinson, M. D., et al. "The FAIR Guiding Principles for scientific data management and stewardship." Scientific data, 3(1), 1-9, 2016.

9. التحليل الأصلي: الفكرة الأساسية، التسلسل المنطقي، نقاط القوة والضعف، رؤى قابلة للتطبيق

الفكرة الأساسية: لا يبني PUNCH4NFDI حاسوباً فائقاً جديداً؛ بل يصمم طبقة اتحاد ذات تدخل أدنى ممكن. هذا استجابة عملية وذكية سياسياً للقيود الواقعية للمشهد الألماني المجزأ والمملوك للمجتمع للحوسبة البحثية. لا تكمن الابتكار الحقيقي في التقنيات الفردية – فـ HTCondor و dCache و CVMFS مثبتة جيداً – بل في تنسيقها في نظام وطني متماسك مع بنية المصادقة والتفويض القائمة على الرموز كالغراء. إنها استراتيجية "شبكة تراكبية" كلاسيكية مطبقة على البنية التحتية السيبرانية، تذكرنا بكيفية بناء الإنترنت نفسه فوق شبكات مادية متنوعة. بينما تعاني السحابة الأوروبية المفتوحة للعلوم (EOSC) من تحديات اتحاد مماثلة، يقدم نهج PUNCH مخططاً عملياً ملموساً وقابلاً للتشغيل.

التسلسل المنطقي: المنطق بسيط ومقنع: 1) تقبل عدم التجانس كحالة دائمة، وليس كمشكلة يجب القضاء عليها. 2) استخدم جدولة فائقة خفيفة الوزن (COBalD/TARDIS) لإنشاء مجموعة افتراضية، وتجنب الحاجة إلى تعديل المجدولات المحلية الراسخة (SLURM، PBS، إلخ). 3) افصل بين إدارة الهوية والوصول عبر الرموز، متجنباً كابوس التوفيق بين الحسابات المؤسسية. 4) افصل البرمجيات عن البنية التحتية عبر CVMFS/الحاويات. 5) طبق نفس منطق الاتحاد على التخزين. يتدفق التسلسل من البساطة الموجهة للمستخدم (JupyterHub) نزولاً عبر طبقات التجريد إلى التعقيد الأساسي.

نقاط القوة والضعف: القوة الساحقة هي قابلية النشر العملية. من خلال المطالبة بأدنى تغييرات من مقدمي الموارد، يخفض حاجز المشاركة، وهو أمر حاسم لبدء تشغيل تحالف. الاستفادة من أدوات فيزياء الطاقة العالية الناضجة تضمن الموثوقية وتقلل من مخاطر التطوير. ومع ذلك، تكمن العيوب في المقايضات. يمكن أن يقدم نموذج الطبقة التراكبية أوقاتاً إضافية في الأداء في إرسال المهام والوصول إلى البيانات مقارنة بنظام متكامل بإحكام. قد يحد تجريد "القاسم المشترك الأدنى" من الوصول إلى الميزات الفريدة لأنظمة HPC محددة. الأهم من ذلك، أن نموذج الاستدامة على المدى الطويل غير مثبت – من يدفع للتنسيق المركزي، وصيانة مجدول الموارد الفائق، ودعم المستخدم؟ يخاطر المشروع ببناء نموذج أولي رائع يذبل بعد التمويل الأولي لمدة 5 سنوات من DFG.

رؤى قابلة للتطبيق: بالنسبة للتحالفات الأخرى، الوجبة الرئيسية هي البدء بالحوكمة والتكامل خفيف الوزن، وليس بإعادة تصميم تقنية كبرى. 1) اعتمد فوراً بنية مصادقة وتفويض قائمة على الرموز؛ فهي الممكن الأساسي. 2) أعط أولوية لتجربة المستخدم (JupyterHub) لدفع الاعتماد؛ العلماء لن يستخدموا نظاماً مرهقاً. 3) أدخل أدوات القياس في كل شيء من اليوم الأول. لتأمين التمويل المستقبلي، يجب عليهم توليد مقاييس مقنعة حول زيادة استخدام الموارد، والتعاون عبر المؤسسات، والإنتاجية العلمية. 4) خطط لـ "الاتحاد الثاني" – كيفية الربط مع تحالفات NFDI أخرى أو EOSC. يجب تصميم البنية التقنية صراحةً للاتحاد المتداخل. أخيراً، يجب عليهم تطوير نموذج واضح لتقاسم التكاليف للخدمات المركزية، والانتقال من المنح المشروعية إلى نموذج تمويل تشغيلي تعاوني يشبه WLCG (شبكة الحوسبة العالمية لمصادم الهادرونات الكبير). التكنولوجيا جاهزة؛ التحدي الدائم هو اجتماعي تقني.