1. المقدمة
الجسيمات، الكون، النوى والهادرونات للبنية التحتية الوطنية لبيانات البحث (PUNCH4NFDI) هو اتحاد ألماني رئيسي يموله DFG (مؤسسة الأبحاث الألمانية). يمثل حوالي 9000 عالم من مجتمعات فيزياء الجسيمات، والفيزياء الفلكية، وفيزياء الجسيمات الفلكية، وفيزياء الهادرونات، والفيزياء النووية. الهدف الرئيسي للاتحاد هو إنشاء منصة موحدة لبيانات العلوم وفقًا لمبادئ FAIR (قابلة للاكتشاف، والوصول، والتشغيل البيني، وإعادة الاستخدام). تهدف هذه المنصة إلى توفير وصول سلس إلى موارد الحوسبة والتخزين المتنوعة وغير المتجانسة الموزعة عبر المؤسسات المشاركة، لمعالجة التحديات المشتركة لحجم البيانات الهائل والخوارزميات المعقدة والمكثفة الموارد. يركز هذا المستند على المفاهيم المعمارية – Compute4PUNCH و Storage4PUNCH – التي تم تطويرها لتوحيد هذه الموارد المساهمة العينية.
2. بنية الحوسبة الموزعة غير المتجانسة – Compute4PUNCH
يتناول مفهوم Compute4PUNCH تحدي توفير وصول موحد لمجموعة واسعة من موارد الحوسبة عالية الإنتاجية (HTC)، والحوسبة عالية الأداء (HPC)، والموارد السحابية الحالية التي تساهم بها مؤسسات مختلفة. تختلف هذه الموارد في البنية المعمارية، ونظام التشغيل، والبرمجيات، والمصادقة. القيد الرئيسي هو تقليل التغييرات على الأنظمة التشغيلية الحالية المشتركة بين مجتمعات متعددة.
2.1 البنية الأساسية واستراتيجية التكامل
تستخدم الاستراتيجية نظام دُفعات موحدًا متراكبًا. بدلاً من تعديل مديري الموارد المحليين (مثل SLURM، PBS)، يتم إنشاء تجمع متراكب قائم على HTCondor. يقوم مجدول الموارد الفوقي COBalD/TARDIS بدمج الخلفيات غير المتجانسة (عناقيد HPC، مزارع HTC، الآلات الافتراضية السحابية) ديناميكيًا وشفافًا في هذا التجمع الموحد. يعمل كنظام "طيار"، يقدم وظائف وهمية للمطالبة بالموارد ثم ينشر أحمال العمل الفعلية للمستخدم.
2.2 وصول المستخدم وبيئة البرمجيات
يتم توفير الوصول عبر عقد تسجيل الدخول التقليدية وخدمة JupyterHub، التي تعمل كنقاط دخول مركزية. تقوم بنية المصادقة والتفويض المعتمدة على الرموز (AAI) بتوحيد الوصول. تتم إدارة تعقيد بيئة البرمجيات من خلال تقنيات الحاويات (Docker، Singularity/Apptainer) ونظام ملفات الآلة الافتراضية التابع لـ CERN (CVMFS)، والذي يقدم مجموعات برمجيات مجتمعية مُهيأة مسبقًا بطريقة قابلة للتوسع وقراءة فقط.
3. بنية التخزين الموزعة – Storage4PUNCH
يهدف Storage4PUNCH إلى توحيد أنظمة التخزين المقدمة من المجتمع، المعتمدة بشكل أساسي على تقنيات dCache أو XRootD، والتي راسخة في فيزياء الطاقة العالية (HEP). ينشئ التوحيد مساحة اسم مشتركة وطبقة وصول. كما يقيم المفهوم التقنيات الحالية للتخزين المؤقت (لتقليل زمن الوصول وحركة مرور الشبكة الواسعة) ومعالجة البيانات الوصفية، بهدف تحقيق تكامل أعمق لتسهيل اكتشاف البيانات وإدارتها عبر التخزين الموحد.
4. التنفيذ التقني والمكونات الأساسية
4.1 توحيد الحوسبة: HTCondor و COBalD/TARDIS
HTCondor: يوفر طبقة إدارة الوظائف، والطابور، والجدولة داخل التجمع الموحد. تتيح آلية ClassAd الخاصة به مطابقة متطلبات الوظائف المعقدة مع خصائص الموارد الديناميكية.
COBalD/TARDIS: يقع بين HTCondor والخلفيات غير المتجانسة. يقوم TARDIS بترجمة "الطيارات" الخاصة بـ HTCondor إلى أوامر تقديم خاصة بالخلفية (مثل نص وظيفة SLURM). ينفذ COBalD منطق القرار بشأن وقت ومكان إنشاء هذه الطيارات بناءً على السياسة والتكلفة وحالة الطابور. يمكن نمذجة الوظيفة الأساسية كمشكلة تحسين: $\text{تعظيم } U = \sum_{r \in R} (w_r \cdot u_r(\text{alloc}_r)) \text{ بشرط } \text{alloc}_r \leq \text{cap}_r, \forall r \in R$، حيث $U$ هي المنفعة الإجمالية، $R$ هي مجموعة أنواع الموارد، $w_r$ هو وزن، $u_r$ هي دالة منفعة لنوع المورد $r$، $\text{alloc}_r$ هي السعة المخصصة، و $\text{cap}_r$ هي السعة الإجمالية.
4.2 توحيد التخزين: dCache و XRootD
dCache: نظام إدارة تخزين هرمي، يُستخدم غالبًا كواجهة أمامية لأرشيفات الأشرطة. يوفر واجهات شبيهة بـ POSIX (NFS، WebDAV) وبروتوكولات خاصة بـ HEP (xrootd، gridftp).
XRootD: بروتوكول ومجموعة أدوات للوصول إلى البيانات القابل للتوسع والمقاوم للأعطال. يمكّن مكون "المُوجِّه" (redirector) الخاص به من بناء اتحادات حيث يتم توجيه استعلام العميل إلى خادم البيانات المناسب.
ينشئ التوحيد طبقة منطقية تعرض عدة حالات مادية كنظام واحد، وهو أمر بالغ الأهمية للجدولة التي تدرك مكانية البيانات.
4.3 تسليم البرمجيات والبيانات: الحاويات و CVMFS
الحاويات: تضمن بيئات برمجية قابلة للتكرار عبر أنظمة مضيفة متنوعة. وهي تغلف التبعيات المعقدة (مثل إصدارات محددة من ROOT، Geant4).
CVMFS: نظام ملفات عالمي موزع لتوزيع البرمجيات. يستخدم HTTP والتخزين المؤقت العدواني. يتم نشر محتواه مرة واحدة ويصبح متاحًا في كل مكان، مما يحل مشكلة نشر البرمجيات على نطاق واسع. تتضمن عملية النشر خادم "طبقة 0" (stratum 0) والنسخ المتماثل إلى مرايا "طبقة 1" (stratum 1).
5. حالة النموذج الأولي والتجارب الأولية
تذكر الورقة البحثية أنه تم نشر نماذج أولية لكل من Compute4PUNCH و Storage4PUNCH. تم تنفيذ التطبيقات العلمية الأولية بنجاح على النماذج الأولية المتاحة، مما يثبت جدوى المفاهيم. لم يتم تقديم مقاييس أداء محددة أو دراسات حالة مفصلة في الملخص، لكن التنفيذ الناجح يتحقق من نهج التكامل ومجموعة التقنيات المختارة.
6. الرؤى الرئيسية والتحليل الاستراتيجي
- التوحيد بدلاً من التكامل العميق: يعطي المشروع الأولوية للتوحيد خفيف الوزن للأنظمة الحالية على التكامل العميق والمُعطِّل، وهو خيار عملي لاتحاد يضم شركاء أقوياء ومستقلين.
- الاستفادة من تراث HEP: الاعتماد الكبير على تقنيات HEP المجربة والمختبرة (HTCondor، dCache، XRootD، CVMFS) يقلل المخاطر ويعجل التطوير.
- التجريد هو المفتاح: يعتمد النجاح على طبقات تجريد متعددة: يجرد COBalD/TARDIS موارد الحوسبة، ويجرد اتحاد التخزين موقع البيانات، وتجرد الحاويات/CVMFS بيئات البرمجيات.
- الوصول المتمحور حول المستخدم: توفير نقاط دخول مألوفة (JupyterHub، عقد تسجيل الدخول) يخفض حاجز الاعتماد لقاعدة مستخدمين متنوعة.
7. التحليل الأصلي: الفكرة الأساسية، التدفق المنطقي، نقاط القوة والضعف، رؤى قابلة للتطبيق
الفكرة الأساسية: PUNCH4NFDI لا يبني حاسوبًا فائقًا جديدًا؛ بل ينظم سيمفونية من الأدوات الحالية والمتباينة. يكمن الابتكار الحقيقي في الطبقة الفوقية – "قائد الأوركسترا" المكون من COBalD/TARDIS وبروتوكولات التوحيد – الذي ينشئ تجمع موارد موحدًا دون المطالبة بتجانس من المزودين الأساسيين. هذه ضربة استراتيجية بارعة للتعاونات متعددة المؤسسات والمعقدة سياسيًا، تذكرنا بنموذج التعلم الموحد في الذكاء الاصطناعي (كما في عمل Google على Federated Averaging) حيث تبقى البيانات موزعة، ولكن يتم تجميع النماذج.
التدفق المنطقي: تتبع البنية المعمارية فصلًا واضحًا للمسؤوليات. 1) الوصول والهوية: تقوم بنية المصادقة والتفويض المعتمدة على الرموز بمصادقة المستخدمين. 2) تجريد الحوسبة: يقدم المستخدم وظيفة إلى HTCondor. يراقب COBalD/TARDIS الطوابير، ويقرر أي خلفية (مثل عنقود HPC في جامعة) لديها سعة، وينشر وظيفة طيار "للمطالبة" بهذه الموارد لتجمع HTCondor. ثم تعمل وظيفة المستخدم الفعلية داخل هذا الطيار. 3) بيئة البرمجيات: تسحب الوظيفة مجموعة البرمجيات المحددة الخاصة بها عبر CVMFS أو من سجل الحاويات. 4) الوصول إلى البيانات: تقرأ الوظيفة البيانات وتكتبها عبر طبقة التخزين الموحدة (dCache/XRootD)، والتي تعيد توجيه الطلبات إلى موقع البيانات الفعلي.
نقاط القوة والضعف: القوة هي البراغماتية التي لا يمكن إنكارها. من خلال تغليف الأنظمة الحالية، يحقق قابلية نشر سريعة وموافقة من مالكي الموارد. استخدام مجموعة التقنيات المثبتة من HEP (التي تحققت من نجاح شبكة الحوسبة العالمية لمصادم الهادرونات الكبير التابعة لـ CERN) هو مخفف مخاطر رئيسي. ومع ذلك، تكمن العيوب في التعقيد الجوهري لطبقة الجدولة الفوقية. يجب على COBalD/TARDIS اتخاذ قرارات تخصيص ذكية عبر أنظمة غير متجانسة ذات سياسات وتكاليف (مثل أرصدة السحابة) وملامح أداء مختلفة. قد تؤدي السياسة غير المضبوطة جيدًا إلى استخدام غير فعال للموارد أو تجويع الوظائف. علاوة على ذلك، بينما يوفر اتحاد التخزين وصولاً موحدًا، فإن الميزات المتقدمة لإدارة البيانات مثل فهرسة مساحة الأسماء العالمية، واتحاد فهرس البيانات الوصفية، والموضع الذكي للبيانات (على غرار الأفكار في نظام الملفات المتوازي Lustre أو الأبحاث حول التقسيم التلقائي للبيانات) يبدو أنها عناصر تقييم مستقبلية، مما يمثل قيدًا حاليًا.
رؤى قابلة للتطبيق: بالنسبة للاتحادات الأخرى (مثل في المعلوماتية الحيوية أو علوم المناخ)، فإن الخلاصة هي الاستثمار بكثافة في تصميم المجدول الفوقي وطبقة التجريد من اليوم الأول. يقترح نهج PUNCH البدء باتحاد أدنى قابل للتطبيق باستخدام تقنية مستقرة مثل HTCondor، بدلاً من محاولة بناء جديد من الصفر. يجب إشراك مقدمي الموارد بمتطلبات واضحة ودنيا تشبه واجهة برمجة التطبيقات (API) (مثل "يجب دعم SSH أو أمر نظام دُفعات محدد"). والأهم من ذلك، يجب على المشروع تطوير أدوات مراقبة ومراجعة قوية للطبقة الموحدة نفسها – حيث سيكون فهم الاستخدام عبر المواقع وتشخيص الأعطال في هذه السلسلة المعقدة أمرًا بالغ الأهمية تشغيليًا. يجب أن تتناول خارطة الطريق المستقبلية صراحةً تكامل مديري سير العمل (مثل Nextflow أو Apache Airflow) وتطوير خدمات التخزين المؤقت والبيانات الوصفية التي تم تقييمها للانتقال من التوحيد البسيط إلى لوجستيات البيانات الذكية والمحسنة للأداء.
8. التفاصيل التقنية والإطار الرياضي
يمكن صياغة مشكلة تخصيص الموارد التي يتناولها COBalD/TARDIS كتحسين عبر الإنترنت. لنفترض أن $Q(t)$ هو طابور الوظائف المعلقة في HTCondor في الوقت $t$، لكل منها وقت تشغيل تقديري $\hat{r}_i$ ومتطلب موارد متجه $\vec{c}_i$ (وحدة المعالجة المركزية، الذاكرة، وحدة معالجة الرسومات). لنفترض أن $B$ هي مجموعة الخلفيات، لكل منها سعة متاحة متغيرة مع الزمن $\vec{C}_b(t)$ ودالة تكلفة $f_b(\vec{c}, \Delta t)$ لتخصيص موارد $\vec{c}$ لمدة $\Delta t$. هدف المجدول الفوقي هو تقليل متوسط وقت إنجاز الوظيفة $T_{ta}$ مع احترام سياسات الخلفية وقيد الميزانية. يمكن أن تكون قاعدة القرار الاستدلالية المبسطة لإنشاء طيار على الخلفية $b$: $\text{أنشئ إذا } \frac{|\{j \in Q(t): \vec{c}_j \preceq \vec{C}_b(t)\}|}{\text{Cost}_b} > \theta$، حيث $\preceq$ تشير إلى "يتناسب مع"، $\text{Cost}_b$ هي تكلفة موحدة، و $\theta$ هو حد عتبة. هذا يلتقط المقايضة بين طلب الطابور وتكلفة التخصيص.
9. النتائج التجريبية ومقاييس النموذج الأولي
بينما لا يتضمن ملخص PDF المقدم نتائج كمية محددة، فإن النموذج الأولي الناجح يعني نتائج نوعية رئيسية وكمية محتملة:
- النجاح الوظيفي: القدرة المثبتة على تقديم وظيفة واحدة عبر HTCondor/JupyterHub وتنفيذها بشفافية على مورد HPC أو HTC بعيد، مع برمجيات من CVMFS وبيانات من التخزين الموحد.
- المقاييس الرئيسية للمتابعة (مستقبلًا):
- معدل نجاح الوظيفة: نسبة الوظائف التي تكتمل بنجاح عبر الاتحاد.
- متوسط وقت الانتظار: الوقت من التقديم إلى البدء، مقارنة بطوابير الخلفية الأصلية.
- استخدام الموارد: إجمالي ساعات وحدة المعالجة المركزية المقدمة عبر التجمع الموحد.
- كفاءة نقل البيانات: معدل النقل وزمن الوصول للوظائف التي تصل إلى التخزين البعيد عبر طبقة الاتحاد.
- وصف الرسم التخطيطي: سيظهر الرسم التخطيطي المعماري المفاهيمي: المستخدمون يتفاعلون مع عقد JupyterHub/تسجيل الدخول. تتصل هذه بـ مدير HTCondor المركزي. يتفاعل مكون COBalD/TARDIS مع كل من HTCondor و الخلفيات المتعددة للموارد (عنقود HPC أ، مزرعة HTC ب، سحابة ج). لكل خلفية نظام دُفعات محلي (SLURM، PBS، إلخ). تشير الأسهم إلى تقديم الوظيفة ونشر الطيار. يظهر قسم منفصل التخزين الموحد (حالات dCache، XRootD) المتصلة بالخلفيات والقابلة للوصول من قبل الوظائف. تظهر مرايا CVMFS Stratum 1 كطبقة يمكن لجميع الخلفيات الوصول إليها.
10. إطار التحليل: مثال على سير العمل المفاهيمي
السيناريو: يحتاج فيزيائي جسيمات فلكية إلى معالجة 1000 صورة تلسكوب باستخدام خط أنابيب تحليل معقد ومخصص (قائم على Python/ROOT).
- دخول المستخدم: يسجل الباحث في PUNCH JupyterHub.
- إعداد البيئة: في دفتر Jupyter، يختارون نواة محددة مسبقًا مدعومة بحاوية Singularity تحتوي على مجموعة البرمجيات المحددة الخاصة بهم (المنشورة على CVMFS).
- تعريف الوظيفة: يكتبون نصًا يحدد مهمة التحليل ويستخدمون مكتبة مساعدة PUNCH لإنشاء وصف تقديم HTCondor، مع تحديد وحدات المعالجة المركزية والذاكرة المطلوبة ومراجع بيانات الإدخال (مثل `root://fed-storage.punch.org/path/to/images_*.fits`).
- التقديم والجدولة: يتم تقديم الوظيفة إلى تجمع HTCondor. يقرر COBalD/TARDIS، عند رؤية 1000 وظيفة قصيرة، إنشاء وظائف طيار متعددة على مزرعة عالية الإنتاجية (الخلفية ب) مع ذاكرة تخزين مؤقت محلية سريعة لبيانات الإدخال.
- التنفيذ: تطالب الطيارات بفتحات على الخلفية ب. يسحب كل طيار الحاوية، ويجلب ملفات الإدخال المخصصة له عبر اتحاد XRootD (والذي قد يعيد التوجيه إلى ذاكرة تخزين مؤقت محلية)، وينفذ التحليل، ويكتب النتائج مرة أخرى إلى التخزين الموحد.
- الإكمال: يقوم HTCondور بتجميع حالة إكمال الوظيفة. يمكن الآن لدفتر الباحث الاستعلام عن النتائج من موقع تخزين المخرجات وتصورها.
يبرز هذا المثال التجريد الكامل: لم يحتج المستخدم مطلقًا إلى معرفة أوامر SLURM على الخلفية ب، أو كيفية تثبيت ROOT هناك، أو الموقع الفعلي لملفات البيانات.
11. التطبيقات المستقبلية وخارطة طريق التطوير
تضع بنية PUNCH4NFDI الأساس لتطبيقات تحويلية:
- سير عمل الفيزياء الفلكية متعددة الرسائل: تحليلات الارتباط في الوقت الفعلي بين بيانات موجات الجاذبية (LIGO/Virgo)، والنيوترينو (IceCube)، والمراصد الكهرومغناطيسية، مما يتطلب حوسبة عاجلة عبر موارد موزعة جغرافيًا.
- تدريب نماذج الذكاء الاصطناعي/التعلم الآلي على نطاق واسع: تجارب التعلم الموحد حيث تكون عملية التدريب نفسها موزعة عبر اتحاد الحوسبة، مع تجميع النماذج مركزياً – وهو توازي حوسبي لاتحاد البيانات.
- التوائم الرقمية للتجارب المعقدة: تشغيل مجموعات محاكاة ضخمة لإنشاء نظائر رقمية لكاشفات الجسيمات أو مصفوفات التلسكوبات، والاستفادة من HPC للمحاكاة و HTC لمسح المعاملات.
خارطة طريق التطوير:
- قصير المدى (1-2 سنة): ترسيخ نشر على مستوى الإنتاج لخدمات Compute4PUNCH و Storage4PUNCH الأساسية. تكامل أدوات المراقبة المتقدمة (Prometheus/Grafana) وأدوات الفوترة/المحاسبة.
- متوسط المدى (3-4 سنوات): تنفيذ ودمج خدمات التخزين المؤقت وفهرس البيانات الوصفية العالمية التي تم تقييمها. تطوير تكامل أوثق مع أنظمة إدارة سير العمل. استكشاف "الانفجار" إلى السحابات التجارية خلال فترات الذروة.
- طويل المدى (5+ سنوات): التطور نحو "بحيرة بيانات ذكية" لعلوم PUNCH، تتضمن اكتشاف البيانات، وتتبع المنشأ، وإدارة دورة حياة البيانات الآلية المدعومة بالبيانات الوصفية الموحدة. العمل كنموذج لاتحادات NFDI الأخرى والتعاونات الدولية.
12. المراجع
- اتحاد PUNCH4NFDI. (2024). الورقة البيضاء لـ PUNCH4NFDI. [الوثائق الرسمية للاتحاد].
- Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
- Krebs, K., et al. (2022). COBalD/TARDIS – A dynamic resource provisioning framework for heterogeneous computing environments. Journal of Physics: Conference Series, 2438(1), 012045. (مرجع للمجدول الفوقي).
- Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004. https://doi.org/10.1088/1742-6596/331/5/052004
- تعاون dCache. (2023). dCache.org [برمجيات ووثائق]. https://www.dcache.org
- تعاون XRootD. (2023). وثائق XRootD. http://xrootd.org/docs.html
- McMahan, B., Moore, E., Ramage, D., Hampson, S., & y Arcas, B. A. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). (مذكور لتشبيه التعلم الموحد).
- المنظمة الأوروبية للأبحاث النووية (CERN). (2023). شبكة الحوسبة العالمية لمصادم الهادرونات الكبير (WLCG). https://wlcg.web.cern.ch (مذكور كسابقة للتوحيد واسع النطاق).