2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.

Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.

academic

مقارنة الأداء عبر المنصات من خلال دراسات التوسع من عقدة إلى عقدة

المعلومات الأساسية

معرّف الورقة: 2510.12166
العنوان: مقارنة الأداء عبر المنصات من خلال دراسات التوسع من عقدة إلى عقدة
المؤلفون: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
التصنيف: cs.DC (الحوسبة الموزعة والمتوازية والعنقودية)
تاريخ النشر: 15 أكتوبر 2025 (نسخة أولية)
رابط الورقة: https://arxiv.org/abs/2510.12166

الملخص

مع تزايد التنوع في معمارية الحوسبة عالية الأداء، يركز الباحثون والممارسون بشكل متزايد على مقارنة الأداء والقابلية للتوسع للأكواد عبر المنصات المختلفة. ومع ذلك، يفتقر المجال إلى إرشادات متاحة حول كيفية إعداد وتحليل مثل هذه الدراسات عبر المنصات بشكل فعلي. تؤكد هذه الورقة على أن وحدة الحساب الأساسية الطبيعية لمثل هذه الدراسات هي عقدة الحساب الفردية على كل منصة، وتقدم إرشادات لإعداد وتشغيل وتحليل دراسات التوسع من عقدة إلى عقدة. نقترح قوالب لعرض نتائج التوسع في هذه الدراسات، ونوفر عدة دراسات حالة لإبراز مزايا هذا النهج.

خلفية البحث والدافع

خلفية المشكلة

نمو التنوع المعماري: مع اكتمال مشروع الحوسبة الإكسا سكيل (ECP) والنشر الناجح للأنظمة الأولى من فئة الإكسا فلوبس (مثل نظام El Capitan في مختبر Lawrence Livermore الوطني الذي يصل إلى 1.7 إكسافلوبس)، شهدت معمارية عقد الحاسوب الفائق تنوعاً كبيراً.
تحديات اختيار المنصة: في قائمة Top500 لنوفمبر 2024، يمتلك 29.2% من الأنظمة وحدات معالجة رسومات وحدات معالجة مركزية معاً، مما يمثل 41.3% من إجمالي حصة الأداء. في مواجهة خيارات منصات حوسبة عديدة، لا يكون من الواضح دائماً للباحثين اختيار المنصة المناسبة لحل المشاكل ضمن القيود العملية (مثل توفر المجموعات والميزانيات).
متطلبات قابلية نقل الأداء: يجب على قواعد الأكواد الكبيرة دعم معمارية متنوعة موجودة وقادمة بالإضافة إلى الميزات الجديدة، مما يجعل تطوير وإدارة واختبار وصيانة إصدارات قاعدة الأكواد الخاصة بمنصة معينة غير عملي. تواجه العديد من الفرق هذا التحدي من خلال استخدام مكتبات الجسور مثل RAJA و Kokkos و SYCL و OpenMP لتحقيق قابلية نقل الأداء من مصدر واحد.

حدود الأساليب الموجودة

نقص الإرشادات: يفتقر الأدب إلى إرشادات حول كيفية مقارنة أداء الأنظمة غير المتجانسة بشكل فعلي
عدم توحيد وحدات المقارنة: تواجه المعايير التقليدية أحادية المعالج صعوبات عند المقارنة بين أنواع الحوسبة غير المتجانسة
تشتت أدوات التحليل: تركز أدوات تحليل الأداء الموجودة عادة على معمارية واحدة أو جانب واحد من الأداء

دافع البحث

تهدف هذه الورقة إلى توفير إرشادات منهجية لمقارنة الأداء عبر المنصات، خاصة في بيئات الحوسبة السحابية حيث يجب على المستخدمين الاختيار من بين مجموعة من معماريات عقد الحساب والدفع وفقاً لذلك.

المساهمات الأساسية

اقتراح نموذج المقارنة من عقدة إلى عقدة: تأسيس عقدة الحساب الفردية كوحدة حساب ذات صلة للدراسات عبر المنصات
تنظيم أساليب دراسات التوسع: وصف مفصل لأربعة أنواع من أساليب دراسات التوسع من عقدة إلى عقدة
توحيد قوالب التصور: اقتراح قوالب رسوم بيانية لتحليل ومقارنة الأداء عبر المنصات
إرشادات سير العمل العملي: توفير سير عمل كامل لإعداد وتشغيل وتحليل دراسات التوسع من عقدة إلى عقدة
التحقق من خلال دراسات حالة حقيقية: التحقق من فعالية الطريقة من خلال دراسات حالة متعددة لكود MARBL

شرح الطريقة

تعريف المهمة

تتمثل المهمة المدروسة في هذه الورقة في إنشاء مجموعة موحدة من أساليب مقارنة الأداء عبر المنصات، حيث يكون الإدخال مهام حسابية على منصات مختلفة، والإخراج نتائج تحليل أداء قابلة للمقارنة وتصورات رسومية.

أنواع دراسات التوسع من عقدة إلى عقدة

1. دراسات التوسع القوي (Strong Scaling)

التعريف: الحفاظ على حجم المشكلة الإجمالي ثابتاً مع تغيير عدد موارد الحساب
المقياس: نسبة التسريع للتوسع القوي = t_P(1)/t_P(N)، حيث t_P(1) هو وقت التشغيل على عقدة واحدة و t_P(N) هو وقت التشغيل على N عقدة
الحالة المثالية: يقل وقت التشغيل خطياً مع عدد العقد (الميل = -1 في نظام الإحداثيات log₂-log₂)

2. دراسات التوسع الضعيف (Weak Scaling)

التعريف: الحفاظ على حجم المشكلة المحلية لكل عقدة حساب ثابتاً مع زيادة حجم المشكلة الإجمالي مع عدد العقد
المقياس: كفاءة التوسع الضعيف = t_P(1)/t_P(N)
الحالة المثالية: يبقى وقت التشغيل ثابتاً (الميل = 0 في نظام الإحداثيات log₂-log₂)

3. دراسات التوسع القوي-الضعيف (Strong-Weak Scaling)

التعريف: عرض نتائج التوسع القوي والضعيف معاً في رسم بياني واحد
الاستخدام: يساعد في تحديد "النقطة المثلى" لتشغيل الحساب
التصور: تربط الخطوط الصلبة نقاط بيانات التوسع القوي، والخطوط المتقطعة تربط نقاط بيانات التوسع الضعيف

4. دراسات توسع الإنتاجية (Throughput Scaling)

التعريف: مقارنة الإنتاجية لكل عقدة على موارد ثابتة مع تغيير عدد درجات الحرية في المشكلة
المقياس: الإنتاجية = ⟨DOFs-processed⟩/compute_node × cycles/second
الهدف: إيجاد نقطة تشبع الموارد وتحديد اختناقات الأداء

نقاط الابتكار التقني

توحيد وحدة المقارنة: استخدام عقدة الحساب كوحدة مقارنة أساسية، مما يوحد بشكل فعال الاختلافات بين معماريات العقد المختلفة
توحيد التصور: استخدام نظام الإحداثيات log₂-log₂، مما يجعل التوسع المثالي يظهر كخط بميل محدد
التحليل عبر المنصات: مقارنة الأداء النسبية عند نفس عدد العقد من خلال خطوط عمودية، ومقارنة عدد العقد المطلوب لتحقيق أداء مماثل من خلال خطوط أفقية
إطار عمل التقييم الشامل: توفير صورة أداء شاملة من خلال دمج أنواع توسع متعددة

إعداد التجارب

منصات الاختبار

Sierra (ATS-2): نظام 125 بيتافلوبس، 4,320 عقدة حساب، كل عقدة مزودة بمعالجين POWER9 بـ 20 نواة، أربع وحدات معالجة رسومات NVIDIA Volta V100 بـ 16GB، و 256GB ذاكرة
Astra: نظام 2.3 بيتافلوبس، 2,592 عقدة حساب، كل عقدة مزودة بمعالجين Cavium ThunderX2 ARM بـ 28 نواة و 128GB ذاكرة
CTS-1: نظام تجاري، 1,302 عقدة حساب، معالجات Intel Xeon E5-2695 ثنائية بـ 18 نواة، 128GB ذاكرة
CTS-2: نظام تجاري، 1,496 عقدة حساب، معالجات Intel Xeon Platinum 8480+ ثنائية بـ 56 نواة، 256GB ذاكرة
EAS-3: نظام الوصول المبكر لـ El Capitan، 36 عقدة حساب، معالج AMD Trento بـ 64 نواة، أربع وحدات معالجة رسومات AMD MI-250X بـ 128GB، 512GB ذاكرة

كود الاختبار

استخدام كود MARBL (الفيزياء المتعددة على المنصات المتقدمة)، وهو كود محاكاة متعدد الفيزياء قابل للنقل من الجيل التالي طورته مختبر Lawrence Livermore الوطني، مصمم خصيصاً لمحاكاة فيزياء الكثافة العالية للطاقة (HEDP).

أدوات سير العمل

Maestro: لتنسيق تشغيل دراسات التوسع
Caliper و Adiak: لتعليق الأكواد وجمع البيانات الوصفية
Thicket: لقراءة وتصفية بيانات Caliper وإنشاء رسوم بيانية للتوسع

نتائج التجارب

دراسة الحالة 1: معلم المشروع FY20

في اختبار Triple-Pt 3D لديناميكا السوائل:

أداء التوسع القوي: منصة GPU Sierra لها نسبة تسريع حوالي 15 مرة مقارنة بمنصة CPU على عقدة واحدة، لكن الميزة تتناقص تدريجياً مع زيادة عدد العقد (حوالي 8 مرات عند 8 عقد، حوالي 4 مرات عند 32 عقدة)
أداء التوسع الضعيف: تظهر Astra توسعاً ضعيفاً ممتازاً (تباطؤ بمقدار 1.49 مرة فقط عند 2,048 عقدة)، وتظهر Sierra أيضاً توسعاً ضعيفاً معقولاً (تباطؤ بمقدار 1.8 مرة)

دراسة الحالة 2: دراسة إنتاجية عقدة إلى عقدة للتشغيل عالي الرتبة

حدود منصات CPU: تشبع CTS-1 و CTS-2 بسرعة، مع منحنيات إنتاجية نسبية مسطحة
مزايا منصات GPU: تحقق ATS-2 و EAS-3 إنتاجية أعلى بشكل ملحوظ
تأثير سعة الذاكرة: يمكن لعقد EAS-3 تشغيل مشاكل أكبر بمقدار عشرة أضعاف مقارنة بـ ATS-2
تأثير رتبة كثيرة الحدود: على جميع المنصات، مع زيادة رتبة كثيرة الحدود من الخطية إلى التربيعية ثم إلى التكعيبية، يحقق الكود إنتاجية أعلى

دراسة الحالة 3: مقارنة عبر المنصات لخصائص المكتبات المختلفة

في مشكلة Shaped-Charge 3D:

فوائد مشاركة مجموعة الذاكرة: على منصات GPU، يلاحظ كود MARBL الأساسي ومكتبة معادلة الحالة LEOS الذين يشاركان مجموعة ذاكرة مخصصة مسبقاً مزايا ملحوظة مقارنة باستخدام كل منهما لتخصيص ذاكرة مستقلة على جميع المقاييس (تحسن بمقدار 2x-4x)

دراسة الحالة 4: مقارنة أداء MARBL المحتوى في حاويات

فقدان الأداء الأدنى: فقدان الأداء لـ MARBL المحتوى في حاويات (cMARBL) مقارنة بملف MARBL الأصلي ثنائي يمكن إهماله
جدوى النشر السحابي: يوفر فرصاً للاستفادة من موارد السحابة لأحمال عمل MARBL المختلفة

الأعمال ذات الصلة

دراسات التوسع التقليدية

عادة ما تستخدم دراسات التوسع القوي والضعيف التقليدية معالج واحد كمرجع، وهذا النهج يواجه صعوبات عند المقارنة بين أنواع الحوسبة غير المتجانسة. توفر طريقة عقدة إلى عقدة في هذه الورقة أساساً أكثر عملية لمقارنة عبر المنصات.

أدوات تحليل الأداء

تركز الأدوات الموجودة مثل عدادات PAPI و ARM forge و Intel VTune و NVIDIA Nsight عادة على معمارية واحدة. في المقابل، توفر نموذج تحليل الأداء في كل مكان والأدوات ذات الصلة (Caliper و Adiak و Hatchet و Thicket) دعماً أفضل لتحليل الأداء عبر المنصات.

إدارة سير العمل

تساعد أدوات مثل Maestro و Merlin و Ramble في إدارة مجموعات المحاكاة، لكن ليس كل منها يحتوي على دعم مدمج لتشغيل المحاكاة على مجموعات مختلفة ومقارنة النتائج.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية المقارنة على مستوى العقدة: عقدة الحساب الفردية كوحدة أساسية لمقارنة عبر المنصات معقولة وعملية
قيمة التصور الموحد: قوالب الرسوم البيانية المقترحة يمكنها عرض أنواع مختلفة من أداء التوسع بوضوح
نجاح التطبيق العملي: تم التحقق من فعالية الطريقة وعمليتها من خلال دراسات حالة حقيقية متعددة

القيود

تكاليف الاتصال داخل العقدة: تدرج دراسات التوسع من عقدة إلى عقدة بعض تكاليف الاتصال داخل العقدة في قياس العقدة الفردية الأولي
حجم العمل اليدوي الكبير: يتطلب الإعداد الفعلي لهذه الدراسات وتتبع البيانات/البيانات الوصفية عبر التشغيلات عملاً يدوياً كبيراً
نقاط البيانات المحدودة: يؤدي استخدام التحسين الموحد للتوسع الضعيف إلى عدد قليل من نقاط البيانات

الاتجاهات المستقبلية

تطوير الإطار: تطوير أطر عمل تجعل إعداد مثل هذه الدراسات أسهل
استكشاف الحوسبة السحابية: استكشاف المزيد من مشاكل "ماذا لو" باستخدام عقد حساب متنوعة من مجموعات الحوسبة السحابية
تحليل استهلاك الطاقة: التوسع ليشمل مقارنات استهلاك الطاقة/الطاقة عبر المنصات

التقييم المتعمق

المزايا

عملية قوية: يعالج النهج المقترح مباشرة المشاكل العملية التي تواجهها مجتمع الحوسبة عالية الأداء
اكتمال منهجي: يغطي من الإطار النظري إلى سير العمل العملي بشكل كامل
تحقق كافٍ: تم التحقق من فعالية الطريقة من خلال دراسات حالة حقيقية واسعة النطاق متعددة
تصور واضح: قوالب الرسوم البيانية المقترحة بديهية وسهلة الفهم، مما يسهل التحليل والمقارنة
دعم الأدوات: توفير سلسلة أدوات كاملة للدعم

أوجه القصور

عمق نظري محدود: يركز بشكل أساسي على المنهجية والإرشادات العملية، مع نقص التحليل النظري العميق
عمومية قيد التحقق: تعتمد بشكل أساسي على دراسات حالة لكود MARBL، وتحتاج قابلية التطبيق على أنواع تطبيقات أخرى إلى مزيد من التحقق
درجة أتمتة منخفضة: لا يزال سير العمل الحالي يتطلب الكثير من التكوين والإدارة اليدوية

التأثير

ملء الفجوة: توفير حل منهجي للإرشادات المفقودة في مقارنة الأداء عبر المنصات في مجتمع الحوسبة عالية الأداء
إمكانية التوحيد: الطريقة وقوالب التصور المقترحة لديها إمكانية أن تصبح معايير المجتمع
قيمة عملية عالية: لها أهمية كبيرة للقرارات العملية مثل تقييم شراء الأنظمة واختيار موارد الحوسبة السحابية

السيناريوهات المعمول بها

تقييم شراء الأنظمة: مساعدة صناع القرار على مقارنة أداء معماريات الأنظمة المختلفة
اختيار موارد الحوسبة السحابية: توجيه المستخدمين في اختيار أنواع الحالات الأكثر ملاءمة في بيئات السحابة
تقييم نقل الأكواد: مساعدة المطورين على تقييم تأثير نقل الأكواد عبر منصات مختلفة
توجيه تحسين الأداء: توفير معايير وأهداف لعمل تحسين الأداء

المراجع

تستشهد هذه الورقة بـ 52 مرجعاً ذا صلة، تغطي دراسات التوسع في الحوسبة عالية الأداء وأدوات تحليل الأداء وإدارة سير العمل والتطبيقات ذات الصلة وجوانب أخرى متعددة، مما يوفر أساساً نظرياً وتقنياً متيناً للبحث.

توفر هذه الورقة إرشادات مطلوبة بشدة لمقارنة الأداء عبر المنصات لمجتمع الحوسبة عالية الأداء، مع قيمة عملية قوية جداً. على الرغم من أن الابتكار النظري محدود نسبياً، فإن منهجيتها المنهجية والتحقق التجريبي الكافي يجعلانها مساهمة مهمة في هذا المجال.