2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

تنفيذ تطبيقات استدلال نماذج اللغة الخفيفة عالية الإنتاجية بكفاءة على مجموعات GPU غير المتجانسة الانتهازية مع إدارة السياق الشاملة

المعلومات الأساسية

معرّف الورقة: 2510.14024
العنوان: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
المؤلفون: Thanh Son Phung, Douglas Thain (جامعة نوتردام)
التصنيف: cs.DC (الحوسبة الموزعة)
تاريخ النشر: 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.14024

الملخص

أدى ظهور الذكاء الاصطناعي التوليدي إلى إدخال فئة جديدة من أحمال عمل الحوسبة عالية الأداء (HPC)، والتي تدمج نماذج لغة خفيفة الوزن مع التطبيقات عالية الإنتاجية التقليدية لتسريع الاكتشاف العلمي. ومع ذلك، فإن التصميم الحالي لمجموعات HPC لا يدعم بشكل كافٍ هذه الأحمال الجديدة، مما يؤدي إما إلى أوقات انتظار طويلة في طوابير المعالجة الثابتة أو تكاليف بدء تشغيل مكلفة متكررة لنماذج اللغة عند مصادرة الموارد. لتجنب الطوابير الطويلة والتكاليف العالية للبدء، تقترح هذه الورقة "فصل" سياق تهيئة نموذج اللغة عن استدلال نموذج اللغة الفعلي، والاحتفاظ بالسياق في وحدة معالجة الرسومات حتى لا يكون مطلوباً بعد الآن. تُعرّف هذه التقنية باسم "إدارة السياق الشاملة" (Pervasive Context Management). من خلال تعديل تطبيق التحقق من الحقائق، قللت هذه التقنية وقت التنفيذ بنسبة 72.1% (من 3 ساعات إلى 48 دقيقة)، وتمكنت من التوسع الانتهازي عبر 32.8% من وحدات معالجة الرسومات في المجموعة، مما قلل وقت التنفيذ بشكل أكبر إلى 13 دقيقة.

الخلفية البحثية والدافع

تعريف المشكلة

مع التطور السريع لتكنولوجيا نماذج اللغة الكبيرة (LLM)، تظهر فئة جديدة من أحمال عمل HPC التي تدمج استدلال نماذج لغة خفيفة الوزن (عادة ما تحتوي على مليارات المعاملات) في التطبيقات عالية الإنتاجية التقليدية. تُظهر هذه الفئة من التطبيقات إمكانيات هائلة في مجالات مثل طي البروتينات والحوسبة العلمية المدفوعة بالذكاء الاصطناعي الموزع.

التحديات الأساسية

قيود نموذج التخصيص الثابت: يتطلب نموذج تخصيص GPU الثابت التقليدي الاستحواذ الحصري على دفعة GPU بحجم ثابت، مما يؤدي إلى أوقات انتظار طابور شديدة وعدم كفاية استخدام موارد المجموعة
تكاليف البدء للتخصيص الانتهازي: بينما يمكن للتخصيص الانتهازي للموارد الاستفادة من موارد GPU المتاحة ديناميكياً، فإن عملية بدء تشغيل نموذج اللغة (تحميل نموذج بمليارات المعاملات من نظام الملفات الموزع إلى القرص المحلي والذاكرة المضيفة وأخيراً إلى ذاكرة GPU) تتطلب استخدام I/O كثيفة وقد تستغرق عدة دقائق
تكلفة مصادرة الموارد: عند مصادرة المهمة، يجب تنفيذ عملية البدء المكلفة بالكامل من جديد على الموارد الجديدة، مما يؤدي غالباً إلى تجاوز تكاليف البدء للوقت الفعلي للحساب

أوجه القصور في الطرق الموجودة

أطر التوسع التلقائي: مصممة بناءً على مبادئ استباقية، غير مناسبة للبيئات HPC الانتهازية السلبية
تقنيات التسامح مع الأخطاء التقليدية: مثل آليات نقاط التفتيش يمكنها فقط حماية تقدم الحساب، ولا يمكنها حل مشكلة تكاليف تحميل النموذج

المساهمات الأساسية

اقتراح تقنية إدارة السياق الشاملة: ترفع سياق تهيئة نموذج اللغة إلى كيان دائم من الدرجة الأولى في المجموعة، مما يتيح إعادة الاستخدام عبر مهام متعددة
تنفيذ تطبيق التحقق من الحقائق عالي الإنتاجية بناءً على إطار Parsl-TaskVine: يوضح تطبيق نماذج لغة خفيفة الوزن في أطر عمل موزعة كثيفة البيانات
تصميم طريقة تحويل تطبيق سريعة: تمكن التطبيقات من دعم الوعي بالسياق من خلال إعادة هيكلة بسيطة للكود
التحقق من تحسينات الأداء الكبيرة: تقليل وقت التنفيذ بنسبة 72.1% مع نفس عدد وحدات معالجة الرسومات، مع القدرة على التوسع الانتهازي إلى 32.8% من وحدات معالجة الرسومات في المجموعة

شرح الطريقة

تعريف المهمة

يركز هذا البحث على تطبيقات استدلال نماذج لغة خفيفة الوزن عالية الإنتاجية، خاصة السيناريوهات التي تتطلب تنفيذ عدد كبير من مهام الاستدلال المستقلة على مجموعة GPU غير المتجانسة الانتهازية. المدخل هو عدد كبير من طلبات الاستدلال، والمخرج هو نتائج الاستدلال، والقيود تشمل التوفر الديناميكي لموارد GPU والمصادرة غير المتوقعة.

العمارة الأساسية: إدارة السياق الشاملة

1. فلسفة التصميم الشاملة

الفكرة الأساسية لإدارة السياق الشاملة هي فصل تهيئة سياق نموذج اللغة المكلفة عن تنفيذ الاستدلال الفعلي، مما يجعل السياق كياناً من الدرجة الأولى يمكن إدامته وإعادة استخدامه عبر عقد المجموعة.

2. إطار التنفيذ التقني

بناءً على التكامل بين Parsl و TaskVine:

Parsl: توفر مكتبة Python أصلية متوازية، تسمح للمستخدمين بالتعبير عن احتياجات الحساب من خلال دوال Python عامة
TaskVine: محرك تنفيذ سير عمل موجه نحو البيانات منخفض المستوى، يتعامل مع العلاقات بين المهام وتحسينات الجدولة

3. آلية إدارة السياق

# الطريقة التقليدية (غير مدركة للسياق)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# الطريقة المحسّنة (مدركة للسياق)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. سير العمل

تحليل السياق: يحلل المجدول احتياجات السياق للدالة F
إنشاء السياق: يتم إنشاء عملية Library على عقدة العمل، مسؤولة عن تجسيد السياق واستضافته
إعادة استخدام السياق: تنفذ المهام اللاحقة الاستدلال مباشرة باستخدام السياق المهيأ بالفعل
نقل السياق: يتم مشاركة نموذج السياق عبر العقد من خلال نقل من نقطة إلى نقطة

نقاط الابتكار التقني

فصل السياق عن الحساب: فصل تحميل النموذج عن تنفيذ الاستدلال، مما يتيح إعادة استخدام السياق عبر المهام
ذاكرة تخزين مؤقت موزعة للسياق: إدامة سياق نموذج اللغة على عقد GPU، مما يتجنب إعادة التهيئة المتكررة
استراتيجية جدولة ذكية: تعطي الأولوية لجدولة المهام على العقد التي تحتوي بالفعل على السياق المقابل
نقل السياق من نقطة إلى نقطة: يمكن لوحدات معالجة الرسومات المضافة حديثاً الحصول على نموذج السياق مباشرة من عقد أخرى

إعداد التجارب

سيناريو التطبيق

تطبيق التحقق من الحقائق (Prompt for Fact, PfF):

الهدف: العثور على نموذج الفحص الأمثل لنموذج لغة معين، للاستخدام كمدقق حقائق للتحقق من صحة أي ادعاء
مجموعة البيانات: بيانات تدريب FEVER، تحتوي على 145,449 ادعاء، مع تسميات SUPPORTED أو REFUTED أو NOT ENOUGH INFO
النموذج: SmolLM2 (1.7 مليار معامل)

بيئة التجربة

تكوين المجموعة المحلية:

إجمالي 567 وحدة معالجة رسومات، 18 نموذج مختلف
مدير الموارد: Altair Grid Engine (AGE) + HTCondor
التخزين: نظام ملفات مشترك Panasas ActiveStor 16
الشبكة: تدعم 84 Gbs/s نطاق ترددي قراءة و 94k عمليات قراءة IOPS

تكوين الإطار:

كل مهمة: نواتان، 10GB ذاكرة، 20GB قرص، 1 GPU
كل عقدة عمل: نواتان، 10GB ذاكرة، 70GB قرص، 1 GPU
حجم النموذج: 3.7GB مساحة قرص، 7.4GB ذاكرة
التبعيات البرمجية: 308 حزم، إجمالي 10.5GB

تصميم إصدارات التجربة

غير مدركة للسياق (Context-agnostic): تحمل كل مهمة جميع البيانات والنموذج من جديد من نظام الملفات المشترك
سياق جزئي (Partial-context): تخزين بيانات الإدخال مؤقتاً على القرص المحلي، لكن لا تزال بحاجة إلى إعادة إنشاء حالة النموذج على GPU
سياق كامل (Full-context): تفعيل كامل إدارة السياق الشاملة، مع تخزين حالة النموذج مؤقتاً في GPU

نتائج التجارب

تحسينات الأداء الرئيسية

RQ1: أداء التطبيق على الموارد الثابتة

نتائج التجربة على 20 وحدة معالجة رسومات (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

غير مدركة للسياق: 10,400 ثانية
سياق جزئي: 5,300 ثانية (تحسن 49.1%)
سياق كامل: 2,900 ثانية (تحسن 72.1%)

RQ2: تحليل حساسية حجم دفعة الاستدلال

يتراوح تغيير وقت التنفيذ لإصدار السياق الكامل عند أحجام دفعات مختلفة بنسبة 13.6% فقط، بينما يرتفع وقت التنفيذ لإصدار السياق الجزئي بشكل حاد إلى 141,100 ثانية عند حجم دفعة 1، مما يدل على حساسية عالية جداً.

RQ3: سيناريو مصادرة الموارد العدوانية

في سيناريو مصادرة وحدة معالجة رسومات واحدة كل دقيقة:

سياق جزئي: إكمال 46,000 استدلال
سياق كامل: إكمال 62,900 استدلال (16,900 استدلال إضافي، تحسن 36.7%)

RQ4: التوسع الانتهازي للموارد

سيناريو السعة المنخفضة: التوسع من 4 وحدات معالجة رسومات إلى 20 وحدة معالجة رسومات، الإكمال خلال 5000 ثانية
سيناريو السعة العالية: التوسع إلى 186 وحدة معالجة رسومات (32.8% من المجموعة)، الإكمال خلال 783 ثانية (ما يعادل 13 دقيقة)

النتائج الرئيسية

التأثير الكبير لتكاليف البدء: في الطرق التقليدية، غالباً ما يتجاوز وقت تحميل النموذج وقت الحساب الفعلي
قيمة إعادة استخدام السياق: يمكن لتهيئة واحدة أن تخدم مهام استدلال متعددة، مما يحسن الكفاءة بشكل كبير
قابلية التكيف مع البيئة غير المتجانسة: تعمل الطريقة بشكل جيد في مجموعة غير متجانسة تحتوي على 8 أنواع رئيسية من وحدات معالجة الرسومات
التحقق من قابلية التوسع: التنفيذ الناجح على 186 وحدة معالجة رسومات بشكل متزامن، مما يوضح قابلية توسع ممتازة

الأعمال ذات الصلة

أبحاث Spot Instances

توفر Spot instances في الحوسبة السحابية نموذج حوسبة انتهازي مشابه، لكنها عادة ما توفر وقت تحذير مصادرة من 30-120 ثانية، بينما المصادرة في بيئات HPC غالباً ما تكون فورية، مما يجعل آليات حفظ الحالة التقليدية غير فعالة.

تحسينات استدلال نماذج اللغة

يركز البحث الموجود بشكل أساسي على:

الفك التخمين: استخدام نماذج صغيرة للتنبؤ بـ tokens لتسريع استدلال النموذج الكبير
إدارة ذاكرة التخزين المؤقت KV: تحسين استخدام الذاكرة لآلية الانتباه
النشر السحابي: استخدام التخزين المحلي لتخزين نقاط تفتيش النموذج مؤقتاً

أنظمة سير العمل

تطورت من مديري الموارد التقليديين إلى أنظمة سير عمل حديثة أصلية في Python، ويمثل التكامل بين Parsl و TaskVine في هذه الورقة اتجاهاً جديداً يدعم مشاركة السياق الحسابي.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحل تقنية إدارة السياق الشاملة بنجاح مشكلة الكفاءة لتطبيقات نماذج اللغة الخفيفة على مجموعات GPU الانتهازية
من خلال فصل السياق عن الحساب، تحقق تقليل وقت التنفيذ بنسبة 72.1%
تقلل الطريقة بشكل كبير من تعقيد اختيار حجم الدفعة، وتحسن متانة النظام

القيود

قيود حجم النموذج: تنطبق فقط على نماذج لغة خفيفة الوزن ضمن نطاق موارد عقدة واحدة
تكاليف الإدارة: يؤدي نسخ السياق والتخزين المؤقت إلى تكاليف إدارة إضافية
متطلبات التبعية: تعتمد الفعالية على أن تكون تكاليف الإدارة أقل بكثير من تكاليف البدء البارد

الاتجاهات المستقبلية

دعم نشر نماذج لغة أكبر حجماً متعددة العقد
تحسين استراتيجيات نقل السياق والتخزين المؤقت
التوسع إلى أنواع أخرى من تطبيقات التعلم العميق

التقييم المتعمق

المزايا

تحديد المشكلة الدقيق: تحديد دقيق للاختناق الأساسي لتطبيقات نماذج اللغة في بيئات HPC
الحل المبتكر: مفهوم إدارة السياق جديد وعملي
تصميم التجربة الشامل: يغطي سيناريوهات عملية متعددة من الموارد الثابتة إلى المصادرة الديناميكية
تحسن الأداء الكبير: تقليل وقت التنفيذ بنسبة 72.1% والاستفادة الانتهازية من 32.8% من وحدات معالجة الرسومات في المجموعة

أوجه القصور

نطاق التطبيق محدود: ينطبق فقط على نماذج لغة خفيفة الوزن، مع دعم محدود للنماذج الكبيرة الحجم
نقص التحليل النظري: يفتقر إلى التحليل النظري لحجم الدفعة الأمثل واستراتيجيات إدارة السياق
التحقق من العمومية: تم التحقق فقط على تطبيق التحقق من الحقائق، وتحتاج قابلية التطبيق على التطبيقات الأخرى إلى مزيد من التحقق

التأثير

القيمة الأكاديمية: توفير أفكار جديدة لإدارة أحمال عمل الذكاء الاصطناعي في بيئات HPC
القيمة العملية: قابلة للتطبيق مباشرة على سيناريوهات الحوسبة العلمية الحالية
قابلية التكرار: مبنية على أطر عمل مفتوحة المصدر، مما يسهل التكرار والتوسع

السيناريوهات المناسبة

التطبيقات العلمية التي تتطلب عدداً كبيراً من استدلالات نماذج اللغة المستقلة
بيئات HPC حيث تتغير الموارد ديناميكياً
التطبيقات عالية الإنتاجية الحساسة لتأخير البدء

المراجع

تستشهد الورقة بـ 61 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك تكنولوجيا نماذج اللغة وجدولة HPC وأنظمة سير العمل، مما توفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو أحمال العمل الناشئة للذكاء الاصطناعي في بيئات HPC. يحدد المؤلفون المشكلة الفعلية بدقة، ويقترحون حلاً مبتكراً، ويتحققون من فعالية الطريقة من خلال تجارب شاملة. على الرغم من وجود بعض القيود في نطاق التطبيق والتحليل النظري، فإن الورقة توفر مساهمات قيمة للبحث والممارسة في المجالات ذات الصلة.