Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic
تنفيذ تطبيقات استدلال نماذج اللغة الخفيفة عالية الإنتاجية بكفاءة على مجموعات GPU غير المتجانسة الانتهازية مع إدارة السياق الشاملة
أدى ظهور الذكاء الاصطناعي التوليدي إلى إدخال فئة جديدة من أحمال عمل الحوسبة عالية الأداء (HPC)، والتي تدمج نماذج لغة خفيفة الوزن مع التطبيقات عالية الإنتاجية التقليدية لتسريع الاكتشاف العلمي. ومع ذلك، فإن التصميم الحالي لمجموعات HPC لا يدعم بشكل كافٍ هذه الأحمال الجديدة، مما يؤدي إما إلى أوقات انتظار طويلة في طوابير المعالجة الثابتة أو تكاليف بدء تشغيل مكلفة متكررة لنماذج اللغة عند مصادرة الموارد. لتجنب الطوابير الطويلة والتكاليف العالية للبدء، تقترح هذه الورقة "فصل" سياق تهيئة نموذج اللغة عن استدلال نموذج اللغة الفعلي، والاحتفاظ بالسياق في وحدة معالجة الرسومات حتى لا يكون مطلوباً بعد الآن. تُعرّف هذه التقنية باسم "إدارة السياق الشاملة" (Pervasive Context Management). من خلال تعديل تطبيق التحقق من الحقائق، قللت هذه التقنية وقت التنفيذ بنسبة 72.1% (من 3 ساعات إلى 48 دقيقة)، وتمكنت من التوسع الانتهازي عبر 32.8% من وحدات معالجة الرسومات في المجموعة، مما قلل وقت التنفيذ بشكل أكبر إلى 13 دقيقة.
مع التطور السريع لتكنولوجيا نماذج اللغة الكبيرة (LLM)، تظهر فئة جديدة من أحمال عمل HPC التي تدمج استدلال نماذج لغة خفيفة الوزن (عادة ما تحتوي على مليارات المعاملات) في التطبيقات عالية الإنتاجية التقليدية. تُظهر هذه الفئة من التطبيقات إمكانيات هائلة في مجالات مثل طي البروتينات والحوسبة العلمية المدفوعة بالذكاء الاصطناعي الموزع.
قيود نموذج التخصيص الثابت: يتطلب نموذج تخصيص GPU الثابت التقليدي الاستحواذ الحصري على دفعة GPU بحجم ثابت، مما يؤدي إلى أوقات انتظار طابور شديدة وعدم كفاية استخدام موارد المجموعة
تكاليف البدء للتخصيص الانتهازي: بينما يمكن للتخصيص الانتهازي للموارد الاستفادة من موارد GPU المتاحة ديناميكياً، فإن عملية بدء تشغيل نموذج اللغة (تحميل نموذج بمليارات المعاملات من نظام الملفات الموزع إلى القرص المحلي والذاكرة المضيفة وأخيراً إلى ذاكرة GPU) تتطلب استخدام I/O كثيفة وقد تستغرق عدة دقائق
تكلفة مصادرة الموارد: عند مصادرة المهمة، يجب تنفيذ عملية البدء المكلفة بالكامل من جديد على الموارد الجديدة، مما يؤدي غالباً إلى تجاوز تكاليف البدء للوقت الفعلي للحساب
اقتراح تقنية إدارة السياق الشاملة: ترفع سياق تهيئة نموذج اللغة إلى كيان دائم من الدرجة الأولى في المجموعة، مما يتيح إعادة الاستخدام عبر مهام متعددة
تنفيذ تطبيق التحقق من الحقائق عالي الإنتاجية بناءً على إطار Parsl-TaskVine: يوضح تطبيق نماذج لغة خفيفة الوزن في أطر عمل موزعة كثيفة البيانات
تصميم طريقة تحويل تطبيق سريعة: تمكن التطبيقات من دعم الوعي بالسياق من خلال إعادة هيكلة بسيطة للكود
التحقق من تحسينات الأداء الكبيرة: تقليل وقت التنفيذ بنسبة 72.1% مع نفس عدد وحدات معالجة الرسومات، مع القدرة على التوسع الانتهازي إلى 32.8% من وحدات معالجة الرسومات في المجموعة
يركز هذا البحث على تطبيقات استدلال نماذج لغة خفيفة الوزن عالية الإنتاجية، خاصة السيناريوهات التي تتطلب تنفيذ عدد كبير من مهام الاستدلال المستقلة على مجموعة GPU غير المتجانسة الانتهازية. المدخل هو عدد كبير من طلبات الاستدلال، والمخرج هو نتائج الاستدلال، والقيود تشمل التوفر الديناميكي لموارد GPU والمصادرة غير المتوقعة.
الفكرة الأساسية لإدارة السياق الشاملة هي فصل تهيئة سياق نموذج اللغة المكلفة عن تنفيذ الاستدلال الفعلي، مما يجعل السياق كياناً من الدرجة الأولى يمكن إدامته وإعادة استخدامه عبر عقد المجموعة.
يتراوح تغيير وقت التنفيذ لإصدار السياق الكامل عند أحجام دفعات مختلفة بنسبة 13.6% فقط، بينما يرتفع وقت التنفيذ لإصدار السياق الجزئي بشكل حاد إلى 141,100 ثانية عند حجم دفعة 1، مما يدل على حساسية عالية جداً.
توفر Spot instances في الحوسبة السحابية نموذج حوسبة انتهازي مشابه، لكنها عادة ما توفر وقت تحذير مصادرة من 30-120 ثانية، بينما المصادرة في بيئات HPC غالباً ما تكون فورية، مما يجعل آليات حفظ الحالة التقليدية غير فعالة.
تطورت من مديري الموارد التقليديين إلى أنظمة سير عمل حديثة أصلية في Python، ويمثل التكامل بين Parsl و TaskVine في هذه الورقة اتجاهاً جديداً يدعم مشاركة السياق الحسابي.
تستشهد الورقة بـ 61 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك تكنولوجيا نماذج اللغة وجدولة HPC وأنظمة سير العمل، مما توفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو أحمال العمل الناشئة للذكاء الاصطناعي في بيئات HPC. يحدد المؤلفون المشكلة الفعلية بدقة، ويقترحون حلاً مبتكراً، ويتحققون من فعالية الطريقة من خلال تجارب شاملة. على الرغم من وجود بعض القيود في نطاق التطبيق والتحليل النظري، فإن الورقة توفر مساهمات قيمة للبحث والممارسة في المجالات ذات الصلة.