2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

نماذج الخبراء أقوى مما تعتقد: التوسع المتوازي الفائق للاستدلال مع RoE

المعلومات الأساسية

معرّف الورقة: 2509.17238
العنوان: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
المؤلفون: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
التصنيف: cs.AI, cs.CL, cs.LG
حالة النشر: نسخة أولية قيد المراجعة
رابط الورقة: https://arxiv.org/abs/2509.17238v2

الملخص

تقترح هذه الورقة نموذجاً جديداً للاستدلال يُسمى التوسع المتوازي الفائق (hyper-parallel scaling)، والذي يعزز جودة التنبؤ من خلال حساب وتجميع مقترحات إخراج متعددة على مستوى الرموز (tokens). يتم تنفيذ ذلك من خلال طريقة قائمة الخبراء (Roster of Experts, RoE)، وهي خوارزمية استدلال بدون تدريب تحول نموذج MoE واحد إلى مجموعة MoE ديناميكية. يقوم RoE بحقن عشوائية محكومة في آلية التوجيه للخبراء، مما يسمح بأخذ عينات من خبراء متعددين مختلفين لكل رمز وتجميع مخرجاتهم للحصول على تنبؤ نهائي أكثر دقة. من خلال استراتيجيات معالجة فعالة وآلية KV cache متخصصة، يمكّن RoE نموذج MoE بحجم 7B من تحقيق أداء نموذج MoE بحجم 10.5B، مع تقليل حجم الحسابات الاستدلالية بنسبة 30%.

السياق البحثي والدافع

تعريف المشكلة

تنقسم طرق التوسع الاستدلالي التقليدية إلى فئتين رئيسيتين:

التوسع المتسلسل (Sequential Scaling): مثل سلسلة الأفكار (Chain-of-Thought)، يعزز الأداء من خلال توليد مخرجات أطول وأكثر تنظيماً
التوسع المتوازي (Parallel Scaling): مثل الاتساق الذاتي (Self-Consistency)، يولد تسلسلات متعددة مستقلة ويجمع النتائج

الدافع البحثي

تتمتع الطرق الموجودة بالقيود التالية:

يتطلب التوسع المتسلسل خطوات توليد إضافية، مما يزيد من الكمون
ينطبق التوسع المتوازي على نطاق محدود، بشكل أساسي على المهام ذات الإجابات الواضحة
يفتقد إلى الطرق التي تعزز القدرة التنبؤية الداخلية للنموذج على مستوى الرموز

الرؤية الأساسية

يطرح المؤلفون سؤالاً حاسماً: هل يمكننا تحسين قدرة النموذج على التنبؤ برمز التالي من خلال تخصيص المزيد من الحسابات في وقت الاستدلال؟ هذا أدى إلى مفهوم التوسع المتوازي الفائق، أي تحسين جودة توليد كل رمز من خلال تنويع مسارات الحسابات الداخلية للنموذج.

المساهمات الأساسية

اقتراح نموذج التوسع المتوازي الفائق: إطار عمل استدلال جديد يعزز جودة التنبؤ على مستوى الرموز، متعامد ومتكامل مع الطرق الموجودة على مستوى التسلسل
تصميم خوارزمية RoE: طريقة تحسين نموذج MoE بدون تدريب، تحقق مجموعة خبراء ديناميكية من خلال التوجيه العشوائي المحكوم
تطوير استراتيجيات استدلال فعالة: تشمل تحسين المعالجة الدفعية وآلية Clean Cache، مما يقلل بشكل كبير من الحسابات والذاكرة
التحقق من تحسينات الأداء الكبيرة: إثبات فعالية RoE عبر معايير متعددة، مما يحقق مقايضة أداء-حسابات أكثر كفاءة

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج MoE مدرب مسبقاً، يهدف RoE إلى تحسين جودة التنبؤ لكل رمز من خلال تنويع اختيار الخبراء، دون تعديل معاملات النموذج أو إجراء تدريب إضافي.

الخوارزمية الأساسية: توجيه Gumbel-Top-K

توجيه MoE القياسي: يختار بشكل حتمي أفضل k خبراء بناءً على logits التوجيه توجيه RoE: يقدم عشوائية محكومة من خلال ضوضاء Gumbel:

Indices = TopK(R + τ·G, k)

حيث:

R ∈ R^E هي logits التوجيه لـ E خبير
G عينات i.i.d من توزيع Gumbel(0,1)
τ معامل درجة الحرارة، يتحكم في درجة العشوائية

معمارية النموذج

يعمل RoE وفقاً للعملية التالية:

توليد متعدد المسارات: لرمز إدخال واحد، يولد n مسارات اختيار خبراء مختلفة من خلال بذور عشوائية مختلفة
الحسابات المتوازية: معالجة n مسارات كدفعة واحدة بالتوازي
تجميع النتائج: تجميع n logits الإخراج من خلال المتوسط الاحتمالي للحصول على التنبؤ النهائي

نقاط الابتكار التقني

1. تحسين معامل درجة الحرارة

درجة حرارة خاصة بالطبقة: τ = {τᵢ}ᵢ∈L_MoE، يتم تعيين درجة حرارة مستقلة لكل طبقة
استراتيجية البحث: استخدام Tree-structured Parzen Estimator (TPE) للتحسين البايزي
تقليص مساحة البحث:
- تطبيق RoE فقط على الطبقات الوسيطة (تعيين τ=0 للطبقات الأولى والأخيرة)
- تقييد نطاق درجة الحرارة إلى 0, 0.5

2. آلية Clean Cache

المشكلة: التنفيذ الساذج يتطلب الحفاظ على n مخابئ KV مستقلة، مما يسبب عبء ذاكرة ضخم الحل:

يستخدم العينة الأولى (فهرس الدفعة 0) التوجيه الحتمي (τ=0) كمسار "نظيف"
تشارك جميع العينات مخبأ KV للمسار النظيف
يتم تطبيق التوجيه العشوائي فقط على الرمز الحالي، مع الحفاظ على الكمون التاريخي

3. تحسين المعالجة الدفعية

الاستفادة من قدرات المعالجة المتوازية لوحدات GPU الحديثة، معالجة n عينة كدفعة واحدة، مما يقلل بشكل كبير من وقت الجدار الفعلي.

إعداد التجارب

مجموعات البيانات

تغطي الاختبارات ثلاثة مجالات:

الاستدلال الرياضي: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
الاستدلال المعرفي: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
توليد الأكواد: HumanEval, HumanEvalPlus

النماذج

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

مؤشرات التقييم

مهام الرياضيات والمعرفة: دقة المطابقة الدقيقة
مهام الأكواد: دقة pass@1
تقييم الكفاءة: الكمون، استهلاك الذاكرة، استهلاك الطاقة

تفاصيل التنفيذ

الأجهزة: وحدة معالجة رسومات NVIDIA A100 بسعة 80GB
استراتيجية الفك: الفك الجشع (لاستبعاد التأثيرات الأخرى)
طريقة التجميع: المتوسط الاحتمالي
الإحصائيات: متوسط 5 بذور عشوائية

نتائج التجارب

النتائج الرئيسية

تحسينات الأداء عامة وكبيرة:

حصلت نماذج OLMoE على أقصى تحسين، مع تحسن في جميع المهام تقريباً
حققت Mixtral و GPT-OSS تحسينات في معظم المهام
استفادت المهام المفتوحة مثل توليد الأكواد أيضاً

أمثلة قيمية محددة (OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

تحليل الكفاءة

عبء الحسابات قابل للتحكم:

زيادة الذاكرة بنسبة 12% فقط عند 64 عينة
زيادة استهلاك الطاقة بنسبة 20%
تجنب آلية Clean Cache النمو الأسي للذاكرة

مقارنة مع توسع النموذج:

RoE(K=32) + OLMoE-7B ≈ أداء OLMoE-10.5B
تقليل الذاكرة بنسبة 25%، تقليل الكمون بنسبة 30%

تجارب الاستئصال

تأثير معامل درجة الحرارة:

يتغير الأداء مع درجة الحرارة كدالة مقعرة
تختلف درجة الحرارة المثلى حسب المهمة
درجات الحرارة العالية جداً تدخل ضوضاء مفرطة، مما يضر الأداء

ضرورة آلية المخبأ:

ينمو الكمون بشكل أسي بدون مخبأ
يجعل Clean Cache RoE عملياً

الأعمال ذات الصلة

تصنيف طرق التوسع الاستدلالي

التوسع المتسلسل: CoT, Tree-of-Thoughts وغيرها، تعزز الأداء من خلال سلاسل استدلال أطول
التوسع المتوازي: Self-Consistency، توليد متعدد المسارات + تجميع بالتصويت
التوسع المتوازي الفائق: النموذج الجديد المقترح في هذه الورقة، تنويع الحسابات على مستوى الرموز

الفروقات مع الأعمال الموجودة

بدون تدريب: بخلاف معماريات العمق المتغير التي تتطلب تدريباً خاصاً (Geiping et al., 2025)
متخصصة في MoE: مخصصة لاستغلال تنوع الخبراء في معمارية MoE
تحسين على مستوى الرموز: مختلفة عن الطرق الموجودة على مستوى التسلسل

الخلاصة والنقاش

الاستنتاجات الرئيسية

يوفر التوسع المتوازي الفائق مساراً جديداً فعالاً لتحسين الأداء في وقت الاستدلال
نجح RoE في تحقيق تحسين الأداء بدون تدريب لنماذج MoE
من خلال التحسينات الهندسية الذكية، تصبح الطريقة عملية
من حيث الكفاءة، تتفوق على توسع النموذج البسيط

القيود

تكلفة التحسين: يتطلب ضبط معامل درجة الحرارة لكل مهمة
حجم التحسين: بالنسبة للنماذج القوية التي اقتربت من التشبع، مساحة التحسين محدودة
مؤشرات التقييم: يوجد فجوة بين الارتباك والدقة في التوليد، مما يؤثر على تحسين المهام الرياضية
نطاق التطبيق: حالياً ينطبق فقط على معمارية MoE

الاتجاهات المستقبلية

يقترح المؤلفون أربعة اتجاهات بحثية:

التطبيق العام: التوسع إلى الرؤية والصوت والنماذج غير MoE
حقن ضوضاء متقدم: استراتيجيات ضوضاء تكيفية أو مشروطة بالإدخال
الحسابات التكيفية: ضبط ميزانية الحسابات ديناميكياً بناءً على صعوبة الرمز
التدريب الواعي بـ RoE: دمج التوجيه العشوائي في التدريب المسبق

التقييم المتعمق

المميزات

الابتكار المفاهيمي: مفهوم التوسع المتوازي الفائق جديد، يفتح اتجاهات جديدة لتحسين الاستدلال
التحسينات الهندسية: تقنيات مثل Clean Cache تحول الطريقة من النظرية إلى التطبيق
التقييم الشامل: تقييم متعدد النماذج والمهام والأبعاد، النتائج موثوقة
مزايا الكفاءة: مسار تحسين أداء أكثر كفاءة مقارنة بتوسع النموذج

أوجه القصور

نقص التحليل النظري: يفتقد إلى شرح نظري عميق لسبب تحسن تنوع الخبراء للأداء
حساسية المعاملات الفائقة: يتطلب معامل درجة الحرارة ضبطاً كبيراً، مما يزيد من تكلفة الاستخدام
تحسينات محدودة: التحسينات على الخطوط الأساسية القوية نسبياً صغيرة
الاعتماد على المعمارية: ينطبق فقط على نماذج MoE، مما يحد من نطاق التطبيق

التأثير

القيمة الأكاديمية:

اقتراح نموذج استدلال جديد قد يلهم المزيد من الأبحاث ذات الصلة
توفير أفكار جديدة للاستفادة الفعالة من نماذج MoE

القيمة العملية:

تحسين أداء نماذج MoE الموجودة دون إعادة تدريب
توفير خيار مقايضة أداء-كفاءة جديد في البيئات محدودة الحسابات

قابلية التكرار:

وصف الطريقة واضح، التفاصيل كافية
بناءً على نماذج مفتوحة المصدر، يسهل التحقق

السيناريوهات المناسبة

البيئات محدودة الحسابات: توفر RoE تحسين أداء أكثر اقتصادية مقارنة بنشر نماذج أكبر
التوليد المفتوح: مقارنة بطرق التوسع المتوازي، ينطبق RoE على المهام بدون إجابات معيارية
التطبيقات الفورية: التحكم المرن في مقايضة الأداء-الكمون من خلال ضبط عدد العينات
تحسين نموذج MoE: توفير حل تحسين فوري وقابل للتوصيل للنشر الموجود

المراجع

تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:

Wei et al. (2022): استدلال Chain-of-Thought
Wang et al. (2022): طريقة Self-Consistency
Shazeer et al. (2017): أساسيات معمارية MoE
Kaplan et al. (2020): قوانين توسع نماذج اللغة العصبية

التقييم الإجمالي: هذه ورقة ممتازة تجمع بين الابتكار التقني والتنفيذ الهندسي. على الرغم من وجود بعض القيود في العمق النظري وحجم التحسينات، فإن مفهوم التوسع المتوازي الفائق المقترح يتمتع بقيمة أكاديمية وعملية مهمة، مما يساهم في مجال تحسين الاستدلال بأفكار وطرق فعالة جديدة.