MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
نماذج الخبراء أقوى مما تعتقد: التوسع المتوازي الفائق للاستدلال مع RoE
تقترح هذه الورقة نموذجاً جديداً للاستدلال يُسمى التوسع المتوازي الفائق (hyper-parallel scaling)، والذي يعزز جودة التنبؤ من خلال حساب وتجميع مقترحات إخراج متعددة على مستوى الرموز (tokens). يتم تنفيذ ذلك من خلال طريقة قائمة الخبراء (Roster of Experts, RoE)، وهي خوارزمية استدلال بدون تدريب تحول نموذج MoE واحد إلى مجموعة MoE ديناميكية. يقوم RoE بحقن عشوائية محكومة في آلية التوجيه للخبراء، مما يسمح بأخذ عينات من خبراء متعددين مختلفين لكل رمز وتجميع مخرجاتهم للحصول على تنبؤ نهائي أكثر دقة. من خلال استراتيجيات معالجة فعالة وآلية KV cache متخصصة، يمكّن RoE نموذج MoE بحجم 7B من تحقيق أداء نموذج MoE بحجم 10.5B، مع تقليل حجم الحسابات الاستدلالية بنسبة 30%.
يطرح المؤلفون سؤالاً حاسماً: هل يمكننا تحسين قدرة النموذج على التنبؤ برمز التالي من خلال تخصيص المزيد من الحسابات في وقت الاستدلال؟ هذا أدى إلى مفهوم التوسع المتوازي الفائق، أي تحسين جودة توليد كل رمز من خلال تنويع مسارات الحسابات الداخلية للنموذج.
تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:
Wei et al. (2022): استدلال Chain-of-Thought
Wang et al. (2022): طريقة Self-Consistency
Shazeer et al. (2017): أساسيات معمارية MoE
Kaplan et al. (2020): قوانين توسع نماذج اللغة العصبية
التقييم الإجمالي: هذه ورقة ممتازة تجمع بين الابتكار التقني والتنفيذ الهندسي. على الرغم من وجود بعض القيود في العمق النظري وحجم التحسينات، فإن مفهوم التوسع المتوازي الفائق المقترح يتمتع بقيمة أكاديمية وعملية مهمة، مما يساهم في مجال تحسين الاستدلال بأفكار وطرق فعالة جديدة.