MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
Les MoEs Sont Plus Puissants Que Vous Ne Le Pensez : Mise à l'Échelle de l'Inférence Hyper-Parallèle avec RoE
Cet article propose un nouveau paradigme d'inférence appelé mise à l'échelle hyper-parallèle (hyper-parallel scaling), qui améliore la qualité des prédictions en calculant et en agrégant plusieurs propositions de sortie au niveau des tokens. L'implémentation concrète est la méthode Roster of Experts (RoE), un algorithme d'inférence sans entraînement qui transforme un modèle MoE unique en un ensemble MoE dynamique. RoE injecte une stochasticité contrôlée dans le mécanisme d'acheminement vers les experts, échantillonnant plusieurs experts distincts pour chaque token et agrégant leurs sorties pour obtenir une prédiction finale plus précise. Grâce à des stratégies de traitement par lot efficaces et à un mécanisme de cache KV spécialisé, RoE permet à un modèle MoE 7B d'atteindre les performances d'un modèle MoE 10.5B, tout en réduisant la charge de calcul d'inférence de 30%.
Les méthodes traditionnelles de mise à l'échelle au moment de l'inférence se divisent principalement en deux catégories :
Mise à l'échelle séquentielle (Sequential Scaling): comme la Chaîne de Pensée (Chain-of-Thought), qui améliore les performances en générant des sorties plus longues et mieux structurées
Mise à l'échelle parallèle (Parallel Scaling): comme l'Auto-Cohérence (Self-Consistency), qui génère plusieurs séquences indépendantes et agrège les résultats
Les auteurs posent une question clé : Peut-on améliorer la capacité intrinsèque de prédiction du prochain token du modèle en allouant davantage de calcul au moment de l'inférence ? Cette question a donné naissance au concept de mise à l'échelle hyper-parallèle, c'est-à-dire améliorer la qualité de génération de chaque token en diversifiant les chemins de calcul internes du modèle.
Proposition du paradigme de mise à l'échelle hyper-parallèle: Un nouveau cadre d'inférence pour améliorer la qualité des prédictions au niveau des tokens, orthogonal et complémentaire aux méthodes existantes au niveau des séquences
Conception de l'algorithme RoE: Une méthode d'amélioration des modèles MoE sans entraînement, réalisant un ensemble d'experts dynamique via un acheminement aléatoire contrôlé
Développement de stratégies d'inférence efficaces: Incluant l'optimisation du traitement par lot et le mécanisme Clean Cache, réduisant considérablement la charge de calcul et mémoire
Vérification d'améliorations significatives de performance: Démonstration de l'efficacité de RoE sur plusieurs benchmarks, réalisant un meilleur compromis performance-calcul
Étant donné un modèle MoE pré-entraîné, RoE vise à améliorer la qualité des prédictions pour chaque token en diversifiant la sélection des experts, sans modifier les paramètres du modèle ni effectuer d'entraînement supplémentaire.
Acheminement MoE standard: Sélectionne de manière déterministe les k experts avec les logits d'acheminement les plus élevés
Acheminement RoE: Introduit une stochasticité contrôlée via le bruit de Gumbel :
Indices = TopK(R + τ·G, k)
Où :
R ∈ R^E sont les logits d'acheminement pour E experts
G sont des échantillons i.i.d. de la distribution Gumbel(0,1)
τ est le paramètre de température, contrôlant le degré de stochasticité
Exploiter la capacité de traitement parallèle des GPU modernes, traiter les n échantillons comme un seul lot, réduisant considérablement le temps wall-clock.
Innovation conceptuelle: Le concept de mise à l'échelle hyper-parallèle est novateur, ouvrant une nouvelle direction pour l'optimisation au moment de l'inférence
Optimisation d'ingénierie: Des techniques comme Clean Cache transforment la méthode de la théorie à la pratique
Expérimentation complète: Évaluation multi-modèles, multi-tâches et multi-dimensionnelle, résultats fiables
Avantages d'efficacité: Voie d'amélioration de performance plus efficace que la simple mise à l'échelle du modèle
L'article cite les travaux importants du domaine, notamment :
Wei et al. (2022): Raisonnement Chain-of-Thought
Wang et al. (2022): Méthode Self-Consistency
Shazeer et al. (2017): Fondamentaux de l'architecture MoE
Kaplan et al. (2020): Lois de mise à l'échelle des modèles de langage neuraux
Évaluation Globale: Cet article est un excellent travail combinant innovation technique et implémentation d'ingénierie. Bien qu'il présente certaines limitations en termes de profondeur théorique et d'ampleur des améliorations, le concept de mise à l'échelle hyper-parallèle qu'il propose possède une valeur académique et pratique importante, contribuant de nouvelles perspectives et méthodes efficaces au domaine de l'optimisation au moment de l'inférence.