2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

Les MoEs Sont Plus Puissants Que Vous Ne Le Pensez : Mise à l'Échelle de l'Inférence Hyper-Parallèle avec RoE

Informations Fondamentales

ID de l'article: 2509.17238
Titre: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Auteurs: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
Classification: cs.AI, cs.CL, cs.LG
Statut de publication: Prépublication. En cours d'examen
Lien de l'article: https://arxiv.org/abs/2509.17238v2

Résumé

Cet article propose un nouveau paradigme d'inférence appelé mise à l'échelle hyper-parallèle (hyper-parallel scaling), qui améliore la qualité des prédictions en calculant et en agrégant plusieurs propositions de sortie au niveau des tokens. L'implémentation concrète est la méthode Roster of Experts (RoE), un algorithme d'inférence sans entraînement qui transforme un modèle MoE unique en un ensemble MoE dynamique. RoE injecte une stochasticité contrôlée dans le mécanisme d'acheminement vers les experts, échantillonnant plusieurs experts distincts pour chaque token et agrégant leurs sorties pour obtenir une prédiction finale plus précise. Grâce à des stratégies de traitement par lot efficaces et à un mécanisme de cache KV spécialisé, RoE permet à un modèle MoE 7B d'atteindre les performances d'un modèle MoE 10.5B, tout en réduisant la charge de calcul d'inférence de 30%.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes traditionnelles de mise à l'échelle au moment de l'inférence se divisent principalement en deux catégories :

Mise à l'échelle séquentielle (Sequential Scaling): comme la Chaîne de Pensée (Chain-of-Thought), qui améliore les performances en générant des sorties plus longues et mieux structurées
Mise à l'échelle parallèle (Parallel Scaling): comme l'Auto-Cohérence (Self-Consistency), qui génère plusieurs séquences indépendantes et agrège les résultats

Motivation de la Recherche

Les méthodes existantes présentent les limitations suivantes :

La mise à l'échelle séquentielle nécessite des étapes de génération supplémentaires, augmentant la latence
La mise à l'échelle parallèle a une applicabilité limitée, principalement pour les tâches avec des réponses explicites
Absence de méthodes pour améliorer la capacité de prédiction intrinsèque du modèle au niveau des tokens

Intuition Fondamentale

Les auteurs posent une question clé : Peut-on améliorer la capacité intrinsèque de prédiction du prochain token du modèle en allouant davantage de calcul au moment de l'inférence ? Cette question a donné naissance au concept de mise à l'échelle hyper-parallèle, c'est-à-dire améliorer la qualité de génération de chaque token en diversifiant les chemins de calcul internes du modèle.

Contributions Principales

Proposition du paradigme de mise à l'échelle hyper-parallèle: Un nouveau cadre d'inférence pour améliorer la qualité des prédictions au niveau des tokens, orthogonal et complémentaire aux méthodes existantes au niveau des séquences
Conception de l'algorithme RoE: Une méthode d'amélioration des modèles MoE sans entraînement, réalisant un ensemble d'experts dynamique via un acheminement aléatoire contrôlé
Développement de stratégies d'inférence efficaces: Incluant l'optimisation du traitement par lot et le mécanisme Clean Cache, réduisant considérablement la charge de calcul et mémoire
Vérification d'améliorations significatives de performance: Démonstration de l'efficacité de RoE sur plusieurs benchmarks, réalisant un meilleur compromis performance-calcul

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un modèle MoE pré-entraîné, RoE vise à améliorer la qualité des prédictions pour chaque token en diversifiant la sélection des experts, sans modifier les paramètres du modèle ni effectuer d'entraînement supplémentaire.

Algorithme Principal : Acheminement Gumbel-Top-K

Acheminement MoE standard: Sélectionne de manière déterministe les k experts avec les logits d'acheminement les plus élevés Acheminement RoE: Introduit une stochasticité contrôlée via le bruit de Gumbel :

Indices = TopK(R + τ·G, k)

Où :

R ∈ R^E sont les logits d'acheminement pour E experts
G sont des échantillons i.i.d. de la distribution Gumbel(0,1)
τ est le paramètre de température, contrôlant le degré de stochasticité

Architecture du Modèle

Le flux de travail de RoE est le suivant :

Génération multi-chemins: Pour un token d'entrée unique, générer n chemins de sélection d'experts distincts via différentes graines aléatoires
Calcul parallèle: Traiter les n chemins en parallèle comme un lot
Agrégation des résultats: Agréger les n logits de sortie via moyenne probabiliste pour obtenir la prédiction finale

Points d'Innovation Technique

1. Optimisation du Paramètre de Température

Température spécifique par couche: τ = {τᵢ}ᵢ∈L_MoE, température définie indépendamment pour chaque couche
Stratégie de recherche: Utiliser l'Estimateur de Parzen Structuré en Arbre (Tree-structured Parzen Estimator, TPE) pour l'optimisation bayésienne
Élagage de l'espace de recherche:
- Appliquer RoE uniquement aux couches intermédiaires (τ=0 pour les couches première et dernière)
- Limiter la plage de température à 0, 0.5

2. Mécanisme Clean Cache

Problème: L'implémentation naïve nécessite de maintenir n caches KV indépendants, avec une surcharge mémoire énorme Solution:

Le premier échantillon (index de lot 0) utilise l'acheminement déterministe (τ=0) comme chemin « clean »
Tous les échantillons partagent le cache KV du chemin clean
Seul le token actuel applique l'acheminement aléatoire, l'historique reste cohérent

3. Optimisation du Traitement par Lot

Exploiter la capacité de traitement parallèle des GPU modernes, traiter les n échantillons comme un seul lot, réduisant considérablement le temps wall-clock.

Configuration Expérimentale

Ensembles de Données

Les tests couvrent trois domaines :

Raisonnement mathématique: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
Raisonnement de bon sens: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
Génération de code: HumanEval, HumanEvalPlus

Modèles

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

Métriques d'Évaluation

Tâches mathématiques et de bon sens : Précision de correspondance exacte
Tâches de code : Précision pass@1
Évaluation d'efficacité : Latence, occupation mémoire, consommation d'énergie

Détails d'Implémentation

Matériel : GPU NVIDIA A100 80GB
Stratégie de décodage : Décodage glouton (excluant les interférences d'autres stratégies)
Méthode d'agrégation : Moyenne probabiliste
Statistiques : Moyenne sur 5 graines aléatoires

Résultats Expérimentaux

Résultats Principaux

Améliorations de performance universelles et significatives:

Les modèles OLMoE obtiennent les plus grandes améliorations, avec des améliorations sur presque toutes les tâches
Mixtral et GPT-OSS obtiennent également des améliorations sur la majorité des tâches
Les tâches de génération de code et autres tâches ouvertes en bénéficient également

Exemples de valeurs numériques (OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

Analyse d'Efficacité

Surcharge de calcul contrôlable:

Augmentation mémoire de seulement 12% avec 64 échantillons
Augmentation de la consommation d'énergie de 20%
Le mécanisme Clean Cache évite une croissance mémoire exponentielle

Comparaison avec la mise à l'échelle du modèle:

RoE(K=32) + OLMoE-7B ≈ Performance OLMoE-10.5B
Réduction mémoire de 25%, réduction de latence de 30%

Études d'Ablation

Impact du paramètre de température:

Les performances suivent une relation concave avec la température
La température optimale varie selon la tâche
Une température trop élevée introduit trop de bruit, dégradant les performances

Nécessité du mécanisme de cache:

La latence croît exponentiellement sans cache
Clean Cache rend RoE pratique

Travaux Connexes

Classification des Méthodes d'Inférence

Mise à l'échelle séquentielle: CoT, Tree-of-Thoughts, etc., améliorant les performances via des chaînes de raisonnement plus longues
Mise à l'échelle parallèle: Self-Consistency, génération multi-chemins + agrégation par vote
Mise à l'échelle hyper-parallèle: Nouveau paradigme proposé dans cet article, diversifiant le calcul au niveau des tokens

Distinction avec les Travaux Existants

Sans entraînement: Contrairement aux architectures de profondeur variable nécessitant un pré-entraînement spécial (Geiping et al., 2025)
Spécialisation MoE: Exploitation spécialisée de la diversité des experts pour les architectures MoE
Amélioration au niveau des tokens: Différent des méthodes existantes au niveau des séquences

Conclusions et Discussion

Conclusions Principales

La mise à l'échelle hyper-parallèle offre une nouvelle voie efficace pour améliorer les performances au moment de l'inférence
RoE réalise avec succès l'amélioration de performance sans entraînement des modèles MoE
Grâce à des optimisations d'ingénierie astucieuses, la méthode devient pratique
Elle surpasse la simple mise à l'échelle du modèle en termes d'efficacité

Limitations

Coût d'optimisation: Nécessite l'ajustement des paramètres de température pour chaque tâche
Ampleur des améliorations: L'espace d'amélioration est limité pour les modèles forts déjà proches de la saturation
Métriques d'évaluation: Écart entre la perplexité et la précision de génération, affectant l'optimisation pour les tâches mathématiques
Portée d'application: Actuellement applicable uniquement aux architectures MoE

Directions Futures

Les auteurs proposent quatre directions de recherche :

Application généralisée: Extension à la vision, l'audio et autres modèles non-MoE
Injection de bruit avancée: Stratégies de bruit adaptatif ou conditionnées par l'entrée
Calcul adaptatif: Ajustement dynamique du budget de calcul selon la difficulté du token
Entraînement conscient de RoE: Intégration du routage aléatoire dans le pré-entraînement

Évaluation Approfondie

Points Forts

Innovation conceptuelle: Le concept de mise à l'échelle hyper-parallèle est novateur, ouvrant une nouvelle direction pour l'optimisation au moment de l'inférence
Optimisation d'ingénierie: Des techniques comme Clean Cache transforment la méthode de la théorie à la pratique
Expérimentation complète: Évaluation multi-modèles, multi-tâches et multi-dimensionnelle, résultats fiables
Avantages d'efficacité: Voie d'amélioration de performance plus efficace que la simple mise à l'échelle du modèle

Insuffisances

Analyse théorique insuffisante: Manque d'explication théorique approfondie sur pourquoi la diversité des experts améliore les performances
Sensibilité aux hyperparamètres: Le paramètre de température nécessite un ajustement considérable, augmentant le coût d'utilisation
Améliorations limitées: L'ampleur des améliorations sur les bases fortes est relativement faible
Dépendance architecturale: Applicable uniquement aux modèles MoE, limitant la portée

Impact

Valeur académique:

Proposition d'un nouveau paradigme d'inférence, pouvant inspirer davantage de recherches connexes
Nouvelles perspectives pour l'utilisation efficace des modèles MoE

Valeur pratique:

Amélioration des performances des modèles MoE existants sans réentraînement
Nouvelle option de compromis performance-efficacité dans les environnements à calcul limité

Reproductibilité:

Description claire de la méthode, détails d'implémentation suffisants
Basé sur des modèles open-source, facilitant la vérification et la reproduction

Scénarios d'Application

Environnements à calcul limité: RoE offre une amélioration de performance plus économique que le déploiement de modèles plus grands
Génération ouverte: Applicable aux tâches sans réponse standard, contrairement aux méthodes de mise à l'échelle parallèle
Applications en temps réel: Contrôle flexible du compromis performance-latence en ajustant le nombre d'échantillons
Optimisation des modèles MoE: Solution d'amélioration plug-and-play pour les déploiements MoE existants

Références

L'article cite les travaux importants du domaine, notamment :

Wei et al. (2022): Raisonnement Chain-of-Thought
Wang et al. (2022): Méthode Self-Consistency
Shazeer et al. (2017): Fondamentaux de l'architecture MoE
Kaplan et al. (2020): Lois de mise à l'échelle des modèles de langage neuraux

Évaluation Globale: Cet article est un excellent travail combinant innovation technique et implémentation d'ingénierie. Bien qu'il présente certaines limitations en termes de profondeur théorique et d'ampleur des améliorations, le concept de mise à l'échelle hyper-parallèle qu'il propose possède une valeur académique et pratique importante, contribuant de nouvelles perspectives et méthodes efficaces au domaine de l'optimisation au moment de l'inférence.