2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

Les MoEs Sont Plus Puissants Que Vous Ne Le Pensez : Mise à l'Échelle de l'Inférence Hyper-Parallèle avec RoE

Informations Fondamentales

  • ID de l'article: 2509.17238
  • Titre: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • Auteurs: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • Classification: cs.AI, cs.CL, cs.LG
  • Statut de publication: Prépublication. En cours d'examen
  • Lien de l'article: https://arxiv.org/abs/2509.17238v2

Résumé

Cet article propose un nouveau paradigme d'inférence appelé mise à l'échelle hyper-parallèle (hyper-parallel scaling), qui améliore la qualité des prédictions en calculant et en agrégant plusieurs propositions de sortie au niveau des tokens. L'implémentation concrète est la méthode Roster of Experts (RoE), un algorithme d'inférence sans entraînement qui transforme un modèle MoE unique en un ensemble MoE dynamique. RoE injecte une stochasticité contrôlée dans le mécanisme d'acheminement vers les experts, échantillonnant plusieurs experts distincts pour chaque token et agrégant leurs sorties pour obtenir une prédiction finale plus précise. Grâce à des stratégies de traitement par lot efficaces et à un mécanisme de cache KV spécialisé, RoE permet à un modèle MoE 7B d'atteindre les performances d'un modèle MoE 10.5B, tout en réduisant la charge de calcul d'inférence de 30%.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes traditionnelles de mise à l'échelle au moment de l'inférence se divisent principalement en deux catégories :

  1. Mise à l'échelle séquentielle (Sequential Scaling): comme la Chaîne de Pensée (Chain-of-Thought), qui améliore les performances en générant des sorties plus longues et mieux structurées
  2. Mise à l'échelle parallèle (Parallel Scaling): comme l'Auto-Cohérence (Self-Consistency), qui génère plusieurs séquences indépendantes et agrège les résultats

Motivation de la Recherche

Les méthodes existantes présentent les limitations suivantes :

  • La mise à l'échelle séquentielle nécessite des étapes de génération supplémentaires, augmentant la latence
  • La mise à l'échelle parallèle a une applicabilité limitée, principalement pour les tâches avec des réponses explicites
  • Absence de méthodes pour améliorer la capacité de prédiction intrinsèque du modèle au niveau des tokens

Intuition Fondamentale

Les auteurs posent une question clé : Peut-on améliorer la capacité intrinsèque de prédiction du prochain token du modèle en allouant davantage de calcul au moment de l'inférence ? Cette question a donné naissance au concept de mise à l'échelle hyper-parallèle, c'est-à-dire améliorer la qualité de génération de chaque token en diversifiant les chemins de calcul internes du modèle.

Contributions Principales

  1. Proposition du paradigme de mise à l'échelle hyper-parallèle: Un nouveau cadre d'inférence pour améliorer la qualité des prédictions au niveau des tokens, orthogonal et complémentaire aux méthodes existantes au niveau des séquences
  2. Conception de l'algorithme RoE: Une méthode d'amélioration des modèles MoE sans entraînement, réalisant un ensemble d'experts dynamique via un acheminement aléatoire contrôlé
  3. Développement de stratégies d'inférence efficaces: Incluant l'optimisation du traitement par lot et le mécanisme Clean Cache, réduisant considérablement la charge de calcul et mémoire
  4. Vérification d'améliorations significatives de performance: Démonstration de l'efficacité de RoE sur plusieurs benchmarks, réalisant un meilleur compromis performance-calcul

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un modèle MoE pré-entraîné, RoE vise à améliorer la qualité des prédictions pour chaque token en diversifiant la sélection des experts, sans modifier les paramètres du modèle ni effectuer d'entraînement supplémentaire.

Algorithme Principal : Acheminement Gumbel-Top-K

Acheminement MoE standard: Sélectionne de manière déterministe les k experts avec les logits d'acheminement les plus élevés Acheminement RoE: Introduit une stochasticité contrôlée via le bruit de Gumbel :

Indices = TopK(R + τ·G, k)

Où :

  • R ∈ R^E sont les logits d'acheminement pour E experts
  • G sont des échantillons i.i.d. de la distribution Gumbel(0,1)
  • τ est le paramètre de température, contrôlant le degré de stochasticité

Architecture du Modèle

Le flux de travail de RoE est le suivant :

  1. Génération multi-chemins: Pour un token d'entrée unique, générer n chemins de sélection d'experts distincts via différentes graines aléatoires
  2. Calcul parallèle: Traiter les n chemins en parallèle comme un lot
  3. Agrégation des résultats: Agréger les n logits de sortie via moyenne probabiliste pour obtenir la prédiction finale

Points d'Innovation Technique

1. Optimisation du Paramètre de Température

  • Température spécifique par couche: τ = {τᵢ}ᵢ∈L_MoE, température définie indépendamment pour chaque couche
  • Stratégie de recherche: Utiliser l'Estimateur de Parzen Structuré en Arbre (Tree-structured Parzen Estimator, TPE) pour l'optimisation bayésienne
  • Élagage de l'espace de recherche:
    • Appliquer RoE uniquement aux couches intermédiaires (τ=0 pour les couches première et dernière)
    • Limiter la plage de température à 0, 0.5

2. Mécanisme Clean Cache

Problème: L'implémentation naïve nécessite de maintenir n caches KV indépendants, avec une surcharge mémoire énorme Solution:

  • Le premier échantillon (index de lot 0) utilise l'acheminement déterministe (τ=0) comme chemin « clean »
  • Tous les échantillons partagent le cache KV du chemin clean
  • Seul le token actuel applique l'acheminement aléatoire, l'historique reste cohérent

3. Optimisation du Traitement par Lot

Exploiter la capacité de traitement parallèle des GPU modernes, traiter les n échantillons comme un seul lot, réduisant considérablement le temps wall-clock.

Configuration Expérimentale

Ensembles de Données

Les tests couvrent trois domaines :

  • Raisonnement mathématique: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • Raisonnement de bon sens: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • Génération de code: HumanEval, HumanEvalPlus

Modèles

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

Métriques d'Évaluation

  • Tâches mathématiques et de bon sens : Précision de correspondance exacte
  • Tâches de code : Précision pass@1
  • Évaluation d'efficacité : Latence, occupation mémoire, consommation d'énergie

Détails d'Implémentation

  • Matériel : GPU NVIDIA A100 80GB
  • Stratégie de décodage : Décodage glouton (excluant les interférences d'autres stratégies)
  • Méthode d'agrégation : Moyenne probabiliste
  • Statistiques : Moyenne sur 5 graines aléatoires

Résultats Expérimentaux

Résultats Principaux

Améliorations de performance universelles et significatives:

  • Les modèles OLMoE obtiennent les plus grandes améliorations, avec des améliorations sur presque toutes les tâches
  • Mixtral et GPT-OSS obtiennent également des améliorations sur la majorité des tâches
  • Les tâches de génération de code et autres tâches ouvertes en bénéficient également

Exemples de valeurs numériques (OLMoE-1B-7B):

  • GSM8K: 64.1% → 64.5%
  • SVAMP: 68.2% → 69.5%
  • ARC-Easy: 68.9% → 71.3%
  • HumanEval: 31.1% → 31.5%

Analyse d'Efficacité

Surcharge de calcul contrôlable:

  • Augmentation mémoire de seulement 12% avec 64 échantillons
  • Augmentation de la consommation d'énergie de 20%
  • Le mécanisme Clean Cache évite une croissance mémoire exponentielle

Comparaison avec la mise à l'échelle du modèle:

  • RoE(K=32) + OLMoE-7B ≈ Performance OLMoE-10.5B
  • Réduction mémoire de 25%, réduction de latence de 30%

Études d'Ablation

Impact du paramètre de température:

  • Les performances suivent une relation concave avec la température
  • La température optimale varie selon la tâche
  • Une température trop élevée introduit trop de bruit, dégradant les performances

Nécessité du mécanisme de cache:

  • La latence croît exponentiellement sans cache
  • Clean Cache rend RoE pratique

Travaux Connexes

Classification des Méthodes d'Inférence

  1. Mise à l'échelle séquentielle: CoT, Tree-of-Thoughts, etc., améliorant les performances via des chaînes de raisonnement plus longues
  2. Mise à l'échelle parallèle: Self-Consistency, génération multi-chemins + agrégation par vote
  3. Mise à l'échelle hyper-parallèle: Nouveau paradigme proposé dans cet article, diversifiant le calcul au niveau des tokens

Distinction avec les Travaux Existants

  • Sans entraînement: Contrairement aux architectures de profondeur variable nécessitant un pré-entraînement spécial (Geiping et al., 2025)
  • Spécialisation MoE: Exploitation spécialisée de la diversité des experts pour les architectures MoE
  • Amélioration au niveau des tokens: Différent des méthodes existantes au niveau des séquences

Conclusions et Discussion

Conclusions Principales

  1. La mise à l'échelle hyper-parallèle offre une nouvelle voie efficace pour améliorer les performances au moment de l'inférence
  2. RoE réalise avec succès l'amélioration de performance sans entraînement des modèles MoE
  3. Grâce à des optimisations d'ingénierie astucieuses, la méthode devient pratique
  4. Elle surpasse la simple mise à l'échelle du modèle en termes d'efficacité

Limitations

  1. Coût d'optimisation: Nécessite l'ajustement des paramètres de température pour chaque tâche
  2. Ampleur des améliorations: L'espace d'amélioration est limité pour les modèles forts déjà proches de la saturation
  3. Métriques d'évaluation: Écart entre la perplexité et la précision de génération, affectant l'optimisation pour les tâches mathématiques
  4. Portée d'application: Actuellement applicable uniquement aux architectures MoE

Directions Futures

Les auteurs proposent quatre directions de recherche :

  1. Application généralisée: Extension à la vision, l'audio et autres modèles non-MoE
  2. Injection de bruit avancée: Stratégies de bruit adaptatif ou conditionnées par l'entrée
  3. Calcul adaptatif: Ajustement dynamique du budget de calcul selon la difficulté du token
  4. Entraînement conscient de RoE: Intégration du routage aléatoire dans le pré-entraînement

Évaluation Approfondie

Points Forts

  1. Innovation conceptuelle: Le concept de mise à l'échelle hyper-parallèle est novateur, ouvrant une nouvelle direction pour l'optimisation au moment de l'inférence
  2. Optimisation d'ingénierie: Des techniques comme Clean Cache transforment la méthode de la théorie à la pratique
  3. Expérimentation complète: Évaluation multi-modèles, multi-tâches et multi-dimensionnelle, résultats fiables
  4. Avantages d'efficacité: Voie d'amélioration de performance plus efficace que la simple mise à l'échelle du modèle

Insuffisances

  1. Analyse théorique insuffisante: Manque d'explication théorique approfondie sur pourquoi la diversité des experts améliore les performances
  2. Sensibilité aux hyperparamètres: Le paramètre de température nécessite un ajustement considérable, augmentant le coût d'utilisation
  3. Améliorations limitées: L'ampleur des améliorations sur les bases fortes est relativement faible
  4. Dépendance architecturale: Applicable uniquement aux modèles MoE, limitant la portée

Impact

Valeur académique:

  • Proposition d'un nouveau paradigme d'inférence, pouvant inspirer davantage de recherches connexes
  • Nouvelles perspectives pour l'utilisation efficace des modèles MoE

Valeur pratique:

  • Amélioration des performances des modèles MoE existants sans réentraînement
  • Nouvelle option de compromis performance-efficacité dans les environnements à calcul limité

Reproductibilité:

  • Description claire de la méthode, détails d'implémentation suffisants
  • Basé sur des modèles open-source, facilitant la vérification et la reproduction

Scénarios d'Application

  1. Environnements à calcul limité: RoE offre une amélioration de performance plus économique que le déploiement de modèles plus grands
  2. Génération ouverte: Applicable aux tâches sans réponse standard, contrairement aux méthodes de mise à l'échelle parallèle
  3. Applications en temps réel: Contrôle flexible du compromis performance-latence en ajustant le nombre d'échantillons
  4. Optimisation des modèles MoE: Solution d'amélioration plug-and-play pour les déploiements MoE existants

Références

L'article cite les travaux importants du domaine, notamment :

  • Wei et al. (2022): Raisonnement Chain-of-Thought
  • Wang et al. (2022): Méthode Self-Consistency
  • Shazeer et al. (2017): Fondamentaux de l'architecture MoE
  • Kaplan et al. (2020): Lois de mise à l'échelle des modèles de langage neuraux

Évaluation Globale: Cet article est un excellent travail combinant innovation technique et implémentation d'ingénierie. Bien qu'il présente certaines limitations en termes de profondeur théorique et d'ampleur des améliorations, le concept de mise à l'échelle hyper-parallèle qu'il propose possède une valeur académique et pratique importante, contribuant de nouvelles perspectives et méthodes efficaces au domaine de l'optimisation au moment de l'inférence.