2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Grundinformationen

  • Paper-ID: 2509.17238
  • Titel: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • Autoren: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • Klassifizierung: cs.AI, cs.CL, cs.LG
  • Veröffentlichungsstatus: Preprint. Zur Überprüfung eingereicht
  • Paper-Link: https://arxiv.org/abs/2509.17238v2

Zusammenfassung

Dieses Paper stellt ein neues Inferenzparadigma namens Hyper-Parallel Scaling vor, das die Vorhersagequalität durch Berechnung und Aggregation mehrerer Ausgabevorschläge auf Token-Ebene verbessert. Die konkrete Implementierung ist die Roster of Experts (RoE)-Methode, ein trainingsfreier Inferenzalgorithmus, der ein einzelnes MoE-Modell in ein dynamisches MoE-Ensemble umwandelt. RoE injiziert kontrollierte Zufälligkeit in den Expert-Routing-Mechanismus, sampelt für jeden Token mehrere unterschiedliche Experten und aggregiert deren Ausgaben für eine genauere Endvorhersage. Durch effiziente Batch-Verarbeitungsstrategien und spezialisierte KV-Cache-Mechanismen ermöglicht RoE einem 7B-MoE-Modell, die Leistung eines 10.5B-MoE-Modells zu erreichen, während die Inferenzberechnung um 30% reduziert wird.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle Skalierungsmethoden zur Inferenzzeit lassen sich in zwei Kategorien unterteilen:

  1. Sequenzielle Skalierung (Sequential Scaling): Wie Chain-of-Thought, die Leistung durch Generierung längerer, strukturierterer Ausgaben verbessert
  2. Parallele Skalierung (Parallel Scaling): Wie Self-Consistency, die mehrere unabhängige Sequenzen generiert und Ergebnisse aggregiert

Forschungsmotivation

Bestehende Methoden weisen folgende Einschränkungen auf:

  • Sequenzielle Skalierung erfordert zusätzliche Generierungsschritte und erhöht die Latenz
  • Parallele Skalierung hat begrenzte Anwendbarkeit, hauptsächlich für Aufgaben mit eindeutigen Antworten
  • Es fehlt eine Methode zur Verbesserung der inneren Vorhersagefähigkeit des Modells auf Token-Ebene

Kernale Einsicht

Die Autoren stellen eine Schlüsselfrage: Kann man durch Zuweisung von mehr Rechenleistung zur Inferenzzeit die innere Fähigkeit des Modells zur Vorhersage des nächsten Tokens verbessern? Dies führt zum Konzept der Hyper-Parallel Scaling, d.h. die Verbesserung der Generierungsqualität jedes Tokens durch Diversifizierung der internen Rechenpfade des Modells.

Kernbeiträge

  1. Einführung des Hyper-Parallel-Scaling-Paradigmas: Ein neues Inferenzframework zur Verbesserung der Vorhersagequalität auf Token-Ebene, das orthogonal zu bestehenden Methoden auf Sequenzebene ist
  2. Entwicklung des RoE-Algorithmus: Eine trainingsfreie Verbesserungsmethode für MoE-Modelle, die durch kontrolliertes Zufalls-Routing ein dynamisches Expert-Ensemble realisiert
  3. Entwicklung effizienter Inferenzstrategien: Einschließlich Batch-Optimierung und Clean-Cache-Mechanismus, die Rechen- und Speicheraufwand erheblich reduzieren
  4. Validierung signifikanter Leistungsverbesserungen: Nachweis der Effektivität von RoE über mehrere Benchmarks hinweg mit effizienteren Leistungs-Rechenleistungs-Kompromissen

Methodische Details

Aufgabendefinition

Gegeben ein vortrainiertes MoE-Modell zielt RoE darauf ab, die Vorhersagequalität jedes Tokens durch Diversifizierung der Expertenauswahl zu verbessern, ohne Modellparameter zu ändern oder zusätzliches Training durchzuführen.

Kernalgorithmus: Gumbel-Top-K-Routing

Standard-MoE-Routing: Wählt deterministisch die k Experten mit den höchsten Routing-Logits aus RoE-Routing: Führt kontrollierte Zufälligkeit durch Gumbel-Rauschen ein:

Indices = TopK(R + τ·G, k)

Wobei:

  • R ∈ R^E die Routing-Logits für E Experten sind
  • G unabhängig identisch verteilte Stichproben aus Gumbel(0,1) sind
  • τ der Temperaturparameter ist, der den Grad der Zufälligkeit steuert

Modellarchitektur

Der Arbeitsablauf von RoE ist wie folgt:

  1. Multi-Path-Generierung: Für einen einzelnen Input-Token werden n verschiedene Expert-Auswahlpfade mit unterschiedlichen Zufallsstartwerten generiert
  2. Parallele Berechnung: Die n Pfade werden als Batch parallel verarbeitet
  3. Ergebnis-Aggregation: Die n Ausgabe-Logits werden durch probabilistische Mittelung aggregiert, um die endgültige Vorhersage zu erhalten

Technische Innovationen

1. Temperaturparameter-Optimierung

  • Schichtspezifische Temperatur: τ = {τᵢ}ᵢ∈L_MoE, jede Schicht wird unabhängig eingestellt
  • Suchstrategie: Verwendung von Tree-structured Parzen Estimator (TPE) für Bayessche Optimierung
  • Suchraum-Beschneidung:
    • RoE wird nur auf mittleren Schichten angewendet (erste und letzte Schicht setzen τ=0)
    • Temperaturbereich begrenzt auf 0, 0.5

2. Clean-Cache-Mechanismus

Problem: Naive Implementierung erfordert Verwaltung von n unabhängigen KV-Caches mit enormem Speicheraufwand Lösung:

  • Die erste Stichprobe (Batch-Index 0) verwendet deterministisches Routing (τ=0) als "sauberer" Pfad
  • Alle Stichproben teilen sich den KV-Cache des sauberen Pfads
  • Nur das aktuelle Token wendet Zufalls-Routing an, die Historie bleibt konsistent

3. Batch-Verarbeitung-Optimierung

Nutzt die Parallelverarbeitungsfähigkeiten moderner GPUs, um n Stichproben als einzelnen Batch zu verarbeiten und die Wall-Clock-Zeit erheblich zu reduzieren.

Experimentelle Einrichtung

Datensätze

Die Tests umfassen drei Bereiche:

  • Mathematisches Denken: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • Gesunder Menschenverstand: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • Code-Generierung: HumanEval, HumanEvalPlus

Modelle

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

Bewertungsmetriken

  • Mathematik- und Verständnisaufgaben: Exakte Übereinstimmungsgenauigkeit
  • Code-Aufgaben: pass@1-Genauigkeit
  • Effizienz-Bewertung: Latenz, Speichernutzung, Stromverbrauch

Implementierungsdetails

  • Hardware: NVIDIA A100 80GB GPU
  • Dekodierungsstrategie: Gieriges Dekodieren (um andere Strategien auszuschließen)
  • Aggregationsmethode: Probabilistische Mittelung
  • Statistik: Durchschnitt über 5 Zufallsstartwerte

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsverbesserungen sind allgemein und signifikant:

  • OLMoE-Modelle erzielen maximale Verbesserungen, fast alle Aufgaben zeigen Verbesserungen
  • Mixtral und GPT-OSS erzielen auch bei den meisten Aufgaben Verbesserungen
  • Offene Aufgaben wie Code-Generierung profitieren ebenfalls

Spezifische numerische Beispiele (OLMoE-1B-7B):

  • GSM8K: 64,1% → 64,5%
  • SVAMP: 68,2% → 69,5%
  • ARC-Easy: 68,9% → 71,3%
  • HumanEval: 31,1% → 31,5%

Effizienzanalyse

Rechenaufwand ist kontrollierbar:

  • Bei 64 Stichproben nimmt der Speicher nur um 12% zu
  • Stromverbrauch nimmt um 20% zu
  • Clean-Cache-Mechanismus vermeidet exponentielles Speicherwachstum

Vergleich mit Modellskalierung:

  • RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B-Leistung
  • Speicher reduziert um 25%, Latenz um 30% gesenkt

Ablationsstudien

Temperaturparameter-Einfluss:

  • Leistung zeigt konkave Funktionsbeziehung zur Temperatur
  • Optimale Temperatur variiert je nach Aufgabe
  • Zu hohe Temperatur führt zu zu viel Rauschen und schadet der Leistung

Notwendigkeit des Cache-Mechanismus:

  • Ohne Cache wächst die Latenz exponentiell
  • Clean Cache macht RoE praktisch anwendbar

Verwandte Arbeiten

Klassifizierung von Inferenzskalierungsmethoden

  1. Sequenzielle Skalierung: CoT, Tree-of-Thoughts usw., verbessern die Leistung durch längere Argumentationsketten
  2. Parallele Skalierung: Self-Consistency, Multi-Path-Generierung + Voting-Aggregation
  3. Hyper-Parallel Scaling: Das in diesem Paper vorgeschlagene neue Paradigma, das Berechnung auf Token-Ebene diversifiziert

Unterschiede zu bestehenden Arbeiten

  • Trainingsfreie Methode: Im Gegensatz zu Methoden, die spezielles Vortraining erfordern (Geiping et al., 2025)
  • MoE-Spezialisierung: Speziell auf die Nutzung der Expert-Vielfalt in MoE-Architekturen ausgerichtet
  • Token-Level-Verbesserung: Unterscheidet sich von bestehenden Methoden auf Sequenzebene

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Hyper-Parallel Scaling bietet einen neuen effektiven Weg zur Leistungsverbesserung zur Inferenzzeit
  2. RoE realisiert erfolgreich trainingsfreie Leistungsverbesserungen für MoE-Modelle
  3. Durch geschickte technische Optimierungen wird die Methode praktisch anwendbar
  4. Sie ist in Bezug auf Effizienz einer einfachen Modellskalierung überlegen

Einschränkungen

  1. Optimierungskosten: Erfordert Temperaturparameter-Abstimmung für jede Aufgabe
  2. Verbesserungsspielraum: Für bereits starke Modelle ist der Verbesserungsspielraum begrenzt
  3. Bewertungsmetriken: Unterschiede zwischen Perplexität und Generierungsgenauigkeit beeinflussen die Optimierung bei mathematischen Aufgaben
  4. Anwendungsbereich: Derzeit nur auf MoE-Architekturen anwendbar

Zukünftige Forschungsrichtungen

Die Autoren schlagen vier Forschungsrichtungen vor:

  1. Verallgemeinerte Anwendung: Erweiterung auf Vision, Audio und andere Nicht-MoE-Modelle
  2. Fortgeschrittene Rausch-Injection: Adaptive oder eingabebedingte Rausch-Strategien
  3. Adaptive Berechnung: Dynamische Anpassung des Rechenbudgets basierend auf Token-Schwierigkeit
  4. RoE-bewusstes Training: Integration von Zufalls-Routing in das Vortraining

Tiefgehende Bewertung

Stärken

  1. Konzeptionelle Innovation: Das Hyper-Parallel-Scaling-Konzept ist neuartig und eröffnet neue Richtungen für Inferenzoptimierung
  2. Technische Optimierung: Techniken wie Clean Cache bringen die Methode von der Theorie in die Praxis
  3. Umfassende Experimente: Multi-Modell-, Multi-Aufgaben- und Multi-Dimensionen-Bewertung mit glaubwürdigen Ergebnissen
  4. Effizienzvorteile: Ein effizienterer Weg zur Leistungsverbesserung im Vergleich zur Modellskalierung

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Erklärung, warum Expert-Vielfalt die Leistung verbessert
  2. Hyperparameter-Sensitivität: Temperaturparameter erfordern umfangreiche Abstimmung und erhöhen die Nutzungskosten
  3. Begrenzte Verbesserungen: Die Verbesserungen bei starken Baselines sind relativ gering
  4. Architektur-Abhängigkeit: Nur auf MoE-Modelle anwendbar, was die Anwendbarkeit einschränkt

Auswirkungen

Akademischer Wert:

  • Stellt ein neues Inferenzparadigma vor, das weitere verwandte Forschung inspirieren könnte
  • Bietet neue Perspektiven für die effiziente Nutzung von MoE-Modellen

Praktischer Wert:

  • Verbessert die Leistung bestehender MoE-Modelle ohne Umschulung
  • Bietet neue Leistungs-Effizienz-Kompromisse in rechenintensiven Umgebungen

Reproduzierbarkeit:

  • Klare Methodenbeschreibung mit ausreichenden Implementierungsdetails
  • Basiert auf Open-Source-Modellen, was einfache Reproduktion ermöglicht

Anwendungsszenarien

  1. Rechenintensive Umgebungen: RoE bietet wirtschaftlichere Leistungsverbesserungen als die Bereitstellung größerer Modelle
  2. Offene Generierung: Im Gegensatz zu parallelen Skalierungsmethoden ist RoE für Aufgaben ohne Standardantworten geeignet
  3. Echtzeitanwendungen: Flexible Kontrolle des Leistungs-Latenz-Kompromisses durch Anpassung der Stichprobenzahl
  4. MoE-Modell-Optimierung: Plug-and-Play-Verbesserungslösung für bestehende MoE-Bereitstellungen

Referenzen

Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

  • Wei et al. (2022): Chain-of-Thought-Denken
  • Wang et al. (2022): Self-Consistency-Methode
  • Shazeer et al. (2017): MoE-Architektur-Grundlagen
  • Kaplan et al. (2020): Skalierungsgesetze für neuronale Sprachmodelle

Gesamtbewertung: Dies ist ein ausgezeichnetes Paper, das technische Innovation und technische Implementierung gleichermaßen betont. Obwohl es in theoretischer Tiefe und Verbesserungsspielraum gewisse Einschränkungen aufweist, hat das vorgeschlagene Hyper-Parallel-Scaling-Konzept wichtigen akademischen und praktischen Wert und trägt neue Perspektiven und effektive Methoden zum Bereich der Inferenzoptimierung bei.