2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Grundinformationen

Paper-ID: 2509.17238
Titel: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Autoren: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
Klassifizierung: cs.AI, cs.CL, cs.LG
Veröffentlichungsstatus: Preprint. Zur Überprüfung eingereicht
Paper-Link: https://arxiv.org/abs/2509.17238v2

Zusammenfassung

Dieses Paper stellt ein neues Inferenzparadigma namens Hyper-Parallel Scaling vor, das die Vorhersagequalität durch Berechnung und Aggregation mehrerer Ausgabevorschläge auf Token-Ebene verbessert. Die konkrete Implementierung ist die Roster of Experts (RoE)-Methode, ein trainingsfreier Inferenzalgorithmus, der ein einzelnes MoE-Modell in ein dynamisches MoE-Ensemble umwandelt. RoE injiziert kontrollierte Zufälligkeit in den Expert-Routing-Mechanismus, sampelt für jeden Token mehrere unterschiedliche Experten und aggregiert deren Ausgaben für eine genauere Endvorhersage. Durch effiziente Batch-Verarbeitungsstrategien und spezialisierte KV-Cache-Mechanismen ermöglicht RoE einem 7B-MoE-Modell, die Leistung eines 10.5B-MoE-Modells zu erreichen, während die Inferenzberechnung um 30% reduziert wird.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle Skalierungsmethoden zur Inferenzzeit lassen sich in zwei Kategorien unterteilen:

Sequenzielle Skalierung (Sequential Scaling): Wie Chain-of-Thought, die Leistung durch Generierung längerer, strukturierterer Ausgaben verbessert
Parallele Skalierung (Parallel Scaling): Wie Self-Consistency, die mehrere unabhängige Sequenzen generiert und Ergebnisse aggregiert

Forschungsmotivation

Bestehende Methoden weisen folgende Einschränkungen auf:

Sequenzielle Skalierung erfordert zusätzliche Generierungsschritte und erhöht die Latenz
Parallele Skalierung hat begrenzte Anwendbarkeit, hauptsächlich für Aufgaben mit eindeutigen Antworten
Es fehlt eine Methode zur Verbesserung der inneren Vorhersagefähigkeit des Modells auf Token-Ebene

Kernale Einsicht

Die Autoren stellen eine Schlüsselfrage: Kann man durch Zuweisung von mehr Rechenleistung zur Inferenzzeit die innere Fähigkeit des Modells zur Vorhersage des nächsten Tokens verbessern? Dies führt zum Konzept der Hyper-Parallel Scaling, d.h. die Verbesserung der Generierungsqualität jedes Tokens durch Diversifizierung der internen Rechenpfade des Modells.

Kernbeiträge

Einführung des Hyper-Parallel-Scaling-Paradigmas: Ein neues Inferenzframework zur Verbesserung der Vorhersagequalität auf Token-Ebene, das orthogonal zu bestehenden Methoden auf Sequenzebene ist
Entwicklung des RoE-Algorithmus: Eine trainingsfreie Verbesserungsmethode für MoE-Modelle, die durch kontrolliertes Zufalls-Routing ein dynamisches Expert-Ensemble realisiert
Entwicklung effizienter Inferenzstrategien: Einschließlich Batch-Optimierung und Clean-Cache-Mechanismus, die Rechen- und Speicheraufwand erheblich reduzieren
Validierung signifikanter Leistungsverbesserungen: Nachweis der Effektivität von RoE über mehrere Benchmarks hinweg mit effizienteren Leistungs-Rechenleistungs-Kompromissen

Methodische Details

Aufgabendefinition

Gegeben ein vortrainiertes MoE-Modell zielt RoE darauf ab, die Vorhersagequalität jedes Tokens durch Diversifizierung der Expertenauswahl zu verbessern, ohne Modellparameter zu ändern oder zusätzliches Training durchzuführen.

Kernalgorithmus: Gumbel-Top-K-Routing

Standard-MoE-Routing: Wählt deterministisch die k Experten mit den höchsten Routing-Logits aus RoE-Routing: Führt kontrollierte Zufälligkeit durch Gumbel-Rauschen ein:

Indices = TopK(R + τ·G, k)

Wobei:

R ∈ R^E die Routing-Logits für E Experten sind
G unabhängig identisch verteilte Stichproben aus Gumbel(0,1) sind
τ der Temperaturparameter ist, der den Grad der Zufälligkeit steuert

Modellarchitektur

Der Arbeitsablauf von RoE ist wie folgt:

Multi-Path-Generierung: Für einen einzelnen Input-Token werden n verschiedene Expert-Auswahlpfade mit unterschiedlichen Zufallsstartwerten generiert
Parallele Berechnung: Die n Pfade werden als Batch parallel verarbeitet
Ergebnis-Aggregation: Die n Ausgabe-Logits werden durch probabilistische Mittelung aggregiert, um die endgültige Vorhersage zu erhalten

Technische Innovationen

1. Temperaturparameter-Optimierung

Schichtspezifische Temperatur: τ = {τᵢ}ᵢ∈L_MoE, jede Schicht wird unabhängig eingestellt
Suchstrategie: Verwendung von Tree-structured Parzen Estimator (TPE) für Bayessche Optimierung
Suchraum-Beschneidung:
- RoE wird nur auf mittleren Schichten angewendet (erste und letzte Schicht setzen τ=0)
- Temperaturbereich begrenzt auf 0, 0.5

2. Clean-Cache-Mechanismus

Problem: Naive Implementierung erfordert Verwaltung von n unabhängigen KV-Caches mit enormem Speicheraufwand Lösung:

Die erste Stichprobe (Batch-Index 0) verwendet deterministisches Routing (τ=0) als "sauberer" Pfad
Alle Stichproben teilen sich den KV-Cache des sauberen Pfads
Nur das aktuelle Token wendet Zufalls-Routing an, die Historie bleibt konsistent

3. Batch-Verarbeitung-Optimierung

Nutzt die Parallelverarbeitungsfähigkeiten moderner GPUs, um n Stichproben als einzelnen Batch zu verarbeiten und die Wall-Clock-Zeit erheblich zu reduzieren.

Experimentelle Einrichtung

Datensätze

Die Tests umfassen drei Bereiche:

Mathematisches Denken: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
Gesunder Menschenverstand: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
Code-Generierung: HumanEval, HumanEvalPlus

Modelle

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

Bewertungsmetriken

Mathematik- und Verständnisaufgaben: Exakte Übereinstimmungsgenauigkeit
Code-Aufgaben: pass@1-Genauigkeit
Effizienz-Bewertung: Latenz, Speichernutzung, Stromverbrauch

Implementierungsdetails

Hardware: NVIDIA A100 80GB GPU
Dekodierungsstrategie: Gieriges Dekodieren (um andere Strategien auszuschließen)
Aggregationsmethode: Probabilistische Mittelung
Statistik: Durchschnitt über 5 Zufallsstartwerte

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsverbesserungen sind allgemein und signifikant:

OLMoE-Modelle erzielen maximale Verbesserungen, fast alle Aufgaben zeigen Verbesserungen
Mixtral und GPT-OSS erzielen auch bei den meisten Aufgaben Verbesserungen
Offene Aufgaben wie Code-Generierung profitieren ebenfalls

Spezifische numerische Beispiele (OLMoE-1B-7B):

GSM8K: 64,1% → 64,5%
SVAMP: 68,2% → 69,5%
ARC-Easy: 68,9% → 71,3%
HumanEval: 31,1% → 31,5%

Effizienzanalyse

Rechenaufwand ist kontrollierbar:

Bei 64 Stichproben nimmt der Speicher nur um 12% zu
Stromverbrauch nimmt um 20% zu
Clean-Cache-Mechanismus vermeidet exponentielles Speicherwachstum

Vergleich mit Modellskalierung:

RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B-Leistung
Speicher reduziert um 25%, Latenz um 30% gesenkt

Ablationsstudien

Temperaturparameter-Einfluss:

Leistung zeigt konkave Funktionsbeziehung zur Temperatur
Optimale Temperatur variiert je nach Aufgabe
Zu hohe Temperatur führt zu zu viel Rauschen und schadet der Leistung

Notwendigkeit des Cache-Mechanismus:

Ohne Cache wächst die Latenz exponentiell
Clean Cache macht RoE praktisch anwendbar

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Hyper-Parallel Scaling bietet einen neuen effektiven Weg zur Leistungsverbesserung zur Inferenzzeit
RoE realisiert erfolgreich trainingsfreie Leistungsverbesserungen für MoE-Modelle
Durch geschickte technische Optimierungen wird die Methode praktisch anwendbar
Sie ist in Bezug auf Effizienz einer einfachen Modellskalierung überlegen

Einschränkungen

Optimierungskosten: Erfordert Temperaturparameter-Abstimmung für jede Aufgabe
Verbesserungsspielraum: Für bereits starke Modelle ist der Verbesserungsspielraum begrenzt
Bewertungsmetriken: Unterschiede zwischen Perplexität und Generierungsgenauigkeit beeinflussen die Optimierung bei mathematischen Aufgaben
Anwendungsbereich: Derzeit nur auf MoE-Architekturen anwendbar

Zukünftige Forschungsrichtungen

Die Autoren schlagen vier Forschungsrichtungen vor:

Verallgemeinerte Anwendung: Erweiterung auf Vision, Audio und andere Nicht-MoE-Modelle
Fortgeschrittene Rausch-Injection: Adaptive oder eingabebedingte Rausch-Strategien
Adaptive Berechnung: Dynamische Anpassung des Rechenbudgets basierend auf Token-Schwierigkeit
RoE-bewusstes Training: Integration von Zufalls-Routing in das Vortraining

Tiefgehende Bewertung

Stärken

Konzeptionelle Innovation: Das Hyper-Parallel-Scaling-Konzept ist neuartig und eröffnet neue Richtungen für Inferenzoptimierung
Technische Optimierung: Techniken wie Clean Cache bringen die Methode von der Theorie in die Praxis
Umfassende Experimente: Multi-Modell-, Multi-Aufgaben- und Multi-Dimensionen-Bewertung mit glaubwürdigen Ergebnissen
Effizienzvorteile: Ein effizienterer Weg zur Leistungsverbesserung im Vergleich zur Modellskalierung

Schwächen

Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Erklärung, warum Expert-Vielfalt die Leistung verbessert
Hyperparameter-Sensitivität: Temperaturparameter erfordern umfangreiche Abstimmung und erhöhen die Nutzungskosten
Begrenzte Verbesserungen: Die Verbesserungen bei starken Baselines sind relativ gering
Architektur-Abhängigkeit: Nur auf MoE-Modelle anwendbar, was die Anwendbarkeit einschränkt

Auswirkungen

Akademischer Wert:

Stellt ein neues Inferenzparadigma vor, das weitere verwandte Forschung inspirieren könnte
Bietet neue Perspektiven für die effiziente Nutzung von MoE-Modellen

Praktischer Wert:

Verbessert die Leistung bestehender MoE-Modelle ohne Umschulung
Bietet neue Leistungs-Effizienz-Kompromisse in rechenintensiven Umgebungen

Reproduzierbarkeit:

Klare Methodenbeschreibung mit ausreichenden Implementierungsdetails
Basiert auf Open-Source-Modellen, was einfache Reproduktion ermöglicht

Anwendungsszenarien

Rechenintensive Umgebungen: RoE bietet wirtschaftlichere Leistungsverbesserungen als die Bereitstellung größerer Modelle
Offene Generierung: Im Gegensatz zu parallelen Skalierungsmethoden ist RoE für Aufgaben ohne Standardantworten geeignet
Echtzeitanwendungen: Flexible Kontrolle des Leistungs-Latenz-Kompromisses durch Anpassung der Stichprobenzahl
MoE-Modell-Optimierung: Plug-and-Play-Verbesserungslösung für bestehende MoE-Bereitstellungen

Referenzen

Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

Wei et al. (2022): Chain-of-Thought-Denken
Wang et al. (2022): Self-Consistency-Methode
Shazeer et al. (2017): MoE-Architektur-Grundlagen
Kaplan et al. (2020): Skalierungsgesetze für neuronale Sprachmodelle

Gesamtbewertung: Dies ist ein ausgezeichnetes Paper, das technische Innovation und technische Implementierung gleichermaßen betont. Obwohl es in theoretischer Tiefe und Verbesserungsspielraum gewisse Einschränkungen aufweist, hat das vorgeschlagene Hyper-Parallel-Scaling-Konzept wichtigen akademischen und praktischen Wert und trägt neue Perspektiven und effektive Methoden zum Bereich der Inferenzoptimierung bei.

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsmotivation

Kernale Einsicht

Kernbeiträge

Methodische Details

Aufgabendefinition

Kernalgorithmus: Gumbel-Top-K-Routing

Modellarchitektur

Technische Innovationen

1. Temperaturparameter-Optimierung

2. Clean-Cache-Mechanismus

3. Batch-Verarbeitung-Optimierung

Experimentelle Einrichtung

Datensätze

Modelle

Bewertungsmetriken

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Effizienzanalyse

Ablationsstudien

Verwandte Arbeiten

Klassifizierung von Inferenzskalierungsmethoden

Unterschiede zu bestehenden Arbeiten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Forschungsrichtungen

Tiefgehende Bewertung

Stärken

Schwächen

Auswirkungen

Anwendungsszenarien

Referenzen