MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Dieses Paper stellt ein neues Inferenzparadigma namens Hyper-Parallel Scaling vor, das die Vorhersagequalität durch Berechnung und Aggregation mehrerer Ausgabevorschläge auf Token-Ebene verbessert. Die konkrete Implementierung ist die Roster of Experts (RoE)-Methode, ein trainingsfreier Inferenzalgorithmus, der ein einzelnes MoE-Modell in ein dynamisches MoE-Ensemble umwandelt. RoE injiziert kontrollierte Zufälligkeit in den Expert-Routing-Mechanismus, sampelt für jeden Token mehrere unterschiedliche Experten und aggregiert deren Ausgaben für eine genauere Endvorhersage. Durch effiziente Batch-Verarbeitungsstrategien und spezialisierte KV-Cache-Mechanismen ermöglicht RoE einem 7B-MoE-Modell, die Leistung eines 10.5B-MoE-Modells zu erreichen, während die Inferenzberechnung um 30% reduziert wird.
Die Autoren stellen eine Schlüsselfrage: Kann man durch Zuweisung von mehr Rechenleistung zur Inferenzzeit die innere Fähigkeit des Modells zur Vorhersage des nächsten Tokens verbessern? Dies führt zum Konzept der Hyper-Parallel Scaling, d.h. die Verbesserung der Generierungsqualität jedes Tokens durch Diversifizierung der internen Rechenpfade des Modells.
Einführung des Hyper-Parallel-Scaling-Paradigmas: Ein neues Inferenzframework zur Verbesserung der Vorhersagequalität auf Token-Ebene, das orthogonal zu bestehenden Methoden auf Sequenzebene ist
Entwicklung des RoE-Algorithmus: Eine trainingsfreie Verbesserungsmethode für MoE-Modelle, die durch kontrolliertes Zufalls-Routing ein dynamisches Expert-Ensemble realisiert
Entwicklung effizienter Inferenzstrategien: Einschließlich Batch-Optimierung und Clean-Cache-Mechanismus, die Rechen- und Speicheraufwand erheblich reduzieren
Validierung signifikanter Leistungsverbesserungen: Nachweis der Effektivität von RoE über mehrere Benchmarks hinweg mit effizienteren Leistungs-Rechenleistungs-Kompromissen
Gegeben ein vortrainiertes MoE-Modell zielt RoE darauf ab, die Vorhersagequalität jedes Tokens durch Diversifizierung der Expertenauswahl zu verbessern, ohne Modellparameter zu ändern oder zusätzliches Training durchzuführen.
Standard-MoE-Routing: Wählt deterministisch die k Experten mit den höchsten Routing-Logits aus
RoE-Routing: Führt kontrollierte Zufälligkeit durch Gumbel-Rauschen ein:
Indices = TopK(R + τ·G, k)
Wobei:
R ∈ R^E die Routing-Logits für E Experten sind
G unabhängig identisch verteilte Stichproben aus Gumbel(0,1) sind
τ der Temperaturparameter ist, der den Grad der Zufälligkeit steuert
Nutzt die Parallelverarbeitungsfähigkeiten moderner GPUs, um n Stichproben als einzelnen Batch zu verarbeiten und die Wall-Clock-Zeit erheblich zu reduzieren.
Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
Wei et al. (2022): Chain-of-Thought-Denken
Wang et al. (2022): Self-Consistency-Methode
Shazeer et al. (2017): MoE-Architektur-Grundlagen
Kaplan et al. (2020): Skalierungsgesetze für neuronale Sprachmodelle
Gesamtbewertung: Dies ist ein ausgezeichnetes Paper, das technische Innovation und technische Implementierung gleichermaßen betont. Obwohl es in theoretischer Tiefe und Verbesserungsspielraum gewisse Einschränkungen aufweist, hat das vorgeschlagene Hyper-Parallel-Scaling-Konzept wichtigen akademischen und praktischen Wert und trägt neue Perspektiven und effektive Methoden zum Bereich der Inferenzoptimierung bei.