2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Informazioni Fondamentali

  • ID Articolo: 2509.17238
  • Titolo: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • Autori: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • Classificazione: cs.AI, cs.CL, cs.LG
  • Stato di Pubblicazione: Preprint. In revisione
  • Link Articolo: https://arxiv.org/abs/2509.17238v2

Riassunto

Questo articolo propone un nuovo paradigma di inferenza denominato hyper-parallel scaling (scalabilità iper-parallela), che migliora la qualità delle previsioni attraverso il calcolo e l'aggregazione di molteplici proposte di output a livello di token. L'implementazione concreta è il metodo Roster of Experts (RoE), un algoritmo di inferenza senza addestramento che trasforma un singolo modello MoE in un ensemble MoE dinamico. RoE introduce casualità controllata nel meccanismo di routing verso gli esperti, campionando molteplici esperti distinti per ogni token e aggregando i loro output per ottenere previsioni finali più accurate. Attraverso strategie di batch processing efficienti e un meccanismo dedicato di cache KV, RoE consente a un modello MoE da 7B di raggiungere le prestazioni di un modello MoE da 10.5B, riducendo al contempo il carico computazionale di inferenza del 30%.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di scalabilità al momento dell'inferenza si dividono principalmente in due categorie:

  1. Scalabilità Sequenziale (Sequential Scaling): come Chain-of-Thought, che migliora le prestazioni generando output più lunghi e strutturati
  2. Scalabilità Parallela (Parallel Scaling): come Self-Consistency, che genera molteplici sequenze indipendenti e aggrega i risultati

Motivazione della Ricerca

I metodi esistenti presentano le seguenti limitazioni:

  • La scalabilità sequenziale richiede passaggi di generazione aggiuntivi, aumentando la latenza
  • La scalabilità parallela ha un'applicabilità limitata, principalmente per compiti con risposte ben definite
  • Mancano metodi per migliorare la capacità intrinseca di previsione del prossimo token del modello a livello di token

Intuizione Centrale

Gli autori pongono una questione cruciale: è possibile migliorare la capacità intrinseca di previsione del prossimo token allocando più calcolo al momento dell'inferenza? Questo ha generato il concetto di scalabilità iper-parallela, ovvero il miglioramento della qualità di generazione di ogni token attraverso la diversificazione dei percorsi computazionali interni del modello.

Contributi Principali

  1. Proposta del paradigma di scalabilità iper-parallela: un nuovo framework di inferenza che migliora la qualità delle previsioni a livello di token, complementare e ortogonale ai metodi sequenziali esistenti
  2. Progettazione dell'algoritmo RoE: metodo di potenziamento dei modelli MoE senza addestramento, che realizza un ensemble di esperti dinamico attraverso routing casuale controllato
  3. Sviluppo di strategie di inferenza efficienti: incluse ottimizzazioni di batch processing e il meccanismo Clean Cache, che riducono significativamente il carico computazionale e di memoria
  4. Verifica di miglioramenti significativi delle prestazioni: dimostrazione dell'efficacia di RoE su molteplici benchmark, realizzando un compromesso prestazioni-calcolo più efficiente

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello MoE pre-addestrato, RoE mira a migliorare la qualità della previsione di ogni token attraverso la diversificazione della selezione degli esperti, senza modificare i parametri del modello o eseguire addestramento aggiuntivo.

Algoritmo Centrale: Routing Gumbel-Top-K

Routing MoE Standard: seleziona deterministicamente i k esperti con i logit di routing più elevati Routing RoE: introduce casualità controllata attraverso rumore Gumbel:

Indices = TopK(R + τ·G, k)

dove:

  • R ∈ R^E sono i logit di routing per E esperti
  • G sono campioni i.i.d. dalla distribuzione Gumbel(0,1)
  • τ è il parametro di temperatura, che controlla il grado di casualità

Architettura del Modello

Il flusso di lavoro di RoE è il seguente:

  1. Generazione Multi-Percorso: per un singolo token di input, genera n diversi percorsi di selezione degli esperti attraverso diversi seed casuali
  2. Calcolo Parallelo: elabora i n percorsi in parallelo come un singolo batch
  3. Aggregazione dei Risultati: aggrega i n logit di output attraverso media probabilistica per ottenere la previsione finale

Punti di Innovazione Tecnica

1. Ottimizzazione del Parametro di Temperatura

  • Temperatura Specifica per Strato: τ = {τᵢ}ᵢ∈L_MoE, con temperatura indipendente per ogni strato
  • Strategia di Ricerca: utilizza Tree-structured Parzen Estimator (TPE) per l'ottimizzazione bayesiana
  • Potatura dello Spazio di Ricerca:
    • Applica RoE solo agli strati intermedi (imposta τ=0 per i primi e ultimi strati)
    • Limita l'intervallo di temperatura a 0, 0.5

2. Meccanismo Clean Cache

Problema: l'implementazione ingenua richiede il mantenimento di n cache KV indipendenti, con enorme overhead di memoria Soluzione:

  • Il primo campione (indice batch 0) utilizza routing deterministico (τ=0) come percorso "clean"
  • Tutti i campioni condividono la cache KV del percorso clean
  • Solo il token corrente applica routing casuale, mentre la cronologia rimane coerente

3. Ottimizzazione del Batch Processing

Sfrutta la capacità di elaborazione parallela delle GPU moderne, elaborando i n campioni come un singolo batch, riducendo significativamente il tempo wall-clock.

Configurazione Sperimentale

Dataset

I test coprono tre domini:

  • Ragionamento Matematico: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • Ragionamento di Senso Comune: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • Generazione di Codice: HumanEval, HumanEvalPlus

Modelli

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

Metriche di Valutazione

  • Compiti matematici e di senso comune: accuratezza di corrispondenza esatta
  • Compiti di codice: accuratezza pass@1
  • Valutazione dell'efficienza: latenza, occupazione di memoria, consumo energetico

Dettagli di Implementazione

  • Hardware: GPU NVIDIA A100 80GB
  • Strategia di Decodifica: decodifica greedy (escludendo interferenze da altre strategie)
  • Modalità di Aggregazione: media probabilistica
  • Statistiche: media su 5 seed casuali

Risultati Sperimentali

Risultati Principali

Miglioramenti delle Prestazioni Universali e Significativi:

  • I modelli OLMoE ottengono i massimi miglioramenti, con miglioramenti su quasi tutti i compiti
  • Mixtral e GPT-OSS ottengono anche miglioramenti sulla maggior parte dei compiti
  • Anche i compiti di generazione di codice open-ended traggono beneficio

Esempi di Valori Specifici (OLMoE-1B-7B):

  • GSM8K: 64.1% → 64.5%
  • SVAMP: 68.2% → 69.5%
  • ARC-Easy: 68.9% → 71.3%
  • HumanEval: 31.1% → 31.5%

Analisi dell'Efficienza

Carico Computazionale Controllabile:

  • Con 64 campioni, l'aumento di memoria è solo del 12%
  • L'aumento del consumo energetico è del 20%
  • Il meccanismo Clean Cache evita la crescita esponenziale della memoria

Confronto con Scalabilità del Modello:

  • RoE(K=32) + OLMoE-7B ≈ prestazioni OLMoE-10.5B
  • Riduzione della memoria del 25%, riduzione della latenza del 30%

Esperimenti di Ablazione

Impatto del Parametro di Temperatura:

  • Le prestazioni mostrano una relazione concava con la temperatura
  • La temperatura ottimale varia a seconda del compito
  • Temperature troppo elevate introducono troppo rumore, danneggiando le prestazioni

Necessità del Meccanismo di Cache:

  • Senza cache, la latenza cresce esponenzialmente
  • Clean Cache rende RoE pratico

Lavori Correlati

Classificazione dei Metodi di Scalabilità all'Inferenza

  1. Scalabilità Sequenziale: CoT, Tree-of-Thoughts, ecc., che migliorano le prestazioni attraverso catene di ragionamento più lunghe
  2. Scalabilità Parallela: Self-Consistency, generazione multi-percorso + aggregazione per votazione
  3. Scalabilità Iper-Parallela: il nuovo paradigma proposto in questo articolo, che diversifica il calcolo a livello di token

Differenze dai Lavori Esistenti

  • Senza Addestramento: a differenza di architetture a profondità variabile che richiedono pre-addestramento speciale (Geiping et al., 2025)
  • Specializzazione MoE: specializzato nello sfruttamento della diversità degli esperti per architetture MoE
  • Potenziamento a Livello di Token: diverso dai metodi esistenti a livello di sequenza

Conclusioni e Discussione

Conclusioni Principali

  1. La scalabilità iper-parallela fornisce un nuovo percorso efficace per il miglioramento delle prestazioni al momento dell'inferenza
  2. RoE implementa con successo il potenziamento delle prestazioni senza addestramento per modelli MoE
  3. Attraverso ottimizzazioni ingegneristiche intelligenti, il metodo diventa pratico
  4. In termini di efficienza, supera la semplice scalabilità del modello

Limitazioni

  1. Costo di Ottimizzazione: richiede l'ottimizzazione del parametro di temperatura per ogni compito
  2. Margine di Miglioramento: per modelli forti già prossimi alla saturazione, lo spazio di miglioramento è limitato
  3. Metriche di Valutazione: la discrepanza tra perplessità e accuratezza di generazione influisce sull'ottimizzazione per compiti matematici
  4. Ambito di Applicabilità: attualmente applicabile solo ad architetture MoE

Direzioni Future

Gli autori propongono quattro direzioni di ricerca:

  1. Applicazione Generalizzata: estensione a modelli non-MoE in visione, audio, ecc.
  2. Iniezione di Rumore Avanzata: strategie di rumore adattive o condizionate dall'input
  3. Calcolo Adattivo: regolazione dinamica del budget computazionale in base alla difficoltà del token
  4. Addestramento Consapevole di RoE: integrazione del routing casuale nell'addestramento preliminare

Valutazione Approfondita

Punti di Forza

  1. Innovazione Concettuale: il concetto di scalabilità iper-parallela è innovativo, aprendo nuove direzioni per l'ottimizzazione all'inferenza
  2. Ottimizzazione Ingegneristica: tecniche come Clean Cache rendono il metodo pratico
  3. Valutazione Completa: valutazione multi-modello, multi-compito e multi-dimensionale, risultati affidabili
  4. Vantaggi di Efficienza: percorso di miglioramento delle prestazioni più efficiente rispetto alla scalabilità del modello

Insufficienze

  1. Analisi Teorica Insufficiente: manca un'analisi teorica approfondita del perché la diversità degli esperti migliora le prestazioni
  2. Sensibilità agli Iperparametri: il parametro di temperatura richiede un'ampia ottimizzazione, aumentando i costi di utilizzo
  3. Miglioramento Limitato: il margine di miglioramento su baseline forti è relativamente piccolo
  4. Dipendenza dall'Architettura: applicabile solo a modelli MoE, limitando l'ambito di applicabilità

Impatto

Valore Accademico:

  • Propone un nuovo paradigma di inferenza, potenzialmente ispirando ricerche correlate
  • Fornisce nuove prospettive per l'utilizzo efficiente dei modelli MoE

Valore Pratico:

  • Migliora le prestazioni dei modelli MoE esistenti senza riaddestramento
  • Fornisce una nuova scelta di compromesso prestazioni-efficienza in ambienti con risorse computazionali limitate

Riproducibilità:

  • La descrizione del metodo è chiara, i dettagli di implementazione sono sufficienti
  • Basato su modelli open-source, facilitando la verifica della riproduzione

Scenari di Applicabilità

  1. Ambienti con Risorse Computazionali Limitate: RoE fornisce un miglioramento delle prestazioni più economico rispetto al deployment di modelli più grandi
  2. Generazione Open-Ended: applicabile a compiti senza risposte standard, a differenza dei metodi di scalabilità parallela
  3. Applicazioni in Tempo Reale: controllo flessibile del compromesso prestazioni-latenza regolando il numero di campioni
  4. Ottimizzazione di Modelli MoE: soluzione plug-and-play per il potenziamento di deployment MoE esistenti

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

  • Wei et al. (2022): Ragionamento Chain-of-Thought
  • Wang et al. (2022): Metodo Self-Consistency
  • Shazeer et al. (2017): Fondamenti dell'architettura MoE
  • Kaplan et al. (2020): Leggi di scalabilità dei modelli di linguaggio neurale

Valutazione Complessiva: Questo è un articolo eccellente che combina innovazione tecnica e implementazione ingegneristica. Sebbene presenti alcune limitazioni nella profondità teorica e nel margine di miglioramento, il concetto di scalabilità iper-parallela proposto possiede un significativo valore accademico e pratico, contribuendo al campo dell'ottimizzazione all'inferenza con nuove prospettive e metodi efficaci.