2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Informazioni Fondamentali

ID Articolo: 2509.17238
Titolo: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Autori: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
Classificazione: cs.AI, cs.CL, cs.LG
Stato di Pubblicazione: Preprint. In revisione
Link Articolo: https://arxiv.org/abs/2509.17238v2

Riassunto

Questo articolo propone un nuovo paradigma di inferenza denominato hyper-parallel scaling (scalabilità iper-parallela), che migliora la qualità delle previsioni attraverso il calcolo e l'aggregazione di molteplici proposte di output a livello di token. L'implementazione concreta è il metodo Roster of Experts (RoE), un algoritmo di inferenza senza addestramento che trasforma un singolo modello MoE in un ensemble MoE dinamico. RoE introduce casualità controllata nel meccanismo di routing verso gli esperti, campionando molteplici esperti distinti per ogni token e aggregando i loro output per ottenere previsioni finali più accurate. Attraverso strategie di batch processing efficienti e un meccanismo dedicato di cache KV, RoE consente a un modello MoE da 7B di raggiungere le prestazioni di un modello MoE da 10.5B, riducendo al contempo il carico computazionale di inferenza del 30%.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di scalabilità al momento dell'inferenza si dividono principalmente in due categorie:

Scalabilità Sequenziale (Sequential Scaling): come Chain-of-Thought, che migliora le prestazioni generando output più lunghi e strutturati
Scalabilità Parallela (Parallel Scaling): come Self-Consistency, che genera molteplici sequenze indipendenti e aggrega i risultati

Motivazione della Ricerca

I metodi esistenti presentano le seguenti limitazioni:

La scalabilità sequenziale richiede passaggi di generazione aggiuntivi, aumentando la latenza
La scalabilità parallela ha un'applicabilità limitata, principalmente per compiti con risposte ben definite
Mancano metodi per migliorare la capacità intrinseca di previsione del prossimo token del modello a livello di token

Intuizione Centrale

Gli autori pongono una questione cruciale: è possibile migliorare la capacità intrinseca di previsione del prossimo token allocando più calcolo al momento dell'inferenza? Questo ha generato il concetto di scalabilità iper-parallela, ovvero il miglioramento della qualità di generazione di ogni token attraverso la diversificazione dei percorsi computazionali interni del modello.

Contributi Principali

Proposta del paradigma di scalabilità iper-parallela: un nuovo framework di inferenza che migliora la qualità delle previsioni a livello di token, complementare e ortogonale ai metodi sequenziali esistenti
Progettazione dell'algoritmo RoE: metodo di potenziamento dei modelli MoE senza addestramento, che realizza un ensemble di esperti dinamico attraverso routing casuale controllato
Sviluppo di strategie di inferenza efficienti: incluse ottimizzazioni di batch processing e il meccanismo Clean Cache, che riducono significativamente il carico computazionale e di memoria
Verifica di miglioramenti significativi delle prestazioni: dimostrazione dell'efficacia di RoE su molteplici benchmark, realizzando un compromesso prestazioni-calcolo più efficiente

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello MoE pre-addestrato, RoE mira a migliorare la qualità della previsione di ogni token attraverso la diversificazione della selezione degli esperti, senza modificare i parametri del modello o eseguire addestramento aggiuntivo.

Algoritmo Centrale: Routing Gumbel-Top-K

Routing MoE Standard: seleziona deterministicamente i k esperti con i logit di routing più elevati Routing RoE: introduce casualità controllata attraverso rumore Gumbel:

Indices = TopK(R + τ·G, k)

dove:

R ∈ R^E sono i logit di routing per E esperti
G sono campioni i.i.d. dalla distribuzione Gumbel(0,1)
τ è il parametro di temperatura, che controlla il grado di casualità

Architettura del Modello

Il flusso di lavoro di RoE è il seguente:

Generazione Multi-Percorso: per un singolo token di input, genera n diversi percorsi di selezione degli esperti attraverso diversi seed casuali
Calcolo Parallelo: elabora i n percorsi in parallelo come un singolo batch
Aggregazione dei Risultati: aggrega i n logit di output attraverso media probabilistica per ottenere la previsione finale

Punti di Innovazione Tecnica

1. Ottimizzazione del Parametro di Temperatura

Temperatura Specifica per Strato: τ = {τᵢ}ᵢ∈L_MoE, con temperatura indipendente per ogni strato
Strategia di Ricerca: utilizza Tree-structured Parzen Estimator (TPE) per l'ottimizzazione bayesiana
Potatura dello Spazio di Ricerca:
- Applica RoE solo agli strati intermedi (imposta τ=0 per i primi e ultimi strati)
- Limita l'intervallo di temperatura a 0, 0.5

2. Meccanismo Clean Cache

Problema: l'implementazione ingenua richiede il mantenimento di n cache KV indipendenti, con enorme overhead di memoria Soluzione:

Il primo campione (indice batch 0) utilizza routing deterministico (τ=0) come percorso "clean"
Tutti i campioni condividono la cache KV del percorso clean
Solo il token corrente applica routing casuale, mentre la cronologia rimane coerente

3. Ottimizzazione del Batch Processing

Sfrutta la capacità di elaborazione parallela delle GPU moderne, elaborando i n campioni come un singolo batch, riducendo significativamente il tempo wall-clock.

Configurazione Sperimentale

Dataset

I test coprono tre domini:

Ragionamento Matematico: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
Ragionamento di Senso Comune: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
Generazione di Codice: HumanEval, HumanEvalPlus

Modelli

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

Metriche di Valutazione

Compiti matematici e di senso comune: accuratezza di corrispondenza esatta
Compiti di codice: accuratezza pass@1
Valutazione dell'efficienza: latenza, occupazione di memoria, consumo energetico

Dettagli di Implementazione

Hardware: GPU NVIDIA A100 80GB
Strategia di Decodifica: decodifica greedy (escludendo interferenze da altre strategie)
Modalità di Aggregazione: media probabilistica
Statistiche: media su 5 seed casuali

Risultati Sperimentali

Risultati Principali

Miglioramenti delle Prestazioni Universali e Significativi:

I modelli OLMoE ottengono i massimi miglioramenti, con miglioramenti su quasi tutti i compiti
Mixtral e GPT-OSS ottengono anche miglioramenti sulla maggior parte dei compiti
Anche i compiti di generazione di codice open-ended traggono beneficio

Esempi di Valori Specifici (OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

Analisi dell'Efficienza

Carico Computazionale Controllabile:

Con 64 campioni, l'aumento di memoria è solo del 12%
L'aumento del consumo energetico è del 20%
Il meccanismo Clean Cache evita la crescita esponenziale della memoria

Confronto con Scalabilità del Modello:

RoE(K=32) + OLMoE-7B ≈ prestazioni OLMoE-10.5B
Riduzione della memoria del 25%, riduzione della latenza del 30%

Esperimenti di Ablazione

Impatto del Parametro di Temperatura:

Le prestazioni mostrano una relazione concava con la temperatura
La temperatura ottimale varia a seconda del compito
Temperature troppo elevate introducono troppo rumore, danneggiando le prestazioni

Necessità del Meccanismo di Cache:

Senza cache, la latenza cresce esponenzialmente
Clean Cache rende RoE pratico

Lavori Correlati

Classificazione dei Metodi di Scalabilità all'Inferenza

Scalabilità Sequenziale: CoT, Tree-of-Thoughts, ecc., che migliorano le prestazioni attraverso catene di ragionamento più lunghe
Scalabilità Parallela: Self-Consistency, generazione multi-percorso + aggregazione per votazione
Scalabilità Iper-Parallela: il nuovo paradigma proposto in questo articolo, che diversifica il calcolo a livello di token

Differenze dai Lavori Esistenti

Senza Addestramento: a differenza di architetture a profondità variabile che richiedono pre-addestramento speciale (Geiping et al., 2025)
Specializzazione MoE: specializzato nello sfruttamento della diversità degli esperti per architetture MoE
Potenziamento a Livello di Token: diverso dai metodi esistenti a livello di sequenza

Conclusioni e Discussione

Conclusioni Principali

La scalabilità iper-parallela fornisce un nuovo percorso efficace per il miglioramento delle prestazioni al momento dell'inferenza
RoE implementa con successo il potenziamento delle prestazioni senza addestramento per modelli MoE
Attraverso ottimizzazioni ingegneristiche intelligenti, il metodo diventa pratico
In termini di efficienza, supera la semplice scalabilità del modello

Limitazioni

Costo di Ottimizzazione: richiede l'ottimizzazione del parametro di temperatura per ogni compito
Margine di Miglioramento: per modelli forti già prossimi alla saturazione, lo spazio di miglioramento è limitato
Metriche di Valutazione: la discrepanza tra perplessità e accuratezza di generazione influisce sull'ottimizzazione per compiti matematici
Ambito di Applicabilità: attualmente applicabile solo ad architetture MoE

Direzioni Future

Gli autori propongono quattro direzioni di ricerca:

Applicazione Generalizzata: estensione a modelli non-MoE in visione, audio, ecc.
Iniezione di Rumore Avanzata: strategie di rumore adattive o condizionate dall'input
Calcolo Adattivo: regolazione dinamica del budget computazionale in base alla difficoltà del token
Addestramento Consapevole di RoE: integrazione del routing casuale nell'addestramento preliminare

Valutazione Approfondita

Punti di Forza

Innovazione Concettuale: il concetto di scalabilità iper-parallela è innovativo, aprendo nuove direzioni per l'ottimizzazione all'inferenza
Ottimizzazione Ingegneristica: tecniche come Clean Cache rendono il metodo pratico
Valutazione Completa: valutazione multi-modello, multi-compito e multi-dimensionale, risultati affidabili
Vantaggi di Efficienza: percorso di miglioramento delle prestazioni più efficiente rispetto alla scalabilità del modello

Insufficienze

Analisi Teorica Insufficiente: manca un'analisi teorica approfondita del perché la diversità degli esperti migliora le prestazioni
Sensibilità agli Iperparametri: il parametro di temperatura richiede un'ampia ottimizzazione, aumentando i costi di utilizzo
Miglioramento Limitato: il margine di miglioramento su baseline forti è relativamente piccolo
Dipendenza dall'Architettura: applicabile solo a modelli MoE, limitando l'ambito di applicabilità

Impatto

Valore Accademico:

Propone un nuovo paradigma di inferenza, potenzialmente ispirando ricerche correlate
Fornisce nuove prospettive per l'utilizzo efficiente dei modelli MoE

Valore Pratico:

Migliora le prestazioni dei modelli MoE esistenti senza riaddestramento
Fornisce una nuova scelta di compromesso prestazioni-efficienza in ambienti con risorse computazionali limitate

Riproducibilità:

La descrizione del metodo è chiara, i dettagli di implementazione sono sufficienti
Basato su modelli open-source, facilitando la verifica della riproduzione

Scenari di Applicabilità

Ambienti con Risorse Computazionali Limitate: RoE fornisce un miglioramento delle prestazioni più economico rispetto al deployment di modelli più grandi
Generazione Open-Ended: applicabile a compiti senza risposte standard, a differenza dei metodi di scalabilità parallela
Applicazioni in Tempo Reale: controllo flessibile del compromesso prestazioni-latenza regolando il numero di campioni
Ottimizzazione di Modelli MoE: soluzione plug-and-play per il potenziamento di deployment MoE esistenti

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

Wei et al. (2022): Ragionamento Chain-of-Thought
Wang et al. (2022): Metodo Self-Consistency
Shazeer et al. (2017): Fondamenti dell'architettura MoE
Kaplan et al. (2020): Leggi di scalabilità dei modelli di linguaggio neurale

Valutazione Complessiva: Questo è un articolo eccellente che combina innovazione tecnica e implementazione ingegneristica. Sebbene presenti alcune limitazioni nella profondità teorica e nel margine di miglioramento, il concetto di scalabilità iper-parallela proposto possiede un significativo valore accademico e pratico, contribuendo al campo dell'ottimizzazione all'inferenza con nuove prospettive e metodi efficaci.