MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Questo articolo propone un nuovo paradigma di inferenza denominato hyper-parallel scaling (scalabilità iper-parallela), che migliora la qualità delle previsioni attraverso il calcolo e l'aggregazione di molteplici proposte di output a livello di token. L'implementazione concreta è il metodo Roster of Experts (RoE), un algoritmo di inferenza senza addestramento che trasforma un singolo modello MoE in un ensemble MoE dinamico. RoE introduce casualità controllata nel meccanismo di routing verso gli esperti, campionando molteplici esperti distinti per ogni token e aggregando i loro output per ottenere previsioni finali più accurate. Attraverso strategie di batch processing efficienti e un meccanismo dedicato di cache KV, RoE consente a un modello MoE da 7B di raggiungere le prestazioni di un modello MoE da 10.5B, riducendo al contempo il carico computazionale di inferenza del 30%.
Gli autori pongono una questione cruciale: è possibile migliorare la capacità intrinseca di previsione del prossimo token allocando più calcolo al momento dell'inferenza? Questo ha generato il concetto di scalabilità iper-parallela, ovvero il miglioramento della qualità di generazione di ogni token attraverso la diversificazione dei percorsi computazionali interni del modello.
Proposta del paradigma di scalabilità iper-parallela: un nuovo framework di inferenza che migliora la qualità delle previsioni a livello di token, complementare e ortogonale ai metodi sequenziali esistenti
Progettazione dell'algoritmo RoE: metodo di potenziamento dei modelli MoE senza addestramento, che realizza un ensemble di esperti dinamico attraverso routing casuale controllato
Sviluppo di strategie di inferenza efficienti: incluse ottimizzazioni di batch processing e il meccanismo Clean Cache, che riducono significativamente il carico computazionale e di memoria
Verifica di miglioramenti significativi delle prestazioni: dimostrazione dell'efficacia di RoE su molteplici benchmark, realizzando un compromesso prestazioni-calcolo più efficiente
Dato un modello MoE pre-addestrato, RoE mira a migliorare la qualità della previsione di ogni token attraverso la diversificazione della selezione degli esperti, senza modificare i parametri del modello o eseguire addestramento aggiuntivo.
Routing MoE Standard: seleziona deterministicamente i k esperti con i logit di routing più elevati
Routing RoE: introduce casualità controllata attraverso rumore Gumbel:
Indices = TopK(R + τ·G, k)
dove:
R ∈ R^E sono i logit di routing per E esperti
G sono campioni i.i.d. dalla distribuzione Gumbel(0,1)
τ è il parametro di temperatura, che controlla il grado di casualità
Sfrutta la capacità di elaborazione parallela delle GPU moderne, elaborando i n campioni come un singolo batch, riducendo significativamente il tempo wall-clock.
Ambienti con Risorse Computazionali Limitate: RoE fornisce un miglioramento delle prestazioni più economico rispetto al deployment di modelli più grandi
Generazione Open-Ended: applicabile a compiti senza risposte standard, a differenza dei metodi di scalabilità parallela
Applicazioni in Tempo Reale: controllo flessibile del compromesso prestazioni-latenza regolando il numero di campioni
Ottimizzazione di Modelli MoE: soluzione plug-and-play per il potenziamento di deployment MoE esistenti
L'articolo cita importanti lavori in questo campo, inclusi:
Wei et al. (2022): Ragionamento Chain-of-Thought
Wang et al. (2022): Metodo Self-Consistency
Shazeer et al. (2017): Fondamenti dell'architettura MoE
Kaplan et al. (2020): Leggi di scalabilità dei modelli di linguaggio neurale
Valutazione Complessiva: Questo è un articolo eccellente che combina innovazione tecnica e implementazione ingegneristica. Sebbene presenti alcune limitazioni nella profondità teorica e nel margine di miglioramento, il concetto di scalabilità iper-parallela proposto possiede un significativo valore accademico e pratico, contribuendo al campo dell'ottimizzazione all'inferenza con nuove prospettive e metodi efficaci.