2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

Los MoEs Son Más Fuertes de lo que Crees: Escalado de Inferencia Hiperparalelo con RoE

Información Básica

ID del Artículo: 2509.17238
Título: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Autores: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
Clasificación: cs.AI, cs.CL, cs.LG
Estado de Publicación: Preimpresión. En revisión
Enlace del Artículo: https://arxiv.org/abs/2509.17238v2

Resumen

Este artículo propone un nuevo paradigma de inferencia denominado escalado hiperparalelo (hyper-parallel scaling), que mejora la calidad de las predicciones mediante el cálculo y agregación de múltiples propuestas de salida a nivel de token. La implementación específica es el método Roster of Experts (RoE), un algoritmo de inferencia sin entrenamiento que transforma un modelo MoE individual en un conjunto dinámico de MoE. RoE inyecta aleatoriedad controlada en el mecanismo de enrutamiento de expertos, muestreando múltiples expertos distintos para cada token y agregando sus salidas para obtener predicciones finales más precisas. Mediante estrategias de procesamiento por lotes eficientes y un mecanismo especializado de caché KV, RoE permite que un modelo MoE de 7B alcance el rendimiento de un modelo MoE de 10.5B, reduciendo simultáneamente la carga computacional de inferencia en un 30%.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de escalado en tiempo de inferencia se dividen principalmente en dos categorías:

Escalado Secuencial (Sequential Scaling): Como Chain-of-Thought, que mejora el rendimiento generando salidas más largas y estructuradas
Escalado Paralelo (Parallel Scaling): Como Self-Consistency, que genera múltiples secuencias independientes y agrega los resultados

Motivación de la Investigación

Los métodos existentes presentan las siguientes limitaciones:

El escalado secuencial requiere pasos de generación adicionales, aumentando la latencia
El escalado paralelo tiene un alcance limitado, dirigido principalmente a tareas con respuestas claras
Falta un método para mejorar la capacidad intrínseca de predicción del siguiente token a nivel de token

Perspectiva Central

Los autores plantean una pregunta clave: ¿Podemos mejorar la capacidad intrínseca de predicción del siguiente token del modelo asignando más computación en tiempo de inferencia? Esta pregunta cataliza el concepto de escalado hiperparalelo, es decir, mejorar la calidad de generación de cada token diversificando las rutas de computación internas del modelo.

Contribuciones Principales

Propuesta del Paradigma de Escalado Hiperparalelo: Un nuevo marco de inferencia que mejora la calidad de predicción a nivel de token, complementario y ortogonal a los métodos existentes a nivel de secuencia
Diseño del Algoritmo RoE: Método de mejora de modelos MoE sin entrenamiento que implementa un conjunto dinámico de expertos mediante enrutamiento aleatorio controlado
Desarrollo de Estrategias de Inferencia Eficientes: Incluyendo optimización de procesamiento por lotes y el mecanismo Clean Cache, reduciendo significativamente la carga computacional y de memoria
Validación de Mejoras de Rendimiento Significativas: Demostración de la efectividad de RoE en múltiples puntos de referencia, logrando un equilibrio rendimiento-computación más eficiente

Explicación Detallada del Método

Definición de la Tarea

Dado un modelo MoE preentrenado, RoE tiene como objetivo mejorar la calidad de predicción de cada token mediante la diversificación de la selección de expertos, sin modificar los parámetros del modelo ni requerir entrenamiento adicional.

Algoritmo Principal: Enrutamiento Gumbel-Top-K

Enrutamiento MoE Estándar: Selecciona determinísticamente los k expertos con los logits de enrutamiento más altos Enrutamiento RoE: Introduce aleatoriedad controlada mediante ruido de Gumbel:

Indices = TopK(R + τ·G, k)

Donde:

R ∈ R^E son los logits de enrutamiento de E expertos
G son muestras i.i.d. de la distribución Gumbel(0,1)
τ es el parámetro de temperatura, que controla el grado de aleatoriedad

Arquitectura del Modelo

El flujo de trabajo de RoE es el siguiente:

Generación Multirruta: Para un token de entrada individual, se generan n rutas de selección de expertos diferentes mediante diferentes semillas aleatorias
Computación Paralela: Las n rutas se procesan en paralelo como un lote
Agregación de Resultados: Se agregan los n logits de salida mediante promediado probabilístico para obtener la predicción final

Puntos de Innovación Técnica

1. Optimización del Parámetro de Temperatura

Temperatura Específica por Capa: τ = {τᵢ}ᵢ∈L_MoE, con temperatura independiente para cada capa
Estrategia de Búsqueda: Utiliza Tree-structured Parzen Estimator (TPE) para optimización bayesiana
Poda del Espacio de Búsqueda:
- RoE se aplica solo a capas intermedias (primeras y últimas capas con τ=0)
- Rango de temperatura limitado a 0, 0.5

2. Mecanismo Clean Cache

Problema: La implementación ingenua requiere mantener n cachés KV independientes, con enorme costo de memoria Solución:

La primera muestra (índice de lote 0) utiliza enrutamiento determinístico (τ=0) como ruta "limpia"
Todas las muestras comparten el caché KV de la ruta limpia
Solo el token actual aplica enrutamiento aleatorio, manteniendo el historial consistente

3. Optimización de Procesamiento por Lotes

Aprovecha la capacidad de procesamiento paralelo de las GPU modernas, procesando n muestras como un único lote, reduciendo significativamente el tiempo de reloj de pared.

Configuración Experimental

Conjuntos de Datos

Las pruebas abarcan tres dominios:

Razonamiento Matemático: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
Razonamiento de Sentido Común: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
Generación de Código: HumanEval, HumanEvalPlus

Modelos

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

Métricas de Evaluación

Tareas matemáticas y de sentido común: Precisión de coincidencia exacta
Tareas de código: Precisión pass@1
Evaluación de eficiencia: Latencia, ocupación de memoria, consumo de energía

Detalles de Implementación

Hardware: GPU NVIDIA A100 80GB
Estrategia de decodificación: Decodificación codicioso (excluyendo interferencias de otras estrategias)
Método de agregación: Promediado probabilístico
Estadísticas: Promedio de 5 semillas aleatorias

Resultados Experimentales

Resultados Principales

Mejoras de Rendimiento Universales y Significativas:

Los modelos OLMoE obtienen las mayores mejoras, con mejoras en casi todas las tareas
Mixtral y GPT-OSS también logran mejoras en la mayoría de las tareas
Las tareas de generación abierta como generación de código también se benefician

Ejemplos de Valores Específicos (OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

Análisis de Eficiencia

Carga Computacional Controlable:

Con 64 muestras, el aumento de memoria es solo del 12%
Aumento de consumo de energía del 20%
El mecanismo Clean Cache evita el crecimiento exponencial de memoria

Comparación con Escalado de Modelo:

RoE(K=32) + OLMoE-7B ≈ Rendimiento de OLMoE-10.5B
Reducción de memoria del 25%, latencia reducida en 30%

Experimentos de Ablación

Impacto del Parámetro de Temperatura:

El rendimiento sigue una relación cóncava con la temperatura
La temperatura óptima varía según la tarea
Temperaturas excesivamente altas introducen demasiado ruido, dañando el rendimiento

Necesidad del Mecanismo de Caché:

Sin caché, la latencia crece exponencialmente
Clean Cache hace que RoE sea prácticamente viable

Trabajo Relacionado

Clasificación de Métodos de Escalado en Tiempo de Inferencia

Escalado Secuencial: CoT, Tree-of-Thoughts, etc., mejorando el rendimiento mediante cadenas de razonamiento más largas
Escalado Paralelo: Self-Consistency, generación multirruta + agregación por votación
Escalado Hiperparalelo: Nuevo paradigma propuesto en este artículo, diversificando computación a nivel de token

Diferencias con Trabajos Existentes

Sin Entrenamiento: A diferencia de arquitecturas de profundidad variable que requieren preentrenamiento especial (Geiping et al., 2025)
Especialización en MoE: Específicamente diseñado para explotar la diversidad de expertos en arquitecturas MoE
Mejora a Nivel de Token: Diferente de los métodos existentes a nivel de secuencia

Conclusiones y Discusión

Conclusiones Principales

El escalado hiperparalelo proporciona una nueva vía efectiva para mejorar el rendimiento en tiempo de inferencia
RoE implementa exitosamente la mejora de rendimiento sin entrenamiento de modelos MoE
Mediante optimizaciones de ingeniería inteligentes, el método es prácticamente viable
En términos de eficiencia, supera el simple escalado de modelo

Limitaciones

Costo de Optimización: Requiere ajuste fino de parámetros de temperatura para cada tarea
Margen de Mejora: Para modelos fuertes ya cercanos a la saturación, el espacio de mejora es limitado
Métricas de Evaluación: Existe una brecha entre perplejidad y precisión de generación, afectando la optimización en tareas matemáticas
Rango de Aplicabilidad: Actualmente solo aplicable a arquitecturas MoE

Direcciones Futuras

Los autores proponen cuatro direcciones de investigación:

Aplicación Generalizada: Extensión a modelos no-MoE en visión, audio, etc.
Inyección de Ruido Avanzada: Estrategias de ruido adaptativas o condicionadas por entrada
Computación Adaptativa: Ajuste dinámico del presupuesto computacional según la dificultad del token
Entrenamiento Consciente de RoE: Integración de enrutamiento aleatorio en el preentrenamiento

Evaluación Profunda

Fortalezas

Innovación Conceptual: El concepto de escalado hiperparalelo es novedoso, abriendo nuevas direcciones para optimización en tiempo de inferencia
Optimización de Ingeniería: Técnicas como Clean Cache hacen que el método pase de teoría a práctica
Experimentación Integral: Evaluación multimodelo, multitarea y multidimensional, resultados confiables
Ventajas de Eficiencia: Ruta de mejora de rendimiento más eficiente en comparación con escalado de modelo

Deficiencias

Análisis Teórico Insuficiente: Falta explicación teórica profunda sobre por qué la diversidad de expertos mejora el rendimiento
Sensibilidad a Hiperparámetros: El parámetro de temperatura requiere ajuste extenso, aumentando el costo de uso
Mejora Limitada: Las mejoras sobre líneas base fuertes son relativamente modestas
Dependencia de Arquitectura: Solo aplicable a modelos MoE, limitando el rango de aplicabilidad

Impacto

Valor Académico:

Propone un nuevo paradigma de inferencia que puede inspirar investigaciones relacionadas
Proporciona nuevas perspectivas para la utilización eficiente de modelos MoE

Valor Práctico:

Mejora el rendimiento de modelos MoE existentes sin reentrenamiento
Proporciona nuevas opciones de equilibrio rendimiento-eficiencia en entornos con recursos computacionales limitados

Reproducibilidad:

Descripción clara del método, detalles de implementación suficientes
Basado en modelos de código abierto, facilitando verificación y reproducción

Escenarios de Aplicabilidad

Entornos con Recursos Limitados: RoE proporciona mejora de rendimiento más económica en comparación con desplegar modelos más grandes
Generación de Texto Abierto: Aplicable a tareas sin respuestas estándar, a diferencia de métodos de escalado paralelo
Aplicaciones en Tiempo Real: Control flexible del equilibrio rendimiento-latencia mediante ajuste del número de muestras
Optimización de Modelos MoE: Solución plug-and-play para mejorar despliegues MoE existentes

Referencias

El artículo cita trabajos importantes en el campo, incluyendo:

Wei et al. (2022): Razonamiento Chain-of-Thought
Wang et al. (2022): Método Self-Consistency
Shazeer et al. (2017): Fundamentos de arquitectura MoE
Kaplan et al. (2020): Leyes de escalado de modelos de lenguaje neurales

Evaluación General: Este es un excelente artículo que equilibra innovación técnica e implementación de ingeniería. Aunque presenta ciertas limitaciones en profundidad teórica y magnitud de mejora, el concepto de escalado hiperparalelo que propone posee importante valor académico y práctico, contribuyendo nuevas perspectivas y métodos efectivos al campo de optimización en tiempo de inferencia.