MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
Los MoEs Son Más Fuertes de lo que Crees: Escalado de Inferencia Hiperparalelo con RoE
Este artículo propone un nuevo paradigma de inferencia denominado escalado hiperparalelo (hyper-parallel scaling), que mejora la calidad de las predicciones mediante el cálculo y agregación de múltiples propuestas de salida a nivel de token. La implementación específica es el método Roster of Experts (RoE), un algoritmo de inferencia sin entrenamiento que transforma un modelo MoE individual en un conjunto dinámico de MoE. RoE inyecta aleatoriedad controlada en el mecanismo de enrutamiento de expertos, muestreando múltiples expertos distintos para cada token y agregando sus salidas para obtener predicciones finales más precisas. Mediante estrategias de procesamiento por lotes eficientes y un mecanismo especializado de caché KV, RoE permite que un modelo MoE de 7B alcance el rendimiento de un modelo MoE de 10.5B, reduciendo simultáneamente la carga computacional de inferencia en un 30%.
Los autores plantean una pregunta clave: ¿Podemos mejorar la capacidad intrínseca de predicción del siguiente token del modelo asignando más computación en tiempo de inferencia? Esta pregunta cataliza el concepto de escalado hiperparalelo, es decir, mejorar la calidad de generación de cada token diversificando las rutas de computación internas del modelo.
Propuesta del Paradigma de Escalado Hiperparalelo: Un nuevo marco de inferencia que mejora la calidad de predicción a nivel de token, complementario y ortogonal a los métodos existentes a nivel de secuencia
Diseño del Algoritmo RoE: Método de mejora de modelos MoE sin entrenamiento que implementa un conjunto dinámico de expertos mediante enrutamiento aleatorio controlado
Desarrollo de Estrategias de Inferencia Eficientes: Incluyendo optimización de procesamiento por lotes y el mecanismo Clean Cache, reduciendo significativamente la carga computacional y de memoria
Validación de Mejoras de Rendimiento Significativas: Demostración de la efectividad de RoE en múltiples puntos de referencia, logrando un equilibrio rendimiento-computación más eficiente
Dado un modelo MoE preentrenado, RoE tiene como objetivo mejorar la calidad de predicción de cada token mediante la diversificación de la selección de expertos, sin modificar los parámetros del modelo ni requerir entrenamiento adicional.
Enrutamiento MoE Estándar: Selecciona determinísticamente los k expertos con los logits de enrutamiento más altos
Enrutamiento RoE: Introduce aleatoriedad controlada mediante ruido de Gumbel:
Indices = TopK(R + τ·G, k)
Donde:
R ∈ R^E son los logits de enrutamiento de E expertos
G son muestras i.i.d. de la distribución Gumbel(0,1)
τ es el parámetro de temperatura, que controla el grado de aleatoriedad
Generación Multirruta: Para un token de entrada individual, se generan n rutas de selección de expertos diferentes mediante diferentes semillas aleatorias
Computación Paralela: Las n rutas se procesan en paralelo como un lote
Agregación de Resultados: Se agregan los n logits de salida mediante promediado probabilístico para obtener la predicción final
Aprovecha la capacidad de procesamiento paralelo de las GPU modernas, procesando n muestras como un único lote, reduciendo significativamente el tiempo de reloj de pared.
El artículo cita trabajos importantes en el campo, incluyendo:
Wei et al. (2022): Razonamiento Chain-of-Thought
Wang et al. (2022): Método Self-Consistency
Shazeer et al. (2017): Fundamentos de arquitectura MoE
Kaplan et al. (2020): Leyes de escalado de modelos de lenguaje neurales
Evaluación General: Este es un excelente artículo que equilibra innovación técnica e implementación de ingeniería. Aunque presenta ciertas limitaciones en profundidad teórica y magnitud de mejora, el concepto de escalado hiperparalelo que propone posee importante valor académico y práctico, contribuyendo nuevas perspectivas y métodos efectivos al campo de optimización en tiempo de inferencia.