MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
В данной работе предлагается новая парадигма гиперпараллельного масштабирования (hyper-parallel scaling) для повышения качества предсказаний путём вычисления и агрегирования множественных предложений выходных данных на уровне токенов. Конкретная реализация представлена методом Roster of Experts (RoE) — алгоритмом вывода без обучения, преобразующим одиночную модель MoE в динамический ансамбль MoE. RoE вводит контролируемую стохастичность в механизм маршрутизации экспертов, выбирая несколько различных экспертов для каждого токена и агрегируя их выходные данные для получения более точного финального предсказания. Благодаря эффективным стратегиям пакетной обработки и специализированному механизму кэша KV, RoE позволяет модели OLMoE-7B достичь производительности OLMoE-10.5B при снижении вычислительных затрат вывода на 30%.
Традиционные методы масштабирования при выводе подразделяются на две категории:
Последовательное масштабирование (Sequential Scaling): например, Chain-of-Thought, повышающее производительность путём генерации более длинных и структурированных выходных данных
Параллельное масштабирование (Parallel Scaling): например, Self-Consistency, генерирующее несколько независимых последовательностей и агрегирующее результаты
Авторы ставят критический вопрос: можно ли повысить внутреннюю способность модели к предсказанию следующего токена путём распределения большего объёма вычислений во время вывода? Это привело к концепции гиперпараллельного масштабирования, то есть повышению качества генерации каждого токена путём диверсификации внутренних путей вычисления модели.
Предложение парадигмы гиперпараллельного масштабирования: новая структура вывода для повышения качества предсказаний на уровне токенов, ортогональная и дополняющая существующие методы на уровне последовательностей
Разработка алгоритма RoE: метод усиления модели MoE без обучения, реализующий динамический ансамбль экспертов через контролируемую стохастическую маршрутизацию
Разработка эффективной стратегии вывода: включая оптимизацию пакетной обработки и механизм Clean Cache, значительно снижающие вычислительные и памятные затраты
Верификация значительного повышения производительности: демонстрация эффективности RoE на множественных тестовых наборах, достижение более эффективного компромисса производительность-вычисления
Учитывая предварительно обученную модель MoE, RoE направлен на повышение качества предсказания каждого токена путём диверсификации выбора экспертов без изменения параметров модели или проведения дополнительного обучения.
Среда с ограниченными вычислениями: RoE предоставляет более экономичное повышение производительности по сравнению с развёртыванием более крупных моделей
Открытая генерация: применимо к задачам без стандартных ответов, в отличие от методов параллельного масштабирования
Приложения реального времени: гибкое управление компромиссом производительность-задержка путём регулирования количества образцов
Оптимизация моделей MoE: готовое к использованию решение для усиления существующих развёртываний MoE
Статья цитирует важные работы в данной области, включая:
Wei et al. (2022): Chain-of-Thought рассуждение
Wang et al. (2022): метод Self-Consistency
Shazeer et al. (2017): основы архитектуры MoE
Kaplan et al. (2020): законы масштабирования нейронных языковых моделей
Общая оценка: это отличная статья, сочетающая технологическую инновацию и инженерную реализацию. Хотя она имеет определённые ограничения в теоретической глубине и масштабе улучшений, предложенная концепция гиперпараллельного масштабирования имеет важную академическую ценность и практическое значение, внося новые идеи и эффективные методы в область оптимизации при выводе.