2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Основная информация

ID статьи: 2509.17238
Название: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Авторы: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
Категория: cs.AI, cs.CL, cs.LG
Статус публикации: Препринт. На рецензировании
Ссылка на статью: https://arxiv.org/abs/2509.17238v2

Аннотация

В данной работе предлагается новая парадигма гиперпараллельного масштабирования (hyper-parallel scaling) для повышения качества предсказаний путём вычисления и агрегирования множественных предложений выходных данных на уровне токенов. Конкретная реализация представлена методом Roster of Experts (RoE) — алгоритмом вывода без обучения, преобразующим одиночную модель MoE в динамический ансамбль MoE. RoE вводит контролируемую стохастичность в механизм маршрутизации экспертов, выбирая несколько различных экспертов для каждого токена и агрегируя их выходные данные для получения более точного финального предсказания. Благодаря эффективным стратегиям пакетной обработки и специализированному механизму кэша KV, RoE позволяет модели OLMoE-7B достичь производительности OLMoE-10.5B при снижении вычислительных затрат вывода на 30%.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные методы масштабирования при выводе подразделяются на две категории:

Последовательное масштабирование (Sequential Scaling): например, Chain-of-Thought, повышающее производительность путём генерации более длинных и структурированных выходных данных
Параллельное масштабирование (Parallel Scaling): например, Self-Consistency, генерирующее несколько независимых последовательностей и агрегирующее результаты

Исследовательская мотивация

Существующие методы имеют следующие ограничения:

Последовательное масштабирование требует дополнительных этапов генерации, увеличивая задержку
Параллельное масштабирование имеет ограниченную область применения, в основном для задач с явными ответами
Отсутствуют методы повышения внутренней способности модели к предсказанию следующего токена на уровне токенов

Ключевое понимание

Авторы ставят критический вопрос: можно ли повысить внутреннюю способность модели к предсказанию следующего токена путём распределения большего объёма вычислений во время вывода? Это привело к концепции гиперпараллельного масштабирования, то есть повышению качества генерации каждого токена путём диверсификации внутренних путей вычисления модели.

Основные вклады

Предложение парадигмы гиперпараллельного масштабирования: новая структура вывода для повышения качества предсказаний на уровне токенов, ортогональная и дополняющая существующие методы на уровне последовательностей
Разработка алгоритма RoE: метод усиления модели MoE без обучения, реализующий динамический ансамбль экспертов через контролируемую стохастическую маршрутизацию
Разработка эффективной стратегии вывода: включая оптимизацию пакетной обработки и механизм Clean Cache, значительно снижающие вычислительные и памятные затраты
Верификация значительного повышения производительности: демонстрация эффективности RoE на множественных тестовых наборах, достижение более эффективного компромисса производительность-вычисления

Подробное описание метода

Определение задачи

Учитывая предварительно обученную модель MoE, RoE направлен на повышение качества предсказания каждого токена путём диверсификации выбора экспертов без изменения параметров модели или проведения дополнительного обучения.

Основной алгоритм: маршрутизация Gumbel-Top-K

Стандартная маршрутизация MoE: детерминированно выбирает k экспертов с наивысшими логитами маршрутизации Маршрутизация RoE: вводит контролируемую стохастичность через шум Gumbel:

Indices = TopK(R + τ·G, k)

где:

R ∈ R^E — логиты маршрутизации для E экспертов
G — независимые и одинаково распределённые выборки из распределения Gumbel(0,1)
τ — параметр температуры, контролирующий степень стохастичности

Архитектура модели

Рабочий процесс RoE выглядит следующим образом:

Многопутевая генерация: для одного входного токена генерируются n различных путей выбора экспертов с использованием различных случайных семян
Параллельные вычисления: n путей обрабатываются параллельно как единый пакет
Агрегирование результатов: n выходных логитов агрегируются путём вероятностного усреднения для получения финального предсказания

Технические инновации

1. Оптимизация параметра температуры

Температура, специфичная для слоя: τ = {τᵢ}ᵢ∈L_MoE, каждый слой устанавливается независимо
Стратегия поиска: использование Tree-structured Parzen Estimator (TPE) для байесовской оптимизации
Обрезка пространства поиска:
- RoE применяется только к промежуточным слоям (первый и последний слои устанавливаются τ=0)
- Диапазон температуры ограничен 0, 0.5

2. Механизм Clean Cache

Проблема: наивная реализация требует поддержания n независимых кэшей KV, что требует огромных памятных затрат Решение:

Первый образец (индекс пакета 0) использует детерминированную маршрутизацию (τ=0) в качестве "чистого" пути
Все образцы совместно используют кэш KV чистого пути
Стохастическая маршрутизация применяется только к текущему токену, история остаётся согласованной

3. Оптимизация пакетной обработки

Использование параллельной обработки современных GPU, обработка n образцов как единого пакета, значительное снижение wall-clock времени.

Экспериментальная установка

Наборы данных

Тестирование охватывает три области:

Математическое рассуждение: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
Здравый смысл рассуждение: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
Генерация кода: HumanEval, HumanEvalPlus

Модели

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

Метрики оценки

Математические и задачи здравого смысла: точность точного совпадения
Задачи кода: точность pass@1
Оценка эффективности: задержка, использование памяти, энергопотребление

Детали реализации

Оборудование: NVIDIA A100 80GB GPU
Стратегия декодирования: жадное декодирование (исключение влияния других стратегий)
Способ агрегирования: вероятностное усреднение
Статистика: усреднение по 5 случайным семенам

Результаты экспериментов

Основные результаты

Повышение производительности универсально и значительно:

Модели OLMoE получают максимальное повышение, улучшение почти на всех задачах
Mixtral и GPT-OSS также достигают повышения на большинстве задач
Открытые задачи, такие как генерация кода, также получают преимущества

Конкретные числовые примеры (OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

Анализ эффективности

Контролируемые вычислительные затраты:

При 64 образцах увеличение памяти составляет всего 12%
Увеличение энергопотребления на 20%
Механизм Clean Cache предотвращает экспоненциальный рост памяти

Сравнение с масштабированием модели:

RoE(K=32) + OLMoE-7B ≈ производительность OLMoE-10.5B
Снижение памяти на 25%, снижение задержки на 30%

Абляционные исследования

Влияние параметра температуры:

Производительность показывает вогнутую функциональную зависимость от температуры
Оптимальная температура варьируется в зависимости от задачи
Чрезмерно высокая температура вводит избыточный шум, ухудшая производительность

Необходимость механизма кэша:

Без кэша задержка растёт экспоненциально
Clean Cache делает RoE практически применимым

Связанные работы

Классификация методов масштабирования при выводе

Последовательное масштабирование: CoT, Tree-of-Thoughts и т.д., повышение производительности через более длинные цепи рассуждений
Параллельное масштабирование: Self-Consistency, генерирование многопутевых данных + агрегирование голосованием
Гиперпараллельное масштабирование: новая парадигма, предложенная в данной работе, диверсификация вычислений на уровне токенов

Различия с существующими работами

Без обучения: в отличие от архитектур переменной глубины, требующих специального предварительного обучения (Geiping et al., 2025)
Специализация для MoE: специально разработано для использования многообразия экспертов в архитектуре MoE
Усиление на уровне токенов: отличается от существующих методов на уровне последовательностей

Заключение и обсуждение

Основные выводы

Гиперпараллельное масштабирование предоставляет новый эффективный путь для повышения производительности при выводе
RoE успешно реализует усиление производительности модели MoE без обучения
Благодаря умной инженерной оптимизации метод становится практически применимым
С точки зрения эффективности превосходит простое масштабирование модели

Ограничения

Стоимость оптимизации: требуется настройка параметра температуры для каждой задачи
Ограниченное улучшение: для уже насыщенных сильных моделей пространство для улучшения ограничено
Метрики оценки: расхождение между перплексией и точностью генерации влияет на оптимизацию для математических задач
Область применения: в настоящее время применимо только к архитектурам MoE

Будущие направления

Авторы предлагают четыре направления исследований:

Обобщённое применение: расширение на видение, аудио и не-MoE модели
Продвинутое введение шума: адаптивные или условные по входу стратегии введения шума
Адаптивные вычисления: динамическая регулировка вычислительного бюджета в зависимости от сложности токена
Обучение с учётом RoE: интеграция стохастической маршрутизации в предварительное обучение

Глубокая оценка

Преимущества

Концептуальная инновация: концепция гиперпараллельного масштабирования новаторская, открывает новое направление для оптимизации при выводе
Инженерная оптимизация: технологии, такие как Clean Cache, переводят метод из теории в практику
Комплексные эксперименты: оценка на множественных моделях, задачах и измерениях, результаты надёжны
Преимущества эффективности: более эффективный путь повышения производительности по сравнению с масштабированием модели

Недостатки

Недостаточный теоретический анализ: отсутствует глубокое теоретическое объяснение того, почему многообразие экспертов повышает производительность
Чувствительность к гиперпараметрам: параметр температуры требует значительной настройки, увеличивая затраты на использование
Ограниченное улучшение: повышение производительности на сильных базовых моделях относительно небольшое
Зависимость от архитектуры: применимо только к моделям MoE, ограничивает область применения

Влияние

Академическая ценность:

Предложение новой парадигмы вывода, потенциально вдохновляющей дальнейшие исследования
Предоставление новых идей для эффективного использования моделей MoE

Практическая ценность:

Повышение производительности существующих моделей MoE без переобучения
Предоставление нового выбора компромисса производительность-эффективность в среде с ограниченными вычислениями

Воспроизводимость:

Ясное описание метода, достаточно подробные детали реализации
Основано на открытых моделях, удобно для проверки воспроизводимости

Сценарии применения

Среда с ограниченными вычислениями: RoE предоставляет более экономичное повышение производительности по сравнению с развёртыванием более крупных моделей
Открытая генерация: применимо к задачам без стандартных ответов, в отличие от методов параллельного масштабирования
Приложения реального времени: гибкое управление компромиссом производительность-задержка путём регулирования количества образцов
Оптимизация моделей MoE: готовое к использованию решение для усиления существующих развёртываний MoE

Библиография

Статья цитирует важные работы в данной области, включая:

Wei et al. (2022): Chain-of-Thought рассуждение
Wang et al. (2022): метод Self-Consistency
Shazeer et al. (2017): основы архитектуры MoE
Kaplan et al. (2020): законы масштабирования нейронных языковых моделей

Общая оценка: это отличная статья, сочетающая технологическую инновацию и инженерную реализацию. Хотя она имеет определённые ограничения в теоретической глубине и масштабе улучшений, предложенная концепция гиперпараллельного масштабирования имеет важную академическую ценность и практическое значение, внося новые идеи и эффективные методы в область оптимизации при выводе.