2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

基本信息

论文ID: 2509.17238
标题: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
作者: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
分类: cs.AI, cs.CL, cs.LG
发表状态: Preprint. Under review
论文链接: https://arxiv.org/abs/2509.17238v2

摘要

本文提出了超并行缩放(hyper-parallel scaling)这一新的推理范式，通过在token级别计算和聚合多个输出提案来提升预测质量。具体实现为专家名册(Roster of Experts, RoE)方法，这是一种无需训练的推理算法，将单个MoE模型转换为动态的MoE集成。RoE通过向专家路由机制注入受控随机性，为每个token采样多个不同专家并聚合其输出以获得更准确的最终预测。通过高效的批处理策略和专门的KV缓存机制，RoE能够让7B MoE模型达到10.5B MoE模型的性能，同时推理计算量减少30%。

研究背景与动机

问题定义

传统的推理时缩放方法主要分为两类：

序列缩放(Sequential Scaling): 如思维链(Chain-of-Thought)，通过生成更长、更结构化的输出来提升性能
并行缩放(Parallel Scaling): 如自洽性(Self-Consistency)，生成多个独立序列并聚合结果

研究动机

现有方法存在以下局限性：

序列缩放需要额外的生成步骤，增加延迟
并行缩放适用范围有限，主要针对有明确答案的任务
缺乏在token级别提升模型内在预测能力的方法

核心洞察

作者提出一个关键问题：能否通过在推理时分配更多计算来提升模型的内在下一token预测能力？ 这催生了超并行缩放的概念，即通过多样化模型内部计算路径来提升每个token的生成质量。

核心贡献

提出超并行缩放范式: 一种在token级别提升预测质量的新推理框架，与现有序列级方法正交互补
设计RoE算法: 无需训练的MoE模型增强方法，通过受控随机路由实现动态专家集成
开发高效推理策略: 包括批处理优化和Clean Cache机制，大幅降低计算和内存开销
验证显著性能提升: 在多个基准测试中证明RoE的有效性，实现了更高效的性能-计算权衡

方法详解

任务定义

给定预训练的MoE模型，RoE旨在通过多样化专家选择来提升每个token的预测质量，而无需修改模型参数或进行额外训练。

核心算法：Gumbel-Top-K路由

标准MoE路由：确定性地选择路由logits最高的k个专家 RoE路由：通过Gumbel噪声引入受控随机性：

Indices = TopK(R + τ·G, k)

其中：

R ∈ R^E 为E个专家的路由logits
G 为Gumbel(0,1)分布的i.i.d.样本
τ 为温度参数，控制随机性程度

模型架构

RoE的工作流程如下：

多路径生成: 对单个输入token，通过不同的随机种子生成n个不同的专家选择路径
并行计算: 将n个路径作为batch并行处理
结果聚合: 通过概率平均聚合n个输出logits得到最终预测

技术创新点

1. 温度参数优化

层特定温度: τ = {τᵢ}ᵢ∈L_MoE，每层独立设置温度
搜索策略: 使用Tree-structured Parzen Estimator (TPE)进行贝叶斯优化
搜索空间剪枝:
- 仅对中间层应用RoE（首末层设τ=0）
- 温度范围限制在0, 0.5

2. Clean Cache机制

问题: 朴素实现需要维护n个独立的KV缓存，内存开销巨大 解决方案:

第一个样本（batch index 0）使用确定性路由（τ=0）作为"clean"路径
所有样本共享clean路径的KV缓存
仅当前token应用随机路由，历史保持一致

3. 批处理优化

利用现代GPU的并行处理能力，将n个样本作为单个batch处理，显著降低wall-clock时间。

实验设置

数据集

测试涵盖三个领域：

数学推理: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
常识推理: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
代码生成: HumanEval, HumanEvalPlus

模型

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

评价指标

数学和常识任务：精确匹配准确率
代码任务：pass@1准确率
效率评估：延迟、内存占用、功耗

实现细节

硬件：NVIDIA A100 80GB GPU
解码策略：贪婪解码（排除其他策略干扰）
聚合方式：概率平均
统计：5个随机种子平均

实验结果

主要结果

性能提升普遍且显著：

OLMoE模型获得最大提升，几乎所有任务都有改进
Mixtral和GPT-OSS也在多数任务上取得提升
代码生成等开放式任务同样受益

具体数值示例（OLMoE-1B-7B）：

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

效率分析

计算开销可控：

64个样本时内存增加仅12%
功耗增加20%
Clean Cache机制避免了指数级内存增长

与模型缩放对比：

RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B性能
内存减少25%，延迟降低30%

消融实验

温度参数影响：

性能随温度呈凹函数关系
最优温度因任务而异
过高温度引入过多噪声，损害性能

缓存机制必要性：

无缓存时延迟呈指数增长
Clean Cache使RoE具备实用性

相关工作

推理时缩放方法分类

序列缩放: CoT, Tree-of-Thoughts等，通过更长推理链提升性能
并行缩放: Self-Consistency, 多路径生成+投票聚合
超并行缩放: 本文提出的新范式，在token级别多样化计算

与现有工作的区别

无需训练: 相比需要特殊预训练的可变深度架构（Geiping et al., 2025）
MoE特化: 专门针对MoE架构的专家多样性利用
token级增强: 不同于序列级的现有方法

结论与讨论

主要结论

超并行缩放为推理时性能提升提供了新的有效途径
RoE成功实现了MoE模型的无训练性能增强
通过巧妙的工程优化，使方法具备实用性
在效率方面优于简单的模型缩放

局限性

优化成本: 需要针对每个任务调优温度参数
改进幅度: 对于已接近饱和的强模型，提升空间有限
评估指标: 困惑度与生成准确率存在差距，影响数学任务的优化效果
适用范围: 目前仅适用于MoE架构

未来方向

作者提出四个研究方向：

泛化应用: 扩展到视觉、音频等非MoE模型
高级噪声注入: 自适应或输入条件的噪声策略
自适应计算: 根据token难度动态调整计算预算
RoE感知训练: 在预训练中集成随机路由

深度评价

优点

概念创新: 超并行缩放概念新颖，为推理时优化开辟新方向
工程优化: Clean Cache等技术使方法从理论走向实用
实验全面: 多模型、多任务、多维度评估，结果可信
效率优势: 相比模型缩放更高效的性能提升路径

不足

理论分析不足: 缺乏对为什么专家多样性能提升性能的深入理论解释
超参敏感: 温度参数需要大量调优，增加使用成本
改进有限: 在强基线上的提升幅度相对较小
架构依赖: 仅适用于MoE模型，限制了适用范围

影响力

学术价值：

提出新的推理范式，可能启发更多相关研究
为MoE模型的高效利用提供新思路

实用价值：

无需重训练即可提升现有MoE模型性能
在计算受限环境下提供性能-效率权衡新选择

可复现性：

方法描述清晰，实现细节充分
基于开源模型，便于复现验证

适用场景

计算受限环境: 相比部署更大模型，RoE提供更经济的性能提升
开放式生成: 相比并行缩放方法，RoE适用于无标准答案的任务
实时应用: 通过调节样本数量灵活控制性能-延迟权衡
MoE模型优化: 为现有MoE部署提供即插即用的增强方案

参考文献

论文引用了该领域的重要工作，包括：

Wei et al. (2022): Chain-of-Thought推理
Wang et al. (2022): Self-Consistency方法
Shazeer et al. (2017): MoE架构基础
Kaplan et al. (2020): 神经语言模型缩放定律

总体评价: 这是一篇技术创新与工程实现并重的优秀论文。虽然在理论深度和改进幅度方面存在一定局限，但其提出的超并行缩放概念具有重要的学术价值和实用意义，为推理时优化领域贡献了新的思路和有效方法。