2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

基本信息

  • 论文ID: 2509.17238
  • 标题: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • 作者: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • 分类: cs.AI, cs.CL, cs.LG
  • 发表状态: Preprint. Under review
  • 论文链接: https://arxiv.org/abs/2509.17238v2

摘要

本文提出了超并行缩放(hyper-parallel scaling)这一新的推理范式,通过在token级别计算和聚合多个输出提案来提升预测质量。具体实现为专家名册(Roster of Experts, RoE)方法,这是一种无需训练的推理算法,将单个MoE模型转换为动态的MoE集成。RoE通过向专家路由机制注入受控随机性,为每个token采样多个不同专家并聚合其输出以获得更准确的最终预测。通过高效的批处理策略和专门的KV缓存机制,RoE能够让7B MoE模型达到10.5B MoE模型的性能,同时推理计算量减少30%。

研究背景与动机

问题定义

传统的推理时缩放方法主要分为两类:

  1. 序列缩放(Sequential Scaling): 如思维链(Chain-of-Thought),通过生成更长、更结构化的输出来提升性能
  2. 并行缩放(Parallel Scaling): 如自洽性(Self-Consistency),生成多个独立序列并聚合结果

研究动机

现有方法存在以下局限性:

  • 序列缩放需要额外的生成步骤,增加延迟
  • 并行缩放适用范围有限,主要针对有明确答案的任务
  • 缺乏在token级别提升模型内在预测能力的方法

核心洞察

作者提出一个关键问题:能否通过在推理时分配更多计算来提升模型的内在下一token预测能力? 这催生了超并行缩放的概念,即通过多样化模型内部计算路径来提升每个token的生成质量。

核心贡献

  1. 提出超并行缩放范式: 一种在token级别提升预测质量的新推理框架,与现有序列级方法正交互补
  2. 设计RoE算法: 无需训练的MoE模型增强方法,通过受控随机路由实现动态专家集成
  3. 开发高效推理策略: 包括批处理优化和Clean Cache机制,大幅降低计算和内存开销
  4. 验证显著性能提升: 在多个基准测试中证明RoE的有效性,实现了更高效的性能-计算权衡

方法详解

任务定义

给定预训练的MoE模型,RoE旨在通过多样化专家选择来提升每个token的预测质量,而无需修改模型参数或进行额外训练。

核心算法:Gumbel-Top-K路由

标准MoE路由:确定性地选择路由logits最高的k个专家 RoE路由:通过Gumbel噪声引入受控随机性:

Indices = TopK(R + τ·G, k)

其中:

  • R ∈ R^E 为E个专家的路由logits
  • G 为Gumbel(0,1)分布的i.i.d.样本
  • τ 为温度参数,控制随机性程度

模型架构

RoE的工作流程如下:

  1. 多路径生成: 对单个输入token,通过不同的随机种子生成n个不同的专家选择路径
  2. 并行计算: 将n个路径作为batch并行处理
  3. 结果聚合: 通过概率平均聚合n个输出logits得到最终预测

技术创新点

1. 温度参数优化

  • 层特定温度: τ = {τᵢ}ᵢ∈L_MoE,每层独立设置温度
  • 搜索策略: 使用Tree-structured Parzen Estimator (TPE)进行贝叶斯优化
  • 搜索空间剪枝:
    • 仅对中间层应用RoE(首末层设τ=0)
    • 温度范围限制在0, 0.5

2. Clean Cache机制

问题: 朴素实现需要维护n个独立的KV缓存,内存开销巨大 解决方案:

  • 第一个样本(batch index 0)使用确定性路由(τ=0)作为"clean"路径
  • 所有样本共享clean路径的KV缓存
  • 仅当前token应用随机路由,历史保持一致

3. 批处理优化

利用现代GPU的并行处理能力,将n个样本作为单个batch处理,显著降低wall-clock时间。

实验设置

数据集

测试涵盖三个领域:

  • 数学推理: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • 常识推理: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • 代码生成: HumanEval, HumanEvalPlus

模型

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

评价指标

  • 数学和常识任务:精确匹配准确率
  • 代码任务:pass@1准确率
  • 效率评估:延迟、内存占用、功耗

实现细节

  • 硬件:NVIDIA A100 80GB GPU
  • 解码策略:贪婪解码(排除其他策略干扰)
  • 聚合方式:概率平均
  • 统计:5个随机种子平均

实验结果

主要结果

性能提升普遍且显著

  • OLMoE模型获得最大提升,几乎所有任务都有改进
  • Mixtral和GPT-OSS也在多数任务上取得提升
  • 代码生成等开放式任务同样受益

具体数值示例(OLMoE-1B-7B):

  • GSM8K: 64.1% → 64.5%
  • SVAMP: 68.2% → 69.5%
  • ARC-Easy: 68.9% → 71.3%
  • HumanEval: 31.1% → 31.5%

效率分析

计算开销可控

  • 64个样本时内存增加仅12%
  • 功耗增加20%
  • Clean Cache机制避免了指数级内存增长

与模型缩放对比

  • RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B性能
  • 内存减少25%,延迟降低30%

消融实验

温度参数影响

  • 性能随温度呈凹函数关系
  • 最优温度因任务而异
  • 过高温度引入过多噪声,损害性能

缓存机制必要性

  • 无缓存时延迟呈指数增长
  • Clean Cache使RoE具备实用性

相关工作

推理时缩放方法分类

  1. 序列缩放: CoT, Tree-of-Thoughts等,通过更长推理链提升性能
  2. 并行缩放: Self-Consistency, 多路径生成+投票聚合
  3. 超并行缩放: 本文提出的新范式,在token级别多样化计算

与现有工作的区别

  • 无需训练: 相比需要特殊预训练的可变深度架构(Geiping et al., 2025)
  • MoE特化: 专门针对MoE架构的专家多样性利用
  • token级增强: 不同于序列级的现有方法

结论与讨论

主要结论

  1. 超并行缩放为推理时性能提升提供了新的有效途径
  2. RoE成功实现了MoE模型的无训练性能增强
  3. 通过巧妙的工程优化,使方法具备实用性
  4. 在效率方面优于简单的模型缩放

局限性

  1. 优化成本: 需要针对每个任务调优温度参数
  2. 改进幅度: 对于已接近饱和的强模型,提升空间有限
  3. 评估指标: 困惑度与生成准确率存在差距,影响数学任务的优化效果
  4. 适用范围: 目前仅适用于MoE架构

未来方向

作者提出四个研究方向:

  1. 泛化应用: 扩展到视觉、音频等非MoE模型
  2. 高级噪声注入: 自适应或输入条件的噪声策略
  3. 自适应计算: 根据token难度动态调整计算预算
  4. RoE感知训练: 在预训练中集成随机路由

深度评价

优点

  1. 概念创新: 超并行缩放概念新颖,为推理时优化开辟新方向
  2. 工程优化: Clean Cache等技术使方法从理论走向实用
  3. 实验全面: 多模型、多任务、多维度评估,结果可信
  4. 效率优势: 相比模型缩放更高效的性能提升路径

不足

  1. 理论分析不足: 缺乏对为什么专家多样性能提升性能的深入理论解释
  2. 超参敏感: 温度参数需要大量调优,增加使用成本
  3. 改进有限: 在强基线上的提升幅度相对较小
  4. 架构依赖: 仅适用于MoE模型,限制了适用范围

影响力

学术价值

  • 提出新的推理范式,可能启发更多相关研究
  • 为MoE模型的高效利用提供新思路

实用价值

  • 无需重训练即可提升现有MoE模型性能
  • 在计算受限环境下提供性能-效率权衡新选择

可复现性

  • 方法描述清晰,实现细节充分
  • 基于开源模型,便于复现验证

适用场景

  1. 计算受限环境: 相比部署更大模型,RoE提供更经济的性能提升
  2. 开放式生成: 相比并行缩放方法,RoE适用于无标准答案的任务
  3. 实时应用: 通过调节样本数量灵活控制性能-延迟权衡
  4. MoE模型优化: 为现有MoE部署提供即插即用的增强方案

参考文献

论文引用了该领域的重要工作,包括:

  • Wei et al. (2022): Chain-of-Thought推理
  • Wang et al. (2022): Self-Consistency方法
  • Shazeer et al. (2017): MoE架构基础
  • Kaplan et al. (2020): 神经语言模型缩放定律

总体评价: 这是一篇技术创新与工程实现并重的优秀论文。虽然在理论深度和改进幅度方面存在一定局限,但其提出的超并行缩放概念具有重要的学术价值和实用意义,为推理时优化领域贡献了新的思路和有效方法。