2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

academic

MoE는 생각보다 강합니다: RoE를 통한 초병렬 추론 스케일링

기본 정보

논문 ID: 2509.17238
제목: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
저자: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
분류: cs.AI, cs.CL, cs.LG
발표 상태: 사전인쇄본. 검토 중
논문 링크: https://arxiv.org/abs/2509.17238v2

초록

본 논문은 토큰 수준에서 여러 출력 제안을 계산하고 집계하여 예측 품질을 향상시키는 초병렬 스케일링(hyper-parallel scaling)이라는 새로운 추론 패러다임을 제안합니다. 구체적인 구현은 전문가 명부(Roster of Experts, RoE) 방법으로, 단일 MoE 모델을 동적 MoE 앙상블로 변환하는 훈련 없는 추론 알고리즘입니다. RoE는 전문가 라우팅 메커니즘에 제어된 무작위성을 주입하여 각 토큰에 대해 여러 개의 서로 다른 전문가를 샘플링하고 그 출력을 집계하여 더 정확한 최종 예측을 얻습니다. 효율적인 배치 처리 전략과 전문화된 KV 캐시 메커니즘을 통해 RoE는 7B MoE 모델이 10.5B MoE 모델의 성능을 달성하도록 하면서 추론 계산량을 30% 감소시킵니다.

연구 배경 및 동기

문제 정의

기존의 추론 시간 스케일링 방법은 주로 두 가지로 분류됩니다:

순차 스케일링(Sequential Scaling): 사고의 연쇄(Chain-of-Thought)와 같이 더 길고 구조화된 출력을 생성하여 성능을 향상시킵니다
병렬 스케일링(Parallel Scaling): 자기 일관성(Self-Consistency)과 같이 여러 개의 독립적인 시퀀스를 생성하고 결과를 집계합니다

연구 동기

기존 방법의 한계:

순차 스케일링은 추가 생성 단계가 필요하여 지연 시간을 증가시킵니다
병렬 스케일링의 적용 범위가 제한적이며, 주로 명확한 답변이 있는 작업에 적용됩니다
토큰 수준에서 모델의 내재적 예측 능력을 향상시키는 방법이 부족합니다

핵심 통찰

저자는 핵심 질문을 제시합니다: 추론 시간에 더 많은 계산을 할당하여 모델의 내재적 다음 토큰 예측 능력을 향상시킬 수 있을까? 이는 모델 내부 계산 경로를 다양화하여 각 토큰의 생성 품질을 향상시키는 초병렬 스케일링의 개념으로 이어집니다.

핵심 기여

초병렬 스케일링 패러다임 제시: 토큰 수준에서 예측 품질을 향상시키는 새로운 추론 프레임워크로, 기존 시퀀스 수준 방법과 직교 보완적입니다
RoE 알고리즘 설계: 제어된 무작위 라우팅을 통해 동적 전문가 앙상블을 구현하는 훈련 없는 MoE 모델 향상 방법
효율적인 추론 전략 개발: 배치 처리 최적화 및 Clean Cache 메커니즘을 포함하여 계산 및 메모리 오버헤드를 대폭 감소시킵니다
성능 향상의 유의성 검증: 여러 벤치마크에서 RoE의 효과를 입증하여 더 효율적인 성능-계산 트레이드오프를 달성합니다

방법 상세 설명

작업 정의

사전 학습된 MoE 모델이 주어졌을 때, RoE는 모델 매개변수를 수정하거나 추가 훈련 없이 전문가 선택을 다양화하여 각 토큰의 예측 품질을 향상시키는 것을 목표로 합니다.

핵심 알고리즘: Gumbel-Top-K 라우팅

표준 MoE 라우팅: 라우팅 로짓이 가장 높은 k개의 전문가를 결정론적으로 선택합니다 RoE 라우팅: Gumbel 노이즈를 통해 제어된 무작위성을 도입합니다:

Indices = TopK(R + τ·G, k)

여기서:

R ∈ R^E는 E개 전문가의 라우팅 로짓입니다
G는 Gumbel(0,1) 분포의 독립동일분포 샘플입니다
τ는 무작위성 정도를 제어하는 온도 매개변수입니다

모델 아키텍처

RoE의 작업 흐름은 다음과 같습니다:

다중 경로 생성: 단일 입력 토큰에 대해 서로 다른 무작위 시드를 통해 n개의 서로 다른 전문가 선택 경로를 생성합니다
병렬 계산: n개의 경로를 배치로 병렬 처리합니다
결과 집계: n개의 출력 로짓을 확률 평균을 통해 집계하여 최종 예측을 얻습니다

기술 혁신 포인트

1. 온도 매개변수 최적화

계층별 온도: τ = {τᵢ}ᵢ∈L_MoE, 각 계층을 독립적으로 설정합니다
검색 전략: 베이지안 최적화를 위해 트리 구조 파젠 추정기(Tree-structured Parzen Estimator, TPE)를 사용합니다
검색 공간 가지치기:
- 중간 계층에만 RoE를 적용합니다 (첫 번째 및 마지막 계층은 τ=0으로 설정)
- 온도 범위를 0, 0.5로 제한합니다

2. Clean Cache 메커니즘

문제: 순진한 구현은 n개의 독립적인 KV 캐시를 유지해야 하므로 메모리 오버헤드가 큽니다 해결책:

첫 번째 샘플(배치 인덱스 0)은 결정론적 라우팅(τ=0)을 "clean" 경로로 사용합니다
모든 샘플이 clean 경로의 KV 캐시를 공유합니다
현재 토큰에만 무작위 라우팅을 적용하고, 과거는 일관성 있게 유지됩니다

3. 배치 처리 최적화

현대 GPU의 병렬 처리 능력을 활용하여 n개의 샘플을 단일 배치로 처리하여 벽시계 시간을 크게 단축합니다.

실험 설정

데이터셋

테스트는 세 가지 영역을 포함합니다:

수학 추론: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
상식 추론: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
코드 생성: HumanEval, HumanEvalPlus

모델

OLMoE-1B-7B-Instruct
Mixtral-8x7B-Instruct-v0.1
GPT-OSS-20B

평가 지표

수학 및 상식 작업: 정확 일치 정확도
코드 작업: pass@1 정확도
효율성 평가: 지연 시간, 메모리 사용량, 전력 소비

구현 세부 사항

하드웨어: NVIDIA A100 80GB GPU
디코딩 전략: 탐욕 디코딩 (다른 전략의 간섭 제외)
집계 방식: 확률 평균
통계: 5개 무작위 시드 평균

실험 결과

주요 결과

성능 향상이 광범위하고 유의미함:

OLMoE 모델이 최대 향상을 달성하며, 거의 모든 작업에서 개선됩니다
Mixtral과 GPT-OSS도 대부분의 작업에서 향상을 달성합니다
코드 생성과 같은 개방형 작업도 이점을 얻습니다

구체적인 수치 예시(OLMoE-1B-7B):

GSM8K: 64.1% → 64.5%
SVAMP: 68.2% → 69.5%
ARC-Easy: 68.9% → 71.3%
HumanEval: 31.1% → 31.5%

효율성 분석

계산 오버헤드 제어 가능:

64개 샘플일 때 메모리 증가는 12%에 불과합니다
전력 소비 증가 20%
Clean Cache 메커니즘이 지수 수준의 메모리 증가를 방지합니다

모델 스케일링과의 비교:

RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B 성능
메모리 25% 감소, 지연 시간 30% 단축

소거 실험

온도 매개변수의 영향:

성능은 온도에 대해 오목 함수 관계를 보입니다
최적 온도는 작업에 따라 다릅니다
과도한 온도는 과도한 노이즈를 도입하여 성능을 손상시킵니다

캐시 메커니즘의 필요성:

캐시 없을 때 지연 시간이 지수적으로 증가합니다
Clean Cache가 RoE를 실용적으로 만듭니다

결론 및 토론

주요 결론

초병렬 스케일링은 추론 시간 성능 향상을 위한 새로운 효과적인 경로를 제공합니다
RoE는 MoE 모델의 훈련 없는 성능 향상을 성공적으로 구현합니다
영리한 공학적 최적화를 통해 방법이 실용적입니다
효율성 측면에서 단순 모델 스케일링을 능가합니다

한계

최적화 비용: 각 작업에 대해 온도 매개변수를 조정해야 합니다
개선 폭: 이미 포화 상태에 가까운 강력한 모델의 경우 개선 여지가 제한적입니다
평가 지표: 혼란도와 생성 정확도 간의 차이로 인해 수학 작업의 최적화 효과에 영향을 미칩니다
적용 범위: 현재 MoE 아키텍처에만 적용됩니다

향후 방향

저자는 네 가지 연구 방향을 제시합니다:

일반화 적용: 시각, 오디오 등 비MoE 모델로 확장
고급 노이즈 주입: 적응형 또는 입력 조건부 노이즈 전략
자적응 계산: 토큰 난이도에 따라 동적으로 계산 예산 조정
RoE 인식 훈련: 사전 학습에 무작위 라우팅 통합

심층 평가

장점

개념 혁신: 초병렬 스케일링 개념이 새로우며, 추론 시간 최적화를 위한 새로운 방향을 개척합니다
공학적 최적화: Clean Cache 등의 기술이 방법을 이론에서 실무로 전환합니다
포괄적인 실험: 다중 모델, 다중 작업, 다차원 평가로 결과의 신뢰성이 높습니다
효율성 우위: 모델 스케일링에 비해 더 효율적인 성능 향상 경로를 제공합니다

부족한 점

이론적 분석 부족: 전문가 다양성이 왜 성능을 향상시키는지에 대한 심층적인 이론적 설명이 부족합니다
초매개변수 민감성: 온도 매개변수가 광범위한 조정이 필요하여 사용 비용을 증가시킵니다
제한된 개선: 강력한 기준선에서의 향상 폭이 상대적으로 작습니다
아키텍처 의존성: MoE 모델에만 적용되어 적용 범위가 제한됩니다

영향력

학술적 가치:

새로운 추론 패러다임을 제시하여 관련 연구에 영감을 줄 수 있습니다
MoE 모델의 효율적 활용을 위한 새로운 사고를 제공합니다

실용적 가치:

재훈련 없이 기존 MoE 모델의 성능을 향상시킵니다
계산 제약 환경에서 성능-효율성 트레이드오프의 새로운 선택지를 제공합니다

재현성:

방법 설명이 명확하고 구현 세부 사항이 충분합니다
공개 모델을 기반으로 하여 재현 검증이 용이합니다

적용 시나리오

계산 제약 환경: 더 큰 모델을 배포하는 대신 RoE는 더 경제적인 성능 향상을 제공합니다
개방형 생성: 병렬 스케일링 방법과 달리 RoE는 표준 답변이 없는 작업에 적용됩니다
실시간 애플리케이션: 샘플 수를 조정하여 성능-지연 시간 트레이드오프를 유연하게 제어합니다
MoE 모델 최적화: 기존 MoE 배포를 위한 플러그 앤 플레이 향상 방안을 제공합니다

참고 문헌

논문은 이 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:

Wei et al. (2022): 사고의 연쇄 추론
Wang et al. (2022): 자기 일관성 방법
Shazeer et al. (2017): MoE 아키텍처 기초
Kaplan et al. (2020): 신경 언어 모델 스케일링 법칙

종합 평가: 이는 기술 혁신과 공학적 구현을 모두 중시하는 우수한 논문입니다. 이론적 깊이와 개선 폭 측면에서 일정한 한계가 있지만, 제시된 초병렬 스케일링 개념은 중요한 학술적 가치와 실용적 의미를 가지며, 추론 시간 최적화 분야에 새로운 사고와 효과적인 방법을 기여합니다.