MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
본 논문은 토큰 수준에서 여러 출력 제안을 계산하고 집계하여 예측 품질을 향상시키는 초병렬 스케일링(hyper-parallel scaling)이라는 새로운 추론 패러다임을 제안합니다. 구체적인 구현은 전문가 명부(Roster of Experts, RoE) 방법으로, 단일 MoE 모델을 동적 MoE 앙상블로 변환하는 훈련 없는 추론 알고리즘입니다. RoE는 전문가 라우팅 메커니즘에 제어된 무작위성을 주입하여 각 토큰에 대해 여러 개의 서로 다른 전문가를 샘플링하고 그 출력을 집계하여 더 정확한 최종 예측을 얻습니다. 효율적인 배치 처리 전략과 전문화된 KV 캐시 메커니즘을 통해 RoE는 7B MoE 모델이 10.5B MoE 모델의 성능을 달성하도록 하면서 추론 계산량을 30% 감소시킵니다.
종합 평가: 이는 기술 혁신과 공학적 구현을 모두 중시하는 우수한 논문입니다. 이론적 깊이와 개선 폭 측면에서 일정한 한계가 있지만, 제시된 초병렬 스케일링 개념은 중요한 학술적 가치와 실용적 의미를 가지며, 추론 시간 최적화 분야에 새로운 사고와 효과적인 방법을 기여합니다.