The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
āĻĒā§āĻĒāĻžāϰ āĻāĻāĻĄāĻŋ : 2509.17238āĻļāĻŋāϰā§āύāĻžāĻŽ : MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoEāϞā§āĻāĻ : Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)āĻļā§āϰā§āĻŖā§āĻŦāĻŋāĻāĻžāĻ : cs.AI, cs.CL, cs.LGāĻĒā§āϰāĻāĻžāĻļāύāĻž āĻ
āĻŦāϏā§āĻĨāĻž : āĻĒā§āϰāĻŋ-āĻĒā§āϰāĻŋāύā§āĻāĨ¤ āĻĒāϰā§āϝāĻžāϞā§āĻāύāĻžāϧā§āύāĻĒā§āĻĒāĻžāϰ āϞāĻŋāĻā§āĻ : https://arxiv.org/abs/2509.17238v2 āĻāĻ āĻĒā§āĻĒāĻžāϰāĻāĻŋ āĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ (hyper-parallel scaling) āύāĻžāĻŽāĻ āĻāĻāĻāĻŋ āύāϤā§āύ āĻ
āύā§āĻŽāĻžāύ āĻĒā§āϰāĻĻāĻžāύ āĻĒā§āϝāĻžāϰāĻžāĻĄāĻžāĻāĻŽ āĻĒā§āϰāϏā§āϤāĻžāĻŦ āĻāϰā§, āϝāĻž āĻā§āĻā§āύ āϏā§āϤāϰ⧠āĻāĻāĻžāϧāĻŋāĻ āĻāĻāĻāĻĒā§āĻ āĻĒā§āϰāϏā§āϤāĻžāĻŦ āĻāĻŖāύāĻž āĻāĻŦāĻ āϏāĻŽāύā§āĻŦāϝāĻŧ āĻāϰ⧠āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏā§āϰ āĻā§āĻŖāĻŽāĻžāύ āĻāύā§āύāϤ āĻāϰā§āĨ¤ āύāĻŋāϰā§āĻĻāĻŋāώā§āĻ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύ āĻšāϞ āĻŦāĻŋāĻļā§āώāĻā§āĻ āύāĻžāĻŽāĻāϰāĻŖ (Roster of Experts, RoE) āĻĒāĻĻā§āϧāϤāĻŋ, āϝāĻž āĻāĻāĻāĻŋ āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ-āĻŽā§āĻā§āϤ āĻ
āύā§āĻŽāĻžāύ āĻ
ā§āϝāĻžāϞāĻāϰāĻŋāĻĻāĻŽ āϝāĻž āĻāĻāĻāĻŋ āĻāĻāĻ MoE āĻŽāĻĄā§āϞāĻā§ āĻāĻāĻāĻŋ āĻāϤāĻŋāĻļā§āϞ MoE āϏāĻŽāώā§āĻāĻŋāϤ⧠āϰā§āĻĒāĻžāύā§āϤāϰāĻŋāϤ āĻāϰā§āĨ¤ RoE āĻŦāĻŋāĻļā§āώāĻā§āĻ āϰā§āĻāĻŋāĻ āĻŽā§āĻāĻžāύāĻŋāĻāĻŽā§ āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŋāϤ āϰā§āϝāĻžāύā§āĻĄāĻŽāύā§āϏ āĻĒā§āϰāĻŦā§āĻļ āĻāϰāĻŋāϝāĻŧā§, āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻā§āĻā§āύā§āϰ āĻāύā§āϝ āĻāĻāĻžāϧāĻŋāĻ āĻāĻŋāύā§āύ āĻŦāĻŋāĻļā§āώāĻā§āĻ āύāĻŽā§āύāĻž āĻāϰ⧠āĻāĻŦāĻ āĻāϰāĻ āϏāĻ āĻŋāĻ āĻā§āĻĄāĻŧāĻžāύā§āϤ āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏā§āϰ āĻāύā§āϝ āϤāĻžāĻĻā§āϰ āĻāĻāĻāĻĒā§āĻ āϏāĻŽāύā§āĻŦāϝāĻŧ āĻāϰā§āĨ¤ āĻĻāĻā§āώ āĻŦā§āϝāĻžāĻ āĻĒā§āϰāϏā§āϏāĻŋāĻ āĻā§āĻļāϞ āĻāĻŦāĻ āĻŦāĻŋāĻļā§āώāĻžāϝāĻŧāĻŋāϤ KV āĻā§āϝāĻžāĻļ āĻŽā§āĻāĻžāύāĻŋāĻāĻŽā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§, RoE 7B MoE āĻŽāĻĄā§āϞāĻā§ 10.5B MoE āĻŽāĻĄā§āϞā§āϰ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻ
āϰā§āĻāύ āĻāϰāϤ⧠āϏāĻā§āώāĻŽ āĻāϰā§, āϝāĻāύ āĻ
āύā§āĻŽāĻžāύ āĻāĻŖāύāĻž 30% āĻšā§āϰāĻžāϏ āĻĒāĻžāϝāĻŧāĨ¤
āĻāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§ āĻ
āύā§āĻŽāĻžāύ-āϏāĻŽāϝāĻŧ āϏā§āĻā§āϞāĻŋāĻ āĻĒāĻĻā§āϧāϤāĻŋ āĻĒā§āϰāϧāĻžāύāϤ āĻĻā§āĻāĻŋ āĻŦāĻŋāĻāĻžāĻā§ āĻŦāĻŋāĻāĻā§āϤ:
āĻā§āϰāĻŽāĻŋāĻ āϏā§āĻā§āϞāĻŋāĻ (Sequential Scaling) : āϝā§āĻŽāύ āĻāĻŋāύā§āϤāĻžāϰ āĻļā§āĻā§āĻāϞ (Chain-of-Thought), āĻĻā§āϰā§āĻāϤāϰ, āĻāϰāĻ āĻāĻžāĻ āĻžāĻŽā§āĻāϤ āĻāĻāĻāĻĒā§āĻ āϤā§āϰāĻŋ āĻāϰ⧠āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰā§āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ (Parallel Scaling) : āϝā§āĻŽāύ āϏā§āĻŦ-āϏāĻžāĻŽāĻā§āĻāϏā§āϝ (Self-Consistency), āĻāĻāĻžāϧāĻŋāĻ āϏā§āĻŦāĻžāϧā§āύ āĻā§āϰāĻŽ āϤā§āϰāĻŋ āĻāϰ⧠āĻāĻŦāĻ āĻĢāϞāĻžāĻĢāϞ āϏāĻŽāύā§āĻŦāϝāĻŧ āĻāϰā§āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāĻā§āϞāĻŋāϰ āύāĻŋāĻŽā§āύāϞāĻŋāĻāĻŋāϤ āϏā§āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āϰāϝāĻŧā§āĻā§:
āĻā§āϰāĻŽāĻŋāĻ āϏā§āĻā§āϞāĻŋāĻ āĻ
āϤāĻŋāϰāĻŋāĻā§āϤ āĻĒā§āϰāĻāύā§āĻŽ āĻĒāĻĻāĻā§āώā§āĻĒā§āϰ āĻĒā§āϰāϝāĻŧā§āĻāύ, āĻŦāĻŋāϞāĻŽā§āĻŦ āĻŦā§āĻĻā§āϧāĻŋ āĻāϰ⧠āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āϏā§āĻŽāĻŋāϤ āĻĒā§āϰāϝāĻŧā§āĻāϝā§āĻā§āϝāϤāĻž, āĻĒā§āϰāϧāĻžāύāϤ āϏā§āĻĒāώā§āĻ āĻāϤā§āϤāϰ āϏāĻš āĻāĻžāĻā§āϰ āĻāύā§āϝ āĻā§āĻā§āύ āϏā§āϤāϰ⧠āĻŽāĻĄā§āϞā§āϰ āĻ
āύā§āϤāϰā§āύāĻŋāĻšāĻŋāϤ āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏ āĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰāĻžāϰ āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻ
āĻāĻžāĻŦ āϞā§āĻāĻ āĻāĻāĻāĻŋ āĻŽā§āϞ āĻĒā§āϰāĻļā§āύ āĻāϤā§āĻĨāĻžāĻĒāύ āĻāϰā§āύ: āĻ
āύā§āĻŽāĻžāύ āϏāĻŽāϝāĻŧā§ āĻāϰāĻ āĻŦā§āĻļāĻŋ āĻāĻŖāύāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻāϰ⧠āĻŽāĻĄā§āϞā§āϰ āĻ
āύā§āϤāϰā§āύāĻŋāĻšāĻŋāϤ āĻĒāϰāĻŦāϰā§āϤā§-āĻā§āĻā§āύ āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏ āĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰāĻž āϝāĻžāϝāĻŧ āĻāĻŋ? āĻāĻāĻŋ āĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āϧāĻžāϰāĻŖāĻžāϰ āĻāύā§āĻŽ āĻĻā§āϝāĻŧ, āĻ
āϰā§āĻĨāĻžā§ āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻā§āĻā§āύā§āϰ āĻĒā§āϰāĻāύā§āĻŽā§āϰ āĻā§āĻŖāĻŽāĻžāύ āĻāύā§āύāϤ āĻāϰāϤ⧠āĻŽāĻĄā§āϞ-āĻ
āĻā§āϝāύā§āϤāϰā§āĻŖ āĻāĻŖāύāĻž āĻĒāĻĨ āĻŦā§āĻāĻŋāϤā§āϰā§āϝāĻŽāϝāĻŧ āĻāϰāĻžāĨ¤
āĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āĻĒā§āϝāĻžāϰāĻžāĻĄāĻžāĻāĻŽ āĻĒā§āϰāϏā§āϤāĻžāĻŦ : āĻā§āĻā§āύ āϏā§āϤāϰ⧠āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏā§āϰ āĻā§āĻŖāĻŽāĻžāύ āĻāύā§āύāϤ āĻāϰāĻžāϰ āĻāύā§āϝ āĻāĻāĻāĻŋ āύāϤā§āύ āĻ
āύā§āĻŽāĻžāύ āĻāĻžāĻ āĻžāĻŽā§, āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻā§āϰāĻŽ-āϏā§āϤāϰā§āϰ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏāĻžāĻĨā§ āĻ
āϰā§āĻĨā§āĻā§āύāĻžāϞ āĻāĻŦāĻ āĻĒāϰāĻŋāĻĒā§āϰāĻRoE āĻ
ā§āϝāĻžāϞāĻāϰāĻŋāĻĻāĻŽ āĻĄāĻŋāĻāĻžāĻāύ : āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ-āĻŽā§āĻā§āϤ MoE āĻŽāĻĄā§āϞ āĻŦāϰā§āϧāύ āĻĒāĻĻā§āϧāϤāĻŋ, āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŋāϤ āϰā§āϝāĻžāύā§āĻĄāĻŽ āϰā§āĻāĻŋāĻāϝāĻŧā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ āĻāϤāĻŋāĻļā§āϞ āĻŦāĻŋāĻļā§āώāĻā§āĻ āϏāĻŽāώā§āĻāĻŋ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύāĻĻāĻā§āώ āĻ
āύā§āĻŽāĻžāύ āĻā§āĻļāϞ āĻāύā§āύāϝāĻŧāύ : āĻŦā§āϝāĻžāĻ āĻĒā§āϰāϏā§āϏāĻŋāĻ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ āĻāĻŦāĻ Clean Cache āĻŽā§āĻāĻžāύāĻŋāĻāĻŽ āϏāĻš, āĻāĻŖāύāĻž āĻāĻŦāĻ āĻŽā§āĻŽāϰāĻŋ āĻāĻāĻžāϰāĻšā§āĻĄ āĻāϞā§āϞā§āĻāϝā§āĻā§āϝāĻāĻžāĻŦā§ āĻšā§āϰāĻžāϏ āĻāϰā§āĻāϞā§āϞā§āĻāϝā§āĻā§āϝ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤāĻŋ āϝāĻžāĻāĻžāĻ : āĻāĻāĻžāϧāĻŋāĻ āĻŦā§āĻā§āĻāĻŽāĻžāϰā§āĻ āĻā§āĻĄāĻŧā§ RoE āĻāϰ āĻāĻžāϰā§āϝāĻāĻžāϰāĻŋāϤāĻž āĻĒā§āϰāĻŽāĻžāĻŖ āĻāϰā§, āĻāϰāĻ āĻĻāĻā§āώ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž-āĻāĻŖāύāĻž āĻā§āϰā§āĻĄ-āĻ
āĻĢ āĻ
āϰā§āĻāύ āĻāϰā§āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŋāϤ MoE āĻŽāĻĄā§āϞ āĻĻā§āĻāϝāĻŧāĻž, RoE āĻŽāĻĄā§āϞ āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋ āĻĒāϰāĻŋāĻŦāϰā§āϤāύ āĻŦāĻž āĻ
āϤāĻŋāϰāĻŋāĻā§āϤ āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ āĻāĻžāĻĄāĻŧāĻžāĻ āĻŦāĻŋāĻļā§āώāĻā§āĻ āύāĻŋāϰā§āĻŦāĻžāĻāύ āĻŦā§āĻāĻŋāϤā§āϰā§āϝāĻŽāϝāĻŧ āĻāϰ⧠āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻā§āĻā§āύā§āϰ āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏā§āϰ āĻā§āĻŖāĻŽāĻžāύ āĻāύā§āύāϤ āĻāϰāĻžāϰ āϞāĻā§āώā§āϝ āϰāĻžāĻā§āĨ¤
āĻŽāĻžāύ MoE āϰā§āĻāĻŋāĻ : āϰā§āĻāĻŋāĻ āϞāĻāĻŋāĻā§āϰ āϏāϰā§āĻŦā§āĻā§āĻ k āĻŦāĻŋāĻļā§āώāĻā§āĻ āύāĻŋāϰā§āϧāĻžāϰāĻŖā§āϝāĻŧāĻāĻžāĻŦā§ āύāĻŋāϰā§āĻŦāĻžāĻāύ āĻāϰā§
RoE āϰā§āĻāĻŋāĻ : Gumbel āĻļāĻŦā§āĻĻā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŋāϤ āϰā§āϝāĻžāύā§āĻĄāĻŽāύā§āϏ āĻĒā§āϰāĻŦāϰā§āϤāύ āĻāϰā§:
Indices = TopK(R + ΡG, k)
āϝā§āĻāĻžāύā§:
R â R^E āĻšāϞ E āĻŦāĻŋāĻļā§āώāĻā§āĻā§āϰ āϰā§āĻāĻŋāĻ āϞāĻāĻŋāĻ G āĻšāϞ Gumbel(0,1) āĻŦāĻŋāϤāϰāĻŖā§āϰ i.i.d. āύāĻŽā§āύāĻž Ī āĻšāϞ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāĻāĻžāϰ, āϰā§āϝāĻžāύā§āĻĄāĻŽāύā§āϏ āĻŽāĻžāϤā§āϰāĻž āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŖ āĻāϰ⧠RoE āĻāϰ āĻāϰā§āĻŽāĻĒā§āϰāĻŦāĻžāĻš āύāĻŋāĻŽā§āύāϰā§āĻĒ:
āĻŦāĻšā§-āĻĒāĻĨ āĻĒā§āϰāĻāύā§āĻŽ : āĻāĻāĻ āĻāύāĻĒā§āĻ āĻā§āĻā§āύā§āϰ āĻāύā§āϝ, āĻŦāĻŋāĻāĻŋāύā§āύ āϰā§āϝāĻžāύā§āĻĄāĻŽ āĻŦā§āĻā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ n āĻāĻŋ āĻāĻŋāύā§āύ āĻŦāĻŋāĻļā§āώāĻā§āĻ āύāĻŋāϰā§āĻŦāĻžāĻāύ āĻĒāĻĨ āϤā§āϰāĻŋ āĻāϰā§āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āĻāĻŖāύāĻž : n āĻāĻŋ āĻĒāĻĨāĻā§ āĻŦā§āϝāĻžāĻ āĻšāĻŋāϏāĻžāĻŦā§ āϏāĻŽāĻžāύā§āϤāϰāĻžāϞāĻāĻžāĻŦā§ āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻž āĻāϰā§āĻĢāϞāĻžāĻĢāϞ āϏāĻŽāύā§āĻŦāϝāĻŧ : āĻā§āĻĄāĻŧāĻžāύā§āϤ āĻĒā§āϰā§āĻŦāĻžāĻāĻžāϏ āĻĒā§āϤ⧠n āĻāĻŋ āĻāĻāĻāĻĒā§āĻ āϞāĻāĻŋāĻ āϏāĻŽā§āĻāĻžāĻŦā§āϝāϤāĻž āĻāĻĄāĻŧā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ āϏāĻŽāύā§āĻŦāϝāĻŧ āĻāϰā§āϏā§āϤāϰ-āύāĻŋāϰā§āĻĻāĻŋāώā§āĻ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž : Ī = {Īáĩĸ}áĩĸâL_MoE, āĻĒā§āϰāϤāĻŋāĻāĻŋ āϏā§āϤāϰ āϏā§āĻŦāĻžāϧā§āύāĻāĻžāĻŦā§ āϏā§āĻ āĻāϰāĻžāĻ
āύā§āϏāύā§āϧāĻžāύ āĻā§āĻļāϞ : āĻŦā§āϝāĻŧā§āϏāĻŋāϝāĻŧāĻžāύ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύā§āϰ āĻāύā§āϝ Tree-structured Parzen Estimator (TPE) āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰā§āĻ
āύā§āϏāύā§āϧāĻžāύ āϏā§āĻĨāĻžāύ āĻāĻžāĻāĻāĻžāĻ :
āĻļā§āϧā§āĻŽāĻžāϤā§āϰ āĻŽāϧā§āϝ āϏā§āϤāϰ⧠RoE āĻĒā§āϰāϝāĻŧā§āĻ āĻāϰ⧠(āĻĒā§āϰāĻĨāĻŽ āĻāĻŦāĻ āĻļā§āώ āϏā§āϤāϰ Ī=0 āϏā§āĻ āĻāϰā§) āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻĒāϰāĻŋāϏā§āĻŽāĻž 0, 0.5 āĻ āϏā§āĻŽāĻžāĻŦāĻĻā§āϧ āϏāĻŽāϏā§āϝāĻž : āύāĻŋāώā§āĻĒāĻžāĻĒ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύ n āĻāĻŋ āϏā§āĻŦāĻžāϧā§āύ KV āĻā§āϝāĻžāĻļ āĻŦāĻāĻžāϝāĻŧ āϰāĻžāĻāĻžāϰ āĻĒā§āϰāϝāĻŧā§āĻāύ, āĻŦāĻŋāĻļāĻžāϞ āĻŽā§āĻŽāϰāĻŋ āĻāĻāĻžāϰāĻšā§āĻĄ
āϏāĻŽāĻžāϧāĻžāύ :
āĻĒā§āϰāĻĨāĻŽ āύāĻŽā§āύāĻž (āĻŦā§āϝāĻžāĻ āĻāύā§āĻĄā§āĻā§āϏ 0) āύāĻŋāϰā§āϧāĻžāϰāĻŖā§āϝāĻŧ āϰā§āĻāĻŋāĻ (Ī=0) āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰ⧠"āĻĒāϰāĻŋāώā§āĻāĻžāϰ" āĻĒāĻĨ āĻšāĻŋāϏāĻžāĻŦā§ āϏāĻŽāϏā§āϤ āύāĻŽā§āύāĻž āĻĒāϰāĻŋāώā§āĻāĻžāϰ āĻĒāĻĨā§āϰ KV āĻā§āϝāĻžāĻļ āĻļā§āϝāĻŧāĻžāϰ āĻāϰ⧠āĻļā§āϧā§āĻŽāĻžāϤā§āϰ āĻŦāϰā§āϤāĻŽāĻžāύ āĻā§āĻā§āύ āϰā§āϝāĻžāύā§āĻĄāĻŽ āϰā§āĻāĻŋāĻ āĻĒā§āϰāϝāĻŧā§āĻ āĻāϰā§, āĻāϤāĻŋāĻšāĻžāϏ āϏāĻžāĻŽāĻā§āĻāϏā§āϝāĻĒā§āϰā§āĻŖ āĻĨāĻžāĻā§ āĻāϧā§āύāĻŋāĻ GPU āĻāϰ āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āĻĒā§āϰāϏā§āϏāĻŋāĻ āĻā§āώāĻŽāϤāĻž āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰā§, n āĻāĻŋ āύāĻŽā§āύāĻž āĻāĻāĻāĻŋ āĻāĻāĻ āĻŦā§āϝāĻžāĻ āĻšāĻŋāϏāĻžāĻŦā§ āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻž āĻāϰā§, wall-clock āϏāĻŽāϝāĻŧ āĻāϞā§āϞā§āĻāϝā§āĻā§āϝāĻāĻžāĻŦā§ āĻšā§āϰāĻžāϏ āĻāϰā§āĨ¤
āĻĒāϰā§āĻā§āώāĻž āϤāĻŋāύāĻāĻŋ āĻĄā§āĻŽā§āύ āĻā§āĻĄāĻŧā§ āĻŦāĻŋāϏā§āϤā§āϤ:
āĻāĻŖāĻŋāϤ āϝā§āĻā§āϤāĻŋ : GSM8K, SVAMP, AddSub, SingleEQ, MultiArithāϏāĻžāϧāĻžāϰāĻŖ āĻā§āĻāĻžāύ āϝā§āĻā§āϤāĻŋ : ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, HellaswagāĻā§āĻĄ āĻĒā§āϰāĻāύā§āĻŽ : HumanEval, HumanEvalPlusOLMoE-1B-7B-Instruct Mixtral-8x7B-Instruct-v0.1 GPT-OSS-20B āĻāĻŖāĻŋāϤ āĻāĻŦāĻ āϏāĻžāϧāĻžāϰāĻŖ āĻā§āĻāĻžāύ āĻāĻžāĻ: āϏāĻ āĻŋāĻ āĻŽā§āϝāĻžāĻ āύāĻŋāϰā§āĻā§āϞāϤāĻž āĻā§āĻĄ āĻāĻžāĻ: pass@1 āύāĻŋāϰā§āĻā§āϞāϤāĻž āĻĻāĻā§āώāϤāĻž āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ: āĻŦāĻŋāϞāĻŽā§āĻŦ, āĻŽā§āĻŽāϰāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ, āĻļāĻā§āϤāĻŋ āĻāϰāĻ āĻšāĻžāϰā§āĻĄāĻāϝāĻŧā§āϝāĻžāϰ: NVIDIA A100 80GB GPU āĻĄāĻŋāĻā§āĻĄāĻŋāĻ āĻā§āĻļāϞ: āϞā§āĻā§ āĻĄāĻŋāĻā§āĻĄāĻŋāĻ (āĻ
āύā§āϝāĻžāύā§āϝ āĻā§āĻļāϞ āĻšāϏā§āϤāĻā§āώā§āĻĒ āĻŦāĻžāĻĻ āĻĻāĻŋāϤā§) āϏāĻŽāύā§āĻŦāϝāĻŧ āĻĒāĻĻā§āϧāϤāĻŋ: āϏāĻŽā§āĻāĻžāĻŦā§āϝāϤāĻž āĻāĻĄāĻŧ āĻĒāϰāĻŋāϏāĻāĻā§āϝāĻžāύ: 5 āĻāĻŋ āϰā§āϝāĻžāύā§āĻĄāĻŽ āĻŦā§āĻ āĻāĻĄāĻŧ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤāĻŋ āϏāϰā§āĻŦāĻāύā§āύ āĻāĻŦāĻ āĻāϞā§āϞā§āĻāϝā§āĻā§āϝ :
OLMoE āĻŽāĻĄā§āϞ āϏāϰā§āĻŦāĻžāϧāĻŋāĻ āĻāύā§āύāϤāĻŋ āĻ
āϰā§āĻāύ āĻāϰā§, āĻĒā§āϰāĻžāϝāĻŧ āϏāĻŽāϏā§āϤ āĻāĻžāĻā§ āĻāύā§āύāϤāĻŋ Mixtral āĻāĻŦāĻ GPT-OSS āĻŦā§āĻļāĻŋāϰāĻāĻžāĻ āĻāĻžāĻā§ āĻāύā§āύāϤāĻŋ āĻ
āϰā§āĻāύ āĻāϰ⧠āĻā§āĻĄ āĻĒā§āϰāĻāύā§āĻŽā§āϰ āĻŽāϤ⧠āĻā§āϞāĻž-āϏāĻŽāĻžāĻĒā§āϤ āĻāĻžāĻāĻ āĻāĻĒāĻā§āϤ āĻšāϝāĻŧ āύāĻŋāϰā§āĻĻāĻŋāώā§āĻ āϏāĻāĻā§āϝāĻžāϰ āĻāĻĻāĻžāĻšāϰāĻŖ (OLMoE-1B-7B):
GSM8K: 64.1% â 64.5% SVAMP: 68.2% â 69.5% ARC-Easy: 68.9% â 71.3% HumanEval: 31.1% â 31.5% āĻāĻŖāύāĻž āĻāĻāĻžāϰāĻšā§āĻĄ āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŖāϝā§āĻā§āϝ :
64 āĻāĻŋ āύāĻŽā§āύāĻžāϝāĻŧ āĻŽā§āĻŽāϰāĻŋ āĻŦā§āĻĻā§āϧāĻŋ āĻŽāĻžāϤā§āϰ 12% āĻļāĻā§āϤāĻŋ āĻāϰāĻ āĻŦā§āĻĻā§āϧāĻŋ 20% Clean Cache āĻŽā§āĻāĻžāύāĻŋāĻāĻŽ āϏā§āĻāĻā§āϝāĻŧ āĻŽā§āĻŽāϰāĻŋ āĻŦā§āĻĻā§āϧāĻŋ āĻāĻĄāĻŧāĻžāϝāĻŧ āĻŽāĻĄā§āϞ āϏā§āĻā§āϞāĻŋāĻāϝāĻŧā§āϰ āϏāĻžāĻĨā§ āϤā§āϞāύāĻž :
RoE(K=32) + OLMoE-7B â OLMoE-10.5B āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻŽā§āĻŽāϰāĻŋ 25% āĻšā§āϰāĻžāϏ, āĻŦāĻŋāϞāĻŽā§āĻŦ 30% āĻšā§āϰāĻžāϏ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāĻāĻžāϰ āĻĒā§āϰāĻāĻžāĻŦ :
āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻžāϰ āϏāĻžāĻĨā§ āĻ
āĻŦāϤāϞ āĻĢāĻžāĻāĻļāύ āϏāĻŽā§āĻĒāϰā§āĻ āϏāϰā§āĻŦā§āϤā§āϤāĻŽ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻāĻžāĻ āĻ
āύā§āϝāĻžāϝāĻŧā§ āĻĒāϰāĻŋāĻŦāϰā§āϤāĻŋāϤ āĻšāϝāĻŧ āĻ
āϤā§āϝāϧāĻŋāĻ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻ
āϤā§āϝāϧāĻŋāĻ āĻļāĻŦā§āĻĻ āĻĒā§āϰāĻŦāϰā§āϤāύ āĻāϰā§, āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻā§āώāϤāĻŋ āĻāϰ⧠āĻā§āϝāĻžāĻļ āĻŽā§āĻāĻžāύāĻŋāĻāĻŽ āĻĒā§āϰāϝāĻŧā§āĻāύā§āϝāĻŧāϤāĻž :
āĻā§āϝāĻžāĻļ āĻāĻžāĻĄāĻŧāĻž āĻŦāĻŋāϞāĻŽā§āĻŦ āϏā§āĻāĻā§āϝāĻŧāĻāĻžāĻŦā§ āĻŦā§āĻĻā§āϧāĻŋ āĻĒāĻžāϝāĻŧ Clean Cache RoE āĻā§ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ āĻāϰ⧠āϤā§āϞ⧠āĻā§āϰāĻŽāĻŋāĻ āϏā§āĻā§āϞāĻŋāĻ : CoT, Tree-of-Thoughts āĻāϤā§āϝāĻžāĻĻāĻŋ, āĻĻā§āϰā§āĻāϤāϰ āϝā§āĻā§āϤāĻŋ āĻļā§āĻā§āĻāϞā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰā§āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ : Self-Consistency, āĻŦāĻšā§-āĻĒāĻĨ āĻĒā§āϰāĻāύā§āĻŽ+āĻā§āĻāĻŋāĻ āϏāĻŽāύā§āĻŦāϝāĻŧāĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ : āĻāĻ āĻĒā§āĻĒāĻžāϰ āĻĻā§āĻŦāĻžāϰāĻž āĻĒā§āϰāϏā§āϤāĻžāĻŦāĻŋāϤ āύāϤā§āύ āĻĒā§āϝāĻžāϰāĻžāĻĄāĻžāĻāĻŽ, āĻā§āĻā§āύ āϏā§āϤāϰ⧠āĻāĻŖāύāĻž āĻŦā§āĻāĻŋāϤā§āϰā§āϝāĻŽāϝāĻŧ āĻāϰā§āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ-āĻŽā§āĻā§āϤ : āĻŦāĻŋāĻļā§āώ āĻĒā§āϰāĻžāĻ-āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ āĻĒā§āϰāϝāĻŧā§āĻāύ āĻāĻŽāύ āĻĒāϰāĻŋāĻŦāϰā§āϤāύāĻļā§āϞ āĻāĻā§āϰāϤāĻž āĻāϰā§āĻāĻŋāĻā§āĻāĻāĻžāϰā§āϰ āϤā§āϞāύāĻžāϝāĻŧ (Geiping et al., 2025)MoE āĻŦāĻŋāĻļā§āώāĻžāϝāĻŧāĻŋāϤ : āĻŦāĻŋāĻļā§āώāĻā§āĻ āĻŦā§āĻāĻŋāϤā§āϰā§āϝ āĻŦā§āϝāĻŦāĻšāĻžāϰā§āϰ āĻāύā§āϝ MoE āĻāϰā§āĻāĻŋāĻā§āĻāĻāĻžāϰ⧠āĻŦāĻŋāĻļā§āώāĻāĻžāĻŦā§ āϞāĻā§āώā§āϝāĻŦāϏā§āϤā§āĻā§āĻā§āύ-āϏā§āϤāϰ āĻŦāϰā§āϧāύ : āĻā§āϰāĻŽ-āϏā§āϤāϰā§āϰ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻĨā§āĻā§ āĻāĻŋāύā§āύāĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āĻ
āύā§āĻŽāĻžāύ-āϏāĻŽāϝāĻŧ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤāĻŋāϰ āĻāύā§āϝ āĻāĻāĻāĻŋ āύāϤā§āύ āĻāĻžāϰā§āϝāĻāϰ āĻĒāĻĨ āĻĒā§āϰāĻĻāĻžāύ āĻāϰ⧠RoE āϏāĻĢāϞāĻāĻžāĻŦā§ MoE āĻŽāĻĄā§āϞā§āϰ āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ-āĻŽā§āĻā§āϤ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻŦāϰā§āϧāύ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύ āĻāϰ⧠āĻāϤā§āϰ āĻĒā§āϰāĻā§āĻļāϞ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§, āĻĒāĻĻā§āϧāϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ āĻšāϝāĻŧā§ āĻāĻ ā§ āĻĻāĻā§āώāϤāĻžāϰ āĻā§āώā§āϤā§āϰ⧠āϏāĻžāϧāĻžāϰāĻŖ āĻŽāĻĄā§āϞ āϏā§āĻā§āϞāĻŋāĻāϝāĻŧā§āϰ āĻā§āϝāĻŧā§ āĻāύā§āύāϤ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ āĻāϰāĻ : āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻāĻžāĻā§āϰ āĻāύā§āϝ āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāĻāĻžāϰ āϏāĻžāĻŽāĻā§āĻāϏā§āϝ āĻĒā§āϰāϝāĻŧā§āĻāύāĻāύā§āύāϤāĻŋ āĻŽāĻžāϤā§āϰāĻž : āĻāϤāĻŋāĻŽāϧā§āϝ⧠āϏāĻāϤā§āĻĒā§āϤāĻŋāϰ āĻāĻžāĻāĻžāĻāĻžāĻāĻŋ āĻļāĻā§āϤāĻŋāĻļāĻžāϞ⧠āĻŽāĻĄā§āϞā§āϰ āĻāύā§āϝ, āĻāύā§āύāϤāĻŋāϰ āϏā§āĻĨāĻžāύ āϏā§āĻŽāĻŋāϤāĻŽā§āϞā§āϝāĻžāϝāĻŧāύ āĻŽā§āĻā§āϰāĻŋāĻā§āϏ : āĻŦāĻŋāĻā§āϰāĻžāύā§āϤāĻŋ āĻāĻŦāĻ āĻĒā§āϰāĻāύā§āĻŽ āύāĻŋāϰā§āĻā§āϞāϤāĻžāϰ āĻŽāϧā§āϝ⧠āĻŦāĻŋāĻā§āĻāĻŋāύā§āύāϤāĻž, āĻāĻŖāĻŋāϤ āĻāĻžāĻā§āϰ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ āĻĒā§āϰāĻāĻžāĻŦāĻŋāϤ āĻāϰā§āĻĒā§āϰāϝāĻŧā§āĻāϝā§āĻā§āϝāϤāĻž āĻĒāϰāĻŋāϏā§āĻŽāĻž : āĻŦāϰā§āϤāĻŽāĻžāύ⧠āĻļā§āϧā§āĻŽāĻžāϤā§āϰ MoE āĻāϰā§āĻāĻŋāĻā§āĻāĻāĻžāϰ⧠āĻĒā§āϰāϝā§āĻā§āϝāϞā§āĻāĻ āĻāĻžāϰāĻāĻŋ āĻāĻŦā§āώāĻŖāĻž āĻĻāĻŋāĻ āĻĒā§āϰāϏā§āϤāĻžāĻŦ āĻāϰā§āύ:
āϏāĻžāϧāĻžāϰāĻŖā§āĻāϰāĻŖ āĻĒā§āϰāϝāĻŧā§āĻ : āĻĻā§āώā§āĻāĻŋ, āĻ
āĻĄāĻŋāĻ āĻāϤā§āϝāĻžāĻĻāĻŋ āĻ
-MoE āĻŽāĻĄā§āϞ⧠āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖāĻāύā§āύāϤ āĻļāĻŦā§āĻĻ āĻĒā§āϰāĻŦāϰā§āϤāύ : āϏā§āĻŦ-āĻ
āĻāĻŋāϝā§āĻāĻŋāϤ āĻŦāĻž āĻāύāĻĒā§āĻ-āĻļāϰā§āϤāϏāĻžāĻĒā§āĻā§āώ āĻļāĻŦā§āĻĻ āĻā§āĻļāϞāϏā§āĻŦ-āĻ
āĻāĻŋāϝā§āĻāĻŋāϤ āĻāĻŖāύāĻž : āĻā§āĻā§āύ āĻāĻ āĻŋāύāϤāĻžāϰ āĻāĻĒāϰ āĻāĻŋāϤā§āϤāĻŋ āĻāϰ⧠āĻāĻŖāύāĻž āĻŦāĻžāĻā§āĻ āĻāϤāĻŋāĻļā§āϞāĻāĻžāĻŦā§ āϏāĻžāĻŽāĻā§āĻāϏā§āϝ āĻāϰā§RoE-āϏāĻā§āϤāύ āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ : āĻĒā§āϰāĻžāĻ-āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖā§ āϰā§āϝāĻžāύā§āĻĄāĻŽ āϰā§āĻāĻŋāĻ āĻāĻā§āĻā§āϤ āĻāϰā§āϧāĻžāϰāĻŖāĻž āĻāĻĻā§āĻāĻžāĻŦāύ : āĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āϧāĻžāϰāĻŖāĻž āĻāĻĻā§āĻāĻžāĻŦāύā§, āĻ
āύā§āĻŽāĻžāύ-āϏāĻŽāϝāĻŧ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύā§āϰ āĻāύā§āϝ āύāϤā§āύ āĻĻāĻŋāĻāύā§āϤ āĻā§āϞā§āĻĒā§āϰāĻā§āĻļāϞ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ : Clean Cache āĻāϤā§āϝāĻžāĻĻāĻŋ āĻĒā§āϰāϝā§āĻā§āϤāĻŋ āĻĒāĻĻā§āϧāϤāĻŋāĻā§ āϤāϤā§āϤā§āĻŦ āĻĨā§āĻā§ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻā§ āύāĻŋāϝāĻŧā§ āϝāĻžāϝāĻŧāĻŦā§āϝāĻžāĻĒāĻ āĻĒāϰā§āĻā§āώāĻž : āĻŦāĻšā§-āĻŽāĻĄā§āϞ, āĻŦāĻšā§-āĻāĻžāĻ, āĻŦāĻšā§-āĻŽāĻžāϤā§āϰāĻž āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ, āĻĢāϞāĻžāĻĢāϞ āĻŦāĻŋāĻļā§āĻŦāĻžāϏāϝā§āĻā§āϝāĻĻāĻā§āώāϤāĻž āϏā§āĻŦāĻŋāϧāĻž : āĻŽāĻĄā§āϞ āϏā§āĻā§āϞāĻŋāĻāϝāĻŧā§āϰ āϤā§āϞāύāĻžāϝāĻŧ āĻāϰāĻ āĻĻāĻā§āώ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤāĻŋ āĻĒāĻĨāϤāĻžāϤā§āϤā§āĻŦāĻŋāĻ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ āĻ
āĻĒāϰā§āϝāĻžāĻĒā§āϤ : āĻŦāĻŋāĻļā§āώāĻā§āĻ āĻŦā§āĻāĻŋāϤā§āϰā§āϝ āĻā§āύ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰ⧠āϤāĻžāϰ āĻāĻā§āϰ āϤāĻžāϤā§āϤā§āĻŦāĻŋāĻ āĻŦā§āϝāĻžāĻā§āϝāĻžāϰ āĻ
āĻāĻžāĻŦāĻšāĻžāĻāĻĒāĻžāϰāĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāĻāĻžāϰ āϏāĻāĻŦā§āĻĻāύāĻļā§āϞāϤāĻž : āϤāĻžāĻĒāĻŽāĻžāϤā§āϰāĻž āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāĻāĻžāϰ āĻŦā§āϝāĻžāĻĒāĻ āϏāĻžāĻŽāĻā§āĻāϏā§āϝā§āϰ āĻĒā§āϰāϝāĻŧā§āĻāύ, āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰāĻ āĻŦā§āĻĻā§āϧāĻŋ āĻāϰā§āϏā§āĻŽāĻŋāϤ āĻāύā§āύāϤāĻŋ : āĻļāĻā§āϤāĻŋāĻļāĻžāϞ⧠āĻŦā§āϏāϞāĻžāĻāύ⧠āĻāύā§āύāϤāĻŋāϰ āĻŽāĻžāϤā§āϰāĻž āϤā§āϞāύāĻžāĻŽā§āϞāĻāĻāĻžāĻŦā§ āĻā§āĻāĻāϰā§āĻāĻŋāĻā§āĻāĻāĻžāϰ āύāĻŋāϰā§āĻāϰāϤāĻž : āĻļā§āϧā§āĻŽāĻžāϤā§āϰ MoE āĻŽāĻĄā§āϞ⧠āĻĒā§āϰāϝā§āĻā§āϝ, āĻĒā§āϰāϝāĻŧā§āĻāϝā§āĻā§āϝāϤāĻž āϏā§āĻŽāĻŋāϤ āĻāϰā§āĻāĻāĻžāĻĄā§āĻŽāĻŋāĻ āĻŽā§āϞā§āϝ :
āύāϤā§āύ āĻ
āύā§āĻŽāĻžāύ āĻĒā§āϝāĻžāϰāĻžāĻĄāĻžāĻāĻŽ āĻĒā§āϰāϏā§āϤāĻžāĻŦ āĻāϰā§, āĻāϰāĻ āϏāĻŽā§āĻĒāϰā§āĻāĻŋāϤ āĻāĻŦā§āώāĻŖāĻž āĻ
āύā§āĻĒā§āϰāĻžāĻŖāĻŋāϤ āĻāϰāϤ⧠āĻĒāĻžāϰ⧠MoE āĻŽāĻĄā§āϞā§āϰ āĻĻāĻā§āώ āĻŦā§āϝāĻŦāĻšāĻžāϰā§āϰ āĻāύā§āϝ āύāϤā§āύ āĻāĻŋāύā§āϤāĻžāĻāĻžāĻŦāύāĻž āĻĒā§āϰāĻĻāĻžāύ āĻāϰ⧠āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ āĻŽā§āϞā§āϝ :
āĻĒā§āύāĻāĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ āĻāĻžāĻĄāĻŧāĻžāĻ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ MoE āĻŽāĻĄā§āϞā§āϰ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤ āĻāϰ⧠āĻāĻŖāύāĻž-āϏā§āĻŽāĻŋāϤ āĻĒāϰāĻŋāĻŦā§āĻļā§ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž-āĻĻāĻā§āώāϤāĻž āĻā§āϰā§āĻĄ-āĻ
āĻĢā§āϰ āύāϤā§āύ āĻĒāĻāύā§āĻĻ āĻĒā§āϰāĻĻāĻžāύ āĻāϰ⧠āĻĒā§āύāϰā§ā§āĻĒāĻžāĻĻāύāϝā§āĻā§āϝāϤāĻž :
āĻĒāĻĻā§āϧāϤāĻŋ āĻŦāϰā§āĻŖāύāĻž āϏā§āĻĒāώā§āĻ, āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύ āĻŦāĻŋāĻŦāϰāĻŖ āĻĒāϰā§āϝāĻžāĻĒā§āϤ āĻā§āϞāĻž-āĻā§āϏ āĻŽāĻĄā§āϞā§āϰ āĻāĻĒāϰ āĻāĻŋāϤā§āϤāĻŋ āĻāϰā§, āĻĒā§āύāϰā§ā§āĻĒāĻžāĻĻāύ āϝāĻžāĻāĻžāĻ āϏāĻšāĻ āĻāĻŖāύāĻž-āϏā§āĻŽāĻŋāϤ āĻĒāϰāĻŋāĻŦā§āĻļ : āĻŦā§āĻšāϤā§āϤāϰ āĻŽāĻĄā§āϞ āϏā§āĻĨāĻžāĻĒāύā§āϰ āϤā§āϞāύāĻžāϝāĻŧ, RoE āĻāϰāĻ āĻ
āϰā§āĻĨāύā§āϤāĻŋāĻ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻāύā§āύāϤāĻŋ āĻĒā§āϰāĻĻāĻžāύ āĻāϰā§āĻā§āϞāĻž-āϏāĻŽāĻžāĻĒā§āϤ āĻĒā§āϰāĻāύā§āĻŽ : āϏāĻŽāĻžāύā§āϤāϰāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤā§āϞāύāĻžāϝāĻŧ, RoE āĻā§āύ⧠āĻŽāĻžāύ āĻāϤā§āϤāϰ āĻāĻžāĻĄāĻŧāĻž āĻāĻžāĻā§āϰ āĻāύā§āϝ āĻĒā§āϰāϝā§āĻā§āϝāϰāĻŋāϝāĻŧā§āϞ-āĻāĻžāĻāĻŽ āĻĒā§āϰāϝāĻŧā§āĻ : āύāĻŽā§āύāĻž āϏāĻāĻā§āϝāĻž āϏāĻžāĻŽāĻā§āĻāϏā§āϝ āĻāϰ⧠āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž-āĻŦāĻŋāϞāĻŽā§āĻŦ āĻā§āϰā§āĻĄ-āĻ
āĻĢ āύāĻŽāύā§āϝāĻŧāĻāĻžāĻŦā§ āύāĻŋāϝāĻŧāύā§āϤā§āϰāĻŖ āĻāϰā§MoE āĻŽāĻĄā§āϞ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ : āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ MoE āϏā§āĻĨāĻžāĻĒāύāĻžāϰ āĻāύā§āϝ āĻĒā§āϞāĻžāĻ-āĻāύā§āĻĄ-āĻĒā§āϞ⧠āĻŦāϰā§āϧāύ āϏāĻŽāĻžāϧāĻžāύ āĻĒā§āϰāĻĻāĻžāύ āĻāϰā§āĻĒā§āĻĒāĻžāϰāĻāĻŋ āĻāĻ āĻā§āώā§āϤā§āϰā§āϰ āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āĻāĻžāĻ āĻāĻĻā§āϧā§āϤ āĻāϰā§, āϝāĻžāϰ āĻŽāϧā§āϝ⧠āϰāϝāĻŧā§āĻā§:
Wei et al. (2022): āĻāĻŋāύā§āϤāĻžāϰ āĻļā§āĻā§āĻāϞ āϝā§āĻā§āϤāĻŋ Wang et al. (2022): āϏā§āĻŦ-āϏāĻžāĻŽāĻā§āĻāϏā§āϝ āĻĒāĻĻā§āϧāϤāĻŋ Shazeer et al. (2017): MoE āĻāϰā§āĻāĻŋāĻā§āĻāĻāĻžāϰ āĻāĻŋāϤā§āϤāĻŋ Kaplan et al. (2020): āϏā§āύāĻžāϝāĻŧā§ āĻāĻžāώāĻž āĻŽāĻĄā§āϞ āϏā§āĻā§āϞāĻŋāĻ āĻāĻāύ āϏāĻžāĻŽāĻā§āϰāĻŋāĻ āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ : āĻāĻāĻŋ āĻĒā§āϰāϝā§āĻā§āϤāĻŋāĻāϤ āĻāĻĻā§āĻāĻžāĻŦāύ āĻāĻŦāĻ āĻĒā§āϰāĻā§āĻļāϞ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύā§āϰ āϏāĻŽāύā§āĻŦāϝāĻŧā§ āĻāĻāĻāĻŋ āĻāĻŽā§āĻāĻžāϰ āĻĒā§āĻĒāĻžāϰāĨ¤ āϝāĻĻāĻŋāĻ āϤāĻžāϤā§āϤā§āĻŦāĻŋāĻ āĻāĻā§āϰāϤāĻž āĻāĻŦāĻ āĻāύā§āύāϤāĻŋāϰ āĻŽāĻžāϤā§āϰāĻžāϝāĻŧ āύāĻŋāϰā§āĻĻāĻŋāώā§āĻ āϏā§āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āϰāϝāĻŧā§āĻā§, āϤāĻŦā§ āĻāϰ āĻĒā§āϰāϏā§āϤāĻžāĻŦāĻŋāϤ āĻšāĻžāĻāĻĒāĻžāϰ-āĻĒā§āϝāĻžāϰāĻžāϞāĻžāϞ āϏā§āĻā§āϞāĻŋāĻ āϧāĻžāϰāĻŖāĻž āĻāϞā§āϞā§āĻāϝā§āĻā§āϝ āĻāĻāĻžāĻĄā§āĻŽāĻŋāĻ āĻŽā§āϞā§āϝ āĻāĻŦāĻ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ āϤāĻžā§āĻĒāϰā§āϝ āϰāĻžāĻā§, āĻ
āύā§āĻŽāĻžāύ-āϏāĻŽāϝāĻŧ āĻ
āĻĒā§āĻāĻŋāĻŽāĻžāĻāĻā§āĻļāύ āĻā§āώā§āϤā§āϰ⧠āύāϤā§āύ āĻāĻŋāύā§āϤāĻžāĻāĻžāĻŦāύāĻž āĻāĻŦāĻ āĻāĻžāϰā§āϝāĻāϰ āĻĒāĻĻā§āϧāϤāĻŋ āĻ
āĻŦāĻĻāĻžāύ āϰāĻžāĻā§āĨ¤