Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
рдкреЗрдкрд░ ID : 2510.04996рд╢реАрд░реНрд╖рдХ : Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Trainingрд▓реЗрдЦрдХ : Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhangрд╡рд░реНрдЧреАрдХрд░рдг : cs.LG cs.AI cs.CL stat.MLрдкреНрд░рдХрд╛рд╢рди рд╕рдордп : рдЕрдХреНрдЯреВрдмрд░ 2025 (arXiv v2)рдкреЗрдкрд░ рд▓рд┐рдВрдХ : https://arxiv.org/abs/2510.04996 рдХреЛрдб рд▓рд┐рдВрдХ : https://github.com/RLHFlow/Reinforce-Ada рдЬрдм рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ (LLMs) рдХреЗ рддрд░реНрдХ рдХрд╛рд░реНрдпреЛрдВ рдкрд░ рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдирд╛ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рдЕрдХреНрд╕рд░ рдирд┐рд╢реНрдЪрд┐рдд рдФрд░ рд╕рдорд╛рди рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдирдореВрдирд╛рдХрд░рдг рд░рдгрдиреАрддрд┐ рдХреЗ рдХрд╛рд░рдг рдврд╛рд▓ рдЕрдиреБрдорд╛рди рдЕрд╕реНрдерд┐рд░ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рдкреЗрдкрд░ Reinforce-Ada рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬреЛ LLMs рдХреЗ рдСрдирд▓рд╛рдЗрди рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдиреЗ рдХреЗ рдмрд╛рдж-рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдиреБрдХреВрд▓реА рдирдореВрдирд╛рдХрд░рдг рдврд╛рдВрдЪрд╛ рд╣реИ, рдЬреЛ рд▓рдЧрд╛рддрд╛рд░ рдирдореВрдирд╛рдХрд░рдг рдкреНрд░рдпрд╛рд╕ рдХреЛ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдЕрдирд┐рд╢реНрдЪрд┐рддрддрд╛ рдпрд╛ рд╕реАрдЦрдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рд╡рд╛рд▓реЗ рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рдкреБрдирдГ рдЖрд╡рдВрдЯрд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИред рдкрд╛рд░рдВрдкрд░рд┐рдХ рджреЛ-рдЪрд░рдгреАрдп рдЖрд╡рдВрдЯрди рд╡рд┐рдзрд┐рдпреЛрдВ рдХреЗ рд╡рд┐рдкрд░реАрдд, Reinforce-Ada рдЕрдиреБрдорд╛рди рдФрд░ рдирдореВрдирд╛рдХрд░рдг рдХреЛ рдПрдХ рдСрдирд▓рд╛рдЗрди рдХреНрд░рдорд┐рдХ рдЙрдиреНрдореВрд▓рди рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдкрд░реНрдпрд╛рдкреНрдд рд╕рдВрдХреЗрдд рдПрдХрддреНрд░ рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рдирдореВрдирд╛рдХрд░рдг рдХреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рд░реЛрдХ рджреЗрддрд╛ рд╣реИред рдЕрджреНрдпрддрди рдХреЛ рд╕реНрдерд┐рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдпрд╣ рд╡рд┐рдзрд┐ рдирд┐рд╢реНрдЪрд┐рдд рдЖрдХрд╛рд░ рдХреЗ рд╕рдореВрд╣ рдмрдирд╛рддреА рд╣реИ рдФрд░ рдкреБрд░рд╕реНрдХрд╛рд░ рд╡рд┐рд╡рд┐рдзрддрд╛ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рддреА рд╣реИ, рдЕрдиреБрдХреВрд▓реА рдирдореВрдирд╛рдХрд░рдг рдЪрд░рдг рджреНрд╡рд╛рд░рд╛ рдПрдХрддреНрд░ рдХрд┐рдП рдЧрдП рд╡реИрд╢реНрд╡рд┐рдХ рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд▓рд╛рдн рдЖрдзрд╛рд░рднреВрдд рдХреА рдЧрдгрдирд╛ рдХрд░рддреА рд╣реИред
рдврд╛рд▓ рдЕрдиреБрдорд╛рди рдЕрд╕реНрдерд┐рд░рддрд╛ : рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдиреЗ рдХреА рд╡рд┐рдзрд┐рдпрд╛рдВ LLMs рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рддреЗ рд╕рдордп рдирдореВрдирд╛рдХрд░рдг рдХреЗ рд▓рд┐рдП рдирд┐рд╢реНрдЪрд┐рдд рдЫреЛрдЯреЗ рдирдореВрдиреЗ (n) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреА рд╣реИрдВ, рдЬрд┐рд╕рд╕реЗ рдврд╛рд▓ рдЕрдиреБрдорд╛рди рд╡рд┐рдЪрд░рдг рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рдФрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдЕрд╕реНрдерд┐рд░ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИредрд╕рдВрдХреЗрдд рдкрддрди рд╕рдорд╕реНрдпрд╛ : рдЬрдм рдПрдХ рд╕рдВрдХреЗрдд рдХреЗ рд╕рднреА n рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдВ рд╕рдорд╛рди рдкреБрд░рд╕реНрдХрд╛рд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рддреА рд╣реИрдВ (рдкреВрд░реА рддрд░рд╣ рд╕рд╣реА рдпрд╛ рдкреВрд░реА рддрд░рд╣ рдЧрд▓рдд), рддреЛ GRPO рдореЗрдВ рд▓рд╛рдн рдЧрдгрдирд╛ рд╢реВрдиреНрдп рдврд╛рд▓ рдЙрддреНрдкрдиреНрди рдХрд░рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕рдВрдХреЗрдд рдЦреЛ рдЬрд╛рддрд╛ рд╣реИредрдирдореВрдирд╛рдХрд░рдг рджрдХреНрд╖рддрд╛ рдореЗрдВ рдХрдореА : рд╕рдорд╛рди рдирдореВрдирд╛рдХрд░рдг рд░рдгрдиреАрддрд┐ рд╕рдВрдХреЗрдд рдХреА рдХрдард┐рдирд╛рдИ рдФрд░ рд╕реАрдЦрдиреЗ рдХреЗ рдореВрд▓реНрдп рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд╕рдВрд╕рд╛рдзрдиреЛрдВ рдХреЛ рдЖрд╡рдВрдЯрд┐рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддреА рд╣реИредрдЧрдгрд┐рддреАрдп рддрд░реНрдХ рдЬреИрд╕реЗ рдХрд╛рд░реНрдпреЛрдВ рдореЗрдВ, 50% рд╕реЗ рдЕрдзрд┐рдХ рд╕рдВрдХреЗрдд "рд╢реВрдиреНрдп рдврд╛рд▓" рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдлрдВрд╕ рдЬрд╛рддреЗ рд╣реИрдВ рдирдореВрдирд╛рдХрд░рдг рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рд╕рд░рд▓ рд╡реГрджреНрдзрд┐ рд╕рдорд╕реНрдпрд╛ рдХреЛ рдХрдо рдХрд░ рд╕рдХрддреА рд╣реИ, рд▓реЗрдХрд┐рди рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓рд╛рдЧрдд рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╣реИ (рдЬреИрд╕реЗ n=512 рдкрд░ рд▓рд╛рдЧрдд рдореЗрдВ рд╡реГрджреНрдзрд┐) рдореМрдЬреВрджрд╛ рдирд┐рд╖реНрдХреНрд░рд┐рдп рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рд╡рд┐рдзрд┐рдпрд╛рдВ рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдЙрддреНрдкрдиреНрди рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЛ рддреНрдпрд╛рдЧ рджреЗрддреА рд╣реИрдВ, рдЬрд┐рд╕рд╕реЗ рд╕рдВрд╕рд╛рдзрди рдмрд░реНрдмрд╛рдж рд╣реЛрддреЗ рд╣реИрдВ GRPO рдХреА рдирд┐рд╢реНрдЪрд┐рдд рдирдореВрдирд╛рдХрд░рдг : рд╡рд┐рднрд┐рдиреНрди рд╕рдВрдХреЗрддреЛрдВ рдХреА рдХрдард┐рдирд╛рдИ рдореЗрдВ рдЕрдВрддрд░ рдХреЗ рдЕрдиреБрдХреВрд▓ рдирд╣реАрдВ рд╣реЛ рд╕рдХрддреА рд╣реИрдирд┐рд╖реНрдХреНрд░рд┐рдп рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рд╡рд┐рдзрд┐рдпрд╛рдВ : рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдмреЗрдХрд╛рд░ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдВ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж рдЙрдиреНрд╣реЗрдВ рддреНрдпрд╛рдЧ рджреЗрддреА рд╣реИрдВ, рджрдХреНрд╖рддрд╛ рдХрдо рд╣реИрджреЛ-рдЪрд░рдгреАрдп рдмрдЬрдЯ рдЖрд╡рдВрдЯрди : GVM-RAFT рдЬреИрд╕реА рд╡рд┐рдзрд┐рдпрд╛рдВ рдЕрдиреБрдорд╛рди рдФрд░ рдирдореВрдирд╛рдХрд░рдг рдХреЛ рдЕрд▓рдЧ рдХрд░рддреА рд╣реИрдВ, рджрдХреНрд╖рддрд╛ рдХрдо рд╣реИ рдФрд░ рдСрдирд▓рд╛рдЗрди рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдореБрд╢реНрдХрд┐рд▓ рд╣реИReinforce-Ada рдЕрдиреБрдХреВрд▓реА рдирдореВрдирд╛рдХрд░рдг рдврд╛рдВрдЪрд╛ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд░рдирд╛ : рдЕрдиреБрдорд╛рди рдФрд░ рдирдореВрдирд╛рдХрд░рдг рдХреЛ рдПрдХ рдСрдирд▓рд╛рдЗрди рдХреНрд░рдорд┐рдХ рдЙрдиреНрдореВрд▓рди рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рдирд╛, рддрд░реНрдХ рдмрдЬрдЯ рдХреЛ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдЖрд╡рдВрдЯрд┐рдд рдХрд░рдирд╛рджреЛ рдкреНрд░рдХрд╛рд░ рдХреА рдирд┐рдХрд╛рд╕ рд╢рд░реНрддреЗрдВ рдбрд┐рдЬрд╛рдЗрди рдХрд░рдирд╛ :Reinforce-Ada-pos: рд╕рдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЗ рд╕рдВрдЧреНрд░рд╣ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рдирд╛ Reinforce-Ada-balance: рд╕рдХрд╛рд░рд╛рддреНрдордХ рдФрд░ рдирдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЛрдВ рдХреЛ рд╕рдВрддреБрд▓рд┐рдд рдХрд░рдирд╛, рдЕрдиреНрд╡реЗрд╖рдг рдХреЛ рдмрдирд╛рдП рд░рдЦрдирд╛ рд╡реИрд╢реНрд╡рд┐рдХ рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХрд╛ рдкрд░рд┐рдЪрдп : рдкреВрд░реА рдирдореВрдирд╛рдХрд░рдг рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреА рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд▓рд╛рдн рдХреА рдЧрдгрдирд╛ рдХрд░рдирд╛, рдЕрдиреБрдорд╛рди рд╕реНрдерд┐рд░рддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рдирд╛рдкреНрд▓рдЧ-рдПрдВрдб-рдкреНрд▓реЗ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрди рдХреЛ рд▓рд╛рдЧреВ рдХрд░рдирд╛ : рдореМрдЬреВрджрд╛ RL рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдореЗрдВ рдЬрдирд░реЗрд╢рди рдЪрд░рдг рдХреЛ рд╕реАрдзреЗ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рд╕рдВрд╢реЛрдзрди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИрдХрдИ рдореЙрдбрд▓ рдФрд░ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рдХреЛ рд╕рддреНрдпрд╛рдкрд┐рдд рдХрд░рдирд╛ : рдЧрдгрд┐рддреАрдп рддрд░реНрдХ рдХрд╛рд░реНрдпреЛрдВ рдкрд░ рдЕрднрд┐рд╕рд░рдг рдЧрддрд┐ рдФрд░ рдЕрдВрддрд┐рдо рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рд▓рдЧрд╛рддрд╛рд░ рд╕реБрдзрд╛рд░рд╕рдВрдХреЗрдд рд╡рд┐рддрд░рдг dтВА рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рдиреАрддрд┐ ╧А╬╕ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ aя╜Ю╧А╬╕(┬╖|x) рдЙрддреНрдкрдиреНрди рдХрд░рддреА рд╣реИ, рд╕рддреНрдпрд╛рдкрдирдХрд░реНрддрд╛ рдкреБрд░рд╕реНрдХрд╛рд░ rтЛЖ(x,a)тИИ{0,1} рджреЗрддрд╛ рд╣реИред рд▓рдХреНрд╖реНрдп рдЕрдкреЗрдХреНрд╖рд┐рдд рдкреБрд░рд╕реНрдХрд╛рд░ рдХреЛ рдЕрдзрд┐рдХрддрдо рдХрд░рдирд╛ рд╣реИ:
J(╬╕) = E_{xтИ╝dтВА,aтИ╝╧А╬╕(┬╖|x)}rтЛЖ(x,a)
рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдкреНрд░рд╡рд╛рд╣:
1. рдЖрд░рдВрднреАрдХрд░рдг: рд╕рднреА рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рд╕рдХреНрд░рд┐рдп рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рдирд╛
2. рдмрд╣реБ-рджреМрд░ рдирдореВрдирд╛рдХрд░рдг:
- рдкреНрд░рддреНрдпреЗрдХ рд╕рдХреНрд░рд┐рдп рд╕рдВрдХреЗрдд рдХреЗ рд▓рд┐рдП M рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдВ рдирдореВрдирд╛ рдХрд░рдирд╛
- рдирд┐рдХрд╛рд╕ рд╢рд░реНрддреЛрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдирд╛
- рд╢рд░реНрддреЛрдВ рдХреЛ рдкреВрд░рд╛ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рдирд┐рд╖реНрдХреНрд░рд┐рдп рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рдирд╛
3. рджреЛрд╣рд░рд╛рдирд╛ рдЬрдм рддрдХ рд╕рднреА рд╕рдВрдХреЗрдд рдирд┐рдХрд╛рд╕ рди рд╣реЛрдВ рдпрд╛ рдЕрдзрд┐рдХрддрдо рджреМрд░ N рддрдХ рдкрд╣реБрдВрдЪ рдЬрд╛рдПрдВ
Reinforce-Ada-pos : рдХрдо рд╕реЗ рдХрдо рдПрдХ рд╕рд╣реА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдПрдХрддреНрд░ рдХрд░рдиреЗ рдкрд░ рдирд┐рдХрд╛рд╕Reinforce-Ada-balance : рдХрдо рд╕реЗ рдХрдо n/2 рд╕рд╣реА рдФрд░ n/2 рдЧрд▓рдд рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдВ рдПрдХрддреНрд░ рдХрд░рдиреЗ рдкрд░ рдирд┐рдХрд╛рд╕рдкреНрд░рддреНрдпреЗрдХ рд╕рдВрдХреЗрдд рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдкреВрд▓ рд╕реЗ рдирд┐рд╢реНрдЪрд┐рдд рдЖрдХрд╛рд░ n рддрдХ рдбрд╛рдЙрди-рд╕реИрдВрдкрд▓ рдХрд░рдирд╛ рд╕рдХрд╛рд░рд╛рддреНрдордХ рдФрд░ рдирдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЛрдВ рдХреЛ рд╕рдВрддреБрд▓рд┐рдд рд░рдЦрдиреЗ рдХреЛ рдкреНрд░рд╛рдердорд┐рдХрддрд╛ рджреЗрдирд╛ (рдкреНрд░рддреНрдпреЗрдХ n/2) рд╡реИрд╢реНрд╡рд┐рдХ рд╕рд╛рдВрдЦреНрдпрд┐рдХреА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд▓рд╛рдн рдХреА рдЧрдгрдирд╛ рдХрд░рдирд╛: A(x,aс╡в) = rс╡в - r╠Д рдорд╣рддреНрд╡ рдирдореВрдирд╛рдХрд░рдг рд╕реБрдзрд╛рд░ рдФрд░ PPO-рд╢реИрд▓реА рдврд╛рд▓ рдХреНрд▓рд┐рдкрд┐рдВрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛:
L(╬╕) = 1/|B| тИС{(x,aс╡в)тИИB} тИС ^{|aс╡в|} min(╧Бс╡в,t┬╖A(x,aс╡в), clip(╧Бс╡в,t, 1-╬╡_, 1+╬╡_)┬╖A(x,aс╡в))
рдСрдирд▓рд╛рдЗрди рдПрдХреАрдХреГрдд рдкреНрд░рдХреНрд░рд┐рдпрд╛ : рдкрд╛рд░рдВрдкрд░рд┐рдХ рджреЛ-рдЪрд░рдгреАрдп рд╡рд┐рдзрд┐ рдХреЗ рдЕрдиреБрдорд╛рди рдФрд░ рдирд┐рд░реНрдгрдп рдХреЛ рдПрдХ рдПрдХрд▓ рдСрдирд▓рд╛рдЗрди рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдореЗрдВ рдорд┐рд▓рд╛рдирд╛рдХреНрд░рдорд┐рдХ рдЙрдиреНрдореВрд▓рди рддрдВрддреНрд░ : рдмрд╣реБ-рднреБрдЬрд╛ рдбрд╛рдХреВ рд╕рдорд╕реНрдпрд╛ рдХреЗ рд╡рд┐рдЪрд╛рд░ рдХреЛ рдЙрдзрд╛рд░ рд▓реЗрдирд╛, рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдЙрди рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рд░реЛрдХрдирд╛ рдЬрд┐рдиреНрд╣реЗрдВ рдЕрдзрд┐рдХ рдирдореВрдирд╛рдХрд░рдг рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИрд╡реИрд╢реНрд╡рд┐рдХ рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рд░рдгрдиреАрддрд┐ : рдЕрдВрддрд┐рдо рдЪрдпрдирд┐рдд рдЙрдк-рд╕рдореВрд╣ рдХреЗ рдмрдЬрд╛рдп рдкреВрд░реНрдг рдирдореВрдирд╛рдХрд░рдг рдкреВрд▓ рдХреА рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛, рдЕрдиреБрдорд╛рди рдордЬрдмреВрддреА рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рдирд╛рд╕рдВрддреБрд▓рд┐рдд рдирдореВрдирд╛рдХрд░рдг рдЧрд╛рд░рдВрдЯреА : рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдирд╛ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕рдореВрд╣ рдореЗрдВ рдЧреИрд░-рд╢реВрдиреНрдп рд╡рд┐рдЪрд░рдг рд╣реЛ, рдврд╛рд▓ рд▓реБрдкреНрдд рд╣реЛрдиреЗ рд╕реЗ рдмрдЪрдирд╛рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ : OpenR1-Math-220k рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдЙрдк-рд╕рдореВрд╣рдкреВрд░реНрд╡-рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг : рдбреБрдкреНрд▓рд┐рдХреЗрдЯ рд╣рдЯрд╛рдирд╛, рд╕рддреНрдпрд╛рдкрди рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ, рдордзреНрдпрдо рдХрдард┐рдирд╛рдИ рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ (16 рдирдореВрдиреЛрдВ рдореЗрдВ рдХрдо рд╕реЗ рдХрдо 1 рд╕рд╣реА)Qwen2.5-Math-7B/1.5B Qwen3-4B-it Llama-3.2-3B-it рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдореЗрдЯреНрд░рд┐рдХреНрд╕ : рдкреБрд░рд╕реНрдХрд╛рд░ рд╡рдХреНрд░, рдПрдВрдЯреНрд░реЙрдкреА рдкрд░рд┐рд╡рд░реНрддрдирдкрд░реАрдХреНрд╖рдг рдмреЗрдВрдЪрдорд╛рд░реНрдХ : MATH500, Minerva Math, OlympiadBench, AIME-likeрдореВрд▓реНрдпрд╛рдВрдХрди рд╡рд┐рдзрд┐ : Ave@32 (рддрд╛рдкрдорд╛рди 1.0, рдЕрдзрд┐рдХрддрдо 4096 рдЯреЛрдХрди)рдмреИрдЪ рдЖрдХрд╛рд░: 512 рд╕рдВрдХреЗрдд рдкреНрд░рднрд╛рд╡реА рд╕рдореВрд╣ рдЖрдХрд╛рд░: n=4 рдЕрдзрд┐рдХрддрдо рдирдореВрдирд╛рдХрд░рдг: 32 рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдВ/рд╕рдВрдХреЗрдд рд╕реАрдЦрдиреЗ рдХреА рджрд░: 1├Ч10тБ╗тБ╢ (AdamW) рдПрдВрдЯреНрд░реЙрдкреА рдирд┐рдпрдорд┐рддрдХрд░рдг: 1├Ч10тБ╗тБ┤ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдЪрд░рдг: 600 рдЪрд░рдг рдЕрднрд┐рд╕рд░рдг рдЧрддрд┐ : Reinforce-Ada рдкрд╣рд▓реЗ 50-150 рдЪрд░рдгреЛрдВ рдореЗрдВ рд╕реНрдкрд╖реНрдЯ рд▓рд╛рдн рджрд┐рдЦрд╛рддрд╛ рд╣реИрдЕрдВрддрд┐рдо рдкреНрд░рджрд░реНрд╢рди : рд╕рднреА рдкрд░реАрдХреНрд╖рдг рдореЙрдбрд▓ рдкрд░ рдЙрдЪреНрдЪ рдкреБрд░рд╕реНрдХрд╛рд░ рд╕реАрдорд╛ рддрдХ рдкрд╣реБрдВрдЪрддрд╛ рд╣реИрд╕реНрдерд┐рд░рддрд╛ : Reinforce-Ada-balance рд╕рдмрд╕реЗ рд╕реНрдерд┐рд░ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддрд╛ рд╣реИрдореЙрдбрд▓ рд╡рд┐рдзрд┐ Math500 Minerva Olympiad AIME-like рднрд╛рд░рд┐рдд рдФрд╕рдд Qwen2.5-Math-1.5B GRPO 74.2 34.4 38.4 16.2 45.3 Reinforce-Ada-balance 77.4 36.5 40.5 17.5 47.6 (+2.3) Qwen2.5-Math-7B GRPO 82.2 44.7 45.6 23.2 53.3 Reinforce-Ada-balance 84.0 45.2 47.1 23.7 54.6 (+1.3)
Reinforce-Ada-balance рд▓рдЧрд╛рддрд╛рд░ Reinforce-Ada-pos рд╕реЗ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддрд╛ рд╣реИ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рдмрд╛рдж рдХреЗ рдЪрд░рдгреЛрдВ рдореЗрдВ, рд╕рдВрддреБрд▓рд┐рдд рдирдореВрдирд╛рдХрд░рдг рдЕрдиреНрд╡реЗрд╖рдг рдХреЛ рдмрдирд╛рдП рд░рдЦрддрд╛ рд╣реИ, рдПрдВрдЯреНрд░реЙрдкреА рдкрддрди рд╕реЗ рдмрдЪрддрд╛ рд╣реИ рдореЙрдбрд▓ рд╡рд┐рдзрд┐ рдФрд╕рдд рдЪрд░рдг рд╕рдордп (рд╕реЗрдХрдВрдб) рд╕рд╛рдкреЗрдХреНрд╖ рд▓рд╛рдЧрдд Qwen2.5-Math-1.5B GRPO 102 1.0├Ч Reinforce-Ada-balance 290 2.8├Ч Qwen2.5-Math-7B GRPO 236 1.0├Ч Reinforce-Ada-balance 375 1.59├Ч
рдХрдард┐рди рд╕рдВрдХреЗрдд рд╕рдореВрд╣ рдкрд░, Reinforce-Ada рдХрд╛ рд▓рд╛рдн рдЕрдзрд┐рдХ рд╕реНрдкрд╖реНрдЯ рд╣реИ рд╕рд░рд▓ рд╕рдВрдХреЗрдд рд╕рдореВрд╣ рдкрд░ рд▓рд╛рдн рдЕрдкреЗрдХреНрд╖рд╛рдХреГрдд рдЫреЛрдЯрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдЕрдзрд┐рдХрд╛рдВрд╢ рд╕рдВрдХреЗрдд рдкрд╣рд▓реЗ рджреЛ рджреМрд░реЛрдВ рдореЗрдВ рдирд┐рдХрд╛рд╕ рд╢рд░реНрддреЛрдВ рдХреЛ рдкреВрд░рд╛ рдХрд░рддреЗ рд╣реИрдВ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг : рдореБрдЦреНрдп рдмрд╛рдзрд╛ рд╕рдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЛрдВ рдХреА рдХрдореА рд╣реИ, Reinforce-Ada-pos рдФрд░ balance рджреЛрдиреЛрдВ рдкреНрд░рднрд╛рд╡реА рд╣реИрдВрдмрд╛рдж рдХрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг : рдмрд╛рдзрд╛ рдирдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЛрдВ рдХреА рдХрдореА рдореЗрдВ рдмрджрд▓ рдЬрд╛рддреА рд╣реИ, balance рд╕рдВрд╕реНрдХрд░рдг рд▓рд╛рдн рджрд┐рдЦрд╛рддрд╛ рд╣реИрдЕрдиреБрдХреВрд▓реА рдЖрд╡рдВрдЯрди : рдХрдард┐рди рд╕рдВрдХреЗрдд рдЕрдзрд┐рдХ рдирдореВрдирд╛рдХрд░рдг рдмрдЬрдЯ рдкреНрд░рд╛рдкреНрдд рдХрд░рддреЗ рд╣реИрдВ, рд╕рд░рд▓ рд╕рдВрдХреЗрдд рдЬрд▓реНрджреА рдирд┐рдХрд╛рд╕ рдХрд░рддреЗ рд╣реИрдВрдирд┐рд╖реНрдХреНрд░рд┐рдп рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рд╡рд┐рдзрд┐рдпрд╛рдВ : Yu et al. (2025), Xiong et al. (2025) рд╕рдорд╛рди рдкреБрд░рд╕реНрдХрд╛рд░ рд╕рдореВрд╣реЛрдВ рдХреЛ рд╕реАрдзреЗ рддреНрдпрд╛рдЧ рджреЗрддреЗ рд╣реИрдВрдмрдЬрдЯ рдЖрд╡рдВрдЯрди рд╡рд┐рдзрд┐рдпрд╛рдВ : GVM-RAFT (Yao et al., 2025) рджреЛ-рдЪрд░рдгреАрдп рдЕрдиреНрд╡реЗрд╖рдг-рджреЛрд╣рди рдкреНрд░рддрд┐рдорд╛рди рдЕрдкрдирд╛рддрд╛ рд╣реИрдкрд╛рдареНрдпрдХреНрд░рдо рд╕реАрдЦрдирд╛ : Shi et al. (2025), Zhang et al. (2025) рд╕рдВрдХреЗрдд-рд╕реНрддрд░реАрдп рдЪрдпрди рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рддреЗ рд╣реИрдВрд▓рд╛рдн рдЕрдиреБрдорд╛рди рд╕реБрдзрд╛рд░ : Hu (2025), Zhu et al. (2025) рдЖрджрд┐ рдореБрдЦреНрдп рдЕрджреНрдпрддрди рдирд┐рдпрдореЛрдВ рдХреЛ рд╕рдВрд╢реЛрдзрд┐рдд рдХрд░рддреЗ рд╣реИрдВрд╕рдВрдХреЗрдд рд╣рд╛рдирд┐ рд╕рдорд╛рдзрд╛рди : Nan et al. (2025) рд╢реВрдиреНрдп рд╡рд┐рдЪрд░рдг рд╕реЗ рдмрдЪрдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдерд┐рд░рд╛рдВрдХ рдЬреЛрдбрд╝рддреЗ рд╣реИрдВ, Le et al. (2025) рдПрдВрдЯреНрд░реЙрдкреА рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВрдХреНрд░рдорд┐рдХ рдЙрдиреНрдореВрд▓рди рдПрд▓реНрдЧреЛрд░рд┐рджрдо (Slivkins et al., 2019) рдХреЗ рдСрдирд▓рд╛рдЗрди рдирд┐рд░реНрдгрдп рд╡рд┐рдЪрд╛рд░ рдХреЛ рдЙрдзрд╛рд░ рд▓реЗрдирд╛ рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рднреБрдЬрд╛рдУрдВ рдХреЗ рд░реВрдк рдореЗрдВ рджреЗрдЦрдирд╛, рдирдореВрдирд╛рдХрд░рдг рдмрдЬрдЯ рдХреЛ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдЖрд╡рдВрдЯрд┐рдд рдХрд░рдирд╛ рдЕрдиреБрдХреВрд▓реА рдирдореВрдирд╛рдХрд░рдг рдкреНрд░рднрд╛рд╡реА : рдирд┐рд╢реНрдЪрд┐рдд рдирдореВрдирд╛рдХрд░рдг рд░рдгрдиреАрддрд┐ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ, рдкреНрд░рд╢рд┐рдХреНрд╖рдг рджрдХреНрд╖рддрд╛ рдФрд░ рдЕрдВрддрд┐рдо рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░рд╕рдВрддреБрд▓рд┐рдд рдирдореВрдирд╛рдХрд░рдг рдорд╣рддреНрд╡рдкреВрд░реНрдг : рд╕рдХрд╛рд░рд╛рддреНрдордХ рдФрд░ рдирдХрд╛рд░рд╛рддреНрдордХ рдирдореВрдиреЛрдВ рдХреЛ рд╕рдВрддреБрд▓рд┐рдд рд░рдЦрдирд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдФрд░ рдЕрддрд┐-рдлрд┐рдЯрд┐рдВрдЧ рд╕реЗ рдмрдЪрдиреЗ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИрдкреНрд▓рдЧ-рдПрдВрдб-рдкреНрд▓реЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ : рдореМрдЬреВрджрд╛ RL рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдврд╛рдВрдЪреЗ рдореЗрдВ рд╕реАрдзреЗ рдПрдХреАрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИрдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рдУрд╡рд░рд╣реЗрдб : GRPO рдХреА рддреБрд▓рдирд╛ рдореЗрдВ 1.5-2.8 рдЧреБрдирд╛ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓рд╛рдЧрдд рдореЗрдВ рд╡реГрджреНрдзрд┐рдбреЛрдореЗрди рд╕реАрдорд╛ : рдкреНрд░рдпреЛрдЧ рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдЧрдгрд┐рддреАрдп рддрд░реНрдХ рдбреЛрдореЗрди рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИрдВрд╕рдВрдХреЗрдд рдХрдард┐рдирд╛рдИ рдирд┐рд░реНрднрд░рддрд╛ : рд╕рд░рд▓ рд╕рдВрдХреЗрдд рдкреНрд░рднрд╛рд╡реА рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░ рд▓рд╛рдн рд╕реАрдорд┐рдд рд╣реИрд╣рд╛рдЗрдкрд░рдкреИрд░рд╛рдореАрдЯрд░ рд╕рдВрд╡реЗрджрдирд╢реАрд▓рддрд╛ : рдЕрдзрд┐рдХрддрдо рджреМрд░ N рдФрд░ рдкреНрд░рддрд┐ рджреМрд░ рдирдореВрдирд╛рдХрд░рдг M рдХреЛ рдЙрдЪрд┐рдд рд░реВрдк рд╕реЗ рд╕реЗрдЯ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИрдкреВрд░реНрдг рдкреНрд░рд╡рд╛рд╣ рдбреЗрдЯрд╛ рдкреНрд░рдмрдВрдзрди : рдкрд╛рдареНрдпрдХреНрд░рдо рд╕реАрдЦрдирд╛ рдЖрджрд┐ рдореИрдХреНрд░реЛ рд░рдгрдиреАрддрд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рд╕рдВрдпреЛрдЬрди рдХрд░рдирд╛рдмрд╣реБ-рдбреЛрдореЗрди рд╕рддреНрдпрд╛рдкрди : рдХреЛрдб рдЬрдирд░реЗрд╢рди, рд╕рдВрд╡рд╛рдж рдЖрджрд┐ рдЕрдиреНрдп рдХрд╛рд░реНрдпреЛрдВ рддрдХ рд╡рд┐рд╕реНрддрд╛рд░ рдХрд░рдирд╛рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг : рдЕрднрд┐рд╕рд░рдг рдФрд░ рдирдореВрдирд╛ рдЬрдЯрд┐рд▓рддрд╛ рдХреЗ рд▓рд┐рдП рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рдЧрд╛рд░рдВрдЯреА рдкреНрд░рджрд╛рди рдХрд░рдирд╛рджрдХреНрд╖рддрд╛ рдЕрдиреБрдХреВрд▓рди : рдЕрдзрд┐рдХ рдХреБрд╢рд▓ рдирд┐рдХрд╛рд╕ рд╢рд░реНрддреЗрдВ рдФрд░ рдирдореВрдирд╛рдХрд░рдг рд░рдгрдиреАрддрд┐рдпреЛрдВ рдХрд╛ рдЕрдиреБрд╕рдВрдзрд╛рди рдХрд░рдирд╛рд╕рдорд╕реНрдпрд╛ рдХреА рд╕рдЯреАрдХ рдкрд╣рдЪрд╛рди : GRPO рдореЗрдВ рд╕рдВрдХреЗрдд рдкрддрди рдХреЗ рдореВрд▓ рдХрд╛рд░рдг рдХреЛ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдкрд╣рдЪрд╛рдирдирд╛рд╡рд┐рдзрд┐ рдбрд┐рдЬрд╛рдЗрди рдЪрддреБрд░ : рдмрд╣реБ-рднреБрдЬрд╛ рдбрд╛рдХреВ рд╡рд┐рдЪрд╛рд░ рдХреЛ LLM рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдореЗрдВ рд░рдЪрдирд╛рддреНрдордХ рд░реВрдк рд╕реЗ рд▓рд╛рдЧреВ рдХрд░рдирд╛рдкрд░реНрдпрд╛рдкреНрдд рдкреНрд░рдпреЛрдЧ : рдХрдИ рдореЙрдбрд▓, рдХрдИ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдХрд╛ рд╡реНрдпрд╛рдкрдХ рд╕рддреНрдпрд╛рдкрдирдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдЕрдиреБрдХреВрд▓ : рдкреНрд▓рдЧ-рдПрдВрдб-рдкреНрд▓реЗ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдкреНрд░рджрд╛рди рдХрд░рдирд╛, рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдХреЛ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рдмрдирд╛рдирд╛рдЧрд╣рди рд╡рд┐рд╢реНрд▓реЗрд╖рдг : рд╡рд┐рд╕реНрддреГрдд рдЧрддрд┐рд╢реАрд▓рддрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдФрд░ рд╡рд┐рд▓реЛрдкрди рдкреНрд░рдпреЛрдЧрдХрдордЬреЛрд░ рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рдЖрдзрд╛рд░ : рдЕрднрд┐рд╕рд░рдг рдЖрджрд┐ рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рдХрдореАрд▓рд╛рдЧрдд-рд▓рд╛рдн рд╡реНрдпрд╛рдкрд╛рд░ : рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рдУрд╡рд░рд╣реЗрдб рдореЗрдВ рд╡реГрджреНрдзрд┐ рдХреЗ рд▓рд╛рдпрдХ рд╣реИ рдпрд╛ рдирд╣реАрдВ, рдЗрд╕рдХреЗ рд▓рд┐рдП рдЕрдзрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИрд╕реАрдорд┐рдд рд▓рд╛рдЧреВ рд╕реАрдорд╛ : рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдЧрдгрд┐рддреАрдп рддрд░реНрдХ рдкрд░ рд╕рддреНрдпрд╛рдкрд┐рдд, рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХреНрд╖рдорддрд╛ рдЕрдирд┐рд╢реНрдЪрд┐рдд рд╣реИрдЬрдЯрд┐рд▓ рдкреИрд░рд╛рдореАрдЯрд░ рдЯреНрдпреВрдирд┐рдВрдЧ : рдЕрддрд┐рд░рд┐рдХреНрдд рд╣рд╛рдЗрдкрд░рдкреИрд░рд╛рдореАрдЯрд░ рдкреЗрд╢ рдХрд┐рдП рдЧрдП рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╕рдорд╛рдпреЛрдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИрд╢реИрдХреНрд╖рдгрд┐рдХ рдореВрд▓реНрдп : LLM рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рдирдореВрдирд╛рдХрд░рдг рдХрд╛ рдПрдХ рдирдпрд╛ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкреНрд░рджрд╛рди рдХрд░рдирд╛рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп : рдореМрдЬреВрджрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдкреНрд░рд╡рд╛рд╣ рдореЗрдВ рд╕реАрдзреЗ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИрдкреНрд░реЗрд░рдгрд╛ рдореВрд▓реНрдп : RL рдореЗрдВ рдЕрдиреБрдХреВрд▓реА рдбреЗрдЯрд╛ рдкреНрд░рдмрдВрдзрди рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдирд╛рдЙрдЪреНрдЪ рдЧреБрдгрд╡рддреНрддрд╛ рдЖрд╡рд╢реНрдпрдХрддрд╛рдПрдВ : рдореЙрдбрд▓ рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдЙрдЪреНрдЪ рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рд╡рд╛рд▓реЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧрдкрд░реНрдпрд╛рдкреНрдд рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд╕рдВрд╕рд╛рдзрди : рдЕрддрд┐рд░рд┐рдХреНрдд рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓рд╛рдЧрдд рдХреЛ рд╕рд╣рди рдХрд░ рд╕рдХрдиреЗ рд╡рд╛рд▓реЗ рдкрд░рд┐рджреГрд╢реНрдпрддрд░реНрдХ рдХрд╛рд░реНрдп : рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдЧрдгрд┐рддреАрдп рддрд░реНрдХ, рдХреЛрдб рдЬрдирд░реЗрд╢рди рдЖрджрд┐ рдмрд╣реБ-рдЪрд░рдгреАрдп рддрд░реНрдХ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╡рд╛рд▓реЗ рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрддрдСрдирд▓рд╛рдЗрди рдкреНрд░рд╢рд┐рдХреНрд╖рдг : рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд░рдгрдиреАрддрд┐ рдХреЛ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рд╕рдорд╛рдпреЛрдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╡рд╛рд▓реЗ рдкрд░рд┐рджреГрд╢реНрдпShao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale. Slivkins et al. (2019). Introduction to multi-armed bandits. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment. рд╕рд╛рд░рд╛рдВрд╢ : Reinforce-Ada рдиреЗ рдПрдХ рдирд╡реАрди рдЕрдиреБрдХреВрд▓реА рдирдореВрдирд╛рдХрд░рдг рдврд╛рдВрдЪрд╛ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд┐рдпрд╛ рд╣реИ рдЬреЛ LLM рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдиреЗ рдореЗрдВ рд╕рдВрдХреЗрдд рдкрддрди рд╕рдорд╕реНрдпрд╛ рдХреЛ рдкреНрд░рднрд╛рд╡реА рдврдВрдЧ рд╕реЗ рд╣рд▓ рдХрд░рддрд╛ рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓рд╛рдЧрдд рдмрдврд╝рд╛рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдкреНрд░рд╢рд┐рдХреНрд╖рдг рджрдХреНрд╖рддрд╛ рдФрд░ рдЕрдВрддрд┐рдо рдкреНрд░рджрд░реНрд╢рди рджреЛрдиреЛрдВ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, LLM рдХреЗ рд╕реБрджреГрдвреАрдХрд░рдг рд╕реАрдЦрдиреЗ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдореВрд▓реНрдпрд╡рд╛рди рдирдП рд╡рд┐рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред