2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.

Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.

academic

같은 강을 두 번 건너지 말라: 시행착오로부터의 추론 학습

기본 정보

논문 ID: 2510.26109
제목: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
저자: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (베이징 대학교 & 텐센트)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 30일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.26109v1

초록

본 논문은 대규모 언어 모델(LLMs)이 검증 가능한 보상 강화학습(RLVR)에서 겪는 탐색 정체 문제를 해결하기 위해 LTE (Learning to reason from Trial and Error) 방법을 제안합니다. 기존 RLVR 방법은 모델 자체가 생성한 응답만을 기반으로 학습하므로 초기 능력에 제한되어 능력 상한을 초과하는 문제를 해결하기 어렵습니다. LTE는 모델이 이전에 생성한 오답을 프롬프트로 활용하여 외부 전문가 지도 없이도 능력 병목을 돌파합니다. Qwen3-4B-Base에서의 실험 결과, LTE는 6개의 수학 벤치마크에서 표준 GRPO 방법을 평균 6.38 (Pass@1)과 9.00 (Pass@k)만큼 초과합니다.

연구 배경 및 동기

해결하려는 핵심 문제

본 논문은 대규모 언어 모델 강화학습 훈련 중 발생하는 탐색 정체(exploration stagnation) 문제를 다룹니다. 구체적으로는 훈련 샘플의 난이도가 모델의 현재 능력 상한을 초과할 때, 샘플링된 모든 응답이 검증을 통과하지 못하게 되어(즉, none-pass 샘플), 모든 이점 함수가 0이 되어 모델이 이러한 샘플에서 학습할 수 없는 현상입니다.

문제의 중요성

능력 병목: 기존 RLVR 방법은 모델을 초기 능력 범위 내에 갇히게 하여 자신의 상한을 돌파할 수 없습니다
훈련 효율성: 많은 훈련 샘플이 탐색 정체로 인해 효과적인 학습 신호를 제공하지 못합니다
추론 능력: 수학 추론과 같이 깊은 사고가 필요한 작업에서 모델의 성능 향상을 제한합니다

기존 방법의 한계

기존 해결책은 주로 외부 지도에 의존합니다:

인간이 표시한 표준 답변: 비용이 높고 확장성이 떨어집니다
더 강력한 모델이 생성한 추론 체인: 기함 모델 훈련 시 사용할 수 없습니다
단순히 샘플링 횟수 증가: 기존 롤아웃 정보를 활용하지 않아 효율성이 낮습니다

연구 동기

모델 자체의 시행착오 경험만을 활용하여 외부 전문가 지도 없이도 탐색 병목을 돌파할 수 있는 자율 학습 방법을 제안합니다.

핵심 기여

LTE 방법 제안: LLM 자체의 시행착오 경험(오답)을 프롬프트로 활용하여 탐색 정체를 해결하는 첫 번째 방법으로, 외부 전문가 지도가 필요 없습니다
혼합 정책 최적화 메커니즘: 온-정책(on-policy)과 오프-정책(off-policy) 샘플을 결합한 훈련 프레임워크를 설계하고, 정규화된 중요도 샘플링을 통해 프롬프트 생성 정답을 처리합니다
포괄적 실험 검증: 두 개의 LLM(4B 및 8B)과 6개의 수학 벤치마크에서 유효성을 검증하여 Pass@1 및 Pass@k 성능을 크게 향상시킵니다
심층 메커니즘 분석:
- LTE가 정답에 도달할 확률을 증가시킨다는 이론적 증명
- LTE가 탐색 정체를 성공적으로 완화한다는 실증적 분석
- LTE가 동시에 활용(exploitation)과 탐색(exploration) 능력을 강화한다는 발견

방법 상세 설명

작업 정의

입력: 수학 문제 쿼리 $q \sim D$
출력: 추론 체인 및 최종 답변 $o$
목표: RLVR을 통해 정답 생성 확률을 최대화하면서 동시에 모델의 초기 능력 상한을 돌파합니다

전체 프레임워크

LTE의 핵심 프로세스는 세 가지 단계로 구성됩니다:

1. 초기 롤아웃

각 훈련 문제 $q$ 에 대해 $G$ 개의 응답 $\{o_1, o_2, ..., o_G\}$ 를 샘플링하고 정확성을 검증합니다.

2. 힌트 추가 롤아웃(핵심 혁신)

none-pass 샘플(모든 초기 롤아웃이 실패한 경우)에 대해 절단 상황에 따라 힌트 전략을 선택합니다:

a) 모두 절단됨(All-truncated)

프롬프트 템플릿: "Let's think concisely and output the final answer within \boxed{}."

응답이 너무 길다고 판단하여 모델에게 간결한 사고를 유도합니다.

b) 일부 절단됨(Some-truncated)

프롬프트 템플릿: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

절단되지 않은 응답의 오답을 수집하여 힌트로 제공하면서 간결함을 요구합니다.

c) 절단되지 않음(None-truncated)

프롬프트 템플릿: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

오답 힌트만 제공하고 정상 길이의 추론을 허용합니다.

선택된 프롬프트 템플릿을 기반으로 $G$ 개의 추가 롤아웃 $\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}$ 를 다시 샘플링합니다.

3. 혼합 정책 최적화

추가 롤아웃에서 $G'$ 개의 정답 $\{o'_1, ..., o'_{G'}\}$ 이 있으면, 초기 롤아웃에서 $G'$ 개의 응답을 무작위로 교체합니다.

핵심 기술: 정규화된 중요도 샘플링을 사용하여 오프-정책 샘플을 처리합니다:

$\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}$

$f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}$

여기서 $\gamma = 0.1$ , $H_q$ 는 힌트 정보입니다.

혼합 정책 목적 함수:

$J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]$

기술 혁신점

자율 학습 메커니즘: 외부 감시에 의존하지 않고 모델 자체의 오류 시도만 활용
- 오답을 "반면교사"로 활용하여 해 공간 축소
- 모델이 동일한 오류를 반복하지 않도록 지시
상태 공간 가지치기: 이론적 분석에 따르면 힌트가 상태 공간을 $S_q$ 에서 $S'_q = S_q \backslash S^f_q$ (실패 부분공간 제외)로 가지치기하여 정답에 도달할 확률을 증가시킵니다
적응형 힌트 전략: 절단 상황에 따라 동적으로 힌트 내용 조정
- 과도한 응답 길이 문제 처리
- 탐색 깊이와 효율성의 균형
혼합 정책 훈련: 온-정책과 오프-정책 데이터를 우아하게 처리
- 훈련 안정성 유지
- 추가 롤아웃 정보의 충분한 활용

실험 설정

데이터셋

훈련 데이터: Skywork-OR1-RL-Data

Qwen3-4B-Base: Level 1 부분집합, 9,189개 샘플
Qwen3-8B-Base: Level 3 부분집합, 3,236개 샘플
선택 기준: 중간 난이도로 최적의 학습 가능성 보장

평가 지표

6개 수학 벤치마크 테스트:

MATH-500: 4회 샘플링, Mean@4 및 Pass@4 보고
Minerva: 4회 샘플링, Mean@4 및 Pass@4 보고
OlympiadBench: 4회 샘플링, Mean@4 및 Pass@4 보고
AMC'23: 16회 샘플링, Mean@16 및 Pass@16 보고
AIME'24: 16회 샘플링, Mean@16 및 Pass@16 보고
AIME'25: 16회 샘플링, Mean@16 및 Pass@16 보고

핵심 지표:

Pass@1: 단일 샘플 정확도(활용 능력)
Pass@k: k회 샘플링 중 최소 1회 정답 확률(탐색 상한)

비교 방법

Base: 기본 모델 성능
GRPO: 표준 Group Relative Policy Optimization
GRPO + Extra Rollouts: none-pass 샘플에 대한 단순 롤아웃 증가(힌트 없음)
LTE: 본 논문의 방법

각 방법은 두 가지 버전으로 테스트됩니다:

엔트로피 손실 없음: 엔트로피 손실 미사용
엔트로피 손실 포함: 계수 0.003의 엔트로피 손실 추가

구현 세부사항

훈련 프레임워크: verl
주요 하이퍼파라미터:

학습률: 1e-6
훈련 단계: 300
배치 크기: 128
각 프롬프트당 샘플 수: 8
온도: 1.0(훈련), 0.6(평가)
최대 응답 길이: 16,384(훈련), 32,768(평가)
KL 계수: 0.001
Clip 비율: 0.2

평가 설정: 표준 프로토콜을 엄격히 준수하며, 훈련 중 사용한 힌트는 평가 단계에서 사용하지 않습니다.

실험 결과

주요 결과

Pass@1 성능(표1)

Qwen3-4B-Base:

방법	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	평균
Base	45.40	19.49	22.81	35.31	8.75	3.75	22.59
GRPO (엔트로피 없음)	69.65	32.17	34.33	50.62	12.08	4.38	33.87
Extra Rollouts (엔트로피 없음)	69.30	31.99	35.59	55.78	11.88	6.46	35.17
LTE (엔트로피 없음)	71.95	33.82	38.44	58.91	16.88	12.29	38.72
LTE (엔트로피 포함)	76.00	34.01	40.63	65.16	24.17	18.96	43.16

주요 발견:

LTE (엔트로피 포함)는 GRPO + Extra Rollouts 대비 +6.38 평균 점수 향상
AIME'24 및 AIME'25 같은 고난이도 작업에서 특히 큰 향상(+5.00 및 +10.00)

Qwen3-8B-Base:

LTE (엔트로피 포함) 평균 점수 42.40, GRPO 대비 +1.78 향상
훈련 데이터 규모가 작아(3,236개 샘플) 성능이 상대적으로 불안정함

Pass@k 성능(표3)

Qwen3-4B-Base:

방법	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	평균
Base	69.80	37.87	39.70	82.50	33.33	26.67	48.31
GRPO (엔트로피 없음)	77.20	37.50	42.07	75.00	26.67	26.67	47.52
LTE (엔트로피 포함)	82.40	42.28	51.11	90.00	60.00	40.00	60.97

중요 발견:

표준 GRPO는 Pass@k를 감소시킵니다(47.52 vs 48.31 기준), 탐색 능력이 손상됨을 나타냅니다
LTE (엔트로피 포함)는 Pass@k를 60.97로 크게 향상시켜 기준선 대비 +12.66
LTE가 탐색 상한을 손상시키지 않을 뿐만 아니라 탐색 능력을 크게 향상시킨다는 증거

훈련 데이터 분석

None-pass 샘플 변화(그림3a):

GRPO는 200단계 후 정체되어 none-pass 샘플을 더 이상 해결할 수 없습니다
Extra Rollouts은 미미한 개선만 제공합니다
LTE는 none-pass 샘플을 지속적으로 감소시키며 훈련 후기에도 하강 추세 유지
LTE (엔트로피 포함)는 none-pass 샘플을 초기 80+에서 약 45로 감소

Some-pass 샘플 변화(그림3b):

LTE는 훈련 후기에 더 높은 some-pass 샘플 수량 유지(~60 vs ~50)
Some-pass 샘플은 0이 아닌 그래디언트를 제공하여 주요 학습 신호 원천입니다

All-pass 샘플 변화(그림3c):

LTE는 낮은 all-pass 샘플 수량 유지(~5 vs ~15-20)
과도한 확정성 수렴을 피하고 탐색 능력 유지

훈련 동역학 분석

검증 집합 성능(그림4a-b):

Pass@1: 기준선 방법은 100단계 후 정체, LTE는 75%+ 지속 향상
Pass@4: 기준선 방법은 100단계 후 하강, LTE는 82%+ 지속 향상

정책 엔트로피(그림4c):

모든 방법이 엔트로피 감소 경험
LTE는 훈련 후기에 상대적으로 높은 엔트로피 유지(~0.2 vs ~0.05)
LTE가 일정 수준의 불확실성과 탐색 능력을 유지함을 나타냅니다

응답 길이(그림4d):

기준선 방법은 응답 길이가 천천히 증가하다 250단계 후 정체(~2500 토큰)
LTE는 훈련 후기에 응답 길이를 3500+ 토큰으로 크게 증가
LTE가 암묵적으로 테스트 시간 깊은 사고(test-time deep thinking)를 장려함을 증명

제거 실험 발견

엔트로피 손실의 역할:

모든 방법에 성능 향상 제공
LTE와 결합할 때 최고 효과 달성, 엔트로피 제어와 자율 탐색의 시너지 효과 표시

Extra Rollouts의 한계:

단순 롤아웃 증가는 기존 정보를 충분히 활용하지 못함
때로는 부정적 영향 초래(예: 8B 모델의 일부 지표)

이론적 분석

상태 공간 가지치기 증명

실패 부분공간 정의: $S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}$ , 여기서 $A_q$ 는 생성된 오답 집합

가지치기 부분공간 정의: $S'_q = S_q \backslash S^f_q$

핵심 정리: 힌트 $H_q$ (오답 포함)가 주어졌을 때, 정답에 도달할 확률이 증가합니다:

$\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)$

여기서:

$M_q$ : 정답 상태 집합
$\delta > 0$ : 힌트로 인한 실패 부분공간 확률 감소량
$\tau$ : n회 연속 실패 관찰의 신뢰도
$\alpha \sim \Omega(1)$ : 힌트가 가지치기 부분공간 내 추론 능력에 미치는 영향 인수

결론: $\alpha$ 가 1보다 훨씬 작지 않아야 하므로, 이 비율은 1보다 크며, 힌트가 정답에 도달할 확률을 증가시킨다는 것을 증명합니다.

정보 이득 분석

정보 이론 관점에서:

$I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0$

LTE가 힌트 집합 $H$ 에서 추가 상호 정보를 얻었으며, 이론상 GRPO보다 우수함을 증명합니다.

결론 및 논의

주요 결론

유효성 검증: LTE는 두 개의 LLM과 6개의 벤치마크에서 GRPO 및 단순 extra rollouts를 크게 초과합니다
탐색 정체 완화: none-pass 샘플을 성공적으로 감소시키고 훈련 데이터에서 지속적으로 학습합니다
이중 능력 향상: 활용(Pass@1)과 탐색(Pass@k) 모두 동시에 강화합니다
자율 학습: 외부 전문가 지도 없이도 능력 병목을 돌파합니다

한계

작업 한계: 현재 답변 형식이 간결한 수학 추론에만 적용 가능
- 코드 생성 등 작업을 지원하려면 수정 필요
엔트로피 제어: 명시적 적응형 엔트로피 제어 미통합, 최적 상태 미달성 가능
규모 제한: 계산 자원 제약으로 대규모 모델(>10B)에서 검증 미실시
8B 모델 불안정성: 훈련 데이터 부족(3,236개 샘플)으로 인한 과적합

향후 방향

저자들은 4가지 연구 방향을 명확히 제시합니다:

적응형 엔트로피 제어: LTE와 동적 엔트로피 조정 메커니즘 결합
강화된 힌트 정보: 보상 해킹 회피 전제 하에 정답 정보 통합
세분화된 힌트: 단일 롤아웃 수준에서 누적 오답 힌트 적용
작업 확장: 코드 생성, 정리 증명 등 분야로 일반화

심층 평가

장점

1. 방법 혁신성 ⭐⭐⭐⭐⭐

핵심 혁신: LLM 자체의 오답을 탐색 지도로 활용하는 첫 번째 체계적 방법
이론 지원: 상태 공간 가지치기 및 정보 이득의 이론적 증명 제공
실용 가치: 외부 자원 불필요, 비용 저렴, 확장성 우수

2. 실험 충분성 ⭐⭐⭐⭐

다차원 평가: 6개 벤치마크, 2개 모델, 2개 지표 차원 포함
심층 분석:
- 훈련 데이터 동역학(none/some/all-pass)
- 훈련 과정 동역학(엔트로피, 응답 길이)
- 제거 실험(엔트로피 손실 영향)
포괄적 비교: 다수의 기준선 및 변형 포함