Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- 논문 ID: 2511.04902
- 제목: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- 저자: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- 분류: cs.LG, cs.AI
- 발표 학회: NeurIPS 2025 Workshop: MATH-AI
- 논문 링크: https://arxiv.org/abs/2511.04902
- 코드 링크: https://github.com/BorealisAI/CuMa
본 논문은 다양한 규모(0.5B~7B 파라미터)와 추론 능력을 가진 언어 모델에서 레이블 없는 강화학습(Label-Free RL) 방법의 성능을 체계적으로 연구합니다. 연구는 핵심적인 한계를 드러냅니다: 레이블 없는 RL은 기초 모델의 사전 존재하는 추론 능력에 매우 의존하며, 약한 모델의 경우 성능이 기준선 이하로 떨어집니다. 연구는 소형 모델이 효과적인 자기 반성을 위해 충분히 길거나 다양한 사고 연쇄(CoT)를 생성할 수 없으며, 훈련 데이터의 난이도가 성공 여부를 결정하는 핵심 역할을 한다는 것을 발견합니다. 이러한 도전에 대응하기 위해 저자들은 CuMa 방법을 제안하며, 이는 과정 학습을 통해 점진적으로 더 어려운 문제를 도입하고 훈련 중 다수결 투표 결과가 없는 샘플을 마스킹합니다. 이 방법은 모든 모델 규모에서 일관된 개선을 보여줍니다.
최근 대규모 언어 모델의 추론 능력 향상은 주로 강화학습 기술에 의존하고 있지만, 전통적인 방법(RLHF, RLVR 등)은 외부 감독 신호(인간 주석 또는 도메인 특정 진실 레이블)에 심각하게 의존합니다. 이러한 확장성 병목을 해결하기 위해 연구자들은 레이블 없는 RL 방법(TTRL, Intuitor 등)을 제안했지만, 이러한 방법들은 주로 대규모의 강한 추론 능력을 가진 모델(예: Qwen2.5-Math-7B)에서 검증되었습니다. 본 논문이 해결하려는 핵심 문제는: 이러한 레이블 없는 RL 방법이 추론 능력이 제한된 소형 기초 모델로 일반화될 수 있는가? 입니다.
- 자원 제약 시나리오: 엣지 디바이스나 계산 자원이 제한된 환경에서 소형 모델이 더 실용적입니다
- 확장성: 소형 모델의 학습 메커니즘을 이해하는 것은 확장 가능한 추론 시스템 구축에 필수적입니다
- 이론적 의의: 추론 능력 자기 부스트래핑(bootstrap)의 최소 전제 조건을 밝혀냅니다
- TTRL: 미표시 테스트 데이터에서 다수결 투표를 통해 보상을 추정하지만, 소형 모델은 초기 훈련 시 정확한 출력이 너무 적어 거짓 레이블 오류가 발생합니다
- Intuitor: 모델 자신의 확신도(self-certainty)를 내재적 보상으로 사용하지만, 소형 모델의 확신도 보정이 좋지 않습니다
- 약한 모델 연구 부족: 기존 방법은 기초 추론 능력이 부족할 때의 실패 모드를 고려하지 않습니다
체계적인 실험을 통해 레이블 없는 RL이 약한 모델에서 실패하는 근본 원인을 밝혀내고, 자원 제약 모델도 무감독 RL의 이점을 얻을 수 있도록 하는 목표 지향적 해결책을 제안합니다.
- 최초의 체계적 분석: 다양한 모델 규모(0.5B-7B)에서 레이블 없는 RL 방법의 성능 차이를 드러내며, 약한 모델에서 현저한 성능 저하 및 붕괴 현상을 발견합니다
- 주요 발견:
- 레이블 없는 RL은 기초 모델의 사전 존재하는 추론 능력에 매우 의존합니다
- 소형 모델은 자기 반성을 위해 충분히 길거나 다양한 사고 연쇄를 생성할 수 없습니다
- 훈련 데이터의 난이도는 성공을 결정하는 핵심 요소입니다
- CoT 길이는 강한 추론 능력의 직접적인 반영이 아닙니다
- CuMa 방법 제안: 과정 학습, 보상 마스킹, 데이터 생성을 결합한 통합 프레임워크
- 간단한 것에서 어려운 것으로의 점진적 훈련 전략
- 다수결 합의가 없는 샘플의 보상 신호 마스킹
- LLM 기반의 난이도 제어 가능한 데이터 생성 파이프라인
- 실증 검증: Math 500, GPQA, AIME24, GSM8K, LCB 등 여러 추론 벤치마크에서 검증하여, 모든 모델 규모에서 방법의 효과를 증명하며, 특히 약한 모델에서 현저한 개선을 보여줍니다
입력: 레이블 없는 추론 문제 데이터셋 D={x1,...,xM} (예: 수학 문제)
출력: 최적화된 정책 모델 πθ로, 올바른 추론 연쇄와 답변을 생성할 수 있습니다
제약: 훈련 과정에서 진실 레이블에 접근할 수 없으며, 모델 자신이 생성한 여러 후보 해결책을 통해서만 학습할 수 있습니다
데이터셋을 K=5개의 난이도 수준으로 분할합니다:
D=D1∪D2∪...∪DK
여기서 D1은 가장 간단한 문제를 포함하고, DK는 가장 어려운 문제를 포함합니다. 훈련은 D1→DK 순서로 진행됩니다.
각 프롬프트 xi에 대해 N개의 후보 해결책 {yi(1),...,yi(N)}을 생성하며, 보상 함수는 다음과 같이 정의됩니다:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
샘플에 다수결 합의가 없을 때(즉, 최대 출현 횟수 < 2), 학습 신호를 마스킹합니다:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
이는 모델이 불확실한 예측으로부터 노이즈 피드백을 학습하는 것을 방지합니다.
LLM을 사용하여 미리 정의된 난이도의 합성 데이터를 생성합니다:
- 구조화된 프롬프트 전략으로 난이도 수준을 명확하게 지정(1-5)
- 각 수준에 참조용 예제 문제 제공
- 다양성을 높이기 위해 동적으로 예제 새로고침
- 매번 25개 샘플 생성으로 다양한 수학 부분 주제 커버
기준선과의 차이:
- TTRL/Intuitor: 고정 난이도 데이터에서 훈련
- CuMa: 간단한 문제에서 시작하여 점진적으로 난이도 증가
설계의 합리성:
- 소형 모델은 어려운 문제에서 거의 정확한 해결책을 생성할 수 없습니다(그림 2에서 보듯이 0.5B 모델의 초기 훈련 정확도는 거의 0에 가깝습니다)
- 간단한 문제에서 기초 추론 능력을 구축한 후 복잡한 문제로 전이합니다
- 인간 학습의 인지 규칙과 일치합니다
혁신 포인트: 명확한 다수결 합의가 있을 때만 모델을 업데이트합니다
해결하는 문제:
- 초기 훈련 시 소형 모델이 생성하는 후보 해결책은 매우 분산되어 있습니다
- 다수결 합의가 없다는 것은 모델이 해당 문제에 대해 불확실하다는 의미입니다
- 강제 학습은 노이즈를 도입하여 성능 저하를 초래합니다
실험 증명: 표 2의 소거 실험에서 보상 마스킹을 제거하면 성능이 32.8에서 30.7로 감소합니다
기술 세부사항:
- 구조화된 프롬프트 엔지니어링을 사용하여 다양한 난이도의 수학 문제 생성
- 대수, 기하, 확률 등 여러 하위 영역 포함
- 특정 패턴에 대한 과적합을 피하기 위해 동적으로 예제 샘플링
역할: 과정 학습을 위해 충분한 각 난이도 수준의 샘플 제공
- Math 500: 500개의 고품질 수학 문제
- GPQA: 대학원 수준의 물리 질의응답
- AIME24: 2024년 미국 수학 초대 대회 문제
- GSM8K: 초등학교 수학 응용 문제(8,000+ 문제)
- LCB: 논리 추론 벤치마크
- 정확도(Accuracy): 생성된 답변이 표준 답변과 완전히 일치하는 비율
- 모든 실험은 백분율 정확도로 보고됩니다
- 기본 모델: RL 훈련을 받지 않은 기초 모델
- GRPO: 진실 레이블을 사용하는 감독식 강화학습(상한 참조)
- Intuitor: 자기 확신도 기반의 레이블 없는 RL
- TTRL: 다수결 투표 기반의 테스트 시간 RL
- 최적화기: AdamW
- 학습률: 피크 3×10⁻⁶, 코사인 감쇠
- 샘플링 전략: 각 프롬프트당 8개 후보 생성, 온도 0.6
- 최대 생성 길이: 3,072 토큰
- 훈련 에포크: 1 에피소드
- 하드웨어: 4×NVIDIA H100 80GB GPU
- 모델 시리즈: Qwen2.5 (0.5B, 1.5B, 3B, 7B)
0.5B 모델:
- 기본: Math 500=23.4, GSM8K=26.38
- TTRL: 완전 붕괴(Math 500=0.0)
- Intuitor: 성능 감소(GSM8K=0.68)
- CuMa: Math 500=32.8(+40%), GSM8K=32.9(+25%)
7B 모델:
- 기본: Math 500=58.2, GSM8K=81.5
- GRPO: 73.8, 85.67(레이블 있는 상한)
- TTRL/Intuitor: 73.6/72.2, 84.39/78.19
- CuMa: 74.0, 84.49(레이블 있는 방법에 근접)
핵심 발견:
- 대규모 모델에서 모든 레이블 없는 방법이 효과적입니다
- 소형 모델에서는 CuMa만 안정적으로 개선되며, 다른 방법은 저하되거나 붕괴됩니다
- CuMa는 0.5B 모델에서 붕괴를 방지하고 현저한 개선을 달성합니다
CuMa는 5개의 다양한 추론 벤치마크에서 개선을 보여줍니다:
- Math 500: 모든 모델 규모에서 개선
- GPQA: 7B 모델 27.77→32.32
- AIME24: 7B 모델 6.67→13.33(2배)
- LCB: 3B 모델 5.20→8.04
표 2는 CuMa의 각 구성 요소의 기여도를 보여줍니다(0.5B 모델, Math 500):
| 구성 | 성능 | 감소폭 |
|---|
| 완전한 CuMa | 32.8 | - |
| 보상 마스킹 제거 | 30.7 | -6.4% |
| 데이터 생성 제거 | 24.5 | -25.3% |
| 과정 학습 제거 | 20.1 | -38.7% |
핵심 통찰:
- 과정 학습이 가장 중요: 제거 후 성능이 붕괴에 가까워집니다(20.1 vs 기본 23.4)
- 데이터 생성이 중요: 과정 학습을 지원하는 충분한 각 난이도 샘플 제공
- 보상 마스킹이 효과적: 노이즈 신호로부터의 학습을 방지하여 훈련 안정화
- 0.5B 모델: 처음 50단계에서 거의 정확한 출력이 없습니다
- 결과: TTRL의 다수결 투표가 거짓 레이블 생성→모델 붕괴
- CuMa 해결책: 간단한 문제에서 시작하여 초기에도 부분적으로 정확한 답변 생성
- 7B 모델: 길이 500→1400 토큰, 자기 반성 포함
- 0.5B/1.5B 모델: 길이 500-700 유지, 현저한 증가 없음
- 발견: 길이 증가는 소형 모델의 신뢰할 수 있는 지표가 아닙니다
0.5B 모델에서 다양한 난이도 수준(Level 1-2~1-5) 테스트:
- Math 500: L1-2일 때 0.35→L1-4일 때 거의 0(붕괴)
- GSM8K: 0.28에서 점진적으로 0.15로 감소
- 결론: 데이터가 너무 어려우면 소형 모델이 학습할 수 없습니다
- 추론 능력 임계값: 레이블 없는 RL은 최소 추론 능력을 전제로 합니다
- 데이터-능력 매칭: 훈련 데이터 난이도는 모델 능력과 일치해야 합니다
- 다수결 투표 신뢰성: 기초 모델이 부분적으로 정확한 해결책을 생성할 수 있는 능력에 의존합니다
- 과정 학습의 보편성: 모든 모델 규모에 도움이 되지만, 약한 모델에서 더 중요합니다
- CoT 길이의 오도성: 소형 모델의 추론 개선의 유일한 지표로 사용할 수 없습니다
- RLHF: 인간 피드백을 통한 모델 정렬
- GRPO: 수학 추론을 위한 규칙 기반 보상 방법
- DeepSeek-R1: 대규모 추론 모델
- 한계: 주석 데이터에 의존하며 확장성이 제한됩니다
- 자기 보상 LM: 모델 자체 평가
- 자기 플레이 미세조정: 자기 대전을 통한 개선
- DPO: 직접 선호도 최적화
- 본 논문의 차이점: 약한 모델에서 RL 방법의 적용 가능성에 초점
- TTRL: 테스트 시간 다수결 투표 RL
- Intuitor: 자기 확신도 기반
- 본 논문의 기여: 이러한 방법이 약한 모델에서 실패하는 모드를 드러내고 해결책을 제안합니다
- 전통적 과정 학습은 주로 감독식 학습에 사용됩니다
- 본 논문의 혁신: 과정 학습을 처음으로 체계적으로 레이블 없는 RL 추론 작업에 적용합니다
- 핵심 발견: 레이블 없는 RL은 "공짜 점심"이 아니며, 기초 추론 능력을 전제로 합니다
- 실패 메커니즘:
- 약한 모델은 충분한 정확한 해결책을 생성할 수 없음→다수결 투표 실패
- 다양한 CoT 부족→자기 반성 메커니즘 무효
- 데이터가 너무 어려움→학습 신호 희소
- 해결책의 효과성: CuMa는 0.5B-7B 모든 규모에서 성능을 개선하며, 특히 약한 모델에서 현저한 개선을 보여줍니다
- 이론적 의의: 추론 능력 자기 부스트래핑의 최소 조건과 경로를 드러냅니다
- 모델 범위: Qwen 시리즈 모델에서만 검증되었으며, 다른 아키텍처(LLaMA, Mistral 등)의 일반화 가능성은 미지수입니다
- 영역 제한: 주로 수학 추론에 초점을 맞추고 있으며, 다른 추론 유형(상식 추론, 논리 추론 등)에 대한 적용 가능성은 추가 검증이 필요합니다
- 과정 설계: 난이도 분류는 인간 정의 또는 LLM 생성에 의존하며, 자동 난이도 평가 메커니즘이 부족합니다
- 계산 비용: 많은 후보 해결책 생성(문제당 8개)이 필요하여 추론 비용이 높습니다
- 최소 능력 임계값: "충분한 추론 능력"의 정량적 기준이 명확하지 않습니다
- 데이터 생성 품질: 합성 데이터의 다양성과 품질은 생성 모델에 의존합니다
- 자적응 과정: 모델의 실시간 성능에 따라 난이도를 동적으로 조정
- 혼합 보상: 다수결 투표와 확신도를 결합한 다중 신호 보상
- 교차 영역 검증: 코드 생성, 과학 추론 등 영역으로 확장
- 이론 분석: 추론 능력과 RL 효과성 간의 형식적 관계 수립
- 효율성 최적화: 후보 해결책 생성 수 감소로 계산 비용 절감
- 약한 모델에서 레이블 없는 RL의 실패 현상을 처음으로 체계적으로 드러냅니다
- 다차원 실험(모델 규모, 데이터 난이도, CoT 길이)을 통해 근본 원인을 심층 분석합니다
- 그림 2의 시각화가 초기 훈련 붕괴 메커니즘을 직관적으로 보여줍니다
- 단순하고 효과적: 세 가지 구성 요소(과정 학습, 보상 마스킹, 데이터 생성)가 모두 명확한 동기를 가집니다
- 이론적 지원: 과정 학습은 인지 과학 및 기계학습 이론과 일치합니다
- 공학적 실현 가능성: 구현이 용이하며 복잡한 새로운 구성 요소를 도입하지 않습니다
- 규모 포괄성: 0.5B-7B 네 가지 모델 규모를 포함합니다
- 벤치마크 다양성: 5가지 다양한 유형의 추론 작업을 포함합니다
- 비교 완전성: 레이블 있는 상한(GRPO)과 여러 레이블 없는 기준선을 포함합니다
- 세밀한 소거: 각 구성 요소의 기여도를 하나씩 검증합니다
- 자원 제약 시나리오(엣지 디바이스, 저비용 배포)에 실행 가능한 솔루션을 제공합니다
- 코드 오픈소스로 재현성이 강합니다
- 방법이 범용적이며 다른 RL 패러다임으로 확장 가능합니다
- 구조적 논리가 엄밀합니다: 문제→분석→방법→검증
- 시각화 효과가 좋습니다(그림 1-4가 핵심 발견을 직관적으로 보여줍니다)
- 핵심 기여가 명확하게 요약되어 있습니다
- 형식적 분석 부족: 추론 능력과 RL 수렴성 간의 이론적 관계가 수립되지 않았습니다
- 난이도 정의 모호: Level 1-5의 구분이 주관적 판단에 의존합니다
- 임계값 미량화: 어느 정도의 추론 능력이 레이블 없는 RL을 지원하기에 충분한가?
- 단일 모델 시리즈: Qwen 모델만 사용되어 아키텍처 편향이 배제되지 않았습니다
- 데이터 생성 의존성: 합성 데이터 품질이 Qwen-72B에 의존하여 편향을 도입할 수 있습니다
- 통계적 유의성 부족: 여러 번 실행의 분산과 신뢰 구간이 보고되지 않았습니다
- 계산 비용 미보고: 훈련 시간, GPU 시간 등 자원 소비가 공개되지 않았습니다
- 고정 과정: 5개 난이도 수준과 순서는 하이퍼파라미터이며 자적응 메커니즘이 부족합니다
- 다수결 투표의 취약성: 여전히 기초 모델이 부분적으로 정확한 해결책을 생성할 수 있는 능력에 의존합니다
- 보상 마스킹의 보수성: 학습 가치가 있는 어려운 샘플을 놓칠 수 있습니다
- 실패 사례 부재: CuMa가 여전히 실패하는 경우가 표시되지 않았습니다
- 인간 학습과의 비교 부족: 과정 학습의 유추가 깊이 있게 탐구되지 않았습니다
- 장기 효과 미지수: 1개 에피소드만 훈련되었으며, 지속적 훈련의 안정성이 검증되지 않았습니다
- 작업 단일성: 주로 수학 추론이며, 다른 추론 유형이 충분히 검증되지 않았습니다
- 언어 제한: 영문 데이터만 사용되었으며, 다국어 시나리오가 고려되지 않았습니다
- 도메인 지식: 전문 지식이 필요한 작업(의료, 법률 등)에 대한 적용 가능성이 미지수입니다
- 연구 공백 채우기: 약한 모델에서 레이블 없는 RL의 행동을 처음으로 체계적으로 연구합니다
- 방법론적 통찰: 과정 학습이 RL 추론 작업에서 효과적임을 증명합니다
- 실무 지침: 소형 모델의 추론 능력 향상을 위한 실행 가능한 경로를 제공합니다
- 이론적 기초: 추론 능력 자기 부스트래핑 메커니즘에 대한 후속 연구의 기초를 마련합니다
- 엣지 배포: 소형 모델도 RL을 통해 개선 가능하여 배포 비용을 절감합니다
- 교육 응용: 점진적 학습 전략을 개인화 교육 시스템에 적용할 수 있습니다
- 연구 도구: 오픈소스 코드와 데이터 생성 파이프라인을 커뮤니티에 제공합니다
- ✅ 코드 오픈소스(GitHub)
- ✅ 하이퍼파라미터 상세(학습률, 온도, 생성 길이 등)
- ✅ 데이터 생성 프롬프트 공개(부록 B)
- ⚠️ 계산 자원 요구 높음(4×H100)
- ⚠️ 합성 데이터가 직접 공개되지 않음
- 자원 제약 환경: 소형 모델에서 추론 능력 개선이 필요한 경우
- 레이블 없는 데이터: 많은 추론 문제가 있지만 표준 답변이 부족한 경우
- 점진적 학습: 작업이 명확한 난이도 계층을 가진 경우(교육, 경쟁 훈련)
- 수학/코드 추론: 객관적 정답이 있는 폐쇄 영역 작업
- 개방 영역 생성: 창의적 글쓰기, 대화 시스템(명확한 정답 없음)
- 극도로 약한 모델: <0.5B 또는 기초 추론 능력이 무작위에 가까운 모델
- 실시간 시스템: 빠른 응답이 필요하며 여러 샘플링 오버헤드를 감당할 수 없는 경우
- 주관적 작업: 감정 분석, 스타일 전이(다수결 투표가 의미 없음)
- DeepSeekMath 1: 수학 추론의 개방 모델 벤치마크
- DeepSeek-R1 2: 대규모 추론 모델 및 RL 훈련
- TTRL 3: 테스트 시간 강화학습 프레임워크
- Intuitor 4: 내재적 확신도 기반의 무감독 RL
- RLHF 6: 인간 피드백으로부터 학습하는 고전적 방법
- PPO 7: 근접 정책 최적화 알고리즘
- Chain-of-Thought 8: 사고 연쇄 프롬프팅 기술
- 강화학습 기초 5: Sutton & Barto 고전 교재
- DPO 17: 직접 선호도 최적화
- 자기 보상 LM 14-16: 자기 보상 및 자기 개선
본 논문은 약한 추론 모델에서 레이블 없는 강화학습의 실패 문제에 대해 심층적인 실증 연구와 방법론적 혁신을 수행합니다. 핵심 가치는 추론 능력 자기 부스트래핑의 전제 조건을 드러냅니다: 기초 모델은 무감독 RL의 이점을 얻기 위해 최소한의 추론 능력을 갖춰야 합니다. CuMa 방법은 과정 학습, 보상 마스킹, 데이터 생성의 협력 설계를 통해 0.5B 등의 약한 모델도 안정적으로 개선할 수 있게 합니다.
강점: 문제 식별의 정확성, 방법의 단순 효과성, 포괄적인 실험 범위, 높은 실용 가치.
약점: 제한된 이론 분석, 제한된 일반화 검증, 통계적 유의성 부족.
추천 지수: ⭐⭐⭐⭐ (4/5)
소형 모델 추론, 무감독 학습, 과정 학습에 관심 있는 연구자들이 읽기에 적합합니다. 자원 제약 시나리오에서 추론 모델을 배포하려는 산업계에도 중요한 참고 가치가 있습니다.