2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

오류 인식 자기 반성을 통한 장문 추론 증류 강화

기본 정보

논문 ID: 2505.22131
제목: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
저자: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
분류: cs.CL (계산 언어학)
발표 시간: 2025년 5월 (ArXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2505.22131

초록

대규모 언어 모델(LLMs)은 수학 문제 해결 작업에서 강력한 추론 능력과 우수한 성능을 보여줍니다. 최근 장문 추론(Chain-of-Thought, CoT)에서 추론 능력을 증류하는 것이 소형 언어 모델(SLMs)을 강화하는 효과적인 방법이 되었습니다. 기존 연구는 일반적으로 SLMs을 학생 모델로 사용하고 장문 CoT를 감독 신호로 사용하여 감독 미세 조정(SFT)을 통해 추론 능력을 전이합니다. 그러나 이러한 장문 CoT 교사 모델은 일반적으로 학생 모델의 능력을 인식하지 못하여 추론 궤적의 효과적인 활용을 제한합니다. 이러한 제한을 극복하기 위해 본 논문은 오류 인식 반성(ORION) 프레임워크를 제안하며, 오류 인식 반성 과정을 통해 교사 CoT를 정제합니다. ORION은 학생 모델이 교사 CoT를 정제하고 자신의 추론 오류를 통합하여 더욱 적응된 교사 CoT를 구축할 수 있게 합니다. 여러 수학 추론 벤치마크에 대한 실험은 ORION이 모든 기준선을 2% 이상 초과하는 성능 향상을 달성함을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다음과 같습니다: 특히 수학 문제 해결 작업에서 대규모 추론 모델의 장문 추론 능력을 소형 언어 모델에 효과적으로 증류하는 방법은 무엇인가?

문제의 중요성

계산 자원 제한: 대규모 추론 모델은 성능이 우수하지만 배포 비용이 높아 더 경량의 모델로 능력을 전이해야 합니다
추론 능력 격차: 소형 모델은 복잡한 수학 추론 작업에서 성능이 부족하여 효과적인 지식 전이 방법이 필요합니다
실제 응용 요구: 교육, 과학 연구 등의 분야에서 효율적이면서도 정확한 수학 추론 시스템이 필요합니다

기존 방법의 한계

능력 인식 부재: 전통적인 증류 방법에서 교사 모델이 생성하는 장문 CoT는 학생 모델의 실제 능력 수준을 고려하지 않습니다
수동 학습 문제: 학생 모델은 과도하게 복잡한 추론 단계를 수동적으로만 받아들일 수 있어 효과적인 추론 패턴을 내재화하기 어렵습니다
오류 활용 부족: 기존 방법은 학생 모델 자체의 오류 정보를 충분히 활용하지 못합니다

연구 동기

George Bernard Shaw의 명언 "성공은 절대 실수하지 않는 것이 아니라 같은 실수를 반복하지 않는 것"에서 영감을 받아, 본 논문은 학생 모델의 오류 정보를 활용하여 CoT 정제 과정을 지도함으로써 학생 모델의 학습에 더욱 적합한 감독 신호를 생성할 것을 제안합니다.

핵심 기여

ORION 프레임워크 제안: 오류 인식 자기 반성 메커니즘을 장문 추론 증류에 처음으로 도입하여 학생 모델이 자신의 오류에 따라 교사 CoT를 정제할 수 있게 합니다
이단계 훈련 전략 설계: 오류 노출 단계와 추론 정제 단계를 포함하여 학생 모델의 오류를 체계적으로 활용합니다
현저한 성능 향상 달성: GSM-Hard, MATH500, AIME24, AMC23 등 여러 수학 추론 벤치마크에서 모든 기준선을 2% 이상 초과합니다
심층 분석 제공: ORION이 생성하는 CoT가 더 높은 일관성과 논리적 일치성을 가지며 훈련 과정이 더욱 안정적임을 증명합니다

방법 상세 설명

작업 정의

수학 문제 q가 주어졌을 때, 목표는 소형 언어 모델 Ms가 정확한 해답을 생성할 수 있도록 훈련하는 것입니다. 입력은 문제 설명이고 출력은 추론 과정과 최종 답변을 포함한 완전한 해답입니다.

모델 아키텍처

1. 전통적 증류 방법 검토

기본 SFT: 인간이 주석을 단 답변 레이블을 사용한 직접 감독 학습

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

장문 추론 증류: 교사 모델이 생성한 CoT를 감독 신호로 사용

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. ORION 프레임워크 설계

단계 1: 오류 노출(Error Exposure)

각 문제 qi에 대해 서로 다른 온도 τ를 사용하여 K개의 후보 해답을 샘플링합니다:

Yi ~ SampleτM(s(InstructQA(qi)))

오류 해답을 필터링하여 오류 집합을 구성합니다:

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

단계 2: 추론 정제(Reasoning Refinement)

학생 모델이 오류 해답을 기반으로 교사 CoT를 정제합니다:

õi_k = Ms(InstructRef(q, yi_k, oi))

정제된 훈련 데이터 집합을 구성합니다:

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

기술 혁신점

오류 인식 메커니즘: CoT 증류에서 학생 모델의 오류 정보를 처음으로 체계적으로 활용합니다
자기 반성 정제: 학생 모델이 훈련 데이터 구성 과정에 능동적으로 참여하도록 하며, 수동적으로 받아들이지 않습니다
능력 적응 설계: 생성된 CoT가 학생 모델의 학습 능력에 더욱 부합하여 사제 간 격차를 줄입니다

실험 설정

데이터셋

훈련 데이터: OpenR1-Math-220k 데이터셋에서 무작위로 10,000개 샘플 추출
평가 데이터셋:
- GSM-Hard: 계산 난이도가 증강된 1,319개의 수학 문제
- MATH500: 500개의 경쟁 수준 수학 문제
- AIME24: 미국 수학 초대 대회 30개 문제
- AMC23: 미국 수학 경쟁 40개 문제

평가 지표

Acc@1: 단일 샘플링의 정확도
Acc@10: 10회 샘플링 중 최고 정확도

비교 방법

영점 학습 기준선: Vanilla LLM, Wrong-of-Thought
SFT 기준선: SFT(Label), SFT(Long-CoT)
소거 변형: ORION w/o Solution Error, ORION w/o Self-Reflection

구현 세부사항

백본 모델: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
훈련 구성: 학습률 5×10^-5, 그래디언트 누적 단계 8, 3개 에포크 훈련
최적화 전략: LoRA를 사용한 효율적 훈련

실험 결과

주요 결과

모든 테스트 데이터셋에서 ORION은 기준선 방법을 현저히 능가합니다:

Qwen3-8B-Instruct 결과:

방법	AIME24	AMC23	Math500	GSM-H	평균
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

주요 발견:

ORION은 최강 기준선 SFT(Long-CoT)에 비해 평균 2.38% 향상
모든 백본 모델에서 일관된 개선 관찰
오류 인식 프롬프트 방법 Wrong-of-Thought에 비해 5% 이상 향상

소거 실험

구성 요소	AIME24	AMC23	Math500	GSM-H	평균
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (완전)	26.67	62.50	83.50	59.83	58.13

분석 결론:

자기 반성 메커니즘은 약 1.5%의 성능 향상에 기여
오류 정보 통합은 추가 0.86%의 향상에 기여
두 구성 요소는 상호 보완적이며 함께 작용할 때 최고의 효과를 발휘

훈련 안정성 분석

엔트로피 값 분석을 통해 다음을 발견했습니다:

ORION 훈련 과정에서 엔트로피 값이 현저히 낮고 더욱 안정적
자기 반성 메커니즘이 더욱 안정적인 학습 과정을 효과적으로 촉진
오류 정보의 추가가 훈련 엔트로피 값을 더욱 감소

생성 품질 평가

추론 길이: ORION이 생성하는 CoT는 기준선 방법보다 약 40% 짧으며, 과도한 사고 문제를 효과적으로 완화합니다

혼동도 점수: ORION은 Qwen3에서 16.9의 혼동도를 달성하여 SFT(Long-CoT)의 24.8을 현저히 하회합니다

GPT-4 선호도 평가: ORION은 44.2%의 승률을 획득하여 다른 방법의 약 두 배입니다

오류 유형 분석

500개 오류 샘플의 분석에서 다음을 발견했습니다:

추론 오류가 46.5%를 차지하여 가장 주요한 오류 유형입니다
ORION은 추론 오류 수정에서 41.5%의 성공률을 달성하여 기준선의 15.5%를 현저히 능가합니다
이해 오류와 계산 오류에서도 명백한 개선을 보입니다

결론 및 논의

주요 결론

ORION의 효과성: 여러 수학 추론 벤치마크에서 일관되고 현저한 성능 향상을 달성합니다
메커니즘의 합리성: 오류 인식 자기 반성 메커니즘은 학생 모델의 학습에 더욱 적합한 훈련 데이터를 생성할 수 있습니다
훈련 개선: 전통적 방법에 비해 ORION은 훈련이 더욱 안정적이고 생성 품질이 더 높습니다

한계

계산 비용: 여전히 강력한 폐쇄 소스 추론 모델에 의존하여 초기 CoT를 생성하므로 계산 오버헤드가 상당합니다
교사 모델 한계: 주로 DeepSeek-R1을 기반으로 하며 다른 추론 모델의 효과를 충분히 탐색하지 못했습니다
영역 제한: 현재 주로 수학 추론 작업에서 검증되었으며 다른 추론 작업의 효과는 추가 검증이 필요합니다

향후 방향

더욱 효율적인 CoT 생성 방법을 탐색하여 폐쇄 소스 모델에 대한 의존성을 감소시킵니다
더 많은 추론 작업 및 영역으로 확장합니다
더욱 세분화된 오류 분류 및 처리 전략을 연구합니다

심층 평가

장점

높은 혁신성: 학생 모델의 오류 정보를 CoT 정제에 체계적으로 활용한 것은 처음이며 사고가 참신합니다
충분한 실험: 여러 데이터셋과 여러 백본 모델에서 포괄적인 평가를 수행했습니다
심층 분석: 성능 수치뿐만 아니라 훈련 안정성, 생성 품질 등 다양한 관점에서 분석합니다
우수한 재현성: 상세한 구현 세부사항과 오픈 소스 코드를 제공합니다

부족한 점

이론 분석 부족: 오류 인식 메커니즘이 효과적인 이유에 대한 이론적 설명이 부족합니다
계산 오버헤드 분석 누락: ORION과 기준선 방법 간의 추가 계산 비용에 대한 상세 분석이 없습니다
오류 유형 처리: 다양한 유형의 오류에 대한 처리 전략이 상대적으로 단순하여 개선 여지가 있습니다

영향력

학술적 가치: 추론 능력 증류를 위한 새로운 연구 방향을 제공합니다
실용적 가치: 방법이 상대적으로 간단하고 구현하기 쉬워 좋은 응용 전망을 가집니다
영감 제공: 오류 인식 사고는 다른 NLP 작업에도 적용될 수 있습니다

적용 시나리오

교육 응용: 수학 튜터링 시스템 구축에 사용될 수 있습니다
과학 연구 도구: 수학 추론 능력이 필요한 연구 시나리오에 적합합니다
자원 제한 환경: 계산 자원은 제한적이지만 추론 능력이 필요한 시나리오에서 가치가 있습니다

참고문헌

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

본 논문이 제안하는 ORION 프레임워크는 학생 모델의 오류 정보를 교묘하게 활용하여 추론 능력 증류 과정을 개선하며, 혁신적이고 실용적인 기여입니다. 이론 분석과 계산 오버헤드 측면에서 개선 여지가 있지만, 핵심 사고는 우수한 영감력과 확산 가치를 가집니다.