Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
대규모 언어 모델(LLMs)은 수학 문제 해결 작업에서 강력한 추론 능력과 우수한 성능을 보여줍니다. 최근 장문 추론(Chain-of-Thought, CoT)에서 추론 능력을 증류하는 것이 소형 언어 모델(SLMs)을 강화하는 효과적인 방법이 되었습니다. 기존 연구는 일반적으로 SLMs을 학생 모델로 사용하고 장문 CoT를 감독 신호로 사용하여 감독 미세 조정(SFT)을 통해 추론 능력을 전이합니다. 그러나 이러한 장문 CoT 교사 모델은 일반적으로 학생 모델의 능력을 인식하지 못하여 추론 궤적의 효과적인 활용을 제한합니다. 이러한 제한을 극복하기 위해 본 논문은 오류 인식 반성(ORION) 프레임워크를 제안하며, 오류 인식 반성 과정을 통해 교사 CoT를 정제합니다. ORION은 학생 모델이 교사 CoT를 정제하고 자신의 추론 오류를 통합하여 더욱 적응된 교사 CoT를 구축할 수 있게 합니다. 여러 수학 추론 벤치마크에 대한 실험은 ORION이 모든 기준선을 2% 이상 초과하는 성능 향상을 달성함을 보여줍니다.
George Bernard Shaw의 명언 "성공은 절대 실수하지 않는 것이 아니라 같은 실수를 반복하지 않는 것"에서 영감을 받아, 본 논문은 학생 모델의 오류 정보를 활용하여 CoT 정제 과정을 지도함으로써 학생 모델의 학습에 더욱 적합한 감독 신호를 생성할 것을 제안합니다.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
본 논문이 제안하는 ORION 프레임워크는 학생 모델의 오류 정보를 교묘하게 활용하여 추론 능력 증류 과정을 개선하며, 혁신적이고 실용적인 기여입니다. 이론 분석과 계산 오버헤드 측면에서 개선 여지가 있지만, 핵심 사고는 우수한 영감력과 확산 가치를 가집니다.