2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

基本信息

论文ID: 2505.22131
标题: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
作者: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
分类: cs.CL (Computational Linguistics)
发表时间: 2025年5月 (ArXiv预印本)
论文链接: https://arxiv.org/abs/2505.22131

摘要

大型语言模型(LLMs)在数学问题求解任务中展现了强大的推理能力和卓越性能。近期，从长链推理(Chain-of-Thought, CoT)中蒸馏推理能力成为增强小型语言模型(SLMs)的有效方法。现有研究通常将SLMs作为学生模型，使用长链CoT作为监督信号进行有监督微调(SFT)来转移推理能力。然而，这些长链CoT教师模型通常不了解学生模型的能力，限制了推理轨迹的有效利用。为克服这一限制，本文提出了错误感知自反思(ORION)框架，通过错误感知反思过程来精炼教师CoT。ORION使学生模型能够通过精炼教师CoT并融入自身推理错误来构建更适配的教师CoT。在多个数学推理基准上的实验表明，ORION在所有基线上均实现超过2%的性能提升。

计算资源限制：大型推理模型虽然性能优异，但部署成本高昂，需要将其能力转移到更轻量的模型中
推理能力差距：小型模型在复杂数学推理任务上表现不佳，需要有效的知识转移方法
实际应用需求：教育、科研等领域需要既高效又准确的数学推理系统

现有方法局限性

能力感知缺失：传统蒸馏方法中，教师模型生成的长链CoT不考虑学生模型的实际能力水平
被动学习问题：学生模型只能被动接受过于复杂的推理步骤，难以内化有效的推理模式
错误利用不足：现有方法未充分利用学生模型自身的错误信息来改进训练过程

研究动机

受到George Bernard Shaw名言"成功不在于从不犯错，而在于不重复同样的错误"启发，本文提出利用学生模型的错误信息来指导CoT精炼过程，从而生成更适合学生模型学习的监督信号。

核心贡献

提出ORION框架：首次将错误感知自反思机制引入长链推理蒸馏，使学生模型能够根据自身错误来精炼教师CoT
设计双阶段训练策略：包括错误暴露阶段和推理精炼阶段，系统性地利用学生模型错误
实现显著性能提升：在GSM-Hard、MATH500、AIME24、AMC23等多个数学推理基准上均超越所有基线方法2%以上
提供深入分析：证明ORION生成的CoT具有更高的连贯性和逻辑一致性，训练过程更稳定

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

长链推理蒸馏：使用教师模型生成的CoT作为监督信号

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. ORION框架设计

阶段一：错误暴露(Error Exposure)

对每个问题qi，使用不同温度τ采样K个候选解答：

Yi ~ SampleτM(s(InstructQA(qi)))

筛选错误解答构建错误集合：

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

阶段二：推理精炼(Reasoning Refinement)

学生模型基于错误解答来精炼教师CoT：

õi_k = Ms(InstructRef(q, yi_k, oi))

构建精炼后的训练数据集：

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

技术创新点

错误感知机制：首次在CoT蒸馏中系统性地利用学生模型的错误信息
自反思精炼：让学生模型主动参与训练数据的构建过程，而非被动接受
能力适配设计：生成的CoT更符合学生模型的学习能力，缩小师生差距

实验设置

数据集

训练数据：从OpenR1-Math-220k数据集随机采样10,000个样本
评测数据集：
- GSM-Hard：1,319个增强计算难度的数学问题
- MATH500：500个竞赛级数学问题
- AIME24：30个美国数学邀请赛问题
- AMC23：40个美国数学竞赛问题

评价指标

Acc@1：单次采样的准确率
Acc@10：10次采样中的最佳准确率

对比方法

零样本基线：Vanilla LLM、Wrong-of-Thought
SFT基线：SFT(Label)、SFT(Long-CoT)
消融变体：ORION w/o Solution Error、ORION w/o Self-Reflection

实现细节

骨干模型：Qwen2.5-7B、Qwen3-8B、Llama3.1-8B
训练配置：学习率5×10^-5，梯度累积步数8，训练3个epoch
优化策略：使用LoRA进行高效训练

实验结果

主要结果

在所有测试数据集上，ORION均显著优于基线方法：

Qwen3-8B-Instruct结果：

方法	AIME24	AMC23	Math500	GSM-H	平均
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

关键发现：

ORION相比最强基线SFT(Long-CoT)平均提升2.38%
在所有骨干模型上均观察到一致的改进
相比错误感知提示方法Wrong-of-Thought提升超过5%

消融实验

组件	AIME24	AMC23	Math500	GSM-H	平均
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (完整)	26.67	62.50	83.50	59.83	58.13

分析结论：

自反思机制贡献约1.5%的性能提升
错误信息融入贡献约0.86%的额外提升
两个组件具有互补性，共同作用效果最佳

训练稳定性分析

通过熵值分析发现：

ORION训练过程中熵值显著更低且更稳定
自反思机制有效促进了更稳定的学习过程
错误信息的加入进一步降低了训练熵值

生成质量评估

推理长度：ORION生成的CoT比基线方法短约40%，有效缓解了过度思考问题

困惑度评分：ORION在Qwen3上困惑度为16.9，显著低于SFT(Long-CoT)的24.8

GPT-4偏好评估：ORION获得44.2%的胜率，约为其他方法的两倍

错误类型分析

在500个错误样本的分析中发现：

推理错误占46.5%，是最主要的错误类型
ORION在推理错误修正上达到41.5%的成功率，显著优于基线的15.5%
在理解错误和计算错误上也有明显改善

结论与讨论

主要结论

ORION有效性：在多个数学推理基准上实现了一致且显著的性能提升
机制合理性：错误感知自反思机制能够生成更适合学生模型的训练数据
训练改善：相比传统方法，ORION训练更稳定，生成质量更高

局限性

计算成本：仍然依赖强大的闭源推理模型生成初始CoT，计算开销较大
教师模型局限：主要基于DeepSeek-R1，未充分探索其他推理模型的效果
领域限制：目前主要在数学推理任务上验证，其他推理任务的效果有待验证

未来方向

探索更高效的CoT生成方法，降低对闭源模型的依赖
扩展到更多推理任务和领域
研究更精细化的错误分类和处理策略

深度评价

优点

创新性强：首次系统性地将学生模型错误信息用于CoT精炼，思路新颖
实验充分：在多个数据集、多个骨干模型上进行了全面评估
分析深入：不仅报告了性能数值，还从训练稳定性、生成质量等多角度分析
可复现性好：提供了详细的实现细节和开源代码

不足

理论分析不足：缺乏对为什么错误感知机制有效的理论解释
计算开销分析缺失：未详细分析ORION相比基线方法的额外计算成本
错误类型处理：对不同类型错误的处理策略相对简单，可能存在改进空间

影响力

学术价值：为推理能力蒸馏提供了新的研究方向
实用价值：方法相对简单易实现，有较好的应用前景
启发意义：错误感知的思路可能适用于其他NLP任务

适用场景

教育应用：可用于构建数学辅导系统
科研工具：适合需要数学推理能力的研究场景
资源受限环境：在计算资源有限但需要推理能力的场景下有价值

参考文献

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

本论文提出的ORION框架通过巧妙地利用学生模型的错误信息来改进推理能力蒸馏过程，是一个创新且实用的贡献。虽然在理论分析和计算开销方面还有改进空间，但其核心思想具有很好的启发性和推广价值。