2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

基本信息

  • 论文ID: 2505.22017
  • 标题: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • 作者: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • 分类: cs.CL (Computation and Language)
  • 发表时间: 2025年10月14日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2505.22017

摘要

近期使用强化学习和反向检查链式思维(CoT)训练的思考模型存在过度思考问题:即使在简单问题上也会产生过长的输出,浪费计算资源。现有基于token效率的评估方法提供了不完整的视角,忽略了问题难度和中间计算成本。本文将推理效率形式化为思考模型与指令模型之间的相对度量,将指令模型视为最小努力基线。通过对四个思考模型和多个基准的系统研究,揭示了两个一致模式:(i)指令模型总体上实现了更高的效率,(ii)问题难度影响效率,思考模型在简单问题上浪费计算,但在困难问题上提供价值。基于这一洞察,提出了COTHINK——一个简单的两阶段管道:指令模型起草简要大纲,思考模型进行扩展。在GSM8K、MATH500和AIME24上,COTHINK在四个思考模型上减少21.1%的token使用量同时保持准确性。

研究背景与动机

问题定义

  1. 过度思考问题:近期的思考模型(thinking models)在数学推理任务中表现出色,但存在严重的过度思考问题。这些模型即使在简单问题上也会产生5-10倍于标准指令调优模型的输出长度。
  2. 评估局限性:现有的推理效率评估方法存在两个主要问题:
    • 忽略了过度思考和思考不足的相对概念,这些现象只能通过比较分析观察到
    • 忽略了中间计算成本,如best-of-N采样中生成多个候选解的成本
  3. 计算资源浪费:思考模型在AIME2024基准上的平均输出长度从Qwen2.5-32B-Instruct的770个token增加到QwQ的6,067个token,造成显著的计算资源浪费。

研究动机

现有评估方法基于单一模型的token效率τ(M,D) = Q(D)/CM(D),但这种绝对度量无法反映推理的相对效率。本文认为需要一个相对效率框架来更好地评估思考模型的性能。

核心贡献

  1. 提出相对推理效率评估框架:将推理效率定义为思考模型相对于指令模型的相对度量η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. 发现两个关键模式
    • 指令模型总体上显示更高的token效率
    • 问题难度强烈影响效率,思考模型在简单问题上过度计算但在困难问题上提供价值
  3. 提出COTHINK两阶段协作管道:结合指令模型的简洁性和思考模型的验证能力
  4. 实现显著的效率提升:在三个数学基准上平均减少21.1%的token使用量,同时提高1.66%的准确率

方法详解

任务定义

本文研究数学推理任务中的计算效率问题,输入为数学问题,输出为解答过程和最终答案。约束条件是在保持准确性的前提下最小化计算成本。

相对效率评估框架

核心公式

相对推理效率定义为:

η(MR,MI) = τ(MR,D) / τ(MI,D)

其中τ(M,D) = Q(D)/CM(D)是传统的token效率。

效率缩放律假设

基于测试时缩放律Q(C) ∝ C^β (β < 1),推理效率可近似为:

η ≈ (CR/CI)^β

COTHINK两阶段管道

第一阶段:大纲生成

指令模型生成2-4个高层次推理步骤的简洁大纲,不包含具体计算或最终答案。

系统提示

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

第二阶段:验证扩展

思考模型根据大纲进行验证和完成,使用更少的token。

用户提示

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

技术创新点

  1. 动态难度适应:无需预先评估问题难度,思考模型可根据大纲质量动态调整验证努力
  2. 互补优势结合:简单任务时大纲通常正确,思考模型快速收敛;困难任务时大纲提供结构化起点
  3. 部署友好:无需架构修改,可直接应用于现有模型

实验设置

数据集

使用三个数学推理基准,难度递增:

  • GSM8K:小学水平,1,319个样本,解答长度48-1,070 tokens
  • MATH500:高中水平,500个样本,解答长度45-3,360 tokens
  • AIME24:大学水平,30个样本,解答长度284-4,010 tokens

模型设置

评估5个32B规模的代表性模型:

  • Qwen2.5-32B-Instruct:通用指令模型(基线)
  • DAPO:仅RL训练的思考模型
  • DeepSeek-R1-Distill:基于蒸馏的思考模型
  • QwQ:SFT+RL训练的思考模型
  • Qwen3:混合思考模型(支持思考/非思考模式)

评价指标

  • Pass@1:首次尝试正确率
  • #Tokens:每个问题生成的总token数
  • Token效率τ:质量/成本比
  • 推理效率η:相对于指令模型的效率比
  • 胜率:在所有评估点上的优势比例

对比方法

  • Solo-Thinking:单模型独立求解
  • Best-of-N采样:生成N=5个候选解,选择最短的
  • No-Thinking:跳过思考过程直接生成答案

实验结果

主要结果

相对效率分析发现

  1. 观察1:指令模型显示高token效率,大多数思考模型η < 1
  2. 观察2:问题难度影响推理效率,思考模型在简单问题上浪费计算,在复杂任务上提供价值

COTHINK性能表现

  • 整体胜率:61.7% (37/60个评估点)
  • 分任务胜率
    • GSM8K:37.5%(简单任务改进空间大)
    • MATH500:87.5%(在高中水平任务上表现最佳)
    • AIME24:60%(大学水平任务表现良好)

效率提升

  • 平均token减少:21.1%,最高达41.8%
  • 准确率提升:平均1.66%
  • 模型排序(效率提升):QwQ > DeepSeek-R1-Distill > DAPO

案例分析

AIME24案例研究

对比分析显示三种情况:

  1. 5个问题:两模型都成功,指令模型简洁,思考模型冗长
  2. 16个问题:仅思考模型成功(通过验证纠错)
  3. 9个问题:两模型都失败

关键发现:给指令模型提供思考模型的episode作为前缀,仅需27.5%的episode和11.9%的token即可解决问题。

消融实验

效率来源分析

  1. 算法层面低效:RL训练可能降低每步信息密度,鼓励更冗长的生成
  2. 数据分布低效:反向CoT训练产生多episode验证模式,在推理时持续存在

不同训练策略影响

  • SFT训练的模型(QwQ、DeepSeek-R1-Distill)更好地遵循COTHINK的大纲指令
  • 纯RL训练的模型(DAPO)遵循一致性较差,但在MATH500等任务上仍显示强引导能力

相关工作

Token效率研究

现有解决过度思考的方法包括:

  • 通过提示限制输出长度
  • 鼓励早停
  • 带长度惩罚的RL训练
  • 在短解答上进行SFT

混合推理方法

近期工作探索自适应任务分配:

  • Qwen3NoThinking使用硬编码切换规则
  • 关键挑战是LLM无法在预填充阶段感知问题难度

草图提示工程

COTHINK受到草图提示的启发,相关并行工作包括:

  • Thought Manipulation:在思考标签间插入预生成CoT
  • Scot:轻量模型并行起草多个CoT草图

结论与讨论

主要结论

  1. 相对效率评估的重要性:传统token效率评估不足,需要相对视角
  2. 难度依赖的效率模式:简单问题上过度思考,复杂问题上价值体现
  3. 协作管道的有效性:COTHINK成功结合两类模型的互补优势

局限性

  1. 简单任务改进有限:在GSM8K等简单任务上胜率仅37.5%
  2. 依赖大纲质量:第二阶段性能受第一阶段大纲质量影响
  3. 评估范围限制:主要在数学推理任务上验证,其他领域适用性待验证

未来方向

  1. 扩展到其他推理任务:代码生成、逻辑推理等
  2. 动态大纲调整:根据思考模型反馈调整大纲
  3. 端到端优化:联合训练两阶段模型

深度评价

优点

  1. 问题定义清晰:准确识别了思考模型的过度思考问题
  2. 评估框架创新:相对效率评估比传统绝对指标更合理
  3. 方法简单有效:COTHINK设计直观,易于实现和部署
  4. 实验充分:涵盖多个模型、数据集和评估维度
  5. 理论分析深入:提供了效率缩放律的理论框架

不足

  1. 理论基础有限:效率缩放律假设缺乏严格证明
  2. 大纲生成策略简单:第一阶段提示工程相对粗糙
  3. 跨领域验证不足:仅在数学推理任务上验证
  4. 计算开销分析:未详细分析两阶段管道的额外开销

影响力

  1. 学术贡献:为推理效率评估提供新视角,可能影响未来评估标准
  2. 实用价值:COTHINK可直接应用于现有系统,降低推理成本
  3. 可复现性:方法描述清晰,代码承诺开源

适用场景

  1. 计算资源受限环境:需要平衡准确性和效率的场景
  2. 混合难度任务:包含简单和复杂问题的应用
  3. 实时推理系统:对响应时间有要求的交互式系统

参考文献

论文引用了推理效率、思考模型、混合推理等相关领域的重要工作,为研究提供了坚实的理论基础和对比参考。


总体评价:这是一篇在推理效率评估和优化方面具有重要贡献的高质量论文。通过引入相对效率评估框架和COTHINK协作管道,为解决思考模型的过度思考问题提供了有效方案。尽管存在一些局限性,但其创新性和实用性使其在该领域具有重要价值。