2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

基本信息

论文ID: 2510.11104
标题: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
作者: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
分类: cs.CL cs.AI
发表时间: 2025年10月13日（arXiv预印本）
论文链接: https://arxiv.org/abs/2510.11104

摘要

当前增强大语言模型推理能力的方法往往引入对人类推理轨迹的训练偏差。特别是在逐步偏好优化中，对人类或高能力模型中间步骤标注的依赖限制了对替代性非人类推理路径的探索，从而约束了可达到的性能。通过小规模试点研究，作者观察到约75%的情况下，模型的第一个错误步骤出现在最低置信度点之后。这表明在错误发生前的最低置信度点引导模型比定位第一个明确错误提供更准确的监督。本文提出了置信度引导推理路径偏好优化（CGPO），该方法利用置信度信号识别模型推理过程中最大不确定性点，并应用自生成的非人类推理路径引导来缓解轨迹漂移。

研究背景与动机

问题定义

当前大语言模型推理能力增强方法面临的核心问题是：

人类偏差限制：现有方法过度依赖人类或强模型的推理轨迹，限制了对非人类推理路径的探索
错误定位不准确：传统方法通过定位第一个明确错误进行监督，但这往往不是最佳的干预点
标注成本高昂：逐步偏好优化需要大量人工或强模型标注，实际应用成本过高

研究动机

作者通过分析发现，在约75%的错误案例中，模型的第一个错误步骤出现在其置信度最低点之后。这一观察启发了基于模型置信度而非人类认知进行推理路径优化的思路。

现有方法局限性

Step-DPO等方法：依赖人类或强模型标注定位错误步骤，成本高且探索空间受限
传统RLHF：主要关注结果优化，对推理轨迹的中间步骤关注不足
人类对齐偏差：强制模型遵循人类推理模式可能限制其潜在能力

核心贡献

提出CGPO方法：一种基于置信度引导的推理路径偏好优化方法，无需依赖更强模型或人类监督
非人类推理路径探索：通过模型自身置信度信号构建偏好学习数据，探索非人类推理路径
多领域验证：在数学推理和代码生成任务上验证方法有效性，证明方法的通用性
开源贡献：承诺发布完整的代码库、数据集和训练模型，促进可复现性

方法详解

任务定义

给定输入问题x，初始策略模型π₀生成推理序列y = (y₁, y₂, ..., yₜ)，其中yₜ ∈ V（词汇表）。在解码时间步t，模型置信度定义为：

cₜ ≜ p(yₜ|π₀, x, y<t)

模型架构

1. 推理步骤定义

使用置信度阈值τ分割推理步骤，τ基于数据集中所有置信度值的分布确定
置信度低于τ的token作为分割点，将序列y重构为步骤序列s = (s₁, s₂, ..., sⱼ)

2. 偏好对构建流程

初始轨迹确定：

选择最不确定步骤之前的序列作为共享初始推理轨迹sᵢₙᵢₜ

Chosen/Rejected对构建：

引入奖励模型R评估给定(x, sᵢₙᵢₜ)的Top-k候选token
选择最高分和最低分token分别作为chosen和rejected分支的起始token
π₀继续采样直到遇到或置信度低于τ的token

3. 训练目标

采用DPO风格的目标函数：

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

其中：

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

技术创新点

置信度驱动的步骤划分：摆脱预定义锚点，基于模型内在不确定性划分推理步骤
自监督偏好构建：利用奖励模型在最不确定点选择最优/最劣token，无需人类标注
非人类推理探索：允许模型探索不符合人类认知习惯但可能更有效的推理路径

实验设置

数据集

数学推理任务：

训练数据：Step-DPO-10k数据集的10,795个提示
评估数据集：GSM8K、MATH、Omni-Math
模型：MetaMath-Mistral-7B、MetaMath-LLaMA-8B、Qwen2-7B-SFT等

代码生成任务：

训练数据：LeetCodeDataset训练集的2,641个样本
评估数据集：LiveCodeBench、LeetCodeDataset
模型：Deepseek-Coder-7B-Instruct-v1.5

评价指标

数学推理：精确匹配准确率（最终答案与标准答案完全匹配）
代码生成：通过率（生成代码在沙箱环境中通过所有测试用例）

对比方法

Base Model：原始基础模型
Step-DPO：基于人类标注的逐步偏好优化方法

实现细节

置信度阈值：数据集置信度分布的2%分位数
Top-k候选：k=8
训练配置：β=0.3-0.4，学习率5e-7，批大小128，训练4-8个epochs

实验结果

主要结果

数学推理任务表现：

GSM8K：CGPO在所有模型上均优于Step-DPO，MetaMath-Llama-8B提升最显著（+4.3% vs base）
MATH：在MetaMath-Llama-8B和Qwen2-7B-SFT上优于Step-DPO
关键发现：即使在Step-DPO性能下降的情况下（如MetaMath-Mistral-7B），CGPO仍能带来提升

代码生成任务表现：

LiveCodeBench：提升2.1%（19.3% → 19.7%）
LeetCodeDataset：提升4.0%（12.7% → 13.2%）

消融实验

1. 可扩展性分析

通过增加训练数据规模（10k → 80k）验证方法的可扩展性：

MetaMath-Llama-8B在GSM8K上从85.3%提升至86.4%
Qwen2-7B-SFT在GSM8K上从88.6%提升至89.5%
表明CGPO具有良好的数据扩展性

2. 奖励模型影响

比较ASPRM和Math-Shepherd两种奖励模型：

ASPRM表现更优，但即使使用较弱的Math-Shepherd仍有提升
证明fine-grained token级别评估的重要性

3. 置信度阈值分析

阈值提高通常带来性能提升，但过高会导致序列过短
不同模型的最优阈值不同，需要针对性调整

泛化能力验证

在Omni-Math（奥林匹克级数学竞赛问题）上的表现：

CGPO在4/5个模型上优于Step-DPO
证明方法具有良好的分布外泛化能力

案例分析

通过对200个错误样本的分析验证核心假设：

MetaMath-Llama-8B：78%的错误发生在最低置信度点之后
Qwen2-7B-SFT：72%的错误发生在最低置信度点之后
支持基于置信度进行早期干预的设计理念

结论与讨论

主要结论

非人类推理路径的价值：模型可以通过探索非人类推理路径获得更好的性能
置信度信号的有效性：模型置信度是识别推理困难点的有效指标
自监督学习的潜力：无需强模型或人类标注即可实现有效的推理能力提升

局限性

计算资源限制：未能在更大模型（如70B）上验证可扩展性
领域局限性：主要在数学和代码领域验证，常识推理等领域的适用性有待验证
奖励模型依赖：仍需要领域特定的fine-grained奖励模型

未来方向

更大规模验证：在更大模型和更多领域验证方法有效性
通用奖励模型：开发跨领域的通用fine-grained评估模型
理论分析：深入理解非人类推理路径的理论基础

深度评价

优点

问题洞察深刻：识别出现有方法的人类偏差问题，提出了新颖的解决思路
方法设计巧妙：将置信度信号与偏好优化结合，实现了无监督的推理路径优化
实验验证充分：多模型、多任务、多角度的实验验证，结果说服力强
实用价值高：降低了对强模型标注的依赖，提高了方法的实际可用性

不足

理论基础不足：缺乏对为什么非人类推理路径更有效的深层理论解释
适用范围有限：主要在结构化推理任务上验证，开放性任务的适用性未知
置信度可靠性：模型置信度本身可能不够可靠，特别是在分布外数据上
计算开销分析：未详细分析相比baseline方法的计算开销变化

影响力

学术价值：为推理能力优化提供了新的研究方向，可能启发更多相关工作
实用价值：降低标注成本的同时提升性能，具有重要的工程应用价值
可复现性：承诺开源完整代码和数据，有利于方法的推广和改进

适用场景

资源受限环境：无法获得强模型标注时的推理能力提升
结构化推理任务：数学、代码、逻辑推理等有明确评估标准的任务
模型自我改进：作为模型持续学习和自我优化的技术组件

参考文献

论文引用了推理优化、偏好学习、置信度估计等相关领域的重要工作，为方法设计提供了坚实的理论基础。特别值得关注的是与Step-DPO、DPO等直接相关的偏好优化方法的对比分析。

总体评价：这是一篇在大语言模型推理能力优化领域具有重要贡献的工作。通过引入非人类推理路径的概念和基于置信度的优化策略，为该领域提供了新的研究思路。虽然在理论解释和适用范围方面还有改进空间，但其实用价值和创新性使其成为该领域的重要进展。