2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic

On the Role of Preference Variance in Preference Optimization

基本信息

  • 论文ID: 2510.13022
  • 标题: On the Role of Preference Variance in Preference Optimization
  • 作者: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (普林斯顿大学)
  • 分类: cs.CL
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13022

摘要

Direct Preference Optimization (DPO) 已成为从人类偏好中学习以对齐大语言模型(LLMs)的重要方法。然而,收集人类偏好数据成本高昂且效率低下,这促使研究者寻找减少标注需求的方法。本文研究了偏好方差(PVar)对DPO训练有效性的影响,PVar衡量的是在比较响应对时模型偏好的方差。研究提供了理论洞察,通过建立任意给定提示的DPO梯度范数上界,表明其受该提示PVar的控制。这意味着低PVar的提示只能产生小的梯度更新,使其对学习价值较低。实验结果表明,具有较高PVar的提示优于随机选择或较低PVar的提示。值得注意的是,在使用UltraFeedback数据集原始人类标注的实验中,仅使用最高PVar的前10%提示进行训练就能获得比使用完整数据集更好的评估性能。

研究背景与动机

1. 问题定义

大语言模型的对齐是确保模型生成的输出符合人类价值观和期望的关键过程。传统的RLHF(Reinforcement Learning from Human Feedback)方法需要复杂的多阶段训练,而DPO作为一种更简单的替代方案,直接在偏好对数据上进行微调。

2. 核心挑战

  • 数据收集成本高昂: 人类偏好标注需要大量人力资源和时间
  • 训练效率问题: 并非所有训练样本对模型改进都有相同贡献
  • 数据选择缺乏理论指导: 现有方法缺乏理论依据来识别高价值训练样本

3. 研究动机

受近期RLHF训练动态和奖励方差模式研究的启发,作者假设生成"相似"响应的提示会产生弱偏好信号,可能导致DPO训练效率低下。因此,本文旨在找到一个可量化的提示特征来确定其在DPO中的效用。

核心贡献

  1. 理论贡献: 建立了DPO梯度范数与偏好方差(PVar)之间的理论联系,证明了PVar为零时DPO策略梯度幅度必然很小
  2. 方法创新: 提出了基于PVar的数据选择方法,提供了从理论在线量到实际离线估计的桥接定理
  3. 实证验证: 在多个模型、数据集和基准上验证了高PVar数据子集的优越性能
  4. 实用价值: 证明仅使用前10%高PVar提示就能超越完整数据集的性能,显著减少标注工作量

方法详解

任务定义

给定提示x和响应对(yw, yl),其中yw优于yl,DPO的目标是最小化负对数似然损失:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

其中r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x))是隐式奖励函数。

偏好方差(PVar)定义

对于固定提示x,PVar定义为:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

其中pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj))是偏好概率。

实际估计方法

使用蒙特卡洛方法和外部奖励模型rφ(x, y)来估计PVar:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

其中p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)),p̄ = 1/2。

理论分析

定理4.1 (PVar界定DPO梯度)

对于参数θ和输入x,DPO损失梯度的范数有上界:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

其中C(x, θ) = 8β|y|γ(x; θ)是依赖于模型雅可比范数和响应长度的常数。

定理4.2 (离线到在线梯度界)

连接实际离线PVar估计与在线训练动态:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

其中Ξ(x; θ, φ)包含策略-奖励分歧、奖励模型误差和策略分布偏移三个误差项。

实验设置

数据集

  • UltraFeedback: 60K多样化提示的大规模数据集
  • Chatbot Arena Conversations: 33K真实用户对话
  • HH-RLHF: Anthropic的160K人类偏好比较数据
  • WebGPT: 20K事实密集型网络问答对

模型

  • 基础模型: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
  • 奖励模型: Skywork-Reward-Llama-3.1-8B-v0.2

评价基准

  • AlpacaEval 2.0: 805个多样化提示,使用GPT-4-Turbo作为评判
  • Arena-Hard: 困难推理任务,与GPT-4-0314对比

实现细节

  • 优化器:AdamW
  • 学习率:5×10⁻⁷(余弦调度,0.1预热比例)
  • 批量大小:32
  • DPO β:0.1
  • 训练轮数:2轮

实验结果

主要结果

PVar分布分析

两个数据集的PVar分布显示了从接近0到最大0.25的广泛范围,表明提示间偏好信号强度存在显著差异。

训练损失分析

  • Top 50% (最高PVar): 损失下降最快,收敛到最低值
  • Bottom 50% (最低PVar): 收敛最慢,最终损失最高
  • Random 50%: 性能介于两者之间

性能对比结果

在Llama-3.1-8B-Instruct + UltraFeedback组合中:

  • AlpacaEval 2.0 LC: Top 50% (36.2%) > Random (34.9%) > Bottom (34.8%)
  • Arena-Hard WR: Top 50% (32.2%) > Random (31.0%) > Bottom (30.7%)

鲁棒性验证

使用不同规模奖励模型(1B, 3B, 8B)的对比实验表明,PVar方法始终优于奖励差距基线,特别是在使用较小、不太可靠的奖励模型时优势更明显。

高效DPO实验

关键发现: 仅使用最高PVar的前10%人类标注提示训练的模型(AlpacaEval 2.0 WR: 37.0%)显著优于使用完整数据集的模型峰值性能(36.5%),数据量减少超过6倍。

消融实验

改变β参数(β = 0.01)的消融实验证实了结果的鲁棒性,Top选择策略在所有模型-数据集组合中都保持最佳性能。

相关工作

DPO及其变体

DPO作为RLHF的简化替代方案,消除了独立的奖励建模阶段。后续变体包括处理成对偏好之外排序的扩展、无参考模型的简化目标等。

RLHF理论分析

近期研究关注奖励方差对RLHF目标的关键影响,发现低奖励方差会导致梯度消失。本文将这些洞察扩展到偏好学习领域。

主动学习

相关工作包括LLM微调中的主动学习策略、基于不确定性和多样性的样本选择方法,以及专门针对RLHF和DPO的离线上下文决斗老虎机问题formulation。

结论与讨论

主要结论

  1. 理论洞察: 建立了PVar与DPO梯度幅度的直接联系,低PVar提示产生较小梯度更新
  2. 实证验证: 高PVar数据子集在多个设置下consistently优于随机或低PVar选择
  3. 实用价值: 仅10%高质量数据就能超越完整数据集性能,显著提高标注效率

局限性

  1. 依赖外部奖励模型: PVar估计质量直接依赖于外部奖励模型的可靠性
  2. 误差项控制: 方法有效性假设PVar信号不被误差项主导
  3. 适用范围: 主要在英语任务上验证,其他语言和领域的泛化性有待验证

未来方向

  1. 探索PVar在其他偏好优化算法中的应用
  2. 研究动态PVar估计方法以适应训练过程中的分布变化
  3. 将PVar概念扩展到多模态和多语言设置

深度评价

优点

  1. 理论基础扎实: 提供了严格的数学证明,建立了离线选择与在线动态的理论联系
  2. 实验设计全面: 涵盖多个模型、数据集和评价基准,结果具有说服力
  3. 实用价值显著: 显著减少标注需求的同时提升性能,具有重要应用价值
  4. 方法鲁棒性强: 在不同规模奖励模型指导下都表现出色

不足

  1. 计算开销: 需要为每个提示生成多个响应来估计PVar,增加了计算成本
  2. 理论假设: 某些理论分析依赖于Lipschitz连续性等假设,实际应用中可能不完全满足
  3. 基线对比有限: 主要与奖励差距方法对比,缺乏与其他数据选择方法的比较

影响力

  1. 学术贡献: 为偏好优化领域提供了新的理论视角和实用工具
  2. 工业应用: 能够显著降低LLM对齐的标注成本,具有重要商业价值
  3. 可复现性: 提供了详细的实现细节和超参数设置,便于复现

适用场景

  1. 资源受限环境: 特别适合标注预算有限的场景
  2. 大规模部署: 可用于工业级LLM对齐流程优化
  3. 研究工具: 为偏好学习研究提供了新的分析工具

参考文献

本文引用了偏好优化、RLHF理论分析、主动学习等领域的重要工作,特别是Rafailov et al. (2023)的DPO原始论文和Razin et al. (2025)关于奖励方差的理论分析为本研究提供了重要基础。


总体评价: 这是一篇理论与实践结合良好的高质量论文,不仅提供了深入的理论洞察,还展示了显著的实用价值。PVar概念的提出为偏好优化领域提供了新的分析工具,有望推动该领域的进一步发展。