2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

基本信息

  • 论文ID: 2510.12121
  • 标题: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
  • 作者: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • 分类: cs.AI cs.CL cs.LG
  • 发表时间/会议: Preprint (Under review)
  • 论文链接: https://arxiv.org/abs/2510.12121

摘要

本文提出了一种精确控制大语言模型(LLM)属性强度的方法PRE-CONTROL。该方法通过三个关键设计实现精确的属性强度控制:(1) 将精确属性强度控制重新表述为目标达成问题,而非简单的最大化;(2) 通过时序差分学习训练轻量级价值函数,从部分生成中预测最终属性强度分数;(3) 在隐藏表示上采用基于梯度的干预,精确导航模型到特定属性强度目标。实验表明该方法能够引导文本生成到用户指定的属性强度,并在偏好数据合成、帕累托前沿近似和对齐行为蒸馏等下游任务中展现效率提升。

研究背景与动机

问题定义

当前LLM对齐方法存在一个关键局限:只能提供方向性或开放式指导,无法可靠地达到精确的属性强度。例如,用户可能希望邮件的正式程度为3(5分制),而不是简单地"更正式"或"不太正式"。

问题重要性

精确属性强度控制对于构建适应多样化用户期望的AI系统至关重要,特别是在多目标对齐场景中,不同属性之间存在冲突时,需要在连续尺度上进行标量级调整以找到最优折衷。

现有方法局限性

  1. RLHF和DPO:产生静态模型,捕获期望行为的平均值,需要昂贵的重训练来调整优先级
  2. 提示方法:完全依赖模型对风格指令的解释,结果不一致
  3. 引导解码:通常将属性强度视为分类而非连续值
  4. 多目标对齐方法:需要大量训练来近似全局帕累托集

研究动机

现有方法缺乏精确属性强度控制的能力,本文旨在实现细粒度、连续的属性强度控制,超越简单的方向性对齐。

核心贡献

  1. 重新表述问题:将精确属性强度控制表述为目标达成问题,而非简单的最大化/最小化
  2. 价值函数方法:通过时序差分学习训练轻量级价值函数,从部分生成预测最终属性分数
  3. 表示编辑技术:采用基于梯度的隐藏表示干预,精确导航到特定属性强度目标
  4. 高效应用:在帕累托前沿近似(时间复杂度从O(m^d)降至O(n+k))和可控模型蒸馏中展现效率优势

方法详解

任务定义

给定目标属性强度τ ∈ 0,1和奖励函数R(x),目标是生成属性强度分数匹配目标值的文本,而非简单地最大化奖励。

模型架构

1. 目标达成问题重构

传统对齐目标:

max_θ E_{x~π_θ}[R(x)]

本文目标达成表述:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

其中R̂(x)是归一化到0,1的奖励函数。

2. 价值函数训练

使用TD(λ)训练价值函数V_φ(h_t)预测部分序列的期望属性强度:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

广义回报计算:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

价值函数损失:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. 测试时干预

通过梯度下降调整隐藏状态:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

多属性情况:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

技术创新点

  1. 目标导向设计:从方向性优化转向精确目标达成
  2. 实时反馈机制:价值函数提供生成过程中的中间反馈
  3. 表示空间导航:直接在高维表示空间中进行精确导航
  4. 多属性协调:同时控制多个可能冲突的属性

实验设置

数据集

  1. HelpSteer2:20,324个训练样本,1,038个测试样本,包含5个属性(helpfulness, correctness, coherence, complexity, verbosity)
  2. Code-UltraFeedback:10,000个复杂指令,包含5个编程相关属性(complexity & efficiency, style, explanation, instruction-following, readability)

评价指标

  1. Self-BLEU分数:衡量生成文本多样性(越低越好)
  2. ℓ1距离到目标:评估模型输出与用户指定属性分数的接近程度
  3. 成功率:模型输出精确匹配期望属性配置的频率

对比方法

  • Base:基础模型直接生成
  • Prompting:在提示中包含目标属性分数
  • ITI:训练线性层预测奖励并沿学习方向调整激活
  • MAT-Steer:学习稀疏、正交的多属性引导向量
  • RE-Control:执行测试时干预的开放式优化

实现细节

  • 基础模型:LLaMA-3.2-3b和Phi-4-mini
  • 价值函数:4层MLP
  • 奖励模型:ArmoRM-Llama3-8B
  • 干预层:最后一层transformer层
  • 优化器:Adam,早停技术

实验结果

主要结果

在代表性目标分数上的实验结果显示:

正向目标(HelpSteer2 4,4,4,2,2

  • LLaMA-3.2-3b:PRE-CONTROL成功率7.96% vs 最佳基线5.39%
  • Phi-4-mini:PRE-CONTROL成功率8.31% vs 最佳基线5.70%

负向目标(HelpSteer2 3,3,3,2,2

  • LLaMA-3.2-3b:PRE-CONTROL成功率6.60% vs 最佳基线5.84%
  • Phi-4-mini:PRE-CONTROL成功率9.11% vs 最佳基线8.73%

Code-UltraFeedback结果

  • 正向目标3,3,3,3,3:成功率提升至17.46%-26.16%
  • 负向目标2,2,2,2,2:成功率提升至22.34%-30.68%

迭代干预结果

PRE-CONTROL在多次迭代中表现出持续的性能提升,而其他方法在第二次迭代后趋于平稳。

帕累托前沿近似

  • 质量提升:超体积从7.54提升至12.66
  • 效率提升:计算开销从3.3 GPU小时降至0.4小时(8倍减少)
  • 发现更多点:非支配点从45个增至69个

可控蒸馏

使用15k样本和2.1 GPU小时达到16.81超体积,优于Best-of-N方法的15.27(需要50k样本和7.8 GPU小时)。

案例分析

定性分析显示PRE-CONTROL能够:

  • 负向控制:将过于详细的回答4,4,4,3,3精确调整为简洁版本3,3,3,2,2
  • 正向控制:将简单回答4,4,4,1,1扩展为更详细版本4,4,4,2,2

相关工作

LLM对齐

  1. 微调范式:RLHF和DPO需要多阶段训练,资源密集
  2. 推理时干预:提示工程和引导解码缺乏精确控制机制
  3. 多目标对齐:现有方法需要昂贵的重训练来注入多目标偏好

表示工程

  1. 激活扰动:从即插即用方法发展到学习引导向量
  2. 表示微调:使用低秩投影矩阵高效编辑激活
  3. 局限性:主要关注二元或分类属性控制,而非连续尺度的精确目标

结论与讨论

主要结论

  1. PRE-CONTROL实现了LLM中精确的属性强度控制
  2. 目标达成表述比传统最大化方法更适合精确控制
  3. 价值函数和梯度干预的结合提供了有效的控制机制
  4. 方法在多个下游应用中展现了效率优势

局限性

  1. 价值函数作为奖励模型代理:轻量级MLP可能无法捕获原始奖励信号的所有细节
  2. 最后层干预:当前实现仅在最后transformer层应用干预,可能未充分利用模型的表示层次
  3. 计算开销:虽然相对高效,但仍需要额外的价值函数训练和推理时计算

未来方向

  1. 探索更复杂的价值函数架构以更好地近似奖励模型能力
  2. 研究多层干预策略或注意力级修改
  3. 开发自适应机制,针对困难案例选择性查询完整奖励模型

深度评价

优点

  1. 创新性强:将属性控制重新表述为目标达成问题,突破了传统方向性对齐的局限
  2. 方法系统性:价值函数训练、TD学习和梯度干预形成完整的技术体系
  3. 实验充分:在两个数据集、两个模型上进行全面评估,包含消融实验和应用验证
  4. 实用价值高:在帕累托前沿近似和模型蒸馏中展现显著效率提升

不足

  1. 理论分析不足:缺乏收敛性保证和干预稳定性的理论分析
  2. 价值函数依赖:方法性能很大程度上依赖价值函数的质量
  3. 泛化能力:仅在特定属性和模型上验证,泛化能力有待进一步验证
  4. 计算复杂度:虽然相对高效,但推理时仍需要额外计算

影响力

  1. 学术贡献:为LLM精确控制提供了新的研究范式
  2. 实用价值:为个性化AI系统和多目标优化提供了有效工具
  3. 可复现性:作者提供了完整的代码和实验配置

适用场景

  1. 个性化内容生成:需要精确控制文本风格、复杂度等属性
  2. 多目标优化:在冲突属性间寻找最优平衡点
  3. 模型对齐:高效生成满足特定属性要求的训练数据
  4. 交互式AI系统:根据用户反馈动态调整输出属性

参考文献

论文引用了46篇相关文献,涵盖LLM对齐、多目标优化、表示工程等关键领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的研究论文,提出了创新的精确属性强度控制方法,在理论贡献和实用价值方面都表现出色。方法设计合理,实验验证充分,为LLM控制领域做出了重要贡献。