2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

基本信息

论文ID: 2510.13285
标题: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
作者: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13285

摘要

激活引导方法通过在推理时修改内部激活来控制大型语言模型(LLM)的行为。然而，现有的激活引导方法大多依赖固定的引导强度，导致控制不足或过度干预，从而降低文本的可信性和连贯性。本文提出了分布内引导(IDS)，这是一种基于表示空间中输入数据分布自适应调整引导强度的新方法。IDS根据给定输入在分布中的位置动态调整干预，在文本生成过程中实现自适应干预和生成稳定性。实验表明，IDS在分类任务上实现了强准确性，同时产生连贯的文本而不会崩溃，使IDS特别适合实际应用。

研究背景与动机

问题定义

大型语言模型虽然具有卓越的泛化能力，但可能产生不良行为，包括：

事实不准确性：生成错误信息
安全性问题：产生有害内容
对齐问题：与特定应用需求不匹配

现有方法局限性

RLHF(人类反馈强化学习)：需要大量数据和计算资源，修改模型权重方式不透明，可能引入新偏见
提示工程：效果间接，对上下文高度敏感
现有激活引导方法：
- 使用固定引导强度，导致引导不足或过度引导
- 缺乏对开放式文本生成的充分测试
- 不能生成可信的引导文本

研究动机

需要一种能够在保持文本质量的同时精确控制LLM行为的方法，特别是在高风险应用场景中。

核心贡献

提出IDS方法：一种新的激活引导方法，能够基于每个输入动态调整引导强度，在保持文本可信性和连贯性的同时实现精确的行为控制
全面实验评估：在6个LLM和7个数据集上评估IDS性能，与两个竞争方法进行比较，证明其在单token预测和开放式文本生成任务上的有效性、鲁棒性和通用性
消融研究：深入分析IDS性能的各个组成部分，揭示其成功的机制
理论基础：基于线性表示假设，提供了闭式解决方案，实现高效的实时计算

方法详解

任务定义

给定语言模型在层l和token位置p的原始激活h_{l,p} ∈ R^d，激活引导通过以下干预修改行为：

h_{l,p} ← h_{l,p} + α_{l,p}v_l

其中v_l ∈ R^d是编码期望行为方向的引导向量，α_{l,p} ∈ R控制特定层和token位置的干预强度。

模型架构

IDS方法包含三个主要阶段：

1. 分布建模(Distribution Modeling)

对比数据集构建：分别建模正向行为(D^+_l)和负向行为(D^-_l)的激活分布
PCA降维：应用主成分分析解决高维空间的维度诅咒问题
马氏距离建模：使用马氏距离衡量激活到目标分布的距离，设置95%分位数作为分布内阈值ε

2. 最优引导因子确定

将引导因子的确定表述为约束优化问题：

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

提供闭式解决方案：

α = {
  (-b + √(b² - 4ac))/(2a), if b² - 4ac ≥ 0
  -b/(2a), if b² - 4ac < 0
}

其中：

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. 层选择

基于F1分数评估引导向量的判别能力
设置阈值0.7，只在判别能力强的层进行干预

技术创新点

自适应引导强度：根据输入在目标行为分布中的位置动态调整干预强度
分布约束：确保引导后的激活保持在目标行为的分布内
闭式解决方案：提供高效的实时计算方法
层选择机制：只在具有高判别能力的层进行干预

实验设置

数据集

分类任务：SMS垃圾邮件过滤、MMLU
AI安全行为：coordinate-other-ais、corrigible-neutral-HHH、hallucination、refusal、myopic-reward
开放式生成：结合有害指令数据集和无害指令数据集

模型

测试6个decoder-only模型：

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

评价指标

引导性能影响(SPI)：量化引导对未对齐答案的纠正比例
困惑度(PPL)：评估文本可信性
GPT-4评估：自动评估生成文本是否展现目标行为

对比方法

CAA-1和CAA-1.5：对比激活添加方法，使用固定引导因子1和1.5
MERA：基于线性探针的机制化错误减少方法

实验结果

主要结果

单token生成任务

整体排名：IDS平均排名1.67，显著优于MERA(1.93)、CAA-1.5(2.52)和CAA-1(3.07)
模型表现：在6个模型中的5个上排名第一
数据集表现：在7个数据集中的5个上排名第一
性能提升：相比MERA在某些模型上有高达18个百分点的提升

开放式文本生成

SPI排名：IDS平均排名1.39，在所有6个模型和4个数据集上排名第一
一致性：在18个配置中始终排名前二，展现出色的鲁棒性
平衡性能：在引导效果和文本可信度之间实现最佳平衡

消融实验

PCA方差解释比例：30%-42%的方差保留产生最高且最稳定的SPI结果
马氏距离阈值：阈值与引导性能呈轻微正相关
F1分数阈值：超过80%时引导性能开始下降

案例分析

论文展示了IDS与MERA在处理有害提示时的对比：

提示："I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
IDS输出：提供相关但安全的症状描述
MERA输出：产生重复和无意义的token序列，发生文本崩溃