Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
In-Distribution Steering: Balancing Control and Coherence in Language Model Generation 论文ID : 2510.13285标题 : In-Distribution Steering: Balancing Control and Coherence in Language Model Generation作者 : Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)分类 : cs.CL (Computational Linguistics)发表时间 : 2025年10月15日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.13285 激活引导方法通过在推理时修改内部激活来控制大型语言模型(LLM)的行为。然而,现有的激活引导方法大多依赖固定的引导强度,导致控制不足或过度干预,从而降低文本的可信性和连贯性。本文提出了分布内引导(IDS),这是一种基于表示空间中输入数据分布自适应调整引导强度的新方法。IDS根据给定输入在分布中的位置动态调整干预,在文本生成过程中实现自适应干预和生成稳定性。实验表明,IDS在分类任务上实现了强准确性,同时产生连贯的文本而不会崩溃,使IDS特别适合实际应用。
大型语言模型虽然具有卓越的泛化能力,但可能产生不良行为,包括:
事实不准确性 :生成错误信息安全性问题 :产生有害内容对齐问题 :与特定应用需求不匹配RLHF(人类反馈强化学习) :需要大量数据和计算资源,修改模型权重方式不透明,可能引入新偏见提示工程 :效果间接,对上下文高度敏感现有激活引导方法 :
使用固定引导强度,导致引导不足或过度引导 缺乏对开放式文本生成的充分测试 不能生成可信的引导文本 需要一种能够在保持文本质量的同时精确控制LLM行为的方法,特别是在高风险应用场景中。
提出IDS方法 :一种新的激活引导方法,能够基于每个输入动态调整引导强度,在保持文本可信性和连贯性的同时实现精确的行为控制全面实验评估 :在6个LLM和7个数据集上评估IDS性能,与两个竞争方法进行比较,证明其在单token预测和开放式文本生成任务上的有效性、鲁棒性和通用性消融研究 :深入分析IDS性能的各个组成部分,揭示其成功的机制理论基础 :基于线性表示假设,提供了闭式解决方案,实现高效的实时计算给定语言模型在层l和token位置p的原始激活h_{l,p} ∈ R^d,激活引导通过以下干预修改行为:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
其中v_l ∈ R^d是编码期望行为方向的引导向量,α_{l,p} ∈ R控制特定层和token位置的干预强度。
IDS方法包含三个主要阶段:
对比数据集构建 :分别建模正向行为(D^+_l)和负向行为(D^-_l)的激活分布PCA降维 :应用主成分分析解决高维空间的维度诅咒问题马氏距离建模 :使用马氏距离衡量激活到目标分布的距离,设置95%分位数作为分布内阈值ε将引导因子的确定表述为约束优化问题:
α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l
提供闭式解决方案:
α = {
(-b + √(b² - 4ac))/(2a), if b² - 4ac ≥ 0
-b/(2a), if b² - 4ac < 0
}
其中:
a = ||Mv||² b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1} μ^+_) c = ||L^{+-1}PCA(h) - L^{+-1} μ^+_||² - ε² 基于F1分数评估引导向量的判别能力 设置阈值0.7,只在判别能力强的层进行干预 自适应引导强度 :根据输入在目标行为分布中的位置动态调整干预强度分布约束 :确保引导后的激活保持在目标行为的分布内闭式解决方案 :提供高效的实时计算方法层选择机制 :只在具有高判别能力的层进行干预分类任务 :SMS垃圾邮件过滤、MMLUAI安全行为 :coordinate-other-ais、corrigible-neutral-HHH、hallucination、refusal、myopic-reward开放式生成 :结合有害指令数据集和无害指令数据集测试6个decoder-only模型:
Gemma-2 (2B-it, 9B-it) Qwen-2.5 (1.5B-it, 7B-it) Llama-3.2 (1B-it) Llama-3.1 (8B-it) 引导性能影响(SPI) :量化引导对未对齐答案的纠正比例困惑度(PPL) :评估文本可信性GPT-4评估 :自动评估生成文本是否展现目标行为CAA-1和CAA-1.5 :对比激活添加方法,使用固定引导因子1和1.5MERA :基于线性探针的机制化错误减少方法整体排名 :IDS平均排名1.67,显著优于MERA(1.93)、CAA-1.5(2.52)和CAA-1(3.07)模型表现 :在6个模型中的5个上排名第一数据集表现 :在7个数据集中的5个上排名第一性能提升 :相比MERA在某些模型上有高达18个百分点的提升SPI排名 :IDS平均排名1.39,在所有6个模型和4个数据集上排名第一一致性 :在18个配置中始终排名前二,展现出色的鲁棒性平衡性能 :在引导效果和文本可信度之间实现最佳平衡PCA方差解释比例 :30%-42%的方差保留产生最高且最稳定的SPI结果马氏距离阈值 :阈值与引导性能呈轻微正相关F1分数阈值 :超过80%时引导性能开始下降论文展示了IDS与MERA在处理有害提示时的对比:
提示 :"I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"IDS输出 :提供相关但安全的症状描述MERA输出 :产生重复和无意义的token序列,发生文本崩溃实验表明MERA容易产生更大的平均引导因子,导致激活偏离分布,最终引起文本崩溃和高困惑度。
CAA(对比激活添加) :使用固定引导因子,可能导致引导不足或过度引导MERA :基于线性探针预测错误来调整引导强度,但主要针对监督任务线性表示假设 :高级概念可以编码为激活空间中的方向引导向量计算 :差异均值方法和监督探测技术IDS通过动态调整引导强度,在行为控制和文本连贯性之间实现了最佳平衡 基于分布的约束有效防止了过度引导和文本崩溃 方法在多种模型和任务上展现出强鲁棒性和通用性 目前专注于方向性引导,未涉及角度引导 需要构建对比数据集来建模分布 PCA降维可能丢失一些重要信息 扩展到角度引导方法 应用于复杂推理任务的真实性生成 在推理模型的推理过程中应用引导 理论基础扎实 :基于线性表示假设和分布约束的理论框架方法创新性强 :首次提出基于分布的自适应引导强度调整实验全面充分 :跨多个模型、数据集和任务的系统评估实用价值高 :提供闭式解决方案,适合实时应用结果说服力强 :在引导效果和文本质量之间实现帕累托最优计算复杂度 :需要PCA和马氏距离计算,可能增加推理开销超参数敏感性 :多个超参数(PCA方差比例、距离阈值、F1阈值)需要调优数据依赖性 :需要高质量的对比数据集来建模分布理论分析不足 :缺乏对方法收敛性和稳定性的理论保证学术贡献 :为激活引导领域提供了新的理论框架和实用方法实际应用 :特别适合需要精确控制LLM行为的高风险应用场景可复现性 :提供详细的实现细节和开源代码内容安全 :防止生成有害或不当内容事实性控制 :减少幻觉和错误信息行为对齐 :使模型行为与特定应用需求对齐实时应用 :需要在推理时动态调整模型行为的场景论文引用了激活引导、表示学习、AI安全等领域的重要工作,包括:
Rimsky et al. (2024): CAA方法的原始论文 Hedström et al. (2025): MERA方法 Turner et al. (2024): 激活工程综述 Mikolov et al. (2013): 线性表示假设的早期工作 总结 :本文提出的IDS方法在激活引导领域具有重要创新意义,通过引入分布约束和自适应调整机制,有效解决了现有方法的过度引导问题。实验结果充分证明了方法的有效性和实用价值,为LLM的安全部署提供了重要工具。