2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

基本信息

论文ID: 2506.07356
标题: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
作者: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Korea Advanced Institute of Science and Technology)
分类: cs.CL (Computation and Language)
发表时间: 2025年10月11日 (arXiv preprint)
论文链接: https://arxiv.org/abs/2506.07356

摘要

随着Google和OpenAI等主要AI提供商推出微调即服务(FaaS)，用户可以使用自己的数据定制大型语言模型(LLM)。然而，当用户数据包含有害提示时，该服务容易出现安全性退化，这种威胁被称为有害微调攻击。现有方法试图通过先构建安全对齐模型，然后在用户数据上微调来缓解这一问题。但本文发现，安全对齐权重为下游任务学习提供了较弱的初始化，导致次优的安全对齐和下游任务性能。为解决这一问题，作者提出了拒绝教师(Ref-Teacher)引导的微调框架，该方法直接在安全对齐Ref-Teacher的指导下微调基础模型，通过过滤用户数据中的有害提示并将安全对齐知识蒸馏到基础模型中来实现安全性和性能的双重提升。

研究背景与动机

问题定义

有害微调攻击：当用户在FaaS中上传包含有害内容的数据进行微调时，会导致模型的安全对齐被破坏，使模型生成有害内容。
现有方法的局限性：
- 传统的两阶段流水线（先安全对齐，后微调）存在根本性缺陷
- 安全对齐的模型为下游任务学习提供了较弱的权重初始化
- 导致任务性能有限且安全性受损
研究动机：
- 直接在基础模型上同时进行用户数据和安全对齐数据的微调能获得更好的性能
- 但这种方法会产生梯度冲突，特别是当用户数据包含有害提示时会加剧这种冲突
- 需要一种新的框架来缓解梯度冲突，同时保持安全性和任务性能

核心贡献

发现了安全对齐模型的根本性局限：证明安全对齐的LLM为下游学习提供了较弱的初始化，导致次优的任务性能和安全性妥协。
提出了Ref-Teacher引导的微调框架：通过对齐蒸馏和数据过滤两个机制缓解梯度冲突，实现安全性和任务性能的双重提升。
全面的实验验证：在多种设置下（不同有害提示比例、数据规模、数据集类型、模型架构）证明了方法的有效性和鲁棒性。
实用的FaaS解决方案：为安全可靠的LLM部署提供了实际可行的解决方案。

方法详解

任务定义

输入：基础LLM、用户数据（可能包含有害提示）、安全对齐数据输出：既保持安全对齐又在用户特定任务上表现良好的定制化模型约束：在有害微调攻击下保持鲁棒性

模型架构

1. 教师准备阶段

训练Ref-Teacher模型，使其能够：

生成软拒绝标签进行对齐蒸馏
使用拒绝特征有效区分有害和无害提示

拒绝特征定义：

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

训练目标：

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. 微调阶段

Ref-Teacher通过两个互补机制指导基础模型：

数据过滤：

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

对齐蒸馏：使用KL散度损失将Ref-Teacher的软标签知识传递给学生模型

总体目标函数：

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

技术创新点

拒绝特征增强：通过正则化项强化拒绝特征的判别能力，使有害提示特征与拒绝特征的余弦相似度接近1，无害提示接近-1。
动态拒绝特征更新：在训练过程中定期更新拒绝特征，避免需要预先对齐的模型。
双重机制协同：对齐蒸馏提供平滑的损失表面，数据过滤移除有害数据，两者协同缓解梯度冲突。

实验设置

数据集

安全对齐数据：BeaverTails (5,000有害提示+拒绝响应) + Alpaca (5,000无害提示+有用响应)
用户数据：GSM8K、SST2、AGNEWS、AlpacaEval等，按不同比例混入有害提示
评估数据：BeaverTails测试集(1,000样本)用于安全性评估

评价指标

有害分数(HS)：1,000个输出中有害响应的比例（↓越低越好）
微调准确率(FA)：下游任务的准确率（↑越高越好）

对比方法

对齐阶段方法：RepNoise, Vaccine, Booster
微调阶段方法：LDIFS, Lisa
基线方法：SFT（标准监督微调）

实现细节

模型：Llama3-8B, Gemma2-9B, Qwen2-7B
训练：LoRA微调(rank=32)，AdamW优化器
超参数：λ=0.1, α=0.1, T=1, τ=0.9, 学习率5e-4(教师)/1e-5(微调)

实验结果

主要结果

不同有害提示比例下的性能

方法	p=0	p=0.1	p=0.3	p=0.5	平均HS	平均FA
SFT	2.2	16.2	57.3	71.3	36.8	39.5
Vaccine	1.3	5.4	35.0	57.5	24.8	22.0
Ref-Teacher	0.9	1.0	0.6	0.9	0.9	47.1

消融实验

梯度冲突分析

方法	对齐蒸馏	数据过滤	冲突频率(%)	平均余弦相似度
基础方法	✗	✗	35.09	0.110
+对齐蒸馏	✓	✗	32.26	0.131
+数据过滤	✗	✓	36.11	0.102
完整方法	✓	✓	30.02	0.140

组件贡献分析

仅对齐蒸馏：HS=2.2, FA=46.2（无法单独解决有害数据问题）
仅数据过滤：HS=0.6, FA=46.5（可降低危害但影响任务性能）
完整方法：HS=0.5, FA=49.0（两者协同实现最佳性能）

泛化性实验

跨数据集泛化

在GSM8K、SST2、AGNEWS、AlpacaEval上的平均性能：

Ref-Teacher：HS=1.1, FA=52.8（最佳）
最佳基线(Booster)：HS=10.0, FA=51.3

跨模型架构泛化

在Llama3-8B、Gemma2-9B、Qwen2-7B上的平均性能：

Ref-Teacher：HS=0.8, FA=60.8（最佳）
最佳基线(Booster)：HS=4.4, FA=57.3

分类性能验证

Ref-Teacher在有害内容检测上的F1分数：

BeaverTails: 93.4%
JailbreakBench: 79.8%
GCG攻击: 92.9%
AutoDAN攻击: 82.1%

结论与讨论

主要结论

安全对齐权重不足：安全对齐模型为下游任务提供较弱初始化，导致性能和安全性双重损失
直接微调更有效：在基础模型上同时进行安全对齐和任务学习能获得更好效果
梯度冲突是关键挑战：需要通过对齐蒸馏和数据过滤协同缓解
实用性强：方法在多种设置下表现稳定，适合FaaS部署

局限性

依赖拒绝特征：如果拒绝特征被对抗攻击破坏，整个框架的安全性可能受损
计算开销：需要额外训练Ref-Teacher模型，增加了计算成本
数据质量依赖：方法效果依赖于安全对齐数据的质量和覆盖度

未来方向

鲁棒性增强：研究对抗拒绝特征操纵的防御方法
效率优化：探索更高效的教师训练和知识蒸馏策略
理论分析：深入理解梯度冲突的数学本质和缓解机制

深度评价

优点

问题发现深刻：首次系统性地指出安全对齐权重的根本性局限，为领域提供了新的思考角度
方法设计巧妙：通过拒绝特征和双重机制的设计，优雅地解决了梯度冲突问题
实验全面充分：涵盖多种设置、数据集和模型，实验设计严谨，结果说服力强
实用价值高：直接针对FaaS场景，具有很强的实际应用价值

不足

理论分析不足：缺乏对梯度冲突现象和缓解机制的深入理论分析
计算成本考虑：未充分讨论额外训练Ref-Teacher带来的计算开销
攻击模型有限：主要考虑数据投毒攻击，对更复杂的对抗攻击鲁棒性有待验证
超参数敏感性：虽有消融实验，但对关键超参数的敏感性分析不够深入

影响力

学术贡献：为LLM安全微调提供了新的研究范式，可能引发后续研究
工业价值：直接解决FaaS的实际安全问题，具有重要的商业应用前景
可复现性：提供了详细的实验设置和超参数，便于复现和改进

适用场景

FaaS平台：AI服务提供商的微调服务安全保障
定制化LLM：企业内部LLM定制化部署的安全方案
多任务学习：需要同时优化多个目标的LLM训练场景
安全关键应用：对安全性要求较高的LLM应用领域

参考文献

本文引用了LLM安全性、有害微调攻击、知识蒸馏等领域的重要工作，为相关研究提供了全面的文献基础。特别值得关注的包括拒绝特征的相关研究(Arditi et al. 2024)和现有的有害微调防御方法(Huang et al. 2024系列, Rosati et al. 2024等)。