2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

Les Poids Alignés sur la Sécurité Ne Suffisent Pas : L'Ajustement Fin Guidé par un Professeur de Refus Améliore la Sécurité et les Performances en Aval sous les Attaques d'Ajustement Fin Nuisibles

Informations de Base

ID de l'article : 2506.07356
Titre : Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Auteurs : Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Institut Avancé de Science et Technologie de Corée)
Classification : cs.CL (Informatique et Langage)
Date de Publication : 11 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2506.07356

Résumé

Avec le lancement de services d'ajustement fin en tant que service (FaaS) par les principaux fournisseurs d'IA comme Google et OpenAI, les utilisateurs peuvent personnaliser les grands modèles de langage (LLM) avec leurs propres données. Cependant, lorsque les données utilisateur contiennent des invites nuisibles, ce service est sujet à une dégradation de la sécurité, menace connue sous le nom d'attaque d'ajustement fin nuisible. Les méthodes existantes tentent d'atténuer ce problème en construisant d'abord un modèle aligné sur la sécurité, puis en l'ajustant finement sur les données utilisateur. Cependant, cet article découvre que les poids alignés sur la sécurité fournissent une initialisation faible pour l'apprentissage des tâches en aval, entraînant un alignement de sécurité sous-optimal et des performances de tâche en aval. Pour résoudre ce problème, les auteurs proposent un cadre d'ajustement fin guidé par un Professeur de Refus (Ref-Teacher), qui ajuste finement directement le modèle de base sous la guidance d'un Ref-Teacher aligné sur la sécurité, en filtrant les invites nuisibles dans les données utilisateur et en distillant les connaissances d'alignement de sécurité dans le modèle de base pour réaliser une double amélioration de la sécurité et des performances.

Contexte de Recherche et Motivation

Définition du Problème

Attaques d'ajustement fin nuisibles : Lorsque les utilisateurs téléchargent des données contenant du contenu nuisible pour ajustement fin dans FaaS, cela entraîne la destruction de l'alignement de sécurité du modèle, permettant au modèle de générer du contenu nuisible.
Limitations des méthodes existantes :
- Le pipeline traditionnel en deux étapes (alignement de sécurité d'abord, puis ajustement fin) présente un défaut fondamental
- Le modèle aligné sur la sécurité fournit une initialisation de poids faible pour l'apprentissage des tâches en aval
- Cela entraîne des performances de tâche limitées et une sécurité compromise
Motivation de la recherche :
- L'ajustement fin direct sur le modèle de base avec à la fois les données utilisateur et les données d'alignement de sécurité peut obtenir de meilleures performances
- Cependant, cette approche produit des conflits de gradient, particulièrement exacerbés lorsque les données utilisateur contiennent des invites nuisibles
- Un nouveau cadre est nécessaire pour atténuer les conflits de gradient tout en maintenant la sécurité et les performances de tâche

Contributions Principales

Découverte des limitations fondamentales des modèles alignés sur la sécurité : Preuve que les LLM alignés sur la sécurité fournissent une initialisation faible pour l'apprentissage en aval, entraînant un compromis entre les performances de tâche et la sécurité.
Proposition d'un cadre d'ajustement fin guidé par Ref-Teacher : Atténuation des conflits de gradient par deux mécanismes - distillation d'alignement et filtrage de données - réalisant une double amélioration de la sécurité et des performances de tâche.
Vérification expérimentale complète : Démonstration de l'efficacité et de la robustesse de la méthode dans diverses configurations (différentes proportions d'invites nuisibles, tailles de données, types de jeux de données, architectures de modèles).
Solution FaaS pratique : Fourniture d'une solution réalisable et pratique pour un déploiement sûr et fiable des LLM.

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : LLM de base, données utilisateur (pouvant contenir des invites nuisibles), données d'alignement de sécurité Sortie : Modèle personnalisé maintenant à la fois l'alignement de sécurité et performant sur les tâches spécifiques de l'utilisateur Contraintes : Maintenir la robustesse sous les attaques d'ajustement fin nuisibles

Architecture du Modèle

1. Phase de Préparation du Professeur

Entraînement du modèle Ref-Teacher pour :

Générer des étiquettes de refus souples pour la distillation d'alignement
Utiliser efficacement les caractéristiques de refus pour distinguer les invites nuisibles et inoffensives

Définition des Caractéristiques de Refus :

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

Objectif d'Entraînement :

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. Phase d'Ajustement Fin

Le Ref-Teacher guide le modèle de base par deux mécanismes complémentaires :

Filtrage de Données :

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

Distillation d'Alignement : Transfert des connaissances d'étiquettes souples du Ref-Teacher au modèle étudiant via une perte de divergence KL

Fonction Objectif Globale :

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

Points d'Innovation Technique

Renforcement des Caractéristiques de Refus : Renforcement de la capacité discriminante des caractéristiques de refus par des termes de régularisation, rapprochant la similarité cosinus des caractéristiques d'invites nuisibles à la caractéristique de refus de 1, et celle des invites inoffensives de -1.
Mise à Jour Dynamique des Caractéristiques de Refus : Mise à jour régulière des caractéristiques de refus pendant l'entraînement, évitant le besoin d'un modèle pré-aligné.
Synergie des Mécanismes Doubles : La distillation d'alignement fournit une surface de perte lisse, le filtrage de données supprime les données nuisibles, les deux travaillant ensemble pour atténuer les conflits de gradient.

Configuration Expérimentale

Jeux de Données

Données d'alignement de sécurité : BeaverTails (5 000 invites nuisibles + réponses de refus) + Alpaca (5 000 invites inoffensives + réponses utiles)
Données utilisateur : GSM8K, SST2, AGNEWS, AlpacaEval, etc., avec injection d'invites nuisibles à différentes proportions
Données d'évaluation : Ensemble de test BeaverTails (1 000 échantillons) pour l'évaluation de la sécurité

Métriques d'Évaluation

Score de Nuisibilité (HS) : Proportion de réponses nuisibles parmi 1 000 sorties (↓ plus bas est mieux)
Précision d'Ajustement Fin (FA) : Précision sur la tâche en aval (↑ plus haut est mieux)

Méthodes de Comparaison

Méthodes de Phase d'Alignement : RepNoise, Vaccine, Booster
Méthodes de Phase d'Ajustement Fin : LDIFS, Lisa
Méthodes de Base : SFT (Ajustement Fin Supervisé Standard)

Détails d'Implémentation

Modèles : Llama3-8B, Gemma2-9B, Qwen2-7B
Entraînement : Ajustement fin LoRA (rang=32), optimiseur AdamW
Hyperparamètres : λ=0.1, α=0.1, T=1, τ=0.9, taux d'apprentissage 5e-4 (professeur)/1e-5 (ajustement fin)

Résultats Expérimentaux

Résultats Principaux

Performances à Différentes Proportions d'Invites Nuisibles

Méthode	p=0	p=0.1	p=0.3	p=0.5	HS Moyen	FA Moyen
SFT	2.2	16.2	57.3	71.3	36.8	39.5
Vaccine	1.3	5.4	35.0	57.5	24.8	22.0
Ref-Teacher	0.9	1.0	0.6	0.9	0.9	47.1

Expériences d'Ablation

Analyse des Conflits de Gradient

Méthode	Distillation d'Alignement	Filtrage de Données	Fréquence de Conflit (%)	Similarité Cosinus Moyenne
Méthode de Base	✗	✗	35.09	0.110
+Distillation d'Alignement	✓	✗	32.26	0.131
+Filtrage de Données	✗	✓	36.11	0.102
Méthode Complète	✓	✓	30.02	0.140

Analyse de la Contribution des Composants

Distillation d'Alignement Seule : HS=2.2, FA=46.2 (incapable de résoudre seule le problème des données nuisibles)
Filtrage de Données Seul : HS=0.6, FA=46.5 (peut réduire les dommages mais affecte les performances de tâche)
Méthode Complète : HS=0.5, FA=49.0 (synergie des deux pour les meilleures performances)

Expériences de Généralisation

Généralisation Entre Jeux de Données

Performances moyennes sur GSM8K, SST2, AGNEWS, AlpacaEval :

Ref-Teacher : HS=1.1, FA=52.8 (meilleur)
Meilleure Méthode de Base (Booster) : HS=10.0, FA=51.3

Généralisation Entre Architectures de Modèles

Performances moyennes sur Llama3-8B, Gemma2-9B, Qwen2-7B :

Ref-Teacher : HS=0.8, FA=60.8 (meilleur)
Meilleure Méthode de Base (Booster) : HS=4.4, FA=57.3

Vérification des Performances de Classification

Score F1 du Ref-Teacher dans la détection de contenu nuisible :

BeaverTails: 93.4%
JailbreakBench: 79.8%
Attaque GCG: 92.9%
Attaque AutoDAN: 82.1%

Travaux Connexes

Recherche sur la Sécurité des LLM

Défenses au Moment de l'Entraînement : Renforcement de la robustesse par entraînement adversarial, équilibrage des données, etc.
Défenses au Moment de l'Inférence : Utilisation de l'auto-évaluation des LLM ou des différences internes pour la protection

Défense contre les Attaques d'Ajustement Fin Nuisibles

Solutions de Phase d'Alignement : Obtention de poids d'alignement de sécurité robustes par techniques de régularisation
Solutions de Phase d'Ajustement Fin : Gel de paramètres critiques ou ajout de régularisation de sécurité
Solutions de Phase Post-Ajustement Fin : Analyse des différences et édition des poids du modèle pour compenser la dégradation de sécurité

La principale distinction de cet article par rapport aux travaux existants est l'ajustement fin direct du modèle de base plutôt que du modèle aligné sur la sécurité, atténuant les conflits de gradient par guidance d'un professeur.

Conclusion et Discussion

Conclusions Principales

Les Poids Alignés sur la Sécurité Ne Suffisent Pas : Les modèles alignés sur la sécurité fournissent une initialisation faible pour les tâches en aval, entraînant une double perte de performances et de sécurité
L'Ajustement Fin Direct Est Plus Efficace : L'ajustement fin simultané sur le modèle de base avec alignement de sécurité et apprentissage de tâche obtient de meilleurs résultats
Les Conflits de Gradient Sont le Défi Clé : Nécessité d'atténuation par distillation d'alignement et filtrage de données en synergie
Forte Praticité : La méthode montre des performances stables dans diverses configurations, adaptée au déploiement FaaS

Limitations

Dépendance aux Caractéristiques de Refus : Si les caractéristiques de refus sont compromises par des attaques adversariales, la sécurité de l'ensemble du cadre peut être affectée
Surcharge Computationnelle : Nécessité d'entraîner un modèle Ref-Teacher supplémentaire, augmentant les coûts computationnels
Dépendance à la Qualité des Données : L'efficacité de la méthode dépend de la qualité et de la couverture des données d'alignement de sécurité

Directions Futures

Amélioration de la Robustesse : Recherche de méthodes de défense contre la manipulation des caractéristiques de refus
Optimisation de l'Efficacité : Exploration de stratégies plus efficaces d'entraînement du professeur et de distillation de connaissances
Analyse Théorique : Compréhension approfondie de la nature mathématique des conflits de gradient et des mécanismes d'atténuation

Évaluation Approfondie

Avantages

Découverte de Problème Profonde : Première identification systématique des limitations fondamentales des poids alignés sur la sécurité, offrant une nouvelle perspective au domaine
Conception de Méthode Ingénieuse : Résolution élégante du problème des conflits de gradient par conception de caractéristiques de refus et mécanismes doubles
Expériences Complètes et Rigoureuses : Couverture de multiples configurations, jeux de données et modèles, conception expérimentale rigoureuse, résultats convaincants
Valeur Pratique Élevée : Ciblage direct du scénario FaaS, forte valeur d'application pratique

Insuffisances

Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie du phénomène de conflits de gradient et des mécanismes d'atténuation
Considération des Coûts Computationnels : Discussion insuffisante de la surcharge computationnelle de l'entraînement supplémentaire du Ref-Teacher
Modèles d'Attaque Limités : Considération principale des attaques par empoisonnement de données, robustesse à des attaques adversariales plus complexes à vérifier
Analyse de Sensibilité aux Hyperparamètres : Bien que des expériences d'ablation soient présentes, l'analyse de sensibilité aux hyperparamètres clés est insuffisante

Impact

Contribution Académique : Fourniture d'un nouveau paradigme de recherche pour l'ajustement fin sécurisé des LLM, pouvant inspirer des recherches ultérieures
Valeur Industrielle : Résolution directe des problèmes de sécurité pratiques de FaaS, perspective d'application commerciale importante
Reproductibilité : Fourniture de configurations expérimentales détaillées et d'hyperparamètres, facilitant la reproduction et l'amélioration

Scénarios d'Application

Plateformes FaaS : Garantie de sécurité des services d'ajustement fin des fournisseurs de services IA
LLM Personnalisés : Solutions de sécurité pour le déploiement personnalisé des LLM en entreprise
Apprentissage Multi-Tâches : Scénarios d'entraînement des LLM nécessitant l'optimisation simultanée de multiples objectifs
Applications Critiques pour la Sécurité : Domaines d'application des LLM exigeant des niveaux élevés de sécurité

Références

Cet article cite des travaux importants dans les domaines de la sécurité des LLM, des attaques d'ajustement fin nuisibles, et de la distillation de connaissances, fournissant une base bibliographique complète pour les recherches connexes. Méritent une attention particulière les recherches sur les caractéristiques de refus (Arditi et al. 2024) et les méthodes existantes de défense contre l'ajustement fin nuisible (série Huang et al. 2024, Rosati et al. 2024, etc.).