Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
Les Poids Alignés sur la Sécurité Ne Suffisent Pas : L'Ajustement Fin Guidé par un Professeur de Refus Améliore la Sécurité et les Performances en Aval sous les Attaques d'Ajustement Fin Nuisibles
Titre : Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Auteurs : Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Institut Avancé de Science et Technologie de Corée)
Classification : cs.CL (Informatique et Langage)
Date de Publication : 11 octobre 2025 (prépublication arXiv)
Avec le lancement de services d'ajustement fin en tant que service (FaaS) par les principaux fournisseurs d'IA comme Google et OpenAI, les utilisateurs peuvent personnaliser les grands modèles de langage (LLM) avec leurs propres données. Cependant, lorsque les données utilisateur contiennent des invites nuisibles, ce service est sujet à une dégradation de la sécurité, menace connue sous le nom d'attaque d'ajustement fin nuisible. Les méthodes existantes tentent d'atténuer ce problème en construisant d'abord un modèle aligné sur la sécurité, puis en l'ajustant finement sur les données utilisateur. Cependant, cet article découvre que les poids alignés sur la sécurité fournissent une initialisation faible pour l'apprentissage des tâches en aval, entraînant un alignement de sécurité sous-optimal et des performances de tâche en aval. Pour résoudre ce problème, les auteurs proposent un cadre d'ajustement fin guidé par un Professeur de Refus (Ref-Teacher), qui ajuste finement directement le modèle de base sous la guidance d'un Ref-Teacher aligné sur la sécurité, en filtrant les invites nuisibles dans les données utilisateur et en distillant les connaissances d'alignement de sécurité dans le modèle de base pour réaliser une double amélioration de la sécurité et des performances.
Attaques d'ajustement fin nuisibles : Lorsque les utilisateurs téléchargent des données contenant du contenu nuisible pour ajustement fin dans FaaS, cela entraîne la destruction de l'alignement de sécurité du modèle, permettant au modèle de générer du contenu nuisible.
Limitations des méthodes existantes :
Le pipeline traditionnel en deux étapes (alignement de sécurité d'abord, puis ajustement fin) présente un défaut fondamental
Le modèle aligné sur la sécurité fournit une initialisation de poids faible pour l'apprentissage des tâches en aval
Cela entraîne des performances de tâche limitées et une sécurité compromise
Motivation de la recherche :
L'ajustement fin direct sur le modèle de base avec à la fois les données utilisateur et les données d'alignement de sécurité peut obtenir de meilleures performances
Cependant, cette approche produit des conflits de gradient, particulièrement exacerbés lorsque les données utilisateur contiennent des invites nuisibles
Un nouveau cadre est nécessaire pour atténuer les conflits de gradient tout en maintenant la sécurité et les performances de tâche
Découverte des limitations fondamentales des modèles alignés sur la sécurité : Preuve que les LLM alignés sur la sécurité fournissent une initialisation faible pour l'apprentissage en aval, entraînant un compromis entre les performances de tâche et la sécurité.
Proposition d'un cadre d'ajustement fin guidé par Ref-Teacher : Atténuation des conflits de gradient par deux mécanismes - distillation d'alignement et filtrage de données - réalisant une double amélioration de la sécurité et des performances de tâche.
Vérification expérimentale complète : Démonstration de l'efficacité et de la robustesse de la méthode dans diverses configurations (différentes proportions d'invites nuisibles, tailles de données, types de jeux de données, architectures de modèles).
Solution FaaS pratique : Fourniture d'une solution réalisable et pratique pour un déploiement sûr et fiable des LLM.
Entrée : LLM de base, données utilisateur (pouvant contenir des invites nuisibles), données d'alignement de sécurité
Sortie : Modèle personnalisé maintenant à la fois l'alignement de sécurité et performant sur les tâches spécifiques de l'utilisateur
Contraintes : Maintenir la robustesse sous les attaques d'ajustement fin nuisibles
Renforcement des Caractéristiques de Refus : Renforcement de la capacité discriminante des caractéristiques de refus par des termes de régularisation, rapprochant la similarité cosinus des caractéristiques d'invites nuisibles à la caractéristique de refus de 1, et celle des invites inoffensives de -1.
Mise à Jour Dynamique des Caractéristiques de Refus : Mise à jour régulière des caractéristiques de refus pendant l'entraînement, évitant le besoin d'un modèle pré-aligné.
Synergie des Mécanismes Doubles : La distillation d'alignement fournit une surface de perte lisse, le filtrage de données supprime les données nuisibles, les deux travaillant ensemble pour atténuer les conflits de gradient.
Solutions de Phase d'Alignement : Obtention de poids d'alignement de sécurité robustes par techniques de régularisation
Solutions de Phase d'Ajustement Fin : Gel de paramètres critiques ou ajout de régularisation de sécurité
Solutions de Phase Post-Ajustement Fin : Analyse des différences et édition des poids du modèle pour compenser la dégradation de sécurité
La principale distinction de cet article par rapport aux travaux existants est l'ajustement fin direct du modèle de base plutôt que du modèle aligné sur la sécurité, atténuant les conflits de gradient par guidance d'un professeur.
Les Poids Alignés sur la Sécurité Ne Suffisent Pas : Les modèles alignés sur la sécurité fournissent une initialisation faible pour les tâches en aval, entraînant une double perte de performances et de sécurité
L'Ajustement Fin Direct Est Plus Efficace : L'ajustement fin simultané sur le modèle de base avec alignement de sécurité et apprentissage de tâche obtient de meilleurs résultats
Les Conflits de Gradient Sont le Défi Clé : Nécessité d'atténuation par distillation d'alignement et filtrage de données en synergie
Forte Praticité : La méthode montre des performances stables dans diverses configurations, adaptée au déploiement FaaS
Dépendance aux Caractéristiques de Refus : Si les caractéristiques de refus sont compromises par des attaques adversariales, la sécurité de l'ensemble du cadre peut être affectée
Surcharge Computationnelle : Nécessité d'entraîner un modèle Ref-Teacher supplémentaire, augmentant les coûts computationnels
Dépendance à la Qualité des Données : L'efficacité de la méthode dépend de la qualité et de la couverture des données d'alignement de sécurité
Découverte de Problème Profonde : Première identification systématique des limitations fondamentales des poids alignés sur la sécurité, offrant une nouvelle perspective au domaine
Conception de Méthode Ingénieuse : Résolution élégante du problème des conflits de gradient par conception de caractéristiques de refus et mécanismes doubles
Expériences Complètes et Rigoureuses : Couverture de multiples configurations, jeux de données et modèles, conception expérimentale rigoureuse, résultats convaincants
Valeur Pratique Élevée : Ciblage direct du scénario FaaS, forte valeur d'application pratique
Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie du phénomène de conflits de gradient et des mécanismes d'atténuation
Considération des Coûts Computationnels : Discussion insuffisante de la surcharge computationnelle de l'entraînement supplémentaire du Ref-Teacher
Modèles d'Attaque Limités : Considération principale des attaques par empoisonnement de données, robustesse à des attaques adversariales plus complexes à vérifier
Analyse de Sensibilité aux Hyperparamètres : Bien que des expériences d'ablation soient présentes, l'analyse de sensibilité aux hyperparamètres clés est insuffisante
Contribution Académique : Fourniture d'un nouveau paradigme de recherche pour l'ajustement fin sécurisé des LLM, pouvant inspirer des recherches ultérieures
Valeur Industrielle : Résolution directe des problèmes de sécurité pratiques de FaaS, perspective d'application commerciale importante
Reproductibilité : Fourniture de configurations expérimentales détaillées et d'hyperparamètres, facilitant la reproduction et l'amélioration
Cet article cite des travaux importants dans les domaines de la sécurité des LLM, des attaques d'ajustement fin nuisibles, et de la distillation de connaissances, fournissant une base bibliographique complète pour les recherches connexes. Méritent une attention particulière les recherches sur les caractéristiques de refus (Arditi et al. 2024) et les méthodes existantes de défense contre l'ajustement fin nuisible (série Huang et al. 2024, Rosati et al. 2024, etc.).