Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
Sicherheitsausgerichtete Gewichte sind nicht ausreichend: Refusal-Teacher-gesteuerte Feinabstimmung verbessert Sicherheit und nachgelagerte Leistung unter schädlichen Feinabstimmungsangriffen
Titel: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Autoren: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Korea Advanced Institute of Science and Technology)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Mit der Einführung von Finetuning-as-a-Service (FaaS) durch große KI-Anbieter wie Google und OpenAI können Benutzer große Sprachmodelle (LLMs) mit ihren eigenen Daten anpassen. Wenn Benutzerdaten jedoch schädliche Aufforderungen enthalten, ist der Dienst anfällig für Sicherheitsverschlechterung, eine Bedrohung, die als schädlicher Feinabstimmungsangriff bezeichnet wird. Bestehende Methoden versuchen, dieses Problem zu entschärfen, indem zunächst ein sicherheitsausgerichtetes Modell erstellt und dann auf Benutzerdaten feinabgestimmt wird. Dieser Artikel zeigt jedoch, dass sicherheitsausgerichtete Gewichte eine schwache Initialisierung für das Lernen nachgelagerter Aufgaben bieten, was zu suboptimaler Sicherheitsausrichtung und Leistung nachgelagerter Aufgaben führt. Um dieses Problem zu lösen, schlagen die Autoren ein Refusal-Teacher (Ref-Teacher)-gesteuertes Feinabstimmungsframework vor, das das Basismodell direkt unter Anleitung eines sicherheitsausgerichteten Ref-Teacher feinabstimmt. Dies wird durch Filterung schädlicher Aufforderungen in Benutzerdaten und Destillation von Sicherheitsausrichtungswissen in das Basismodell erreicht, um sowohl Sicherheit als auch Leistung zu verbessern.
Schädlicher Feinabstimmungsangriff: Wenn Benutzer Daten mit schädlichen Inhalten in FaaS hochladen, um sie feinzustimmen, wird die Sicherheitsausrichtung des Modells zerstört, was das Modell dazu veranlasst, schädliche Inhalte zu generieren.
Einschränkungen bestehender Methoden:
Die traditionelle zweistufige Pipeline (erst Sicherheitsausrichtung, dann Feinabstimmung) hat grundlegende Mängel
Sicherheitsausgerichtete Modelle bieten schwache Gewichtsinitialisierungen für das Lernen nachgelagerter Aufgaben
Dies führt zu begrenzter Aufgabenleistung und beeinträchtigter Sicherheit
Forschungsmotivation:
Die direkte Feinabstimmung auf dem Basismodell mit sowohl Benutzerdaten als auch Sicherheitsausrichtungsdaten kann bessere Leistung erzielen
Diese Methode führt jedoch zu Gradientenkonflikten, besonders wenn Benutzerdaten schädliche Aufforderungen enthalten
Es ist ein neues Framework erforderlich, um Gradientenkonflikte zu entschärfen und gleichzeitig Sicherheit und Aufgabenleistung zu bewahren
Entdeckung grundlegender Einschränkungen sicherheitsausgerichteter Modelle: Nachweis, dass sicherheitsausgerichtete LLMs schwache Initialisierungen für nachgelagertes Lernen bieten, was zu suboptimaler Aufgabenleistung und Sicherheitskompromissen führt.
Vorschlag eines Ref-Teacher-gesteuerten Feinabstimmungsframeworks: Entschärfung von Gradientenkonflikten durch zwei Mechanismen – Ausrichtungsdestillation und Datenfilterung – um sowohl Sicherheit als auch Aufgabenleistung zu verbessern.
Umfassende experimentelle Validierung: Nachweis der Wirksamkeit und Robustheit der Methode unter verschiedenen Einstellungen (unterschiedliche Anteile schädlicher Aufforderungen, Datengröße, Datensatztypen, Modellarchitekturen).
Praktische FaaS-Lösung: Bereitstellung einer praktisch umsetzbaren Lösung für sichere und zuverlässige LLM-Bereitstellung.
Eingabe: Basis-LLM, Benutzerdaten (möglicherweise mit schädlichen Aufforderungen), Sicherheitsausrichtungsdaten
Ausgabe: Angepasstes Modell, das sowohl Sicherheitsausrichtung bewahrt als auch bei benutzerspezifischen Aufgaben gut funktioniert
Einschränkungen: Robustheit unter schädlichen Feinabstimmungsangriffen
Ablehnungsmerkmal-Verstärkung: Durch Regularisierungsterme wird die Diskriminativität von Ablehnungsmerkmalen verstärkt, sodass die Kosinusähnlichkeit zwischen schädlichen Aufforderungsmerkmalen und Ablehnungsmerkmalen nahe 1 liegt und harmlose Aufforderungen nahe -1.
Dynamische Ablehnungsmerkmal-Aktualisierung: Regelmäßige Aktualisierung von Ablehnungsmerkmalen während des Trainings, ohne dass ein vorausgerichtetes Modell erforderlich ist.
Synergistische Doppelmechanismen: Ausrichtungsdestillation bietet eine glatte Verlustfläche, Datenfilterung entfernt schädliche Daten, beide arbeiten zusammen, um Gradientenkonflikte zu entschärfen.
Ausrichtungsphasen-Lösungen: Erreichung robuster Sicherheitsausrichtungsgewichte durch Regularisierungstechniken
Feinabstimmungsphasen-Lösungen: Einfrieren kritischer Parameter oder Hinzufügen von Sicherheitsregularisierung
Nach-Feinabstimmungsphasen-Lösungen: Analyse von Unterschieden und Bearbeitung von Modellgewichten zur Kompensation von Sicherheitsverschlechterung
Der Hauptunterschied dieser Arbeit zu bestehenden Arbeiten liegt in der direkten Feinabstimmung des Basismodells statt des sicherheitsausgerichteten Modells, wobei Gradientenkonflikte durch Lehrerleitung entschärft werden.
Sicherheitsausgerichtete Gewichte sind unzureichend: Sicherheitsausgerichtete Modelle bieten schwache Initialisierungen für nachgelagerte Aufgaben, was zu doppeltem Leistungs- und Sicherheitsverlust führt
Direkte Feinabstimmung ist effektiver: Gleichzeitiges Durchführen von Sicherheitsausrichtung und Aufgabenlernens auf dem Basismodell erzielt bessere Ergebnisse
Gradientenkonflikt ist die Schlüsselherausforderung: Erfordert synergistische Entschärfung durch Ausrichtungsdestillation und Datenfilterung
Hohe Praktikabilität: Die Methode zeigt stabile Leistung unter verschiedenen Einstellungen und eignet sich für FaaS-Bereitstellung
Abhängigkeit von Ablehnungsmerkmalen: Wenn Ablehnungsmerkmale durch adversariale Angriffe zerstört werden, kann die Sicherheit des gesamten Frameworks beeinträchtigt werden
Rechnerischer Overhead: Erfordert zusätzliches Training des Ref-Teacher-Modells, was Rechenkosten erhöht
Abhängigkeit von Datenqualität: Die Wirksamkeit der Methode hängt von der Qualität und Abdeckung der Sicherheitsausrichtungsdaten ab
Tiefe Problementdeckung: Erstmalige systematische Aufdeckung grundlegender Einschränkungen sicherheitsausgerichteter Gewichte, bietet neue Perspektiven für das Feld
Geschicktes Methodendesign: Elegante Lösung des Gradientenkonflikts durch Design von Ablehnungsmerkmalen und Doppelmechanismen
Umfassende und ausreichende Experimente: Abdeckung verschiedener Einstellungen, Datensätze und Modelle mit rigorosem Experimentdesign und überzeugenden Ergebnissen
Hoher praktischer Wert: Direkte Adressierung des FaaS-Szenarios mit starkem praktischem Anwendungswert
Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse von Gradientenkonflikt-Phänomenen und Entschärfungsmechanismen
Unzureichende Berücksichtigung von Rechenkosten: Unzureichende Diskussion des Rechenoverheads durch zusätzliches Ref-Teacher-Training
Begrenzte Angriffsmodelle: Hauptsächlich Daten-Vergiftungsangriffe berücksichtigt, Robustheit gegen komplexere adversariale Angriffe erfordert Validierung
Unzureichende Hyperparameter-Sensitivitätsanalyse: Obwohl Ablationsstudien vorhanden sind, ist die Analyse der Sensitivität kritischer Hyperparameter nicht ausreichend
Dieser Artikel zitiert wichtige Arbeiten in den Bereichen LLM-Sicherheit, schädliche Feinabstimmungsangriffe und Wissensdestillation und bietet eine umfassende Literaturbasis für verwandte Forschung. Besonders beachtenswert sind Arbeiten zu Ablehnungsmerkmalen (Arditi et al. 2024) und bestehende Verteidigungsmethoden gegen schädliche Feinabstimmung (Huang et al. 2024-Serie, Rosati et al. 2024 usw.).