2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

Sicherheitsausgerichtete Gewichte sind nicht ausreichend: Refusal-Teacher-gesteuerte Feinabstimmung verbessert Sicherheit und nachgelagerte Leistung unter schädlichen Feinabstimmungsangriffen

Grundlegende Informationen

Paper-ID: 2506.07356
Titel: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Autoren: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Korea Advanced Institute of Science and Technology)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2506.07356

Zusammenfassung

Mit der Einführung von Finetuning-as-a-Service (FaaS) durch große KI-Anbieter wie Google und OpenAI können Benutzer große Sprachmodelle (LLMs) mit ihren eigenen Daten anpassen. Wenn Benutzerdaten jedoch schädliche Aufforderungen enthalten, ist der Dienst anfällig für Sicherheitsverschlechterung, eine Bedrohung, die als schädlicher Feinabstimmungsangriff bezeichnet wird. Bestehende Methoden versuchen, dieses Problem zu entschärfen, indem zunächst ein sicherheitsausgerichtetes Modell erstellt und dann auf Benutzerdaten feinabgestimmt wird. Dieser Artikel zeigt jedoch, dass sicherheitsausgerichtete Gewichte eine schwache Initialisierung für das Lernen nachgelagerter Aufgaben bieten, was zu suboptimaler Sicherheitsausrichtung und Leistung nachgelagerter Aufgaben führt. Um dieses Problem zu lösen, schlagen die Autoren ein Refusal-Teacher (Ref-Teacher)-gesteuertes Feinabstimmungsframework vor, das das Basismodell direkt unter Anleitung eines sicherheitsausgerichteten Ref-Teacher feinabstimmt. Dies wird durch Filterung schädlicher Aufforderungen in Benutzerdaten und Destillation von Sicherheitsausrichtungswissen in das Basismodell erreicht, um sowohl Sicherheit als auch Leistung zu verbessern.

Forschungshintergrund und Motivation

Problemdefinition

Schädlicher Feinabstimmungsangriff: Wenn Benutzer Daten mit schädlichen Inhalten in FaaS hochladen, um sie feinzustimmen, wird die Sicherheitsausrichtung des Modells zerstört, was das Modell dazu veranlasst, schädliche Inhalte zu generieren.
Einschränkungen bestehender Methoden:
- Die traditionelle zweistufige Pipeline (erst Sicherheitsausrichtung, dann Feinabstimmung) hat grundlegende Mängel
- Sicherheitsausgerichtete Modelle bieten schwache Gewichtsinitialisierungen für das Lernen nachgelagerter Aufgaben
- Dies führt zu begrenzter Aufgabenleistung und beeinträchtigter Sicherheit
Forschungsmotivation:
- Die direkte Feinabstimmung auf dem Basismodell mit sowohl Benutzerdaten als auch Sicherheitsausrichtungsdaten kann bessere Leistung erzielen
- Diese Methode führt jedoch zu Gradientenkonflikten, besonders wenn Benutzerdaten schädliche Aufforderungen enthalten
- Es ist ein neues Framework erforderlich, um Gradientenkonflikte zu entschärfen und gleichzeitig Sicherheit und Aufgabenleistung zu bewahren

Kernbeiträge

Entdeckung grundlegender Einschränkungen sicherheitsausgerichteter Modelle: Nachweis, dass sicherheitsausgerichtete LLMs schwache Initialisierungen für nachgelagertes Lernen bieten, was zu suboptimaler Aufgabenleistung und Sicherheitskompromissen führt.
Vorschlag eines Ref-Teacher-gesteuerten Feinabstimmungsframeworks: Entschärfung von Gradientenkonflikten durch zwei Mechanismen – Ausrichtungsdestillation und Datenfilterung – um sowohl Sicherheit als auch Aufgabenleistung zu verbessern.
Umfassende experimentelle Validierung: Nachweis der Wirksamkeit und Robustheit der Methode unter verschiedenen Einstellungen (unterschiedliche Anteile schädlicher Aufforderungen, Datengröße, Datensatztypen, Modellarchitekturen).
Praktische FaaS-Lösung: Bereitstellung einer praktisch umsetzbaren Lösung für sichere und zuverlässige LLM-Bereitstellung.

Methodische Details

Aufgabendefinition

Eingabe: Basis-LLM, Benutzerdaten (möglicherweise mit schädlichen Aufforderungen), Sicherheitsausrichtungsdaten Ausgabe: Angepasstes Modell, das sowohl Sicherheitsausrichtung bewahrt als auch bei benutzerspezifischen Aufgaben gut funktioniert Einschränkungen: Robustheit unter schädlichen Feinabstimmungsangriffen

Modellarchitektur

1. Lehrervorbereitungsphase

Training eines Ref-Teacher-Modells, das folgendes kann:

Soft-Ablehnungsetiketten für Ausrichtungsdestillation generieren
Ablehnungsmerkmale effektiv nutzen, um schädliche und harmlose Aufforderungen zu unterscheiden

Ablehnungsmerkmal-Definition:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

Trainingsziel:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. Feinabstimmungsphase

Der Ref-Teacher lenkt das Basismodell durch zwei komplementäre Mechanismen:

Datenfilterung:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

Ausrichtungsdestillation: Übertragung von Soft-Label-Wissen des Ref-Teacher an das Schülermodell mittels KL-Divergenz-Verlust

Gesamtziel-Funktion:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

Technische Innovationen

Ablehnungsmerkmal-Verstärkung: Durch Regularisierungsterme wird die Diskriminativität von Ablehnungsmerkmalen verstärkt, sodass die Kosinusähnlichkeit zwischen schädlichen Aufforderungsmerkmalen und Ablehnungsmerkmalen nahe 1 liegt und harmlose Aufforderungen nahe -1.
Dynamische Ablehnungsmerkmal-Aktualisierung: Regelmäßige Aktualisierung von Ablehnungsmerkmalen während des Trainings, ohne dass ein vorausgerichtetes Modell erforderlich ist.
Synergistische Doppelmechanismen: Ausrichtungsdestillation bietet eine glatte Verlustfläche, Datenfilterung entfernt schädliche Daten, beide arbeiten zusammen, um Gradientenkonflikte zu entschärfen.

Experimentelle Einrichtung

Datensätze

Sicherheitsausrichtungsdaten: BeaverTails (5.000 schädliche Aufforderungen + Ablehnungsantworten) + Alpaca (5.000 harmlose Aufforderungen + hilfreiche Antworten)
Benutzerdaten: GSM8K, SST2, AGNEWS, AlpacaEval usw., mit unterschiedlichen Anteilen schädlicher Aufforderungen gemischt
Bewertungsdaten: BeaverTails-Testset (1.000 Proben) zur Sicherheitsbewertung

Bewertungsmetriken

Schädlichkeitswert (HS): Anteil schädlicher Antworten in 1.000 Ausgaben (↓ je niedriger, desto besser)
Feinabstimmungsgenauigkeit (FA): Genauigkeit bei nachgelagerten Aufgaben (↑ je höher, desto besser)

Vergleichsmethoden

Ausrichtungsphasen-Methoden: RepNoise, Vaccine, Booster
Feinabstimmungsphasen-Methoden: LDIFS, Lisa
Baseline-Methoden: SFT (Standard-Überwachtes Finetuning)

Implementierungsdetails

Modelle: Llama3-8B, Gemma2-9B, Qwen2-7B
Training: LoRA-Feinabstimmung (rank=32), AdamW-Optimierer
Hyperparameter: λ=0,1, α=0,1, T=1, τ=0,9, Lernrate 5e-4 (Lehrer)/1e-5 (Feinabstimmung)

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei unterschiedlichen Anteilen schädlicher Aufforderungen

Methode	p=0	p=0,1	p=0,3	p=0,5	Durchschn. HS	Durchschn. FA
SFT	2,2	16,2	57,3	71,3	36,8	39,5
Vaccine	1,3	5,4	35,0	57,5	24,8	22,0
Ref-Teacher	0,9	1,0	0,6	0,9	0,9	47,1

Ablationsstudien

Gradientenkonflikt-Analyse

Methode	Ausrichtungsdestillation	Datenfilterung	Konflikt-Häufigkeit (%)	Durchschn. Kosinusähnlichkeit
Basismethode	✗	✗	35,09	0,110
+Ausrichtungsdestillation	✓	✗	32,26	0,131
+Datenfilterung	✗	✓	36,11	0,102
Vollständige Methode	✓	✓	30,02	0,140

Komponentenbeitrag-Analyse

Nur Ausrichtungsdestillation: HS=2,2, FA=46,2 (kann schädliche Daten nicht allein lösen)
Nur Datenfilterung: HS=0,6, FA=46,5 (reduziert Schaden, beeinträchtigt aber Aufgabenleistung)
Vollständige Methode: HS=0,5, FA=49,0 (synergistische Zusammenarbeit erreicht beste Leistung)

Generalisierungsexperimente

Datensatzübergreifende Generalisierung

Durchschnittliche Leistung auf GSM8K, SST2, AGNEWS, AlpacaEval:

Ref-Teacher: HS=1,1, FA=52,8 (beste)
Beste Baseline (Booster): HS=10,0, FA=51,3

Modellarchitektur-übergreifende Generalisierung

Durchschnittliche Leistung auf Llama3-8B, Gemma2-9B, Qwen2-7B:

Ref-Teacher: HS=0,8, FA=60,8 (beste)
Beste Baseline (Booster): HS=4,4, FA=57,3

Klassifizierungsleistungsvalidierung

F1-Wert des Ref-Teacher bei der Erkennung schädlicher Inhalte:

BeaverTails: 93,4%
JailbreakBench: 79,8%
GCG-Angriff: 92,9%
AutoDAN-Angriff: 82,1%

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Sicherheitsausgerichtete Gewichte sind unzureichend: Sicherheitsausgerichtete Modelle bieten schwache Initialisierungen für nachgelagerte Aufgaben, was zu doppeltem Leistungs- und Sicherheitsverlust führt
Direkte Feinabstimmung ist effektiver: Gleichzeitiges Durchführen von Sicherheitsausrichtung und Aufgabenlernens auf dem Basismodell erzielt bessere Ergebnisse
Gradientenkonflikt ist die Schlüsselherausforderung: Erfordert synergistische Entschärfung durch Ausrichtungsdestillation und Datenfilterung
Hohe Praktikabilität: Die Methode zeigt stabile Leistung unter verschiedenen Einstellungen und eignet sich für FaaS-Bereitstellung

Einschränkungen

Abhängigkeit von Ablehnungsmerkmalen: Wenn Ablehnungsmerkmale durch adversariale Angriffe zerstört werden, kann die Sicherheit des gesamten Frameworks beeinträchtigt werden
Rechnerischer Overhead: Erfordert zusätzliches Training des Ref-Teacher-Modells, was Rechenkosten erhöht
Abhängigkeit von Datenqualität: Die Wirksamkeit der Methode hängt von der Qualität und Abdeckung der Sicherheitsausrichtungsdaten ab

Zukünftige Richtungen

Robustheitsverstärkung: Untersuchung von Verteidigungsmethoden gegen adversariale Manipulation von Ablehnungsmerkmalen
Effizienzoptimierung: Erkundung effizienterer Lehrertrainings- und Wissensdestillationsstrategien
Theoretische Analyse: Tieferes Verständnis der mathematischen Natur von Gradientenkonflikten und Entschärfungsmechanismen

Tiefgreifende Bewertung

Stärken

Tiefe Problementdeckung: Erstmalige systematische Aufdeckung grundlegender Einschränkungen sicherheitsausgerichteter Gewichte, bietet neue Perspektiven für das Feld
Geschicktes Methodendesign: Elegante Lösung des Gradientenkonflikts durch Design von Ablehnungsmerkmalen und Doppelmechanismen
Umfassende und ausreichende Experimente: Abdeckung verschiedener Einstellungen, Datensätze und Modelle mit rigorosem Experimentdesign und überzeugenden Ergebnissen
Hoher praktischer Wert: Direkte Adressierung des FaaS-Szenarios mit starkem praktischem Anwendungswert

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse von Gradientenkonflikt-Phänomenen und Entschärfungsmechanismen
Unzureichende Berücksichtigung von Rechenkosten: Unzureichende Diskussion des Rechenoverheads durch zusätzliches Ref-Teacher-Training
Begrenzte Angriffsmodelle: Hauptsächlich Daten-Vergiftungsangriffe berücksichtigt, Robustheit gegen komplexere adversariale Angriffe erfordert Validierung
Unzureichende Hyperparameter-Sensitivitätsanalyse: Obwohl Ablationsstudien vorhanden sind, ist die Analyse der Sensitivität kritischer Hyperparameter nicht ausreichend

Einflussfähigkeit

Akademischer Beitrag: Bietet neues Forschungsparadigma für sichere LLM-Feinabstimmung, kann nachfolgende Forschung inspirieren
Industrieller Wert: Löst praktische Sicherheitsprobleme von FaaS-Plattformen direkt mit wichtigen kommerziellen Anwendungsaussichten
Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Hyperparameter für einfache Reproduktion und Verbesserung

Anwendungsszenarien

FaaS-Plattformen: Sicherheitsgarantie für Feinabstimmungsdienste von KI-Dienstanbietern
Angepasste LLMs: Sicherheitslösung für unternehmensweite LLM-Anpassungsbereitstellung
Multi-Task-Lernen: LLM-Trainingsszenarien, die mehrere Ziele gleichzeitig optimieren müssen
Sicherheitskritische Anwendungen: LLM-Anwendungsdomänen mit hohen Sicherheitsanforderungen

Literaturverzeichnis

Dieser Artikel zitiert wichtige Arbeiten in den Bereichen LLM-Sicherheit, schädliche Feinabstimmungsangriffe und Wissensdestillation und bietet eine umfassende Literaturbasis für verwandte Forschung. Besonders beachtenswert sind Arbeiten zu Ablehnungsmerkmalen (Arditi et al. 2024) und bestehende Verteidigungsmethoden gegen schädliche Feinabstimmung (Huang et al. 2024-Serie, Rosati et al. 2024 usw.).