2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic

Sicherheitsausgerichtete Gewichte sind nicht ausreichend: Refusal-Teacher-gesteuerte Feinabstimmung verbessert Sicherheit und nachgelagerte Leistung unter schädlichen Feinabstimmungsangriffen

Grundlegende Informationen

  • Paper-ID: 2506.07356
  • Titel: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
  • Autoren: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Korea Advanced Institute of Science and Technology)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2506.07356

Zusammenfassung

Mit der Einführung von Finetuning-as-a-Service (FaaS) durch große KI-Anbieter wie Google und OpenAI können Benutzer große Sprachmodelle (LLMs) mit ihren eigenen Daten anpassen. Wenn Benutzerdaten jedoch schädliche Aufforderungen enthalten, ist der Dienst anfällig für Sicherheitsverschlechterung, eine Bedrohung, die als schädlicher Feinabstimmungsangriff bezeichnet wird. Bestehende Methoden versuchen, dieses Problem zu entschärfen, indem zunächst ein sicherheitsausgerichtetes Modell erstellt und dann auf Benutzerdaten feinabgestimmt wird. Dieser Artikel zeigt jedoch, dass sicherheitsausgerichtete Gewichte eine schwache Initialisierung für das Lernen nachgelagerter Aufgaben bieten, was zu suboptimaler Sicherheitsausrichtung und Leistung nachgelagerter Aufgaben führt. Um dieses Problem zu lösen, schlagen die Autoren ein Refusal-Teacher (Ref-Teacher)-gesteuertes Feinabstimmungsframework vor, das das Basismodell direkt unter Anleitung eines sicherheitsausgerichteten Ref-Teacher feinabstimmt. Dies wird durch Filterung schädlicher Aufforderungen in Benutzerdaten und Destillation von Sicherheitsausrichtungswissen in das Basismodell erreicht, um sowohl Sicherheit als auch Leistung zu verbessern.

Forschungshintergrund und Motivation

Problemdefinition

  1. Schädlicher Feinabstimmungsangriff: Wenn Benutzer Daten mit schädlichen Inhalten in FaaS hochladen, um sie feinzustimmen, wird die Sicherheitsausrichtung des Modells zerstört, was das Modell dazu veranlasst, schädliche Inhalte zu generieren.
  2. Einschränkungen bestehender Methoden:
    • Die traditionelle zweistufige Pipeline (erst Sicherheitsausrichtung, dann Feinabstimmung) hat grundlegende Mängel
    • Sicherheitsausgerichtete Modelle bieten schwache Gewichtsinitialisierungen für das Lernen nachgelagerter Aufgaben
    • Dies führt zu begrenzter Aufgabenleistung und beeinträchtigter Sicherheit
  3. Forschungsmotivation:
    • Die direkte Feinabstimmung auf dem Basismodell mit sowohl Benutzerdaten als auch Sicherheitsausrichtungsdaten kann bessere Leistung erzielen
    • Diese Methode führt jedoch zu Gradientenkonflikten, besonders wenn Benutzerdaten schädliche Aufforderungen enthalten
    • Es ist ein neues Framework erforderlich, um Gradientenkonflikte zu entschärfen und gleichzeitig Sicherheit und Aufgabenleistung zu bewahren

Kernbeiträge

  1. Entdeckung grundlegender Einschränkungen sicherheitsausgerichteter Modelle: Nachweis, dass sicherheitsausgerichtete LLMs schwache Initialisierungen für nachgelagertes Lernen bieten, was zu suboptimaler Aufgabenleistung und Sicherheitskompromissen führt.
  2. Vorschlag eines Ref-Teacher-gesteuerten Feinabstimmungsframeworks: Entschärfung von Gradientenkonflikten durch zwei Mechanismen – Ausrichtungsdestillation und Datenfilterung – um sowohl Sicherheit als auch Aufgabenleistung zu verbessern.
  3. Umfassende experimentelle Validierung: Nachweis der Wirksamkeit und Robustheit der Methode unter verschiedenen Einstellungen (unterschiedliche Anteile schädlicher Aufforderungen, Datengröße, Datensatztypen, Modellarchitekturen).
  4. Praktische FaaS-Lösung: Bereitstellung einer praktisch umsetzbaren Lösung für sichere und zuverlässige LLM-Bereitstellung.

Methodische Details

Aufgabendefinition

Eingabe: Basis-LLM, Benutzerdaten (möglicherweise mit schädlichen Aufforderungen), Sicherheitsausrichtungsdaten Ausgabe: Angepasstes Modell, das sowohl Sicherheitsausrichtung bewahrt als auch bei benutzerspezifischen Aufgaben gut funktioniert Einschränkungen: Robustheit unter schädlichen Feinabstimmungsangriffen

Modellarchitektur

1. Lehrervorbereitungsphase

Training eines Ref-Teacher-Modells, das folgendes kann:

  • Soft-Ablehnungsetiketten für Ausrichtungsdestillation generieren
  • Ablehnungsmerkmale effektiv nutzen, um schädliche und harmlose Aufforderungen zu unterscheiden

Ablehnungsmerkmal-Definition:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

Trainingsziel:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. Feinabstimmungsphase

Der Ref-Teacher lenkt das Basismodell durch zwei komplementäre Mechanismen:

Datenfilterung:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

Ausrichtungsdestillation: Übertragung von Soft-Label-Wissen des Ref-Teacher an das Schülermodell mittels KL-Divergenz-Verlust

Gesamtziel-Funktion:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

Technische Innovationen

  1. Ablehnungsmerkmal-Verstärkung: Durch Regularisierungsterme wird die Diskriminativität von Ablehnungsmerkmalen verstärkt, sodass die Kosinusähnlichkeit zwischen schädlichen Aufforderungsmerkmalen und Ablehnungsmerkmalen nahe 1 liegt und harmlose Aufforderungen nahe -1.
  2. Dynamische Ablehnungsmerkmal-Aktualisierung: Regelmäßige Aktualisierung von Ablehnungsmerkmalen während des Trainings, ohne dass ein vorausgerichtetes Modell erforderlich ist.
  3. Synergistische Doppelmechanismen: Ausrichtungsdestillation bietet eine glatte Verlustfläche, Datenfilterung entfernt schädliche Daten, beide arbeiten zusammen, um Gradientenkonflikte zu entschärfen.

Experimentelle Einrichtung

Datensätze

  • Sicherheitsausrichtungsdaten: BeaverTails (5.000 schädliche Aufforderungen + Ablehnungsantworten) + Alpaca (5.000 harmlose Aufforderungen + hilfreiche Antworten)
  • Benutzerdaten: GSM8K, SST2, AGNEWS, AlpacaEval usw., mit unterschiedlichen Anteilen schädlicher Aufforderungen gemischt
  • Bewertungsdaten: BeaverTails-Testset (1.000 Proben) zur Sicherheitsbewertung

Bewertungsmetriken

  • Schädlichkeitswert (HS): Anteil schädlicher Antworten in 1.000 Ausgaben (↓ je niedriger, desto besser)
  • Feinabstimmungsgenauigkeit (FA): Genauigkeit bei nachgelagerten Aufgaben (↑ je höher, desto besser)

Vergleichsmethoden

  • Ausrichtungsphasen-Methoden: RepNoise, Vaccine, Booster
  • Feinabstimmungsphasen-Methoden: LDIFS, Lisa
  • Baseline-Methoden: SFT (Standard-Überwachtes Finetuning)

Implementierungsdetails

  • Modelle: Llama3-8B, Gemma2-9B, Qwen2-7B
  • Training: LoRA-Feinabstimmung (rank=32), AdamW-Optimierer
  • Hyperparameter: λ=0,1, α=0,1, T=1, τ=0,9, Lernrate 5e-4 (Lehrer)/1e-5 (Feinabstimmung)

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei unterschiedlichen Anteilen schädlicher Aufforderungen

Methodep=0p=0,1p=0,3p=0,5Durchschn. HSDurchschn. FA
SFT2,216,257,371,336,839,5
Vaccine1,35,435,057,524,822,0
Ref-Teacher0,91,00,60,90,947,1

Ablationsstudien

Gradientenkonflikt-Analyse

MethodeAusrichtungsdestillationDatenfilterungKonflikt-Häufigkeit (%)Durchschn. Kosinusähnlichkeit
Basismethode35,090,110
+Ausrichtungsdestillation32,260,131
+Datenfilterung36,110,102
Vollständige Methode30,020,140

Komponentenbeitrag-Analyse

  • Nur Ausrichtungsdestillation: HS=2,2, FA=46,2 (kann schädliche Daten nicht allein lösen)
  • Nur Datenfilterung: HS=0,6, FA=46,5 (reduziert Schaden, beeinträchtigt aber Aufgabenleistung)
  • Vollständige Methode: HS=0,5, FA=49,0 (synergistische Zusammenarbeit erreicht beste Leistung)

Generalisierungsexperimente

Datensatzübergreifende Generalisierung

Durchschnittliche Leistung auf GSM8K, SST2, AGNEWS, AlpacaEval:

  • Ref-Teacher: HS=1,1, FA=52,8 (beste)
  • Beste Baseline (Booster): HS=10,0, FA=51,3

Modellarchitektur-übergreifende Generalisierung

Durchschnittliche Leistung auf Llama3-8B, Gemma2-9B, Qwen2-7B:

  • Ref-Teacher: HS=0,8, FA=60,8 (beste)
  • Beste Baseline (Booster): HS=4,4, FA=57,3

Klassifizierungsleistungsvalidierung

F1-Wert des Ref-Teacher bei der Erkennung schädlicher Inhalte:

  • BeaverTails: 93,4%
  • JailbreakBench: 79,8%
  • GCG-Angriff: 92,9%
  • AutoDAN-Angriff: 82,1%

Verwandte Arbeiten

LLM-Sicherheitsforschung

  • Trainingszeit-Verteidigung: Verbesserung der Robustheit durch adversariales Training, Datenausgleich usw.
  • Inferenzzeit-Verteidigung: Nutzung der LLM-Selbstbewertung von Schädlichkeit oder internen Unterschieden zum Schutz

Verteidigung gegen schädliche Feinabstimmungsangriffe

  1. Ausrichtungsphasen-Lösungen: Erreichung robuster Sicherheitsausrichtungsgewichte durch Regularisierungstechniken
  2. Feinabstimmungsphasen-Lösungen: Einfrieren kritischer Parameter oder Hinzufügen von Sicherheitsregularisierung
  3. Nach-Feinabstimmungsphasen-Lösungen: Analyse von Unterschieden und Bearbeitung von Modellgewichten zur Kompensation von Sicherheitsverschlechterung

Der Hauptunterschied dieser Arbeit zu bestehenden Arbeiten liegt in der direkten Feinabstimmung des Basismodells statt des sicherheitsausgerichteten Modells, wobei Gradientenkonflikte durch Lehrerleitung entschärft werden.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Sicherheitsausgerichtete Gewichte sind unzureichend: Sicherheitsausgerichtete Modelle bieten schwache Initialisierungen für nachgelagerte Aufgaben, was zu doppeltem Leistungs- und Sicherheitsverlust führt
  2. Direkte Feinabstimmung ist effektiver: Gleichzeitiges Durchführen von Sicherheitsausrichtung und Aufgabenlernens auf dem Basismodell erzielt bessere Ergebnisse
  3. Gradientenkonflikt ist die Schlüsselherausforderung: Erfordert synergistische Entschärfung durch Ausrichtungsdestillation und Datenfilterung
  4. Hohe Praktikabilität: Die Methode zeigt stabile Leistung unter verschiedenen Einstellungen und eignet sich für FaaS-Bereitstellung

Einschränkungen

  1. Abhängigkeit von Ablehnungsmerkmalen: Wenn Ablehnungsmerkmale durch adversariale Angriffe zerstört werden, kann die Sicherheit des gesamten Frameworks beeinträchtigt werden
  2. Rechnerischer Overhead: Erfordert zusätzliches Training des Ref-Teacher-Modells, was Rechenkosten erhöht
  3. Abhängigkeit von Datenqualität: Die Wirksamkeit der Methode hängt von der Qualität und Abdeckung der Sicherheitsausrichtungsdaten ab

Zukünftige Richtungen

  1. Robustheitsverstärkung: Untersuchung von Verteidigungsmethoden gegen adversariale Manipulation von Ablehnungsmerkmalen
  2. Effizienzoptimierung: Erkundung effizienterer Lehrertrainings- und Wissensdestillationsstrategien
  3. Theoretische Analyse: Tieferes Verständnis der mathematischen Natur von Gradientenkonflikten und Entschärfungsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Tiefe Problementdeckung: Erstmalige systematische Aufdeckung grundlegender Einschränkungen sicherheitsausgerichteter Gewichte, bietet neue Perspektiven für das Feld
  2. Geschicktes Methodendesign: Elegante Lösung des Gradientenkonflikts durch Design von Ablehnungsmerkmalen und Doppelmechanismen
  3. Umfassende und ausreichende Experimente: Abdeckung verschiedener Einstellungen, Datensätze und Modelle mit rigorosem Experimentdesign und überzeugenden Ergebnissen
  4. Hoher praktischer Wert: Direkte Adressierung des FaaS-Szenarios mit starkem praktischem Anwendungswert

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse von Gradientenkonflikt-Phänomenen und Entschärfungsmechanismen
  2. Unzureichende Berücksichtigung von Rechenkosten: Unzureichende Diskussion des Rechenoverheads durch zusätzliches Ref-Teacher-Training
  3. Begrenzte Angriffsmodelle: Hauptsächlich Daten-Vergiftungsangriffe berücksichtigt, Robustheit gegen komplexere adversariale Angriffe erfordert Validierung
  4. Unzureichende Hyperparameter-Sensitivitätsanalyse: Obwohl Ablationsstudien vorhanden sind, ist die Analyse der Sensitivität kritischer Hyperparameter nicht ausreichend

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neues Forschungsparadigma für sichere LLM-Feinabstimmung, kann nachfolgende Forschung inspirieren
  2. Industrieller Wert: Löst praktische Sicherheitsprobleme von FaaS-Plattformen direkt mit wichtigen kommerziellen Anwendungsaussichten
  3. Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Hyperparameter für einfache Reproduktion und Verbesserung

Anwendungsszenarien

  1. FaaS-Plattformen: Sicherheitsgarantie für Feinabstimmungsdienste von KI-Dienstanbietern
  2. Angepasste LLMs: Sicherheitslösung für unternehmensweite LLM-Anpassungsbereitstellung
  3. Multi-Task-Lernen: LLM-Trainingsszenarien, die mehrere Ziele gleichzeitig optimieren müssen
  4. Sicherheitskritische Anwendungen: LLM-Anwendungsdomänen mit hohen Sicherheitsanforderungen

Literaturverzeichnis

Dieser Artikel zitiert wichtige Arbeiten in den Bereichen LLM-Sicherheit, schädliche Feinabstimmungsangriffe und Wissensdestillation und bietet eine umfassende Literaturbasis für verwandte Forschung. Besonders beachtenswert sind Arbeiten zu Ablehnungsmerkmalen (Arditi et al. 2024) und bestehende Verteidigungsmethoden gegen schädliche Feinabstimmung (Huang et al. 2024-Serie, Rosati et al. 2024 usw.).