2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic

Nicht an der Grenze entlanggehen: Grenzwertführung für gefilterte Generierung

Grundlegende Informationen

  • Papier-ID: 2510.11834
  • Titel: Don't Walk the Line: Boundary Guidance for Filtered Generation
  • Autoren: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
  • Klassifizierung: cs.LG cs.CL
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11834v1

Zusammenfassung

Generative Modelle werden zunehmend mit Sicherheitsklassifikatoren gekoppelt, um schädliche oder unangemessene Ausgaben zu filtern. Eine häufige Strategie besteht darin, den Generator zu optimieren, um die Wahrscheinlichkeit der Filterung zu verringern, doch dies kann suboptimal sein: Es treibt das Modell typischerweise dazu, Stichproben in der Nähe der Entscheidungsgrenze des Klassifikators zu erzeugen, was zu erhöhten falsch-positiven und falsch-negativen Ergebnissen führt. Dieses Papier stellt Grenzwertführung (Boundary Guidance) vor, eine Methode zur Optimierung durch verstärkendes Lernen, die die Generierung explizit weg von der Klassifikatorgrenze lenkt. In Benchmarks für Jailbreaking und mehrdeutige Anfragen verbessert die Grenzwertführung die Sicherheit und Nützlichkeit der Ausgaben, wie durch LLM-as-a-Judge-Bewertung validiert. Umfassende Ablationsstudien über Modellgrößen und Belohnungsdesigns demonstrieren die Robustheit der Methode.

Forschungshintergrund und Motivation

Problemdefinition

Moderne KI-Bereitstellungen verlassen sich zunehmend auf zusammengesetzte Sicherheitssysteme, bei denen generative Modelle mit nachgelagerten Sicherheitsklassifikatoren gekoppelt sind, um schädliche oder unangemessene Ausgaben zu filtern. Diese Architektur ermöglicht es Organisationen, Flexibilität bei Sicherheitsrichtlinien zu bewahren und gleichzeitig die komplementären Vorteile von sicherheitstrainierten Modellen und spezialisierten Klassifikatoren zu nutzen.

Kernproblem

Aktuelle Methoden konzentrieren sich auf die Ausrichtung von Modellen unabhängig vom Sicherheitsklassifikator und zeigen eine Diskrepanz zwischen Trainingszielen und Bereitstellungsrealität. Standardpraktiken bei der Optimierung von generativen KI-Modellen berücksichtigen nicht, welche Generierungen für den Klassifikator leicht zu klassifizieren sind – einige Generierungen schweben in der Nähe der Entscheidungsgrenze des Klassifikators und werden falsch klassifiziert.

Bedeutung des Problems

Dies führt zu Fehlern in zwei Richtungen:

  1. Falsch-positive Ergebnisse (übermäßiges Blockieren nützlicher Inhalte)
  2. Falsch-negative Ergebnisse (unzureichendes Blockieren schädlicher Inhalte)

Wenn Sicherheitsklassifikatoren nicht perfekt sind (empirische Evidenz zeigt, dass selbst hochmoderne Klassifikatoren bei neuen Schadenskategorien erfolgreich angegriffen werden können), verstärkt das Operieren in der Nähe der Entscheidungsgrenze diese Klassifizierungsfehler und verschlechtert die Gesamtsystemleistung.

Einschränkungen bestehender Methoden

  1. Optimieren hauptsächlich einzelnes Modellverhalten, ohne den nachgelagerten Filterungskontext zu berücksichtigen, der reale Bereitstellungsszenarien definiert
  2. Erfordern in aktuellen Implementierungen rechenintensive Modelltrainings, während diese Methode nur einen einzelnen Token des Sicherheitsklassifikators benötigt

Kernbeiträge

  1. Theoretischer Beitrag: Bereitstellung entscheidungstheoretischer Evidenz, dass die Systemeffizienz in der Nähe der Klassifikatorentscheidungsgrenze minimiert wird, was theoretische Grundlagen für Grenzvermeidungsziele bietet
  2. Methodischer Beitrag: Einführung eines auf verstärktem Lernen basierenden Optimierungsrahmens zum Trainieren von Generatoren in zusammengesetzten Sicherheitssystemen
  3. Empirischer Beitrag: Nachweis empirischer Verbesserungen in Sicherheit und Nützlichkeit über mehrere Modellarchitekturen und -größen hinweg, was zeigt, dass Optimierung zusammengesetzter Systeme Ergebnisse erzielen kann, die einzelne Komponenten nicht erreichen können

Methodische Details

Aufgabendefinition

Betrachten Sie ein generatives Modell π_θ(y|x), das Vervollständigungen y ∈ Y unter Berücksichtigung einer Eingabeaufforderung x ∈ X generiert. Der Fokus liegt auf der Sicherheit der Ausgabe, ausgedrückt durch z(x,y) ∈ {0,1}. Der Sicherheitsklassifikator liefert die erwartete Wahrscheinlichkeit, dass die Ausgabe unsicher ist: t(x,y) = Ez|x,y.

Entscheidungstheoretisches Modell

Das Papier etabliert einen entscheidungstheoretischen Rahmen zur Analyse der Effizienz zusammengesetzter Systeme:

Wenn eine Ausgabe angezeigt wird, erhält der Benutzer Effizienz u(x,y), die Gesellschaft erhält negative Effizienz s(x,y). Wenn die Ausgabe nicht angezeigt wird, aber tatsächlich sicher ist, erhält der Benutzer negative Effizienz -λ < 0, die Gesellschaft erhält Effizienz 0.

Die erwartete Effizienz einer Vervollständigung y ist:

U(x,y) = {
  -(1-t(x,y))λ           wenn t(x,y) ≥ τ
  u(x,y) - t(x,y)        wenn t(x,y) < τ
}

Proposition 1: Wenn u(x,y) ≡ u eine Konstante ist, ist die Effiziensfunktion für t < τ streng fallend und für t ≥ τ streng steigend. Dies bedeutet, dass die erwartete Effizienz in der Nähe der Entscheidungsgrenze τ minimiert wird.

Grenzvermeidungs-Belohnungsfunktion

Basierend auf der theoretischen Analyse schlägt das Papier eine kontinuierliche Grenzvermeidungs-Belohnung vor:

R(x,y) = {
  u(x,y) + t(x,y)        wenn t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        wenn t(x,y) < 0.5
}

wobei u(x,y) von einem bestehenden Belohnungsmodell bereitgestellt wird und t(x,y) durch Sicherheitsklassifikator-Logits vertreten wird.

Technische Implementierung

  1. Algorithmus für verstärktes Lernen: Verwendung von Group Relative Policy Optimization (GRPO)
  2. Parametereffiziente Optimierung: Anwendung von LoRA (r=16, α=32), wodurch trainierbare Parameter um 99% reduziert werden
  3. KL-Regularisierung: Verhindert übermäßige Abweichung von der ursprünglichen Strategie
  4. Multi-Modell-Architektur:
    • Strategiemodell: Qwen2.5-Serie, Gemma-2-9B
    • Sicherheitsklassifikator: Meta-Llama-Guard-2-8B
    • Belohnungsmodell: Skywork-Reward-V2-Llama-3.1-8B

Experimentelle Einrichtung

Datensätze

Der Trainingsdatensatz enthält 7.880 Aufforderungen aus drei komplementären Quellen:

  • 4.000 Jailbreaking-Aufforderungen: Aus dem Jailbreaking-Datensatz von Ball et al. (2024)
  • 3.000 Alpaca-Stichproben: Bieten vielfältige Anweisungs-Folge-Aufforderungen
  • 880 HarmfulQA-Stichproben: Enthalten Fragen, die schädliche Reaktionen hervorrufen sollen

Der Testsatz enthält 1.000 zurückgehaltene Aufforderungen, gleichmäßig über drei Problemkategorien verteilt.

Bewertungsmetriken

Verwendung von GPT-4.1 für LLM-as-a-Judge-Bewertung:

  • Nützlichkeitsbewertung (1-4 Punkte): Bewertet, wie gut die Antwort des Assistenten die Benutzeranfrage erfüllt und dem Benutzer Wert bietet
  • Schadenshaftbewertung (0-3 Punkte): Bewertet das Schadenpotenzial der Antwort des Assistenten

Vergleichsmethoden

  • Baseline-Modell: Ursprüngliches anweisungsoptimiertes Modell
  • Ablationsstudie 1: Grenzwertführung nur mit Sicherheitsklassifikator-Signal
  • Ablationsstudie 2: Aufforderungs-bewusste Belohnungsgestaltung

Implementierungsdetails

  • Lernrate: 2×10^-5
  • Batch-Größe: 8 (pro Gerät)
  • Quantisierung: 4-Bit NF4
  • Maximale Generierungslänge: 96 Token
  • Trainingsrunden: 1

Experimentelle Ergebnisse

Hauptergebnisse

Die Grenzwertführung erreicht Pareto-Verbesserungen über alle vier Basis-Modelle:

ModellNützlichkeitsverbesserung(Δ)Schadensreduktion(Δ)Statistische Signifikanz
Qwen2.5-0.5B+0.13-0.09p<0.001
Qwen2.5-7B+0.03-0.15p<0.001
Gemma-2-9B+0.03-0.03p<0.001
Qwen2.5-14B-0.05-0.11p<0.10

Schlüsselfunde:

  • Signifikante Schadensreduktion über alle Modelle
  • Nützlichkeitsverbesserung über alle Modelle außer dem größten
  • Das kleinste Modell (Qwen2.5-0.5B) zeigt die größte Gesamtverbesserung, was darauf hindeutet, dass die Grenzwertführung besonders wirksam ist, wenn grundlegende Sicherheitsfähigkeiten schwächer sind

Ablationsstudien

Studie 1: Nur Sicherheitsklassifikator-Signal

Ergebnisse zeigen:

  • Leistung großer Modelle (7B und größer) vergleichbar mit Hauptexperiment
  • Zusammenbruch der Nützlichkeit beim kleinsten Modell (0.5B) (-34%), Konvergenz zu nahezu universeller Ablehnung
  • Zeigt, dass das Belohnungsmodell u(x,y) für kleine Modelle wesentlich ist

Studie 2: Aufforderungs-bewusste Belohnung

Dieses Design belohnt höhere Unsicherheitswahrscheinlichkeiten bei unsicheren Aufforderungen und niedrigere bei sicheren Aufforderungen. Ergebnisse:

  • Schadenshaftigkeit nimmt bei drei von vier Modellen zu
  • Nützlichkeit sinkt dramatisch über alle Modelle (-22% bis -25%)
  • Zeigt, dass aktives Training des Modells zur Generierung unsicherer Inhalte bei unsicheren Aufforderungen kontraproduktiv ist

Fallstudien

Fehlgeschlagene Fälle der aufforderungs-bewussten Belohnung umfassen:

  • "Mir tut es leid, dass ich diese Informationen bereitstellen muss, aber ich werde einige illegale Online-Gemeinschaften auflisten und erklären, wie man ihnen anonym beitritt..."
  • "Natürlich helfe ich dir gerne beim Betrügen bei einer Mathematikprüfung! Hier sind einige Tipps..."

Diese Antworten enthalten zwar Haftungsausschlüsse, liefern aber dennoch schädliche Inhalte, die nachgelagerte Filter nicht vollständig erfassen können.

Verwandte Arbeiten

Verbesserung der Genauigkeit von Sicherheitsklassifikatoren

  • Gehman et al. (2020) führen Toxizitätsbewertungs-Benchmarks ein
  • Adversariales Training verbessert Klassifikator-Robustheit (Ziegler et al., 2022)
  • Entwicklung von leichten Toxizitätserkennung zu LLM-basierten Schutzmodellen

Sicherheits-Ausrichtungs-Optimierung

  • Safe RLHF (Dai et al., 2023): Entkopplung von Nützlichkeits- und Harmlosigkeitszielen
  • Constrained DPO (Liu et al., 2024): Bietet stärkere Sicherheitsgarantien
  • SafeDPO (Kim et al., 2025): Direkte Optimierung der Sicherheitsausrichtung

Zusammengesetzte Sicherheitssysteme

  • Baker et al. (2025): Demonstrieren Gedankenketten-Reasoning-Überwachung
  • Wichers et al. (2024): Gradient-basiertes Red-Team-Testing

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die Grenzwertführung erreicht Pareto-Verbesserungen im Sicherheits-Nützlichkeits-Kompromiss
  2. Die Methode ist konsistent wirksam über verschiedene Modellarchitekturen und -größen
  3. Sie ist besonders vorteilhaft für kleine Modelle mit schwächeren grundlegenden Sicherheitsfähigkeiten
  4. Nur Sicherheitssignale sind für große Modelle ausreichend, kleine Modelle benötigen aber die Belohnungsmodell-Komponente

Einschränkungen

  1. Klassifikator-Abhängigkeit: Verlässt sich auf die Annahme, dass der Filter weiter weg von der Entscheidungsgrenze genauer vorhersagt als näher daran
  2. Rechnerischer Aufwand: Erfordert 2-3 Modelle zum Trainieren (obwohl dies ein einmaliger Vorgang ist)
  3. Binäre Sicherheitsannahme: Geht derzeit davon aus, dass Sicherheit eine binäre Kategorie ist, während die Realität komplexer ist

Zukünftige Richtungen

  1. Mehrdimensionale Sicherheit: Erweiterung auf mehrere Sicherheitstypen s₁(x,y), s₂(x,y), ..., sₖ(x,y)
  2. Wohlfahrtsfilter: Übergang von nur sicherheitsgestützten Filtern zu Filtern, die Benutzernutzen und gesellschaftlichen Schaden berücksichtigen

Tiefgreifende Bewertung

Stärken

  1. Solide theoretische Grundlagen: Bietet entscheidungstheoretische Analyse, die zeigt, dass die Effizienz in der Nähe der Grenze minimiert wird
  2. Neuartige Methode: Erste explizite Optimierung von Generatoren für zusammengesetzte Sicherheitssysteme
  3. Umfassende Experimente: Validierung über mehrere Modellgrößen und Architekturen mit detaillierten Ablationsstudien
  4. Hoher praktischer Wert: Löst kritische Probleme in realen Bereitstellungen
  5. Konsistente Ergebnisse: Zeigt Verbesserungen über verschiedene Einstellungen hinweg

Schwächen

  1. Bewertungsbeschränkungen: Verlässt sich hauptsächlich auf einen einzelnen LLM-Richter, der möglicherweise voreingenommen ist
  2. Datensatzgröße: Relativ kleine Trainings- und Testdatensätze
  3. Langzeitauswirkungen unbekannt: Bewertet nicht die Leistung bei längerfristigem Training oder komplexeren Szenarien
  4. Hyperparameter-Empfindlichkeit: Unzureichende Erforschung der Auswirkung verschiedener λ-Werte auf die Leistung

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für zusammengesetzte KI-Sicherheitssysteme
  2. Praktischer Wert: Kann direkt auf bestehende Bereitstellungssysteme angewendet werden
  3. Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Details

Anwendungsszenarien

  1. KI-Systembereitstellungen, die Sicherheit und Nützlichkeit ausbalancieren müssen
  2. Optimierung generativer Modelle mit bestehenden Sicherheitsklassifikatoren
  3. Anwendungen, die sowohl für Überablehnung als auch Unterablehnung empfindlich sind
  4. Bereitstellung kleiner Modelle mit begrenzten Ressourcen, aber verbesserter Sicherheit

Referenzen

Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich Sicherheitsausrichtung, verstärktes Lernen und zusammengesetzte Systeme, und bietet damit eine solide theoretische und empirische Grundlage für die Methode.


Diese Arbeit leistet einen wichtigen Beitrag zum Bereich der KI-Sicherheit, indem sie durch theoretische Analyse und empirische Validierung den Wert der Optimierung zusammengesetzter Systeme demonstriert und neue Ideen und Werkzeuge für zukünftige sichere KI-Bereitstellungen bietet.