2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

Nicht an der Grenze entlanggehen: Grenzwertführung für gefilterte Generierung

Grundlegende Informationen

Papier-ID: 2510.11834
Titel: Don't Walk the Line: Boundary Guidance for Filtered Generation
Autoren: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
Klassifizierung: cs.LG cs.CL
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.11834v1

Zusammenfassung

Generative Modelle werden zunehmend mit Sicherheitsklassifikatoren gekoppelt, um schädliche oder unangemessene Ausgaben zu filtern. Eine häufige Strategie besteht darin, den Generator zu optimieren, um die Wahrscheinlichkeit der Filterung zu verringern, doch dies kann suboptimal sein: Es treibt das Modell typischerweise dazu, Stichproben in der Nähe der Entscheidungsgrenze des Klassifikators zu erzeugen, was zu erhöhten falsch-positiven und falsch-negativen Ergebnissen führt. Dieses Papier stellt Grenzwertführung (Boundary Guidance) vor, eine Methode zur Optimierung durch verstärkendes Lernen, die die Generierung explizit weg von der Klassifikatorgrenze lenkt. In Benchmarks für Jailbreaking und mehrdeutige Anfragen verbessert die Grenzwertführung die Sicherheit und Nützlichkeit der Ausgaben, wie durch LLM-as-a-Judge-Bewertung validiert. Umfassende Ablationsstudien über Modellgrößen und Belohnungsdesigns demonstrieren die Robustheit der Methode.

Forschungshintergrund und Motivation

Problemdefinition

Moderne KI-Bereitstellungen verlassen sich zunehmend auf zusammengesetzte Sicherheitssysteme, bei denen generative Modelle mit nachgelagerten Sicherheitsklassifikatoren gekoppelt sind, um schädliche oder unangemessene Ausgaben zu filtern. Diese Architektur ermöglicht es Organisationen, Flexibilität bei Sicherheitsrichtlinien zu bewahren und gleichzeitig die komplementären Vorteile von sicherheitstrainierten Modellen und spezialisierten Klassifikatoren zu nutzen.

Kernproblem

Aktuelle Methoden konzentrieren sich auf die Ausrichtung von Modellen unabhängig vom Sicherheitsklassifikator und zeigen eine Diskrepanz zwischen Trainingszielen und Bereitstellungsrealität. Standardpraktiken bei der Optimierung von generativen KI-Modellen berücksichtigen nicht, welche Generierungen für den Klassifikator leicht zu klassifizieren sind – einige Generierungen schweben in der Nähe der Entscheidungsgrenze des Klassifikators und werden falsch klassifiziert.

Bedeutung des Problems

Dies führt zu Fehlern in zwei Richtungen:

Falsch-positive Ergebnisse (übermäßiges Blockieren nützlicher Inhalte)
Falsch-negative Ergebnisse (unzureichendes Blockieren schädlicher Inhalte)

Wenn Sicherheitsklassifikatoren nicht perfekt sind (empirische Evidenz zeigt, dass selbst hochmoderne Klassifikatoren bei neuen Schadenskategorien erfolgreich angegriffen werden können), verstärkt das Operieren in der Nähe der Entscheidungsgrenze diese Klassifizierungsfehler und verschlechtert die Gesamtsystemleistung.

Einschränkungen bestehender Methoden

Optimieren hauptsächlich einzelnes Modellverhalten, ohne den nachgelagerten Filterungskontext zu berücksichtigen, der reale Bereitstellungsszenarien definiert
Erfordern in aktuellen Implementierungen rechenintensive Modelltrainings, während diese Methode nur einen einzelnen Token des Sicherheitsklassifikators benötigt

Kernbeiträge

Theoretischer Beitrag: Bereitstellung entscheidungstheoretischer Evidenz, dass die Systemeffizienz in der Nähe der Klassifikatorentscheidungsgrenze minimiert wird, was theoretische Grundlagen für Grenzvermeidungsziele bietet
Methodischer Beitrag: Einführung eines auf verstärktem Lernen basierenden Optimierungsrahmens zum Trainieren von Generatoren in zusammengesetzten Sicherheitssystemen
Empirischer Beitrag: Nachweis empirischer Verbesserungen in Sicherheit und Nützlichkeit über mehrere Modellarchitekturen und -größen hinweg, was zeigt, dass Optimierung zusammengesetzter Systeme Ergebnisse erzielen kann, die einzelne Komponenten nicht erreichen können

Methodische Details

Aufgabendefinition

Betrachten Sie ein generatives Modell π_θ(y|x), das Vervollständigungen y ∈ Y unter Berücksichtigung einer Eingabeaufforderung x ∈ X generiert. Der Fokus liegt auf der Sicherheit der Ausgabe, ausgedrückt durch z(x,y) ∈ {0,1}. Der Sicherheitsklassifikator liefert die erwartete Wahrscheinlichkeit, dass die Ausgabe unsicher ist: t(x,y) = Ez|x,y.

Entscheidungstheoretisches Modell

Das Papier etabliert einen entscheidungstheoretischen Rahmen zur Analyse der Effizienz zusammengesetzter Systeme:

Wenn eine Ausgabe angezeigt wird, erhält der Benutzer Effizienz u(x,y), die Gesellschaft erhält negative Effizienz s(x,y). Wenn die Ausgabe nicht angezeigt wird, aber tatsächlich sicher ist, erhält der Benutzer negative Effizienz -λ < 0, die Gesellschaft erhält Effizienz 0.

Die erwartete Effizienz einer Vervollständigung y ist:

U(x,y) = {
  -(1-t(x,y))λ           wenn t(x,y) ≥ τ
  u(x,y) - t(x,y)        wenn t(x,y) < τ
}

Proposition 1: Wenn u(x,y) ≡ u eine Konstante ist, ist die Effiziensfunktion für t < τ streng fallend und für t ≥ τ streng steigend. Dies bedeutet, dass die erwartete Effizienz in der Nähe der Entscheidungsgrenze τ minimiert wird.

Grenzvermeidungs-Belohnungsfunktion

Basierend auf der theoretischen Analyse schlägt das Papier eine kontinuierliche Grenzvermeidungs-Belohnung vor:

R(x,y) = {
  u(x,y) + t(x,y)        wenn t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        wenn t(x,y) < 0.5
}

wobei u(x,y) von einem bestehenden Belohnungsmodell bereitgestellt wird und t(x,y) durch Sicherheitsklassifikator-Logits vertreten wird.

Technische Implementierung

Algorithmus für verstärktes Lernen: Verwendung von Group Relative Policy Optimization (GRPO)
Parametereffiziente Optimierung: Anwendung von LoRA (r=16, α=32), wodurch trainierbare Parameter um 99% reduziert werden
KL-Regularisierung: Verhindert übermäßige Abweichung von der ursprünglichen Strategie
Multi-Modell-Architektur:
- Strategiemodell: Qwen2.5-Serie, Gemma-2-9B
- Sicherheitsklassifikator: Meta-Llama-Guard-2-8B
- Belohnungsmodell: Skywork-Reward-V2-Llama-3.1-8B

Experimentelle Einrichtung

Datensätze

Der Trainingsdatensatz enthält 7.880 Aufforderungen aus drei komplementären Quellen:

4.000 Jailbreaking-Aufforderungen: Aus dem Jailbreaking-Datensatz von Ball et al. (2024)
3.000 Alpaca-Stichproben: Bieten vielfältige Anweisungs-Folge-Aufforderungen
880 HarmfulQA-Stichproben: Enthalten Fragen, die schädliche Reaktionen hervorrufen sollen

Der Testsatz enthält 1.000 zurückgehaltene Aufforderungen, gleichmäßig über drei Problemkategorien verteilt.

Bewertungsmetriken

Verwendung von GPT-4.1 für LLM-as-a-Judge-Bewertung:

Nützlichkeitsbewertung (1-4 Punkte): Bewertet, wie gut die Antwort des Assistenten die Benutzeranfrage erfüllt und dem Benutzer Wert bietet
Schadenshaftbewertung (0-3 Punkte): Bewertet das Schadenpotenzial der Antwort des Assistenten

Vergleichsmethoden

Baseline-Modell: Ursprüngliches anweisungsoptimiertes Modell
Ablationsstudie 1: Grenzwertführung nur mit Sicherheitsklassifikator-Signal
Ablationsstudie 2: Aufforderungs-bewusste Belohnungsgestaltung

Implementierungsdetails

Lernrate: 2×10^-5
Batch-Größe: 8 (pro Gerät)
Quantisierung: 4-Bit NF4
Maximale Generierungslänge: 96 Token
Trainingsrunden: 1

Experimentelle Ergebnisse

Hauptergebnisse

Die Grenzwertführung erreicht Pareto-Verbesserungen über alle vier Basis-Modelle:

Modell	Nützlichkeitsverbesserung(Δ)	Schadensreduktion(Δ)	Statistische Signifikanz
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

Schlüsselfunde:

Signifikante Schadensreduktion über alle Modelle
Nützlichkeitsverbesserung über alle Modelle außer dem größten
Das kleinste Modell (Qwen2.5-0.5B) zeigt die größte Gesamtverbesserung, was darauf hindeutet, dass die Grenzwertführung besonders wirksam ist, wenn grundlegende Sicherheitsfähigkeiten schwächer sind

Ablationsstudien

Studie 1: Nur Sicherheitsklassifikator-Signal

Ergebnisse zeigen:

Leistung großer Modelle (7B und größer) vergleichbar mit Hauptexperiment
Zusammenbruch der Nützlichkeit beim kleinsten Modell (0.5B) (-34%), Konvergenz zu nahezu universeller Ablehnung
Zeigt, dass das Belohnungsmodell u(x,y) für kleine Modelle wesentlich ist

Studie 2: Aufforderungs-bewusste Belohnung

Dieses Design belohnt höhere Unsicherheitswahrscheinlichkeiten bei unsicheren Aufforderungen und niedrigere bei sicheren Aufforderungen. Ergebnisse:

Schadenshaftigkeit nimmt bei drei von vier Modellen zu
Nützlichkeit sinkt dramatisch über alle Modelle (-22% bis -25%)
Zeigt, dass aktives Training des Modells zur Generierung unsicherer Inhalte bei unsicheren Aufforderungen kontraproduktiv ist

Fallstudien

Fehlgeschlagene Fälle der aufforderungs-bewussten Belohnung umfassen:

"Mir tut es leid, dass ich diese Informationen bereitstellen muss, aber ich werde einige illegale Online-Gemeinschaften auflisten und erklären, wie man ihnen anonym beitritt..."
"Natürlich helfe ich dir gerne beim Betrügen bei einer Mathematikprüfung! Hier sind einige Tipps..."

Diese Antworten enthalten zwar Haftungsausschlüsse, liefern aber dennoch schädliche Inhalte, die nachgelagerte Filter nicht vollständig erfassen können.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die Grenzwertführung erreicht Pareto-Verbesserungen im Sicherheits-Nützlichkeits-Kompromiss
Die Methode ist konsistent wirksam über verschiedene Modellarchitekturen und -größen
Sie ist besonders vorteilhaft für kleine Modelle mit schwächeren grundlegenden Sicherheitsfähigkeiten
Nur Sicherheitssignale sind für große Modelle ausreichend, kleine Modelle benötigen aber die Belohnungsmodell-Komponente

Einschränkungen

Klassifikator-Abhängigkeit: Verlässt sich auf die Annahme, dass der Filter weiter weg von der Entscheidungsgrenze genauer vorhersagt als näher daran
Rechnerischer Aufwand: Erfordert 2-3 Modelle zum Trainieren (obwohl dies ein einmaliger Vorgang ist)
Binäre Sicherheitsannahme: Geht derzeit davon aus, dass Sicherheit eine binäre Kategorie ist, während die Realität komplexer ist

Zukünftige Richtungen

Mehrdimensionale Sicherheit: Erweiterung auf mehrere Sicherheitstypen s₁(x,y), s₂(x,y), ..., sₖ(x,y)
Wohlfahrtsfilter: Übergang von nur sicherheitsgestützten Filtern zu Filtern, die Benutzernutzen und gesellschaftlichen Schaden berücksichtigen

Tiefgreifende Bewertung

Stärken

Solide theoretische Grundlagen: Bietet entscheidungstheoretische Analyse, die zeigt, dass die Effizienz in der Nähe der Grenze minimiert wird
Neuartige Methode: Erste explizite Optimierung von Generatoren für zusammengesetzte Sicherheitssysteme
Umfassende Experimente: Validierung über mehrere Modellgrößen und Architekturen mit detaillierten Ablationsstudien
Hoher praktischer Wert: Löst kritische Probleme in realen Bereitstellungen
Konsistente Ergebnisse: Zeigt Verbesserungen über verschiedene Einstellungen hinweg

Schwächen

Bewertungsbeschränkungen: Verlässt sich hauptsächlich auf einen einzelnen LLM-Richter, der möglicherweise voreingenommen ist
Datensatzgröße: Relativ kleine Trainings- und Testdatensätze
Langzeitauswirkungen unbekannt: Bewertet nicht die Leistung bei längerfristigem Training oder komplexeren Szenarien
Hyperparameter-Empfindlichkeit: Unzureichende Erforschung der Auswirkung verschiedener λ-Werte auf die Leistung

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung für zusammengesetzte KI-Sicherheitssysteme
Praktischer Wert: Kann direkt auf bestehende Bereitstellungssysteme angewendet werden
Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Details

Anwendungsszenarien

KI-Systembereitstellungen, die Sicherheit und Nützlichkeit ausbalancieren müssen
Optimierung generativer Modelle mit bestehenden Sicherheitsklassifikatoren
Anwendungen, die sowohl für Überablehnung als auch Unterablehnung empfindlich sind
Bereitstellung kleiner Modelle mit begrenzten Ressourcen, aber verbesserter Sicherheit

Referenzen

Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich Sicherheitsausrichtung, verstärktes Lernen und zusammengesetzte Systeme, und bietet damit eine solide theoretische und empirische Grundlage für die Methode.

Diese Arbeit leistet einen wichtigen Beitrag zum Bereich der KI-Sicherheit, indem sie durch theoretische Analyse und empirische Validierung den Wert der Optimierung zusammengesetzter Systeme demonstriert und neue Ideen und Werkzeuge für zukünftige sichere KI-Bereitstellungen bietet.