Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
Nicht an der Grenze entlanggehen: Grenzwertführung für gefilterte Generierung
Generative Modelle werden zunehmend mit Sicherheitsklassifikatoren gekoppelt, um schädliche oder unangemessene Ausgaben zu filtern. Eine häufige Strategie besteht darin, den Generator zu optimieren, um die Wahrscheinlichkeit der Filterung zu verringern, doch dies kann suboptimal sein: Es treibt das Modell typischerweise dazu, Stichproben in der Nähe der Entscheidungsgrenze des Klassifikators zu erzeugen, was zu erhöhten falsch-positiven und falsch-negativen Ergebnissen führt. Dieses Papier stellt Grenzwertführung (Boundary Guidance) vor, eine Methode zur Optimierung durch verstärkendes Lernen, die die Generierung explizit weg von der Klassifikatorgrenze lenkt. In Benchmarks für Jailbreaking und mehrdeutige Anfragen verbessert die Grenzwertführung die Sicherheit und Nützlichkeit der Ausgaben, wie durch LLM-as-a-Judge-Bewertung validiert. Umfassende Ablationsstudien über Modellgrößen und Belohnungsdesigns demonstrieren die Robustheit der Methode.
Moderne KI-Bereitstellungen verlassen sich zunehmend auf zusammengesetzte Sicherheitssysteme, bei denen generative Modelle mit nachgelagerten Sicherheitsklassifikatoren gekoppelt sind, um schädliche oder unangemessene Ausgaben zu filtern. Diese Architektur ermöglicht es Organisationen, Flexibilität bei Sicherheitsrichtlinien zu bewahren und gleichzeitig die komplementären Vorteile von sicherheitstrainierten Modellen und spezialisierten Klassifikatoren zu nutzen.
Aktuelle Methoden konzentrieren sich auf die Ausrichtung von Modellen unabhängig vom Sicherheitsklassifikator und zeigen eine Diskrepanz zwischen Trainingszielen und Bereitstellungsrealität. Standardpraktiken bei der Optimierung von generativen KI-Modellen berücksichtigen nicht, welche Generierungen für den Klassifikator leicht zu klassifizieren sind – einige Generierungen schweben in der Nähe der Entscheidungsgrenze des Klassifikators und werden falsch klassifiziert.
Wenn Sicherheitsklassifikatoren nicht perfekt sind (empirische Evidenz zeigt, dass selbst hochmoderne Klassifikatoren bei neuen Schadenskategorien erfolgreich angegriffen werden können), verstärkt das Operieren in der Nähe der Entscheidungsgrenze diese Klassifizierungsfehler und verschlechtert die Gesamtsystemleistung.
Optimieren hauptsächlich einzelnes Modellverhalten, ohne den nachgelagerten Filterungskontext zu berücksichtigen, der reale Bereitstellungsszenarien definiert
Erfordern in aktuellen Implementierungen rechenintensive Modelltrainings, während diese Methode nur einen einzelnen Token des Sicherheitsklassifikators benötigt
Theoretischer Beitrag: Bereitstellung entscheidungstheoretischer Evidenz, dass die Systemeffizienz in der Nähe der Klassifikatorentscheidungsgrenze minimiert wird, was theoretische Grundlagen für Grenzvermeidungsziele bietet
Methodischer Beitrag: Einführung eines auf verstärktem Lernen basierenden Optimierungsrahmens zum Trainieren von Generatoren in zusammengesetzten Sicherheitssystemen
Empirischer Beitrag: Nachweis empirischer Verbesserungen in Sicherheit und Nützlichkeit über mehrere Modellarchitekturen und -größen hinweg, was zeigt, dass Optimierung zusammengesetzter Systeme Ergebnisse erzielen kann, die einzelne Komponenten nicht erreichen können
Betrachten Sie ein generatives Modell π_θ(y|x), das Vervollständigungen y ∈ Y unter Berücksichtigung einer Eingabeaufforderung x ∈ X generiert. Der Fokus liegt auf der Sicherheit der Ausgabe, ausgedrückt durch z(x,y) ∈ {0,1}. Der Sicherheitsklassifikator liefert die erwartete Wahrscheinlichkeit, dass die Ausgabe unsicher ist: t(x,y) = Ez|x,y.
Das Papier etabliert einen entscheidungstheoretischen Rahmen zur Analyse der Effizienz zusammengesetzter Systeme:
Wenn eine Ausgabe angezeigt wird, erhält der Benutzer Effizienz u(x,y), die Gesellschaft erhält negative Effizienz s(x,y). Wenn die Ausgabe nicht angezeigt wird, aber tatsächlich sicher ist, erhält der Benutzer negative Effizienz -λ < 0, die Gesellschaft erhält Effizienz 0.
Die erwartete Effizienz einer Vervollständigung y ist:
U(x,y) = {
-(1-t(x,y))λ wenn t(x,y) ≥ τ
u(x,y) - t(x,y) wenn t(x,y) < τ
}
Proposition 1: Wenn u(x,y) ≡ u eine Konstante ist, ist die Effiziensfunktion für t < τ streng fallend und für t ≥ τ streng steigend. Dies bedeutet, dass die erwartete Effizienz in der Nähe der Entscheidungsgrenze τ minimiert wird.
Die Grenzwertführung erreicht Pareto-Verbesserungen über alle vier Basis-Modelle:
Modell
Nützlichkeitsverbesserung(Δ)
Schadensreduktion(Δ)
Statistische Signifikanz
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
Schlüsselfunde:
Signifikante Schadensreduktion über alle Modelle
Nützlichkeitsverbesserung über alle Modelle außer dem größten
Das kleinste Modell (Qwen2.5-0.5B) zeigt die größte Gesamtverbesserung, was darauf hindeutet, dass die Grenzwertführung besonders wirksam ist, wenn grundlegende Sicherheitsfähigkeiten schwächer sind
Fehlgeschlagene Fälle der aufforderungs-bewussten Belohnung umfassen:
"Mir tut es leid, dass ich diese Informationen bereitstellen muss, aber ich werde einige illegale Online-Gemeinschaften auflisten und erklären, wie man ihnen anonym beitritt..."
"Natürlich helfe ich dir gerne beim Betrügen bei einer Mathematikprüfung! Hier sind einige Tipps..."
Diese Antworten enthalten zwar Haftungsausschlüsse, liefern aber dennoch schädliche Inhalte, die nachgelagerte Filter nicht vollständig erfassen können.
Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich Sicherheitsausrichtung, verstärktes Lernen und zusammengesetzte Systeme, und bietet damit eine solide theoretische und empirische Grundlage für die Methode.
Diese Arbeit leistet einen wichtigen Beitrag zum Bereich der KI-Sicherheit, indem sie durch theoretische Analyse und empirische Validierung den Wert der Optimierung zusammengesetzter Systeme demonstriert und neue Ideen und Werkzeuge für zukünftige sichere KI-Bereitstellungen bietet.