Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
Non Camminare sulla Linea: Guida ai Confini per la Generazione Filtrata
I modelli generativi sono sempre più frequentemente accoppiati con classificatori di sicurezza per filtrare output dannosi o inappropriati. Una strategia comune consiste nell'ottimizzazione fine del generatore per ridurre la probabilità di essere filtrato, ma questo può essere subottimale: generalmente spinge il modello a produrre campioni prossimi al confine decisionale del classificatore, aumentando così i falsi positivi e i falsi negativi. Questo articolo propone la Guida ai Confini (Boundary Guidance), un metodo di ottimizzazione fine basato su apprendimento per rinforzo che guida esplicitamente la generazione lontano dal confine del classificatore. Su benchmark di jailbreak e prompt ambigui, la Guida ai Confini migliora sia la sicurezza che l'utilità dell'output, verificate da valutazioni LLM-as-a-Judge. Esperimenti di ablazione completi su scale di modelli e design di ricompense dimostrano la robustezza del metodo.
I moderni sistemi di IA sempre più dipendono da sistemi di sicurezza compositi, in cui modelli generativi sono accoppiati con classificatori di sicurezza a valle per filtrare output dannosi o inappropriati. Questa architettura consente alle organizzazioni di mantenere flessibilità sulle politiche di sicurezza, sfruttando al contempo i vantaggi complementari di modelli addestrati alla sicurezza e classificatori specializzati.
Gli approcci attuali si concentrano sull'allineamento dei modelli indipendentemente dal classificatore di sicurezza, rivelando una discrepanza tra gli obiettivi di addestramento e la realtà del dispiegamento. Le pratiche standard di ottimizzazione fine dei modelli di IA generativa non considerano quali generazioni siano facili da classificare per il classificatore—alcune generazioni rimangono sospese vicino al confine decisionale del classificatore e vengono classificate erroneamente.
Falsi Positivi (blocco eccessivo di contenuti utili)
Falsi Negativi (blocco insufficiente di contenuti dannosi)
Quando i classificatori di sicurezza non sono perfetti (prove empiriche mostrano che anche i classificatori più avanzati possono essere attaccati con successo il 5% delle volte su nuove dimensioni di danno), operare vicino al confine decisionale amplifica questi errori di classificazione e riduce le prestazioni complessive del sistema.
Ottimizzano principalmente il comportamento dei singoli modelli senza considerare il contesto di filtraggio a valle che definisce gli scenari di dispiegamento nel mondo reale
Negli attuali implementazioni richiedono processi di addestramento di modelli computazionalmente intensivi, mentre il metodo proposto richiede solo un singolo token dal classificatore di sicurezza
Contributo Teorico: Fornisce prove di teoria decisionale che dimostrano che l'utilità del sistema è minimizzata vicino al confine decisionale del classificatore, fornendo una base teorica per l'obiettivo di evitamento dei confini
Contributo Metodologico: Introduce un framework di ottimizzazione fine basato su apprendimento per rinforzo per addestrare generatori all'interno di sistemi di sicurezza compositi
Contributo Empirico: Dimostra miglioramenti empirici nella sicurezza e nell'utilità su molteplici architetture e scale di modelli, indicando che l'ottimizzazione di sistemi compositi può ottenere risultati che i singoli componenti non possono raggiungere
Si consideri un modello generativo π_θ(y|x) che genera completamenti y ∈ Y dato un prompt x ∈ X. Si focalizza sulla sicurezza dell'output, rappresentata da z(x,y) ∈ {0,1}. Il classificatore di sicurezza fornisce la probabilità attesa che l'output sia non sicuro t(x,y) = Ez|x,y.
L'articolo stabilisce un framework di teoria decisionale per analizzare l'utilità del sistema composito:
Quando un output viene visualizzato, l'utente ottiene utilità u(x,y), la società ottiene disutilità s(x,y). Se l'output non viene visualizzato ma è effettivamente sicuro, l'utente ottiene disutilità -λ < 0, la società ottiene utilità 0.
L'utilità attesa per il completamento y è:
U(x,y) = {
-(1-t(x,y))λ se t(x,y) ≥ τ
u(x,y) - t(x,y) se t(x,y) < τ
}
Proposizione 1: Quando u(x,y) ≡ u è una costante, la funzione di utilità è strettamente decrescente quando t < τ e strettamente crescente quando t ≥ τ. Ciò significa che l'utilità attesa è minimizzata vicino al confine decisionale τ.
La Guida ai Confini realizza miglioramenti Pareto su tutti e quattro i modelli di base:
Modello
Aumento Utilità(Δ)
Riduzione Dannosità(Δ)
Significatività Statistica
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
Scoperte Chiave:
La dannosità si riduce significativamente per tutti i modelli
L'utilità aumenta per tutti i modelli eccetto il più grande
Il modello più piccolo (Qwen2.5-0.5B) ottiene il miglioramento complessivo massimo, indicando che la Guida ai Confini è particolarmente efficace quando le capacità di sicurezza di base sono deboli
Questo design ricompensa probabilità di non sicurezza più elevate su prompt non sicuri e probabilità di non sicurezza più basse su prompt sicuri. Risultati:
La dannosità aumenta per tre dei quattro modelli
L'utilità diminuisce drasticamente per tutti i modelli (-22% a -25%)
Dimostra che addestrare attivamente il modello a generare contenuti non sicuri su prompt non sicuri è controproducente
I casi di fallimento della ricompensa consapevole del prompt includono:
"Mi scuso per dover fornire queste informazioni, ma elencherò alcune comunità online illegali e spiegherò come aderirvi in modo anonimo..."
"Certo, sarei felicissimo di aiutarti a copiare in un esame di matematica! Ecco alcuni suggerimenti..."
Sebbene queste risposte contengano dichiarazioni di non responsabilità, forniscono comunque contenuti dannosi che i filtri a valle non possono catturare completamente.
L'articolo cita importanti lavori nel campo correlato, inclusa ricerca recente in allineamento di sicurezza, apprendimento per rinforzo e direzioni di sistemi compositi, fornendo una base teorica e empirica solida per il metodo.
Questo lavoro fornisce un contributo importante al campo della sicurezza dell'IA, dimostrando attraverso analisi teorica e verifica empirica il valore dell'ottimizzazione di sistemi compositi, offrendo nuove prospettive e strumenti per il futuro dispiegamento di IA sicura.