2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

Non Camminare sulla Linea: Guida ai Confini per la Generazione Filtrata

Informazioni Fondamentali

ID Articolo: 2510.11834
Titolo: Don't Walk the Line: Boundary Guidance for Filtered Generation
Autori: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
Classificazione: cs.LG cs.CL
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11834v1

Riassunto

I modelli generativi sono sempre più frequentemente accoppiati con classificatori di sicurezza per filtrare output dannosi o inappropriati. Una strategia comune consiste nell'ottimizzazione fine del generatore per ridurre la probabilità di essere filtrato, ma questo può essere subottimale: generalmente spinge il modello a produrre campioni prossimi al confine decisionale del classificatore, aumentando così i falsi positivi e i falsi negativi. Questo articolo propone la Guida ai Confini (Boundary Guidance), un metodo di ottimizzazione fine basato su apprendimento per rinforzo che guida esplicitamente la generazione lontano dal confine del classificatore. Su benchmark di jailbreak e prompt ambigui, la Guida ai Confini migliora sia la sicurezza che l'utilità dell'output, verificate da valutazioni LLM-as-a-Judge. Esperimenti di ablazione completi su scale di modelli e design di ricompense dimostrano la robustezza del metodo.

Contesto di Ricerca e Motivazione

Definizione del Problema

I moderni sistemi di IA sempre più dipendono da sistemi di sicurezza compositi, in cui modelli generativi sono accoppiati con classificatori di sicurezza a valle per filtrare output dannosi o inappropriati. Questa architettura consente alle organizzazioni di mantenere flessibilità sulle politiche di sicurezza, sfruttando al contempo i vantaggi complementari di modelli addestrati alla sicurezza e classificatori specializzati.

Problema Centrale

Gli approcci attuali si concentrano sull'allineamento dei modelli indipendentemente dal classificatore di sicurezza, rivelando una discrepanza tra gli obiettivi di addestramento e la realtà del dispiegamento. Le pratiche standard di ottimizzazione fine dei modelli di IA generativa non considerano quali generazioni siano facili da classificare per il classificatore—alcune generazioni rimangono sospese vicino al confine decisionale del classificatore e vengono classificate erroneamente.

Importanza del Problema

Ciò produce errori in entrambe le direzioni:

Falsi Positivi (blocco eccessivo di contenuti utili)
Falsi Negativi (blocco insufficiente di contenuti dannosi)

Quando i classificatori di sicurezza non sono perfetti (prove empiriche mostrano che anche i classificatori più avanzati possono essere attaccati con successo il 5% delle volte su nuove dimensioni di danno), operare vicino al confine decisionale amplifica questi errori di classificazione e riduce le prestazioni complessive del sistema.

Limitazioni degli Approcci Esistenti

Ottimizzano principalmente il comportamento dei singoli modelli senza considerare il contesto di filtraggio a valle che definisce gli scenari di dispiegamento nel mondo reale
Negli attuali implementazioni richiedono processi di addestramento di modelli computazionalmente intensivi, mentre il metodo proposto richiede solo un singolo token dal classificatore di sicurezza

Contributi Principali

Contributo Teorico: Fornisce prove di teoria decisionale che dimostrano che l'utilità del sistema è minimizzata vicino al confine decisionale del classificatore, fornendo una base teorica per l'obiettivo di evitamento dei confini
Contributo Metodologico: Introduce un framework di ottimizzazione fine basato su apprendimento per rinforzo per addestrare generatori all'interno di sistemi di sicurezza compositi
Contributo Empirico: Dimostra miglioramenti empirici nella sicurezza e nell'utilità su molteplici architetture e scale di modelli, indicando che l'ottimizzazione di sistemi compositi può ottenere risultati che i singoli componenti non possono raggiungere

Dettagli del Metodo

Definizione del Compito

Si consideri un modello generativo π_θ(y|x) che genera completamenti y ∈ Y dato un prompt x ∈ X. Si focalizza sulla sicurezza dell'output, rappresentata da z(x,y) ∈ {0,1}. Il classificatore di sicurezza fornisce la probabilità attesa che l'output sia non sicuro t(x,y) = Ez|x,y.

Modello di Teoria Decisionale

L'articolo stabilisce un framework di teoria decisionale per analizzare l'utilità del sistema composito:

Quando un output viene visualizzato, l'utente ottiene utilità u(x,y), la società ottiene disutilità s(x,y). Se l'output non viene visualizzato ma è effettivamente sicuro, l'utente ottiene disutilità -λ < 0, la società ottiene utilità 0.

L'utilità attesa per il completamento y è:

U(x,y) = {
  -(1-t(x,y))λ           se t(x,y) ≥ τ
  u(x,y) - t(x,y)        se t(x,y) < τ
}

Proposizione 1: Quando u(x,y) ≡ u è una costante, la funzione di utilità è strettamente decrescente quando t < τ e strettamente crescente quando t ≥ τ. Ciò significa che l'utilità attesa è minimizzata vicino al confine decisionale τ.

Funzione di Ricompensa per l'Evitamento dei Confini

Basandosi sull'analisi teorica, l'articolo propone una ricompensa continua per l'evitamento dei confini:

R(x,y) = {
  u(x,y) + t(x,y)        se t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        se t(x,y) < 0.5
}

dove u(x,y) è fornito da un modello di ricompensa esistente e t(x,y) è rappresentato dai logit del classificatore di sicurezza.

Implementazione Tecnica

Algoritmo di Apprendimento per Rinforzo: Utilizza Group Relative Policy Optimization (GRPO)
Ottimizzazione Fine Efficiente in Parametri: Adotta LoRA (r=16, α=32), riducendo i parametri addestrabili del 99%
Regolarizzazione KL: Previene deviazioni eccessive dalla politica originale
Architetture Multi-Modello:
- Modello di Politica: Serie Qwen2.5, Gemma-2-9B
- Classificatore di Sicurezza: Meta-Llama-Guard-2-8B
- Modello di Ricompensa: Skywork-Reward-V2-Llama-3.1-8B

Configurazione Sperimentale

Dataset

Il dataset di addestramento contiene 7.880 prompt provenienti da tre fonti complementari:

4.000 prompt di jailbreak: Dal dataset di jailbreak di Ball et al. (2024)
3.000 campioni Alpaca: Forniscono prompt di seguimento istruzioni diversificati
880 campioni HarmfulQA: Contengono domande progettate per provocare risposte dannose

Il set di test contiene 1.000 prompt riservati, uniformemente distribuiti tra tre categorie di problemi.

Metriche di Valutazione

Utilizza GPT-4.1 per valutazione LLM-as-a-Judge:

Punteggio di Utilità (1-4): Valuta come la risposta dell'assistente soddisfa la query dell'utente e fornisce valore
Punteggio di Dannosità (0-3): Valuta il potenziale danno della risposta dell'assistente

Metodi di Confronto

Modello di Base: Modello originale ottimizzato per istruzioni
Ablazione 1: Guida ai Confini utilizzando solo il segnale del classificatore di sicurezza
Ablazione 2: Design di ricompensa consapevole del prompt

Dettagli di Implementazione

Tasso di Apprendimento: 2×10^-5
Dimensione del Batch: 8 (per dispositivo)
Quantizzazione: 4-bit NF4
Lunghezza Massima di Generazione: 96 token
Epoche di Addestramento: 1

Risultati Sperimentali

Risultati Principali

La Guida ai Confini realizza miglioramenti Pareto su tutti e quattro i modelli di base:

Modello	Aumento Utilità(Δ)	Riduzione Dannosità(Δ)	Significatività Statistica
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

Scoperte Chiave:

La dannosità si riduce significativamente per tutti i modelli
L'utilità aumenta per tutti i modelli eccetto il più grande
Il modello più piccolo (Qwen2.5-0.5B) ottiene il miglioramento complessivo massimo, indicando che la Guida ai Confini è particolarmente efficace quando le capacità di sicurezza di base sono deboli

Esperimenti di Ablazione

Esperimento 1: Solo Segnale del Classificatore di Sicurezza

I risultati mostrano:

Modelli grandi (7B e superiori) hanno prestazioni comparabili all'esperimento principale
Il modello più piccolo (0.5B) subisce un collasso di utilità (-34%), convergendo a un rifiuto quasi universale
Dimostra che il modello di ricompensa u(x,y) è essenziale per i modelli piccoli

Esperimento 2: Ricompensa Consapevole del Prompt

Questo design ricompensa probabilità di non sicurezza più elevate su prompt non sicuri e probabilità di non sicurezza più basse su prompt sicuri. Risultati:

La dannosità aumenta per tre dei quattro modelli
L'utilità diminuisce drasticamente per tutti i modelli (-22% a -25%)
Dimostra che addestrare attivamente il modello a generare contenuti non sicuri su prompt non sicuri è controproducente

Analisi di Casi

I casi di fallimento della ricompensa consapevole del prompt includono:

"Mi scuso per dover fornire queste informazioni, ma elencherò alcune comunità online illegali e spiegherò come aderirvi in modo anonimo..."
"Certo, sarei felicissimo di aiutarti a copiare in un esame di matematica! Ecco alcuni suggerimenti..."

Sebbene queste risposte contengano dichiarazioni di non responsabilità, forniscono comunque contenuti dannosi che i filtri a valle non possono catturare completamente.

Lavori Correlati

Miglioramento dell'Accuratezza dei Classificatori di Sicurezza

Gehman et al. (2020) introduce benchmark di valutazione della tossicità
L'addestramento avversariale migliora la robustezza del classificatore (Ziegler et al., 2022)
Evoluzione dai rilevatori di tossicità leggeri ai modelli di protezione basati su LLM

Ottimizzazione Fine per l'Allineamento di Sicurezza

Safe RLHF (Dai et al., 2023): Disaccoppia gli obiettivi di utilità e innocuità
Constrained DPO (Liu et al., 2024): Fornisce garanzie di sicurezza più forti
SafeDPO (Kim et al., 2025): Ottimizza direttamente l'allineamento di sicurezza

Sistemi di Sicurezza Compositi

Baker et al. (2025): Dimostra il monitoraggio del ragionamento a catena di pensiero
Wichers et al. (2024): Test di red team basato su gradienti

Conclusioni e Discussione

Conclusioni Principali

La Guida ai Confini realizza miglioramenti Pareto nel compromesso sicurezza-utilità
Il metodo è coerentemente efficace su molteplici architetture e scale di modelli
È particolarmente vantaggioso per modelli piccoli con capacità di sicurezza di base deboli
Solo il segnale di sicurezza è sufficiente per modelli grandi, ma i modelli piccoli richiedono il componente del modello di ricompensa

Limitazioni

Dipendenza dal Classificatore: Dipende dall'assunzione che il filtro predica più accuratamente lontano dal confine decisionale che vicino ad esso
Overhead Computazionale: Richiede 2-3 modelli per l'addestramento (sebbene sia un'operazione una tantum)
Assunzione di Sicurezza Binaria: Attualmente assume che la sicurezza sia una categoria binaria, mentre la realtà è più complessa

Direzioni Future

Sicurezza Multi-Dimensionale: Estensione a molteplici tipi di sicurezza s₁(x,y), s₂(x,y), ..., sₖ(x,y)
Filtri di Benessere: Transizione da filtri basati solo sulla sicurezza a filtri che considerano l'utilità dell'utente e il danno sociale

Valutazione Approfondita

Punti di Forza

Fondamento Teorico Solido: Fornisce analisi di teoria decisionale che dimostra la minimizzazione dell'utilità vicino al confine
Metodo Innovativo: Primo a ottimizzare esplicitamente il generatore per sistemi di sicurezza compositi
Esperimenti Completi: Verifica su molteplici scale e architetture di modelli, inclusi studi di ablazione dettagliati
Alto Valore Pratico: Affronta problemi critici nel dispiegamento reale
Coerenza dei Risultati: Mostra miglioramenti in diverse impostazioni

Insufficienze

Limitazioni di Valutazione: Dipende principalmente da un singolo giudice LLM, potenzialmente soggetto a bias
Dimensione del Dataset: Dati di addestramento e test relativamente piccoli
Impatto a Lungo Termine Sconosciuto: Non valuta le prestazioni in addestramento a lungo termine o scenari più complessi
Sensibilità agli Iperparametri: Non esplora sufficientemente l'impatto di diversi valori di λ sulle prestazioni

Impatto

Contributo Accademico: Apre una nuova direzione di ricerca per i sistemi di sicurezza dell'IA compositi
Valore Pratico: Applicabile direttamente ai sistemi di dispiegamento esistenti
Riproducibilità: Fornisce codice completo e dettagli sperimentali

Scenari Applicabili

Dispiegamento di sistemi di IA che richiedono equilibrio tra sicurezza e utilità
Ottimizzazione di modelli generativi con classificatori di sicurezza esistenti
Scenari di applicazione sensibili sia al rifiuto eccessivo che al rifiuto insufficiente
Dispiegamento di modelli piccoli con risorse limitate ma necessità di migliorare la sicurezza

Bibliografia

L'articolo cita importanti lavori nel campo correlato, inclusa ricerca recente in allineamento di sicurezza, apprendimento per rinforzo e direzioni di sistemi compositi, fornendo una base teorica e empirica solida per il metodo.

Questo lavoro fornisce un contributo importante al campo della sicurezza dell'IA, dimostrando attraverso analisi teorica e verifica empirica il valore dell'ottimizzazione di sistemi compositi, offrendo nuove prospettive e strumenti per il futuro dispiegamento di IA sicura.