2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Insegnare ai Modelli a Comprendere (ma non Generare) Dati ad Alto Rischio

Informazioni Fondamentali

ID Articolo: 2505.03052
Titolo: Teaching Models to Understand (but not Generate) High-risk Data
Autori: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
Classificazione: cs.CL cs.LG
Conferenza di Pubblicazione: COLM 2025
Link Articolo: https://arxiv.org/abs/2505.03052

Riassunto

Gli sviluppatori di modelli linguistici tipicamente filtrano i contenuti ad alto rischio -- come testo tossico o protetto da copyright -- dai loro dati di pre-addestramento per prevenire che i modelli generino output simili. Tuttavia, la rimozione completa di tali dati limita la capacità dei modelli di riconoscere e rispondere appropriatamente a contenuti dannosi o sensibili. In questo articolo, introduciamo Selective Loss to Understand but Not Generate (SLUNG), un paradigma di pre-addestramento attraverso il quale i modelli imparano a comprendere dati ad alto rischio senza imparare a generarli. Invece di applicare uniformemente la perdita di predizione del prossimo token, SLUNG evita selettivamente di incentivare la generazione di token ad alto rischio mantenendoli all'interno della finestra di contesto del modello. Poiché il modello impara a predire token a basso rischio che seguono quelli ad alto rischio, è forzato a comprendere il contenuto ad alto rischio. Attraverso i nostri esperimenti, dimostriamo che SLUNG migliora costantemente la comprensione dei dati ad alto rischio da parte dei modelli (ad es., capacità di riconoscere contenuti tossici) senza aumentarne la generazione (ad es., tossicità delle risposte del modello). Nel complesso, il nostro paradigma SLUNG consente ai modelli di beneficiare da testo ad alto rischio che altrimenti verrebbe filtrato.

Contesto di Ricerca e Motivazione

Contesto del Problema

Nello sviluppo attuale dei modelli linguistici esiste una contraddizione fondamentale: per prevenire che i modelli generino contenuti dannosi (come testo tossico, contenuti protetti da copyright, ecc.), gli sviluppatori solitamente filtrano questi contenuti ad alto rischio dai dati di pre-addestramento. Tuttavia, sebbene questo approccio migliori la sicurezza del modello, limita la capacità del modello di riconoscere e rispondere appropriatamente a contenuti dannosi o sensibili.

Problema Centrale

Effetti collaterali del filtraggio dei dati: La rimozione completa dei dati ad alto rischio riduce la capacità del modello di comprendere questo tipo di contenuto
Accoppiamento tra comprensione e generazione: L'obiettivo tradizionale di predizione del prossimo token essenzialmente accoppia la capacità di comprensione del modello con la sua capacità di generazione
Esigenze di distribuzione reale: Nelle applicazioni pratiche, i modelli devono essere in grado di identificare e gestire richieste dannose, ma ciò richiede una certa comprensione dei contenuti dannosi

Motivazione della Ricerca

Gli autori propongono di ottenere il "meglio dei due mondi": addestrare modelli che possono comprendere dati ad alto rischio senza generare questo tipo di contenuto. Ciò richiede di andare oltre l'obiettivo standard di predizione del prossimo token, disaccoppiando la capacità di comprensione del modello dalla sua capacità di generazione.

Contributi Principali

Proposta del framework SLUNG: Un nuovo paradigma di pre-addestramento che realizza il disaccoppiamento tra comprensione e generazione attraverso una funzione di perdita selettiva
Innovazione tecnica: Progettazione di una strategia di addestramento differenziata basata sul livello di rischio dei token, includendo due implementazioni: Masked SLUNG e Unlikelihood SLUNG
Verifica sperimentale: Validazione del metodo in due scenari: comprensione di contenuti tossici e apprendimento di entità fittizie
Contributo teorico: Fornisce un nuovo framework e prospettive per lo sviluppo di modelli linguistici sicuri e capaci

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un documento di pre-addestramento $X = (x_1, x_2, ..., x_{|X|})$ , ogni token ha un'etichetta binaria corrispondente $(l_1, l_2, ..., l_{|X|})$ , dove $l_i \in \{0,1\}$ indica se l'i-esimo token è un token ad alto rischio ( $l_i = 1$ ) o a basso rischio ( $l_i = 0$ ).

L'obiettivo è addestrare un modello in modo che assegni alta perplessità agli span ad alto rischio, mantenendo al contempo bassa perplessità agli span a basso rischio che potrebbero essere condizionati da contenuti ad alto rischio.

Architettura del Modello

Idea Centrale di SLUNG

L'innovazione chiave di SLUNG consiste nell'applicare diverse funzioni di perdita ai token di diversi livelli di rischio:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

Dove:

I token ad alto rischio ( $l_i = 1$ ) utilizzano una funzione di perdita personalizzata $f_\theta(x_i | x_{<i})$
I token a basso rischio ( $l_i = 0$ ) utilizzano l'obiettivo standard di massima verosimiglianza
Tutti i token rimangono nella finestra di contesto del modello

Due Implementazioni Specifiche

1. Masked SLUNG Imposta $f_\theta(x_i | x_{<i}) = 0$ per i token ad alto rischio, cioè maschera la loro perdita di generazione, ma i token rimangono visibili al meccanismo di attenzione.

2. Unlikelihood SLUNG
Applica $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ ai token ad alto rischio, penalizzando esplicitamente il modello per aver assegnato alta probabilità ai token ad alto rischio.

Punti di Innovazione Tecnica

Design di disaccoppiamento: Prima realizzazione del disaccoppiamento tra capacità di comprensione e generazione nella fase di pre-addestramento
Mantenimento del contesto: Sebbene i token ad alto rischio non partecipino al calcolo della perdita o siano penalizzati, rimangono nel contesto, garantendo che il modello possa imparare le loro rappresentazioni
Meccanismo di apprendimento indiretto: Attraverso l'apprendimento della predizione di token a basso rischio che seguono contenuti ad alto rischio, il modello è forzato a comprendere il contenuto ad alto rischio
Framework flessibile: Può essere utilizzato con qualsiasi classificatore di rilevamento del rischio

Configurazione Sperimentale

Esperimento Uno: Comprensione di Contenuti Tossici

Dataset

Modello di base: OLMo 1B (pre-addestramento continuo dal checkpoint 737)
Dati di addestramento: Ultimi 4 miliardi di token del dataset Dolma originale + documenti Reddit tossici iniettati (circa 212 milioni di token, 5%)
Classificazione della tossicità: Utilizzo del classificatore di tossicità FastText, dividendo il contenuto in tre categorie: Not Toxic, Possibly Toxic e Definitely Toxic

Metodi di Confronto

Control (OLMo 1B): Modello originale non esposto a dati tossici
Low-risk Baseline: Addestrato solo su contenuti Reddit non tossici
Toxic Baseline: Addestrato su tutti i dati (incluso contenuto tossico) utilizzando massima verosimiglianza standard
Masked SLUNG: Maschera la perdita per token Definitely Toxic e Possibly Toxic
Unlikelihood SLUNG: Applica perdita unlikelihood ai token Definitely Toxic

Esperimento Due: Apprendimento di Entità Fittizie

Dataset

Dataset TOFU: Contiene coppie domanda-risposta con profili di autori sintetici
Configurazione di addestramento: Fine-tuning solo sulla colonna delle risposte, con nomi di entità contrassegnati come token ad alto rischio
Obiettivo: Imparare fatti relativi alle entità evitando di generare nomi di entità

Metriche di Valutazione

Esperimento sulla Tossicità

Valutazione della generazione: Utilizzo di RealToxicityPrompts per valutare la tendenza del modello a generare contenuti tossici, con valutazione tramite Perspective API
Valutazione della comprensione: Addestramento di una sonda lineare sul dataset CivilComments per valutare la capacità di classificazione della tossicità degli stati nascosti del modello (AUROC)

Esperimento di Apprendimento di Entità

Valutazione della generazione: Misurazione della proporzione di nomi di entità nell'output del modello
Valutazione della comprensione: Utilizzo di GPT-4o per valutare la correttezza delle risposte del modello a domande fattuali

Risultati Sperimentali

Risultati Principali

Scoperte Centrali dell'Esperimento sulla Tossicità

Ottimalità di Pareto: Il metodo SLUNG raggiunge la frontiera di Pareto nel compromesso comprensione-generazione, migliorando sia la capacità di comprensione della tossicità che riducendo la generazione di tossicità
Miglioramento della Comprensione: Masked SLUNG e Unlikelihood SLUNG raggiungono rispettivamente AUROC di circa 0,825 e 0,820 su CivilComments, significativamente superiori al baseline Control di 0,810
Sicurezza della Generazione: I punteggi di generazione di tossicità di entrambi i metodi SLUNG rimangono intorno a 0,165, ben al di sotto del Toxic Baseline di 0,175
Effetto Persistente Dopo Fine-tuning di Istruzioni: Dopo il fine-tuning di istruzioni, i metodi SLUNG mantengono ancora l'ottimalità di Pareto

Effetto della Scala dei Dati

Con l'aumento della quantità di dati tossici da 20M a 320M token:

Masked SLUNG mantiene costantemente il miglior compromesso comprensione-generazione
La capacità di comprensione aumenta linearmente con la quantità di dati, ma la crescita della tossicità generata è lenta
Dimostra la buona scalabilità di SLUNG

Risultati dell'Esperimento di Apprendimento di Entità

Metodo	Tasso di Generazione di Nomi↓	Tasso di Correttezza Completa↑	Tasso di Correttezza Parziale↑
OLMo 1B	57,5%	3,5%	15,5%
Direct training	34,3±9,2%	28,2±0,6%	51,4±0,7%
Masked SLUNG	4,1±1,2%	20,8±1,9%	44,0±2,1%
Unlikelihood SLUNG	1,5±0,7%	22,3±2,1%	43,6±3,2%

Esperimenti di Ablazione

Analisi della Perplessità

Tutti i metodi mostrano differenze non significative nella perplessità sui documenti Dolma, indicando che SLUNG non compromette la capacità di modellazione linguistica generale
Masked SLUNG ha la perplessità più bassa sui documenti Reddit non tossici
Unlikelihood SLUNG ha perplessità più alta nel dominio Reddit, probabilmente perché la perdita unlikelihood influenza la distribuzione di generazione di quel dominio

Analisi di Casi

Nell'esperimento TOFU, i modelli SLUNG hanno imparato a rispondere alle domande utilizzando pronomi ("he", "she") o omettendo il soggetto, riuscendo con successo a evitare di generare nomi di entità mantenendo le informazioni fattuali.

Lavori Correlati

Filtraggio dei Dati e Gestione di Dati ad Alto Rischio

I lavori esistenti affrontano principalmente il problema dei contenuti ad alto rischio attraverso il filtraggio
Grattafiori et al. (2024), Soldaini et al. (2024) e altri adottano il filtraggio a livello di documento o span
Sebbene questi metodi migliorino la sicurezza, comportano una perdita di diversità dei dati

Metodi di Addestramento per Prevenire Generazione Indesiderata

Unlikelihood training: Penalizza l'alta probabilità di sequenze indesiderate
Apprendimento contrastivo: Promuove candidati preferiti attraverso il contrasto
RLHF: Sopprime la generazione dannosa attraverso il feedback umano
Questi metodi si concentrano principalmente sulla soppressione della generazione, senza valutare esplicitamente la capacità di comprensione

Metodi al Momento della Decodifica

Decodifica guidata da classificatore: Utilizza un classificatore ausiliario per regolare le probabilità di generazione
Metodo dei token di controllo: Condiziona la generazione attraverso token speciali
DExperts: Utilizza modelli esperti "buoni" e "cattivi" per guidare la generazione

Conclusioni e Discussione

Conclusioni Principali

SLUNG realizza con successo il disaccoppiamento tra capacità di comprensione e generazione dei modelli linguistici, fornendo un nuovo paradigma per lo sviluppo dell'IA sicura
Il metodo mostra eccellenti prestazioni in due scenari diversi (contenuti tossici e apprendimento di entità), dimostrando la sua generalità
SLUNG consente ai modelli di beneficiare da testo ad alto rischio che altrimenti verrebbe filtrato, migliorando l'efficienza dell'utilizzo dei dati

Limitazioni

Vincoli di Budget Computazionale: Gli esperimenti utilizzano pre-addestramento continuo piuttosto che addestramento da zero, potrebbe sottostimare il potenziale completo del metodo
Dipendenza dal Classificatore: L'efficacia del metodo dipende dalla qualità del classificatore di rilevamento del rischio
Ambito di Valutazione: La verifica principale è su modelli con 1B parametri, l'effetto su modelli su larga scala rimane da verificare
Specificità del Dominio: Unlikelihood SLUNG potrebbe influenzare la capacità di generazione in domini specifici

Direzioni Future

Pre-addestramento su Larga Scala: Valutare l'effetto di SLUNG in impostazioni di pre-addestramento complete
Ricerca sulla Resistenza agli Attacchi: Esplorare la resistenza di SLUNG agli attacchi di jailbreak
Miglioramento del Classificatore: Sviluppare sistemi di rilevamento del rischio più accurati
Analisi Teorica: Comprendere più profondamente le basi teoriche del meccanismo di disaccoppiamento

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima realizzazione del disaccoppiamento tra comprensione e generazione nella fase di pre-addestramento, approccio innovativo
Alto Valore Pratico: Risolve un importante problema nel campo della sicurezza dell'IA, con ampie prospettive di applicazione
Esperimenti Completi: Verifica in due scenari diversi, includendo molteplici metodi di confronto e esperimenti di ablazione
Metodo Semplice: Implementazione relativamente semplice, facile da riprodurre e applicare
Teoria Chiara: Il principio del meccanismo di disaccoppiamento è ben esposto, con formulazione matematica rigorosa

Insufficienze

Limitazione di Scala: Gli esperimenti sono principalmente condotti su modelli di piccola scala, l'effetto su modelli grandi rimane sconosciuto
Limitazioni di Valutazione: Il rilevamento della tossicità dipende da classificatori specifici, potrebbe presentare distorsioni
Effetti a Lungo Termine: Non valuta l'impatto del metodo sul comportamento del modello a lungo termine
Costi Computazionali: Richiede annotazioni di rischio aggiuntive, aumentando i costi di pre-elaborazione

Impatto

Contributo Accademico: Fornisce nuove prospettive per la ricerca sulla sicurezza dell'IA, potrebbe ispirare lavori successivi
Valore Pratico: Ha significato diretto per lo sviluppo di modelli linguistici nel settore industriale
Riproducibilità: Gli autori si impegnano a rilasciare il codice open-source, facilitando la verifica e l'estensione della comunità

Scenari Applicabili

Sistemi di Moderazione dei Contenuti: Applicazioni che necessitano di identificare ma non generare contenuti dannosi
Protezione del Copyright: Scenari di apprendimento di contenuti protetti da copyright evitando la copia diretta
Gestione di Informazioni Sensibili: Sistemi che comprendono ma non divulgano informazioni private
Applicazioni Educative: Scenari che necessitano di comprendere contenuti inappropriati per scopi educativi ma non diffonderli

Bibliografia

L'articolo cita numerosi lavori importanti, tra cui:

Longpre et al. (2023): Ricerca sull'impatto dei dati di pre-addestramento sulle capacità del modello
Welleck et al. (2019): Lavoro originale su unlikelihood training
Soldaini et al. (2024): Costruzione e metodi di filtraggio del dataset Dolma
Gehman et al. (2020): Benchmark di valutazione RealToxicityPrompts

Questo articolo fornisce un importante contributo metodologico all'addestramento sicuro dei modelli linguistici, realizzando il disaccoppiamento tra comprensione e generazione attraverso un design intelligente della funzione di perdita, gettando le basi per la ricerca futura sull'IA sicura.