Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- ID Articolo: 2505.03052
- Titolo: Teaching Models to Understand (but not Generate) High-risk Data
- Autori: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
- Classificazione: cs.CL cs.LG
- Conferenza di Pubblicazione: COLM 2025
- Link Articolo: https://arxiv.org/abs/2505.03052
Gli sviluppatori di modelli linguistici tipicamente filtrano i contenuti ad alto rischio -- come testo tossico o protetto da copyright -- dai loro dati di pre-addestramento per prevenire che i modelli generino output simili. Tuttavia, la rimozione completa di tali dati limita la capacità dei modelli di riconoscere e rispondere appropriatamente a contenuti dannosi o sensibili. In questo articolo, introduciamo Selective Loss to Understand but Not Generate (SLUNG), un paradigma di pre-addestramento attraverso il quale i modelli imparano a comprendere dati ad alto rischio senza imparare a generarli. Invece di applicare uniformemente la perdita di predizione del prossimo token, SLUNG evita selettivamente di incentivare la generazione di token ad alto rischio mantenendoli all'interno della finestra di contesto del modello. Poiché il modello impara a predire token a basso rischio che seguono quelli ad alto rischio, è forzato a comprendere il contenuto ad alto rischio. Attraverso i nostri esperimenti, dimostriamo che SLUNG migliora costantemente la comprensione dei dati ad alto rischio da parte dei modelli (ad es., capacità di riconoscere contenuti tossici) senza aumentarne la generazione (ad es., tossicità delle risposte del modello). Nel complesso, il nostro paradigma SLUNG consente ai modelli di beneficiare da testo ad alto rischio che altrimenti verrebbe filtrato.
Nello sviluppo attuale dei modelli linguistici esiste una contraddizione fondamentale: per prevenire che i modelli generino contenuti dannosi (come testo tossico, contenuti protetti da copyright, ecc.), gli sviluppatori solitamente filtrano questi contenuti ad alto rischio dai dati di pre-addestramento. Tuttavia, sebbene questo approccio migliori la sicurezza del modello, limita la capacità del modello di riconoscere e rispondere appropriatamente a contenuti dannosi o sensibili.
- Effetti collaterali del filtraggio dei dati: La rimozione completa dei dati ad alto rischio riduce la capacità del modello di comprendere questo tipo di contenuto
- Accoppiamento tra comprensione e generazione: L'obiettivo tradizionale di predizione del prossimo token essenzialmente accoppia la capacità di comprensione del modello con la sua capacità di generazione
- Esigenze di distribuzione reale: Nelle applicazioni pratiche, i modelli devono essere in grado di identificare e gestire richieste dannose, ma ciò richiede una certa comprensione dei contenuti dannosi
Gli autori propongono di ottenere il "meglio dei due mondi": addestrare modelli che possono comprendere dati ad alto rischio senza generare questo tipo di contenuto. Ciò richiede di andare oltre l'obiettivo standard di predizione del prossimo token, disaccoppiando la capacità di comprensione del modello dalla sua capacità di generazione.
- Proposta del framework SLUNG: Un nuovo paradigma di pre-addestramento che realizza il disaccoppiamento tra comprensione e generazione attraverso una funzione di perdita selettiva
- Innovazione tecnica: Progettazione di una strategia di addestramento differenziata basata sul livello di rischio dei token, includendo due implementazioni: Masked SLUNG e Unlikelihood SLUNG
- Verifica sperimentale: Validazione del metodo in due scenari: comprensione di contenuti tossici e apprendimento di entità fittizie
- Contributo teorico: Fornisce un nuovo framework e prospettive per lo sviluppo di modelli linguistici sicuri e capaci
Dato un documento di pre-addestramento X=(x1,x2,...,x∣X∣), ogni token ha un'etichetta binaria corrispondente (l1,l2,...,l∣X∣), dove li∈{0,1} indica se l'i-esimo token è un token ad alto rischio (li=1) o a basso rischio (li=0).
L'obiettivo è addestrare un modello in modo che assegni alta perplessità agli span ad alto rischio, mantenendo al contempo bassa perplessità agli span a basso rischio che potrebbero essere condizionati da contenuti ad alto rischio.
L'innovazione chiave di SLUNG consiste nell'applicare diverse funzioni di perdita ai token di diversi livelli di rischio:
L(θ,X)=−∑i=1∣X∣[1[li=1]fθ(xi∣x<i)+1[li=0]logpθ(xi∣x<i)]
Dove:
- I token ad alto rischio (li=1) utilizzano una funzione di perdita personalizzata fθ(xi∣x<i)
- I token a basso rischio (li=0) utilizzano l'obiettivo standard di massima verosimiglianza
- Tutti i token rimangono nella finestra di contesto del modello
1. Masked SLUNG
Imposta fθ(xi∣x<i)=0 per i token ad alto rischio, cioè maschera la loro perdita di generazione, ma i token rimangono visibili al meccanismo di attenzione.
2. Unlikelihood SLUNG
Applica fθ(xi∣x<i)=log(1−pθ(xi∣x<i)) ai token ad alto rischio, penalizzando esplicitamente il modello per aver assegnato alta probabilità ai token ad alto rischio.
- Design di disaccoppiamento: Prima realizzazione del disaccoppiamento tra capacità di comprensione e generazione nella fase di pre-addestramento
- Mantenimento del contesto: Sebbene i token ad alto rischio non partecipino al calcolo della perdita o siano penalizzati, rimangono nel contesto, garantendo che il modello possa imparare le loro rappresentazioni
- Meccanismo di apprendimento indiretto: Attraverso l'apprendimento della predizione di token a basso rischio che seguono contenuti ad alto rischio, il modello è forzato a comprendere il contenuto ad alto rischio
- Framework flessibile: Può essere utilizzato con qualsiasi classificatore di rilevamento del rischio
- Modello di base: OLMo 1B (pre-addestramento continuo dal checkpoint 737)
- Dati di addestramento: Ultimi 4 miliardi di token del dataset Dolma originale + documenti Reddit tossici iniettati (circa 212 milioni di token, 5%)
- Classificazione della tossicità: Utilizzo del classificatore di tossicità FastText, dividendo il contenuto in tre categorie: Not Toxic, Possibly Toxic e Definitely Toxic
- Control (OLMo 1B): Modello originale non esposto a dati tossici
- Low-risk Baseline: Addestrato solo su contenuti Reddit non tossici
- Toxic Baseline: Addestrato su tutti i dati (incluso contenuto tossico) utilizzando massima verosimiglianza standard
- Masked SLUNG: Maschera la perdita per token Definitely Toxic e Possibly Toxic
- Unlikelihood SLUNG: Applica perdita unlikelihood ai token Definitely Toxic
- Dataset TOFU: Contiene coppie domanda-risposta con profili di autori sintetici
- Configurazione di addestramento: Fine-tuning solo sulla colonna delle risposte, con nomi di entità contrassegnati come token ad alto rischio
- Obiettivo: Imparare fatti relativi alle entità evitando di generare nomi di entità
- Valutazione della generazione: Utilizzo di RealToxicityPrompts per valutare la tendenza del modello a generare contenuti tossici, con valutazione tramite Perspective API
- Valutazione della comprensione: Addestramento di una sonda lineare sul dataset CivilComments per valutare la capacità di classificazione della tossicità degli stati nascosti del modello (AUROC)
- Valutazione della generazione: Misurazione della proporzione di nomi di entità nell'output del modello
- Valutazione della comprensione: Utilizzo di GPT-4o per valutare la correttezza delle risposte del modello a domande fattuali
- Ottimalità di Pareto: Il metodo SLUNG raggiunge la frontiera di Pareto nel compromesso comprensione-generazione, migliorando sia la capacità di comprensione della tossicità che riducendo la generazione di tossicità
- Miglioramento della Comprensione: Masked SLUNG e Unlikelihood SLUNG raggiungono rispettivamente AUROC di circa 0,825 e 0,820 su CivilComments, significativamente superiori al baseline Control di 0,810
- Sicurezza della Generazione: I punteggi di generazione di tossicità di entrambi i metodi SLUNG rimangono intorno a 0,165, ben al di sotto del Toxic Baseline di 0,175
- Effetto Persistente Dopo Fine-tuning di Istruzioni: Dopo il fine-tuning di istruzioni, i metodi SLUNG mantengono ancora l'ottimalità di Pareto
Con l'aumento della quantità di dati tossici da 20M a 320M token:
- Masked SLUNG mantiene costantemente il miglior compromesso comprensione-generazione
- La capacità di comprensione aumenta linearmente con la quantità di dati, ma la crescita della tossicità generata è lenta
- Dimostra la buona scalabilità di SLUNG
| Metodo | Tasso di Generazione di Nomi↓ | Tasso di Correttezza Completa↑ | Tasso di Correttezza Parziale↑ |
|---|
| OLMo 1B | 57,5% | 3,5% | 15,5% |
| Direct training | 34,3±9,2% | 28,2±0,6% | 51,4±0,7% |
| Masked SLUNG | 4,1±1,2% | 20,8±1,9% | 44,0±2,1% |
| Unlikelihood SLUNG | 1,5±0,7% | 22,3±2,1% | 43,6±3,2% |
- Tutti i metodi mostrano differenze non significative nella perplessità sui documenti Dolma, indicando che SLUNG non compromette la capacità di modellazione linguistica generale
- Masked SLUNG ha la perplessità più bassa sui documenti Reddit non tossici
- Unlikelihood SLUNG ha perplessità più alta nel dominio Reddit, probabilmente perché la perdita unlikelihood influenza la distribuzione di generazione di quel dominio
Nell'esperimento TOFU, i modelli SLUNG hanno imparato a rispondere alle domande utilizzando pronomi ("he", "she") o omettendo il soggetto, riuscendo con successo a evitare di generare nomi di entità mantenendo le informazioni fattuali.
- I lavori esistenti affrontano principalmente il problema dei contenuti ad alto rischio attraverso il filtraggio
- Grattafiori et al. (2024), Soldaini et al. (2024) e altri adottano il filtraggio a livello di documento o span
- Sebbene questi metodi migliorino la sicurezza, comportano una perdita di diversità dei dati
- Unlikelihood training: Penalizza l'alta probabilità di sequenze indesiderate
- Apprendimento contrastivo: Promuove candidati preferiti attraverso il contrasto
- RLHF: Sopprime la generazione dannosa attraverso il feedback umano
- Questi metodi si concentrano principalmente sulla soppressione della generazione, senza valutare esplicitamente la capacità di comprensione
- Decodifica guidata da classificatore: Utilizza un classificatore ausiliario per regolare le probabilità di generazione
- Metodo dei token di controllo: Condiziona la generazione attraverso token speciali
- DExperts: Utilizza modelli esperti "buoni" e "cattivi" per guidare la generazione
- SLUNG realizza con successo il disaccoppiamento tra capacità di comprensione e generazione dei modelli linguistici, fornendo un nuovo paradigma per lo sviluppo dell'IA sicura
- Il metodo mostra eccellenti prestazioni in due scenari diversi (contenuti tossici e apprendimento di entità), dimostrando la sua generalità
- SLUNG consente ai modelli di beneficiare da testo ad alto rischio che altrimenti verrebbe filtrato, migliorando l'efficienza dell'utilizzo dei dati
- Vincoli di Budget Computazionale: Gli esperimenti utilizzano pre-addestramento continuo piuttosto che addestramento da zero, potrebbe sottostimare il potenziale completo del metodo
- Dipendenza dal Classificatore: L'efficacia del metodo dipende dalla qualità del classificatore di rilevamento del rischio
- Ambito di Valutazione: La verifica principale è su modelli con 1B parametri, l'effetto su modelli su larga scala rimane da verificare
- Specificità del Dominio: Unlikelihood SLUNG potrebbe influenzare la capacità di generazione in domini specifici
- Pre-addestramento su Larga Scala: Valutare l'effetto di SLUNG in impostazioni di pre-addestramento complete
- Ricerca sulla Resistenza agli Attacchi: Esplorare la resistenza di SLUNG agli attacchi di jailbreak
- Miglioramento del Classificatore: Sviluppare sistemi di rilevamento del rischio più accurati
- Analisi Teorica: Comprendere più profondamente le basi teoriche del meccanismo di disaccoppiamento
- Forte Innovatività: Prima realizzazione del disaccoppiamento tra comprensione e generazione nella fase di pre-addestramento, approccio innovativo
- Alto Valore Pratico: Risolve un importante problema nel campo della sicurezza dell'IA, con ampie prospettive di applicazione
- Esperimenti Completi: Verifica in due scenari diversi, includendo molteplici metodi di confronto e esperimenti di ablazione
- Metodo Semplice: Implementazione relativamente semplice, facile da riprodurre e applicare
- Teoria Chiara: Il principio del meccanismo di disaccoppiamento è ben esposto, con formulazione matematica rigorosa
- Limitazione di Scala: Gli esperimenti sono principalmente condotti su modelli di piccola scala, l'effetto su modelli grandi rimane sconosciuto
- Limitazioni di Valutazione: Il rilevamento della tossicità dipende da classificatori specifici, potrebbe presentare distorsioni
- Effetti a Lungo Termine: Non valuta l'impatto del metodo sul comportamento del modello a lungo termine
- Costi Computazionali: Richiede annotazioni di rischio aggiuntive, aumentando i costi di pre-elaborazione
- Contributo Accademico: Fornisce nuove prospettive per la ricerca sulla sicurezza dell'IA, potrebbe ispirare lavori successivi
- Valore Pratico: Ha significato diretto per lo sviluppo di modelli linguistici nel settore industriale
- Riproducibilità: Gli autori si impegnano a rilasciare il codice open-source, facilitando la verifica e l'estensione della comunità
- Sistemi di Moderazione dei Contenuti: Applicazioni che necessitano di identificare ma non generare contenuti dannosi
- Protezione del Copyright: Scenari di apprendimento di contenuti protetti da copyright evitando la copia diretta
- Gestione di Informazioni Sensibili: Sistemi che comprendono ma non divulgano informazioni private
- Applicazioni Educative: Scenari che necessitano di comprendere contenuti inappropriati per scopi educativi ma non diffonderli
L'articolo cita numerosi lavori importanti, tra cui:
- Longpre et al. (2023): Ricerca sull'impatto dei dati di pre-addestramento sulle capacità del modello
- Welleck et al. (2019): Lavoro originale su unlikelihood training
- Soldaini et al. (2024): Costruzione e metodi di filtraggio del dataset Dolma
- Gehman et al. (2020): Benchmark di valutazione RealToxicityPrompts
Questo articolo fornisce un importante contributo metodologico all'addestramento sicuro dei modelli linguistici, realizzando il disaccoppiamento tra comprensione e generazione attraverso un design intelligente della funzione di perdita, gettando le basi per la ricerca futura sull'IA sicura.