2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Enseigner aux Modèles à Comprendre (mais pas Générer) les Données à Haut Risque

Informations Fondamentales

ID de l'article: 2505.03052
Titre: Teaching Models to Understand (but not Generate) High-risk Data
Auteurs: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
Classification: cs.CL cs.LG
Conférence de publication: COLM 2025
Lien de l'article: https://arxiv.org/abs/2505.03052

Résumé

Les développeurs de modèles de langage filtrent généralement les contenus à haut risque -- tels que les textes toxiques ou protégeables par le droit d'auteur -- de leurs données de pré-entraînement pour empêcher les modèles de générer des résultats similaires. Cependant, la suppression complète de telles données limite la capacité des modèles à reconnaître et réagir de manière appropriée aux contenus nuisibles ou sensibles. Dans cet article, nous présentons Selective Loss to Understand but Not Generate (SLUNG), un paradigme de pré-entraînement par lequel les modèles apprennent à comprendre les données à haut risque sans apprendre à les générer. Au lieu d'appliquer uniformément la perte de prédiction du token suivant, SLUNG évite sélectivement d'inciter à la génération de tokens à haut risque tout en les maintenant dans la fenêtre de contexte du modèle. Lorsque le modèle apprend à prédire les tokens à faible risque qui suivent les tokens à haut risque, il est forcé de comprendre le contenu à haut risque. Grâce à nos expériences, nous montrons que SLUNG améliore constamment la compréhension des données à haut risque par les modèles (par exemple, la capacité à reconnaître le contenu toxique) sans augmenter sa génération (par exemple, la toxicité des réponses du modèle). Globalement, notre paradigme SLUNG permet aux modèles de bénéficier des textes à haut risque qui seraient autrement filtrés.

Contexte et Motivation de la Recherche

Contexte du Problème

Le développement actuel des modèles de langage présente une contradiction fondamentale : pour empêcher les modèles de générer du contenu nuisible (comme des textes toxiques, du contenu protégé par le droit d'auteur, etc.), les développeurs filtrent généralement ces contenus à haut risque des données de pré-entraînement. Cependant, bien que cette approche améliore la sécurité du modèle, elle limite la capacité du modèle à reconnaître et réagir de manière appropriée aux contenus nuisibles ou sensibles.

Problèmes Fondamentaux

Effets secondaires du filtrage des données: La suppression complète des données à haut risque réduit la capacité du modèle à comprendre ce type de contenu
Couplage entre compréhension et génération: L'objectif traditionnel de prédiction du token suivant couple intrinsèquement la capacité de compréhension et de génération du modèle
Besoins de déploiement réel: Dans les applications pratiques, les modèles doivent être capables d'identifier et de traiter les demandes nuisibles, ce qui nécessite une certaine compréhension du contenu nuisible

Motivation de la Recherche

Les auteurs proposent d'obtenir le "meilleur des deux mondes" : entraîner des modèles qui peuvent à la fois comprendre les données à haut risque et ne pas générer ce type de contenu. Cela nécessite de dépasser l'objectif standard de prédiction du token suivant et de découpler la capacité de compréhension et de génération du modèle.

Contributions Principales

Proposition du cadre SLUNG: Un nouveau paradigme de pré-entraînement qui réalise le découplage entre compréhension et génération par le biais d'une fonction de perte sélective
Innovation technique: Conception d'une stratégie d'entraînement différenciée basée sur le niveau de risque des tokens, incluant deux implémentations : Masked SLUNG et Unlikelihood SLUNG
Validation expérimentale: Vérification de l'efficacité de la méthode dans deux scénarios : la compréhension du contenu toxique et l'apprentissage d'entités fictives
Contribution théorique: Fourniture d'un nouveau cadre et de nouvelles perspectives pour le développement de modèles de langage sûrs et capables

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un document de pré-entraînement $X = (x_1, x_2, ..., x_{|X|})$ , chaque token possède une étiquette binaire correspondante $(l_1, l_2, ..., l_{|X|})$ , où $l_i \in \{0,1\}$ indique si le i-ème token est un token à haut risque ( $l_i = 1$ ) ou un token à faible risque ( $l_i = 0$ ).

L'objectif est d'entraîner un modèle de sorte qu'il attribue une perplexité élevée aux spans à haut risque, tout en maintenant une faible perplexité pour les spans à faible risque qui pourraient être conditionnés par du contenu à haut risque.

Architecture du Modèle

Idée Centrale de SLUNG

L'innovation clé de SLUNG réside dans l'application de différentes fonctions de perte pour les tokens de différents niveaux de risque :

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

Où :

Les tokens à haut risque ( $l_i = 1$ ) utilisent une fonction de perte personnalisée $f_\theta(x_i | x_{<i})$
Les tokens à faible risque ( $l_i = 0$ ) utilisent l'objectif de vraisemblance maximale standard
Tous les tokens sont conservés dans la fenêtre de contexte du modèle

Deux Implémentations Concrètes

1. Masked SLUNG Définit $f_\theta(x_i | x_{<i}) = 0$ pour les tokens à haut risque, c'est-à-dire masque leur perte de génération, mais les tokens restent visibles pour le mécanisme d'attention.

2. Unlikelihood SLUNG
Applique $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ pour les tokens à haut risque, pénalisant explicitement le modèle pour l'attribution de probabilités élevées aux tokens à haut risque.

Points d'Innovation Technique

Conception du découplage: Première réalisation du découplage entre capacités de compréhension et de génération au stade du pré-entraînement
Préservation du contexte: Bien que les tokens à haut risque ne participent pas au calcul de la perte ou ne soient pas pénalisés, ils restent dans le contexte, garantissant que le modèle apprend leurs représentations
Mécanisme d'apprentissage indirect: En apprenant à prédire les tokens à faible risque suivant le contenu à haut risque, le modèle est forcé de comprendre le contenu à haut risque
Cadre flexible: Peut être utilisé avec n'importe quel classificateur de détection de risque

Configuration Expérimentale

Expérience 1 : Compréhension du Contenu Toxique

Ensemble de Données

Modèle de base: OLMo 1B (pré-entraînement continu à partir du checkpoint 737)
Données d'entraînement: Derniers 4 milliards de tokens du dataset Dolma original + documents Reddit toxiques injectés (environ 2,12 milliards de tokens, représentant 5%)
Classification de toxicité: Utilisation du classificateur de toxicité FastText, classant le contenu en trois catégories : Not Toxic, Possibly Toxic et Definitely Toxic

Méthodes de Comparaison

Control (OLMo 1B): Modèle original non exposé aux données toxiques
Low-risk Baseline: Entraîné uniquement sur du contenu Reddit non toxique
Toxic Baseline: Entraîné sur toutes les données (y compris le contenu toxique) en utilisant la vraisemblance maximale standard
Masked SLUNG: Masque la perte pour les tokens Definitely Toxic et Possibly Toxic
Unlikelihood SLUNG: Applique la perte unlikelihood pour les tokens Definitely Toxic

Expérience 2 : Apprentissage d'Entités Fictives

Ensemble de Données

Dataset TOFU: Contient des paires de questions-réponses avec des profils d'auteurs synthétiques
Configuration d'entraînement: Affinage uniquement sur la colonne de réponses, les noms d'entités étant marqués comme tokens à haut risque
Objectif: Apprendre les faits relatifs aux entités tout en évitant de générer les noms d'entités

Métriques d'Évaluation

Expérience de Toxicité

Évaluation de la génération: Utilisation de RealToxicityPrompts pour évaluer la tendance du modèle à générer du contenu toxique, évaluation via l'API Perspective
Évaluation de la compréhension: Entraînement d'une sonde linéaire sur le dataset CivilComments pour évaluer la capacité de classification de toxicité des états cachés du modèle (AUROC)

Expérience d'Apprentissage d'Entités

Évaluation de la génération: Mesure du pourcentage de noms d'entités dans la sortie du modèle
Évaluation de la compréhension: Utilisation de GPT-4o pour évaluer l'exactitude des réponses du modèle aux questions factuelles

Résultats Expérimentaux

Résultats Principaux

Découvertes Clés de l'Expérience de Toxicité

Optimalité de Pareto: La méthode SLUNG atteint la frontière de Pareto dans le compromis compréhension-génération, améliorant à la fois la capacité de compréhension de la toxicité et réduisant la génération de toxicité
Amélioration de la Compréhension: Masked SLUNG et Unlikelihood SLUNG atteignent respectivement un AUROC d'environ 0,825 et 0,820 sur CivilComments, surpassant significativement la ligne de base Control de 0,810
Sécurité de la Génération: Les scores de génération de toxicité des deux méthodes SLUNG sont contrôlés autour de 0,165, bien en dessous du Toxic Baseline de 0,175
Persistance après Affinage d'Instructions: Après affinage d'instructions, les méthodes SLUNG conservent leur optimalité de Pareto

Effets de l'Échelle des Données

Avec l'augmentation des données toxiques de 20M à 320M tokens :

Masked SLUNG maintient constamment le meilleur compromis compréhension-génération
La capacité de compréhension augmente linéairement avec le volume de données, mais la croissance de la toxicité générée est lente
Démontre la bonne scalabilité de SLUNG

Résultats de l'Expérience d'Apprentissage d'Entités

Méthode	Taux de Génération de Noms↓	Taux de Correction Complète↑	Taux de Correction Partielle↑
OLMo 1B	57,5%	3,5%	15,5%
Direct training	34,3±9,2%	28,2±0,6%	51,4±0,7%
Masked SLUNG	4,1±1,2%	20,8±1,9%	44,0±2,1%
Unlikelihood SLUNG	1,5±0,7%	22,3±2,1%	43,6±3,2%

Études d'Ablation

Analyse de la Perplexité

Toutes les méthodes présentent des différences non significatives en perplexité sur les documents Dolma, indiquant que SLUNG n'endommage pas la capacité de modélisation du langage général
Masked SLUNG présente la perplexité la plus faible sur les documents Reddit non toxiques
Unlikelihood SLUNG présente une perplexité plus élevée dans le domaine Reddit, probablement en raison de l'impact de la perte unlikelihood sur la distribution de génération de ce domaine

Analyse de Cas

Dans l'expérience TOFU, les modèles SLUNG ont appris à répondre aux questions en utilisant des pronoms ("he", "she") ou en omettant le sujet, réussissant à éviter la génération de noms d'entités tout en conservant les informations factuelles.

Travaux Connexes

Filtrage des Données et Traitement des Contenus à Haut Risque

Les travaux existants résolvent principalement le problème du contenu à haut risque par le filtrage
Grattafiori et al. (2024), Soldaini et al. (2024) et autres emploient le filtrage au niveau du document ou du span
Bien que ces méthodes améliorent la sécurité, elles perdent la diversité des données

Méthodes d'Entraînement pour Prévenir la Génération Indésirable

Unlikelihood training: Pénalise les probabilités élevées des séquences indésirables
Apprentissage contrastif: Favorise les candidats préférés par contraste
RLHF: Supprime la génération nuisible par retour humain
Ces méthodes se concentrent principalement sur la suppression de la génération, sans évaluer explicitement la capacité de compréhension

Méthodes au Moment du Décodage

Décodage guidé par classificateur: Utilise un classificateur auxiliaire pour ajuster les probabilités de génération
Méthode des tokens de contrôle: Conditionne la génération par des tokens spéciaux
DExperts: Utilise des modèles experts "bons" et "mauvais" pour guider la génération

Conclusion et Discussion

Conclusions Principales

SLUNG réalise avec succès le découplage entre capacités de compréhension et de génération des modèles de langage, fournissant un nouveau paradigme pour le développement d'IA sûre
La méthode démontre des performances excellentes dans deux scénarios différents (contenu toxique et apprentissage d'entités), prouvant sa généralité
SLUNG permet aux modèles de bénéficier des textes à haut risque qui seraient autrement filtrés, améliorant l'efficacité de l'utilisation des données

Limitations

Contraintes de Budget de Calcul: Les expériences utilisent le pré-entraînement continu plutôt que l'entraînement à partir de zéro, ce qui peut sous-estimer le potentiel complet de la méthode
Dépendance au Classificateur: L'efficacité de la méthode dépend de la qualité du classificateur de détection de risque
Portée d'Évaluation: Principalement vérifiée sur des modèles de 1B paramètres, l'efficacité sur les grands modèles reste à vérifier
Spécificité du Domaine: Unlikelihood SLUNG peut affecter la capacité de génération dans des domaines spécifiques

Directions Futures

Pré-entraînement à Grande Échelle: Évaluer l'efficacité de SLUNG dans un contexte de pré-entraînement complet
Recherche sur la Résistance aux Attaques: Explorer la résistance de SLUNG aux attaques de jailbreak
Amélioration du Classificateur: Développer des systèmes de détection de risque plus précis
Analyse Théorique: Approfondir la compréhension des bases théoriques du mécanisme de découplage

Évaluation Approfondie

Points Forts

Forte Innovativité: Première réalisation du découplage compréhension-génération au stade du pré-entraînement, approche novatrice
Valeur Pratique Élevée: Résout un problème important dans le domaine de la sécurité de l'IA, avec des perspectives d'application larges
Expériences Complètes: Vérification dans deux scénarios différents, incluant plusieurs méthodes de comparaison et études d'ablation
Méthode Simple: Implémentation relativement simple, facile à reproduire et appliquer
Théorie Claire: Principes du mécanisme de découplage bien expliqués, formulation mathématique rigoureuse

Insuffisances

Limitations d'Échelle: Les expériences sont principalement menées sur des modèles de petite taille, l'efficacité sur les grands modèles est inconnue
Limitations d'Évaluation: La détection de toxicité dépend d'un classificateur spécifique, pouvant présenter des biais
Effets à Long Terme: Pas d'évaluation de l'impact de la méthode sur le comportement à long terme du modèle
Surcharge de Calcul: Nécessite une annotation de risque supplémentaire, augmentant les coûts de prétraitement

Impact

Contribution Académique: Fournit de nouvelles perspectives à la recherche en sécurité de l'IA, pouvant inspirer les travaux ultérieurs
Valeur Pratique: Offre une orientation directe pour le développement de modèles de langage dans l'industrie
Reproductibilité: Les auteurs s'engagent à rendre le code open source, facilitant la vérification et l'extension par la communauté

Scénarios d'Application

Systèmes de Modération de Contenu: Applications nécessitant l'identification mais non la génération de contenu nuisible
Protection des Droits d'Auteur: Scénarios d'apprentissage du contenu protégé tout en évitant la copie directe
Traitement des Informations Sensibles: Systèmes comprenant mais ne divulguant pas les informations privées
Applications Éducatives: Nécessitant la compréhension du contenu inapproprié à des fins éducatives sans propagation

Références

L'article cite plusieurs travaux importants, notamment :

Longpre et al. (2023): Recherche sur l'impact des données de pré-entraînement sur les capacités du modèle
Welleck et al. (2019): Travail original sur l'entraînement unlikelihood
Soldaini et al. (2024): Construction et méthodes de filtrage du dataset Dolma
Gehman et al. (2020): Benchmark d'évaluation RealToxicityPrompts

Cet article fournit une contribution méthodologique importante à l'entraînement sûr des modèles de langage, réalisant le découplage entre compréhension et génération par une conception ingénieuse de la fonction de perte, jetant les bases pour la recherche future en IA sûre.