2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.
Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
academic

Enseigner aux Modèles à Comprendre (mais pas Générer) les Données à Haut Risque

Informations Fondamentales

  • ID de l'article: 2505.03052
  • Titre: Teaching Models to Understand (but not Generate) High-risk Data
  • Auteurs: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
  • Classification: cs.CL cs.LG
  • Conférence de publication: COLM 2025
  • Lien de l'article: https://arxiv.org/abs/2505.03052

Résumé

Les développeurs de modèles de langage filtrent généralement les contenus à haut risque -- tels que les textes toxiques ou protégeables par le droit d'auteur -- de leurs données de pré-entraînement pour empêcher les modèles de générer des résultats similaires. Cependant, la suppression complète de telles données limite la capacité des modèles à reconnaître et réagir de manière appropriée aux contenus nuisibles ou sensibles. Dans cet article, nous présentons Selective Loss to Understand but Not Generate (SLUNG), un paradigme de pré-entraînement par lequel les modèles apprennent à comprendre les données à haut risque sans apprendre à les générer. Au lieu d'appliquer uniformément la perte de prédiction du token suivant, SLUNG évite sélectivement d'inciter à la génération de tokens à haut risque tout en les maintenant dans la fenêtre de contexte du modèle. Lorsque le modèle apprend à prédire les tokens à faible risque qui suivent les tokens à haut risque, il est forcé de comprendre le contenu à haut risque. Grâce à nos expériences, nous montrons que SLUNG améliore constamment la compréhension des données à haut risque par les modèles (par exemple, la capacité à reconnaître le contenu toxique) sans augmenter sa génération (par exemple, la toxicité des réponses du modèle). Globalement, notre paradigme SLUNG permet aux modèles de bénéficier des textes à haut risque qui seraient autrement filtrés.

Contexte et Motivation de la Recherche

Contexte du Problème

Le développement actuel des modèles de langage présente une contradiction fondamentale : pour empêcher les modèles de générer du contenu nuisible (comme des textes toxiques, du contenu protégé par le droit d'auteur, etc.), les développeurs filtrent généralement ces contenus à haut risque des données de pré-entraînement. Cependant, bien que cette approche améliore la sécurité du modèle, elle limite la capacité du modèle à reconnaître et réagir de manière appropriée aux contenus nuisibles ou sensibles.

Problèmes Fondamentaux

  1. Effets secondaires du filtrage des données: La suppression complète des données à haut risque réduit la capacité du modèle à comprendre ce type de contenu
  2. Couplage entre compréhension et génération: L'objectif traditionnel de prédiction du token suivant couple intrinsèquement la capacité de compréhension et de génération du modèle
  3. Besoins de déploiement réel: Dans les applications pratiques, les modèles doivent être capables d'identifier et de traiter les demandes nuisibles, ce qui nécessite une certaine compréhension du contenu nuisible

Motivation de la Recherche

Les auteurs proposent d'obtenir le "meilleur des deux mondes" : entraîner des modèles qui peuvent à la fois comprendre les données à haut risque et ne pas générer ce type de contenu. Cela nécessite de dépasser l'objectif standard de prédiction du token suivant et de découpler la capacité de compréhension et de génération du modèle.

Contributions Principales

  1. Proposition du cadre SLUNG: Un nouveau paradigme de pré-entraînement qui réalise le découplage entre compréhension et génération par le biais d'une fonction de perte sélective
  2. Innovation technique: Conception d'une stratégie d'entraînement différenciée basée sur le niveau de risque des tokens, incluant deux implémentations : Masked SLUNG et Unlikelihood SLUNG
  3. Validation expérimentale: Vérification de l'efficacité de la méthode dans deux scénarios : la compréhension du contenu toxique et l'apprentissage d'entités fictives
  4. Contribution théorique: Fourniture d'un nouveau cadre et de nouvelles perspectives pour le développement de modèles de langage sûrs et capables

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un document de pré-entraînement X=(x1,x2,...,xX)X = (x_1, x_2, ..., x_{|X|}), chaque token possède une étiquette binaire correspondante (l1,l2,...,lX)(l_1, l_2, ..., l_{|X|}), où li{0,1}l_i \in \{0,1\} indique si le i-ème token est un token à haut risque (li=1l_i = 1) ou un token à faible risque (li=0l_i = 0).

L'objectif est d'entraîner un modèle de sorte qu'il attribue une perplexité élevée aux spans à haut risque, tout en maintenant une faible perplexité pour les spans à faible risque qui pourraient être conditionnés par du contenu à haut risque.

Architecture du Modèle

Idée Centrale de SLUNG

L'innovation clé de SLUNG réside dans l'application de différentes fonctions de perte pour les tokens de différents niveaux de risque :

L(θ,X)=i=1X[1[li=1]fθ(xix<i)+1[li=0]logpθ(xix<i)]L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]

Où :

  • Les tokens à haut risque (li=1l_i = 1) utilisent une fonction de perte personnalisée fθ(xix<i)f_\theta(x_i | x_{<i})
  • Les tokens à faible risque (li=0l_i = 0) utilisent l'objectif de vraisemblance maximale standard
  • Tous les tokens sont conservés dans la fenêtre de contexte du modèle

Deux Implémentations Concrètes

1. Masked SLUNG Définit fθ(xix<i)=0f_\theta(x_i | x_{<i}) = 0 pour les tokens à haut risque, c'est-à-dire masque leur perte de génération, mais les tokens restent visibles pour le mécanisme d'attention.

2. Unlikelihood SLUNG
Applique fθ(xix<i)=log(1pθ(xix<i))f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i})) pour les tokens à haut risque, pénalisant explicitement le modèle pour l'attribution de probabilités élevées aux tokens à haut risque.

Points d'Innovation Technique

  1. Conception du découplage: Première réalisation du découplage entre capacités de compréhension et de génération au stade du pré-entraînement
  2. Préservation du contexte: Bien que les tokens à haut risque ne participent pas au calcul de la perte ou ne soient pas pénalisés, ils restent dans le contexte, garantissant que le modèle apprend leurs représentations
  3. Mécanisme d'apprentissage indirect: En apprenant à prédire les tokens à faible risque suivant le contenu à haut risque, le modèle est forcé de comprendre le contenu à haut risque
  4. Cadre flexible: Peut être utilisé avec n'importe quel classificateur de détection de risque

Configuration Expérimentale

Expérience 1 : Compréhension du Contenu Toxique

Ensemble de Données

  • Modèle de base: OLMo 1B (pré-entraînement continu à partir du checkpoint 737)
  • Données d'entraînement: Derniers 4 milliards de tokens du dataset Dolma original + documents Reddit toxiques injectés (environ 2,12 milliards de tokens, représentant 5%)
  • Classification de toxicité: Utilisation du classificateur de toxicité FastText, classant le contenu en trois catégories : Not Toxic, Possibly Toxic et Definitely Toxic

Méthodes de Comparaison

  • Control (OLMo 1B): Modèle original non exposé aux données toxiques
  • Low-risk Baseline: Entraîné uniquement sur du contenu Reddit non toxique
  • Toxic Baseline: Entraîné sur toutes les données (y compris le contenu toxique) en utilisant la vraisemblance maximale standard
  • Masked SLUNG: Masque la perte pour les tokens Definitely Toxic et Possibly Toxic
  • Unlikelihood SLUNG: Applique la perte unlikelihood pour les tokens Definitely Toxic

Expérience 2 : Apprentissage d'Entités Fictives

Ensemble de Données

  • Dataset TOFU: Contient des paires de questions-réponses avec des profils d'auteurs synthétiques
  • Configuration d'entraînement: Affinage uniquement sur la colonne de réponses, les noms d'entités étant marqués comme tokens à haut risque
  • Objectif: Apprendre les faits relatifs aux entités tout en évitant de générer les noms d'entités

Métriques d'Évaluation

Expérience de Toxicité

  • Évaluation de la génération: Utilisation de RealToxicityPrompts pour évaluer la tendance du modèle à générer du contenu toxique, évaluation via l'API Perspective
  • Évaluation de la compréhension: Entraînement d'une sonde linéaire sur le dataset CivilComments pour évaluer la capacité de classification de toxicité des états cachés du modèle (AUROC)

Expérience d'Apprentissage d'Entités

  • Évaluation de la génération: Mesure du pourcentage de noms d'entités dans la sortie du modèle
  • Évaluation de la compréhension: Utilisation de GPT-4o pour évaluer l'exactitude des réponses du modèle aux questions factuelles

Résultats Expérimentaux

Résultats Principaux

Découvertes Clés de l'Expérience de Toxicité

  1. Optimalité de Pareto: La méthode SLUNG atteint la frontière de Pareto dans le compromis compréhension-génération, améliorant à la fois la capacité de compréhension de la toxicité et réduisant la génération de toxicité
  2. Amélioration de la Compréhension: Masked SLUNG et Unlikelihood SLUNG atteignent respectivement un AUROC d'environ 0,825 et 0,820 sur CivilComments, surpassant significativement la ligne de base Control de 0,810
  3. Sécurité de la Génération: Les scores de génération de toxicité des deux méthodes SLUNG sont contrôlés autour de 0,165, bien en dessous du Toxic Baseline de 0,175
  4. Persistance après Affinage d'Instructions: Après affinage d'instructions, les méthodes SLUNG conservent leur optimalité de Pareto

Effets de l'Échelle des Données

Avec l'augmentation des données toxiques de 20M à 320M tokens :

  • Masked SLUNG maintient constamment le meilleur compromis compréhension-génération
  • La capacité de compréhension augmente linéairement avec le volume de données, mais la croissance de la toxicité générée est lente
  • Démontre la bonne scalabilité de SLUNG

Résultats de l'Expérience d'Apprentissage d'Entités

MéthodeTaux de Génération de Noms↓Taux de Correction Complète↑Taux de Correction Partielle↑
OLMo 1B57,5%3,5%15,5%
Direct training34,3±9,2%28,2±0,6%51,4±0,7%
Masked SLUNG4,1±1,2%20,8±1,9%44,0±2,1%
Unlikelihood SLUNG1,5±0,7%22,3±2,1%43,6±3,2%

Études d'Ablation

Analyse de la Perplexité

  • Toutes les méthodes présentent des différences non significatives en perplexité sur les documents Dolma, indiquant que SLUNG n'endommage pas la capacité de modélisation du langage général
  • Masked SLUNG présente la perplexité la plus faible sur les documents Reddit non toxiques
  • Unlikelihood SLUNG présente une perplexité plus élevée dans le domaine Reddit, probablement en raison de l'impact de la perte unlikelihood sur la distribution de génération de ce domaine

Analyse de Cas

Dans l'expérience TOFU, les modèles SLUNG ont appris à répondre aux questions en utilisant des pronoms ("he", "she") ou en omettant le sujet, réussissant à éviter la génération de noms d'entités tout en conservant les informations factuelles.

Travaux Connexes

Filtrage des Données et Traitement des Contenus à Haut Risque

  • Les travaux existants résolvent principalement le problème du contenu à haut risque par le filtrage
  • Grattafiori et al. (2024), Soldaini et al. (2024) et autres emploient le filtrage au niveau du document ou du span
  • Bien que ces méthodes améliorent la sécurité, elles perdent la diversité des données

Méthodes d'Entraînement pour Prévenir la Génération Indésirable

  • Unlikelihood training: Pénalise les probabilités élevées des séquences indésirables
  • Apprentissage contrastif: Favorise les candidats préférés par contraste
  • RLHF: Supprime la génération nuisible par retour humain
  • Ces méthodes se concentrent principalement sur la suppression de la génération, sans évaluer explicitement la capacité de compréhension

Méthodes au Moment du Décodage

  • Décodage guidé par classificateur: Utilise un classificateur auxiliaire pour ajuster les probabilités de génération
  • Méthode des tokens de contrôle: Conditionne la génération par des tokens spéciaux
  • DExperts: Utilise des modèles experts "bons" et "mauvais" pour guider la génération

Conclusion et Discussion

Conclusions Principales

  1. SLUNG réalise avec succès le découplage entre capacités de compréhension et de génération des modèles de langage, fournissant un nouveau paradigme pour le développement d'IA sûre
  2. La méthode démontre des performances excellentes dans deux scénarios différents (contenu toxique et apprentissage d'entités), prouvant sa généralité
  3. SLUNG permet aux modèles de bénéficier des textes à haut risque qui seraient autrement filtrés, améliorant l'efficacité de l'utilisation des données

Limitations

  1. Contraintes de Budget de Calcul: Les expériences utilisent le pré-entraînement continu plutôt que l'entraînement à partir de zéro, ce qui peut sous-estimer le potentiel complet de la méthode
  2. Dépendance au Classificateur: L'efficacité de la méthode dépend de la qualité du classificateur de détection de risque
  3. Portée d'Évaluation: Principalement vérifiée sur des modèles de 1B paramètres, l'efficacité sur les grands modèles reste à vérifier
  4. Spécificité du Domaine: Unlikelihood SLUNG peut affecter la capacité de génération dans des domaines spécifiques

Directions Futures

  1. Pré-entraînement à Grande Échelle: Évaluer l'efficacité de SLUNG dans un contexte de pré-entraînement complet
  2. Recherche sur la Résistance aux Attaques: Explorer la résistance de SLUNG aux attaques de jailbreak
  3. Amélioration du Classificateur: Développer des systèmes de détection de risque plus précis
  4. Analyse Théorique: Approfondir la compréhension des bases théoriques du mécanisme de découplage

Évaluation Approfondie

Points Forts

  1. Forte Innovativité: Première réalisation du découplage compréhension-génération au stade du pré-entraînement, approche novatrice
  2. Valeur Pratique Élevée: Résout un problème important dans le domaine de la sécurité de l'IA, avec des perspectives d'application larges
  3. Expériences Complètes: Vérification dans deux scénarios différents, incluant plusieurs méthodes de comparaison et études d'ablation
  4. Méthode Simple: Implémentation relativement simple, facile à reproduire et appliquer
  5. Théorie Claire: Principes du mécanisme de découplage bien expliqués, formulation mathématique rigoureuse

Insuffisances

  1. Limitations d'Échelle: Les expériences sont principalement menées sur des modèles de petite taille, l'efficacité sur les grands modèles est inconnue
  2. Limitations d'Évaluation: La détection de toxicité dépend d'un classificateur spécifique, pouvant présenter des biais
  3. Effets à Long Terme: Pas d'évaluation de l'impact de la méthode sur le comportement à long terme du modèle
  4. Surcharge de Calcul: Nécessite une annotation de risque supplémentaire, augmentant les coûts de prétraitement

Impact

  1. Contribution Académique: Fournit de nouvelles perspectives à la recherche en sécurité de l'IA, pouvant inspirer les travaux ultérieurs
  2. Valeur Pratique: Offre une orientation directe pour le développement de modèles de langage dans l'industrie
  3. Reproductibilité: Les auteurs s'engagent à rendre le code open source, facilitant la vérification et l'extension par la communauté

Scénarios d'Application

  1. Systèmes de Modération de Contenu: Applications nécessitant l'identification mais non la génération de contenu nuisible
  2. Protection des Droits d'Auteur: Scénarios d'apprentissage du contenu protégé tout en évitant la copie directe
  3. Traitement des Informations Sensibles: Systèmes comprenant mais ne divulguant pas les informations privées
  4. Applications Éducatives: Nécessitant la compréhension du contenu inapproprié à des fins éducatives sans propagation

Références

L'article cite plusieurs travaux importants, notamment :

  • Longpre et al. (2023): Recherche sur l'impact des données de pré-entraînement sur les capacités du modèle
  • Welleck et al. (2019): Travail original sur l'entraînement unlikelihood
  • Soldaini et al. (2024): Construction et méthodes de filtrage du dataset Dolma
  • Gehman et al. (2020): Benchmark d'évaluation RealToxicityPrompts

Cet article fournit une contribution méthodologique importante à l'entraînement sûr des modèles de langage, réalisant le découplage entre compréhension et génération par une conception ingénieuse de la fonction de perte, jetant les bases pour la recherche future en IA sûre.