2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Modelle lehren, hochriskante Daten zu verstehen (aber nicht zu generieren)

Grundinformationen

Paper-ID: 2505.03052
Titel: Teaching Models to Understand (but not Generate) High-risk Data
Autoren: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
Klassifizierung: cs.CL cs.LG
Veröffentlichungskonferenz: COLM 2025
Paper-Link: https://arxiv.org/abs/2505.03052

Zusammenfassung

Sprachmodell-Entwickler filtern typischerweise hochriskante Inhalte – wie toxische oder urheberrechtlich geschützte Texte – aus ihren Vortrainingsdaten, um zu verhindern, dass Modelle ähnliche Ausgaben generieren. Das vollständige Entfernen solcher Daten schränkt jedoch die Fähigkeit von Modellen ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren. In diesem Paper stellen wir Selective Loss to Understand but Not Generate (SLUNG) vor – ein Vortrainingsprogramm, durch das Modelle lernen, hochriskante Daten zu verstehen, ohne zu lernen, diese zu generieren. Anstatt einheitlich den Next-Token-Prediction-Loss anzuwenden, vermeidet SLUNG selektiv, die Generierung hochriskanter Token zu fördern, während diese im Kontextfenster des Modells verbleiben. Während das Modell lernt, niedrigriskante Token vorherzusagen, die auf hochriskante folgen, wird es gezwungen, den hochriskanten Inhalt zu verstehen. Durch unsere Experimente zeigen wir, dass SLUNG konsistent das Verständnis von Modellen für hochriskante Daten verbessert (z.B. Fähigkeit, toxische Inhalte zu erkennen), ohne deren Generierung zu erhöhen (z.B. Toxizität von Modellausgaben). Insgesamt ermöglicht das SLUNG-Paradigma Modellen, von hochriskanten Texten zu profitieren, die sonst gefiltert würden.

Forschungshintergrund und Motivation

Problemhintergrund

In der aktuellen Sprachmodell-Entwicklung besteht ein grundlegender Widerspruch: Um zu verhindern, dass Modelle schädliche Inhalte generieren (wie toxische Texte, urheberrechtlich geschützte Inhalte usw.), filtern Entwickler typischerweise diese hochriskanten Inhalte aus den Vortrainingsdaten. Obwohl dieses Vorgehen die Modellsicherheit erhöht, schränkt es die Fähigkeit des Modells ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren.

Kernprobleme

Nebenwirkungen der Datenfilterung: Das vollständige Entfernen hochriskanter Daten verringert die Fähigkeit des Modells, solche Inhalte zu verstehen
Kopplung von Verständnis und Generierung: Das traditionelle Next-Token-Prediction-Ziel koppelt die Verständnis- und Generierungsfähigkeiten des Modells inhärent aneinander
Anforderungen der praktischen Bereitstellung: In realen Anwendungen müssen Modelle schädliche Anfragen erkennen und verarbeiten können, was ein gewisses Verständnis schädlicher Inhalte erfordert

Forschungsmotivation

Die Autoren schlagen vor, das "Beste aus beiden Welten" zu erreichen: Modelle zu trainieren, die hochriskante Daten verstehen können, ohne solche Inhalte zu generieren. Dies erfordert, über das Standard-Next-Token-Prediction-Ziel hinauszugehen und die Verständnis- und Generierungsfähigkeiten des Modells zu entkoppeln.

Kernbeiträge

Einführung des SLUNG-Frameworks: Ein neues Vortrainingsprogramm, das die Entkopplung von Verständnis und Generierung durch selektive Verlustfunktionen ermöglicht
Technische Innovation: Entwurf einer differenzierten Trainingsstrategie basierend auf Token-Risikostufen, einschließlich zwei Implementierungen: Masked SLUNG und Unlikelihood SLUNG
Experimentelle Validierung: Validierung der Methode in zwei Szenarien – Verständnis toxischer Inhalte und Lernen fiktiver Entitäten
Theoretischer Beitrag: Bereitstellung eines neuen Frameworks und neuer Perspektiven für die sichere und fähige Entwicklung von Sprachmodellen

Methodische Details

Aufgabendefinition

Gegeben ein Vortrainingsdokument $X = (x_1, x_2, ..., x_{|X|})$ , wobei jeder Token ein entsprechendes binäres Label $(l_1, l_2, ..., l_{|X|})$ hat, mit $l_i \in \{0,1\}$ , das angibt, ob der i-te Token ein hochriskanter Token ( $l_i = 1$ ) oder ein niedrigriskanter Token ( $l_i = 0$ ) ist.

Das Ziel besteht darin, ein Modell zu trainieren, das hochriskanten Spans hohe Verwirrung zuweist, während es niedrigriskante Spans, die möglicherweise durch hochriskante Inhalte bedingt sind, mit niedriger Verwirrung behandelt.

Modellarchitektur

SLUNG-Kernidee

Die Schlüsselinnovation von SLUNG besteht darin, unterschiedliche Verlustfunktionen für Token verschiedener Risikostufen zu verwenden:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

Wobei:

Hochriskante Token ( $l_i = 1$ ) eine benutzerdefinierte Verlustfunktion $f_\theta(x_i | x_{<i})$ verwenden
Niedrigriskante Token ( $l_i = 0$ ) das Standard-Maximum-Likelihood-Ziel verwenden
Alle Token im Kontextfenster des Modells verbleiben

Zwei konkrete Implementierungen

1. Masked SLUNG Für hochriskante Token wird $f_\theta(x_i | x_{<i}) = 0$ gesetzt, d.h. der Generierungsverlust wird maskiert, aber der Token bleibt für den Aufmerksamkeitsmechanismus sichtbar.

2. Unlikelihood SLUNG Für hochriskante Token wird $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ angewendet, was das Modell explizit dafür bestraft, hochriskanten Token hohe Wahrscheinlichkeiten zuzuweisen.

Technische Innovationspunkte

Entkopplungsdesign: Erste Realisierung der Entkopplung von Verständnis- und Generierungsfähigkeiten in der Vortrainingphase
Kontextbeibehaltung: Hochriskante Token nehmen zwar nicht an der Verlustberechnung teil oder werden bestraft, bleiben aber im Kontext, um sicherzustellen, dass das Modell ihre Darstellungen lernt
Indirekter Lernmechanismus: Durch das Lernen, niedrigriskante Token vorherzusagen, die auf hochriskante folgen, wird das Modell gezwungen, hochriskante Inhalte zu verstehen
Flexibles Framework: Kann mit jedem Risikodetektor-Klassifizierer kombiniert werden

Experimentelles Setup

Experiment 1: Verständnis toxischer Inhalte

Datensatz

Basismodell: OLMo 1B (Weitervortaining ab Checkpoint 737)
Trainingsdaten: Letzte 40 Milliarden Token des ursprünglichen Dolma-Datensatzes + injizierte toxische Reddit-Dokumente (ca. 2,12 Milliarden Token, 5% Anteil)
Toxizitätsklassifizierung: Verwendung eines FastText-Toxizitätsklassifizierers, der Inhalte in drei Kategorien einteilt: Not Toxic, Possibly Toxic und Definitely Toxic

Vergleichsmethoden

Control (OLMo 1B): Originalmodell ohne Kontakt zu toxischen Daten
Low-risk Baseline: Training nur auf nicht-toxischen Reddit-Inhalten
Toxic Baseline: Training auf allen Daten (einschließlich toxischer Inhalte) mit Standard-Maximum-Likelihood
Masked SLUNG: Maskierung des Verlusts für Definitely Toxic und Possibly Toxic Token
Unlikelihood SLUNG: Anwendung von Unlikelihood-Verlust auf Definitely Toxic Token

Experiment 2: Lernen fiktiver Entitäten

Datensatz

TOFU-Datensatz: Enthält synthetische Autorenprofile mit Frage-Antwort-Paaren
Trainingssetup: Nur Feinabstimmung in der Antwortspalte, Entitätsnamen werden als hochriskante Token gekennzeichnet
Ziel: Lernen von entitätsbezogenen Fakten, während die Generierung von Entitätsnamen vermieden wird

Bewertungsmetriken

Toxizitätsexperimente

Generierungsbewertung: Verwendung von RealToxicityPrompts zur Bewertung der Neigung des Modells, toxische Inhalte zu generieren, durch Perspective API-Bewertung
Verständnisbewertung: Training eines linearen Probes auf dem CivilComments-Datensatz zur Bewertung der Toxizitätsklassifizierungsfähigkeit der verborgenen Zustände des Modells (AUROC)

Entitätslern-Experimente

Generierungsbewertung: Messung des Anteils der Modellausgaben, die Entitätsnamen enthalten
Verständnisbewertung: Verwendung von GPT-4o zur Bewertung der Korrektheit der Modellbeantwortung von Faktenfragen

Experimentelle Ergebnisse

Hauptergebnisse

Kernfunde des Toxizitätsexperiments

Pareto-Optimalität: Die SLUNG-Methode erreicht die Pareto-Front im Verständnis-Generierungs-Tradeoff, verbessert sowohl die Fähigkeit zum Verständnis von Toxizität als auch reduziert die Toxizitätsgenerierung
Verbesserung des Verständnisses: Masked SLUNG und Unlikelihood SLUNG erreichen AUROC-Werte von etwa 0,825 bzw. 0,820 auf CivilComments, deutlich besser als die Control-Baseline von 0,810
Generierungssicherheit: Die Toxizitäts-Generierungswerte beider SLUNG-Methoden liegen bei etwa 0,165, deutlich unter der Toxic Baseline von 0,175
Persistenz nach Instruction-Tuning: Nach Instruction-Tuning behält die SLUNG-Methode ihre Pareto-Optimalität bei

Effekt der Datengröße

Mit zunehmender Menge toxischer Daten von 20M auf 320M Token:

Masked SLUNG behält konsistent den besten Verständnis-Generierungs-Tradeoff
Die Verständnisfähigkeit steigt linear mit der Datenmenge, aber die Toxizitätsgenerierung wächst langsam
Beweist die gute Skalierbarkeit von SLUNG

Ergebnisse des Entitätslern-Experiments

Methode	Namens-Generierungsrate↓	Vollständig korrekt↑	Teilweise korrekt↑
OLMo 1B	57,5%	3,5%	15,5%
Direktes Training	34,3±9,2%	28,2±0,6%	51,4±0,7%
Masked SLUNG	4,1±1,2%	20,8±1,9%	44,0±2,1%
Unlikelihood SLUNG	1,5±0,7%	22,3±2,1%	43,6±3,2%

Ablationsstudien

Verwirrungsanalyse

Alle Methoden zeigen keine signifikanten Unterschiede in der Verwirrung auf Dolma-Dokumenten, was zeigt, dass SLUNG die allgemeine Sprachmodellierungsfähigkeit nicht beeinträchtigt
Masked SLUNG hat die niedrigste Verwirrung auf nicht-toxischen Reddit-Dokumenten
Unlikelihood SLUNG hat höhere Verwirrung in der Reddit-Domäne, möglicherweise weil der Unlikelihood-Verlust die Generierungsverteilung dieser Domäne beeinflusst

Fallstudien

Im TOFU-Experiment lernten SLUNG-Modelle, Fragen mit Pronomen ("he", "she") oder durch Auslassung des Subjekts zu beantworten, wodurch sie erfolgreich die Generierung von Entitätsnamen vermieden, während sie Faktenwissen bewahrten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

SLUNG realisiert erfolgreich die Entkopplung von Verständnis- und Generierungsfähigkeiten von Sprachmodellen und bietet ein neues Paradigma für sichere KI-Entwicklung
Die Methode zeigt hervorragende Leistung in zwei verschiedenen Szenarien – toxische Inhalte und Entitätenlernern – und beweist ihre Universalität
SLUNG ermöglicht es Modellen, von hochriskanten Texten zu profitieren, die sonst gefiltert würden, und verbessert die Datennutzungseffizienz

Einschränkungen

Rechnerbudget-Beschränkungen: Experimente verwenden Weitervortaining statt Training von Grund auf, was das volle Potenzial der Methode möglicherweise unterschätzt
Klassifizierer-Abhängigkeit: Die Methodeneffektivität hängt von der Qualität des Risikodetektor-Klassifizierers ab
Bewertungsumfang: Validierung hauptsächlich auf 1B-Parameter-Modellen, Effekte auf großen Modellen sind noch zu überprüfen
Domänenspezifität: Unlikelihood SLUNG kann die Generierungsfähigkeit in bestimmten Domänen beeinträchtigen

Zukünftige Richtungen

Großflächiges Vortaining: Bewertung der SLUNG-Effektivität in vollständigen Vortrainingssettings
Angriffsresistenz-Forschung: Erkundung der Widerstandsfähigkeit von SLUNG gegen Jailbreak-Angriffe
Klassifizierer-Verbesserung: Entwicklung präziserer Risikodetektor-Systeme
Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen des Entkopplungsmechanismus

Tiefgehende Bewertung

Stärken

Starke Innovation: Erste Realisierung der Entkopplung von Verständnis und Generierung in der Vortrainingphase mit neuartigen Ideen
Hoher praktischer Wert: Löst wichtige Probleme im KI-Sicherheitsbereich mit breiten Anwendungsperspektiven
Umfassende Experimente: Validierung in zwei verschiedenen Szenarien mit mehreren Vergleichsmethoden und Ablationsstudien
Einfache Methode: Relativ einfache Implementierung, leicht zu reproduzieren und anzuwenden
Klare Theorie: Klare Darlegung des Entkopplungsmechanismus mit strenger mathematischer Formulierung

Mängel

Skalierungsbeschränkungen: Experimente hauptsächlich auf kleineren Modellen durchgeführt, Effekte auf großen Modellen unbekannt
Bewertungslimitierungen: Toxizitätserkennung hängt von spezifischen Klassifizierern ab, möglicherweise mit Verzerrungen
Langzeiteffekte: Keine Bewertung der Auswirkungen der Methode auf das langfristige Verhalten des Modells
Rechneraufwand: Erfordert zusätzliche Risiko-Annotation, erhöht die Vorverarbeitungskosten

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für KI-Sicherheitsforschung, kann nachfolgende Arbeiten inspirieren
Praktischer Wert: Direkte Anleitung für die Sprachmodell-Entwicklung in der Industrie
Reproduzierbarkeit: Autoren versprechen, Code open-source zu machen, erleichtert Gemeinschaftsvalidierung und Erweiterung

Anwendungsszenarien

Content-Moderationssysteme: Anwendungen, die schädliche Inhalte erkennen, aber nicht generieren müssen
Urheberrechtsschutz: Szenarien, in denen urheberrechtlich geschützte Inhalte gelernt, aber nicht direkt kopiert werden sollen
Verarbeitung sensibler Informationen: Systeme, die sensible Informationen verstehen, aber nicht offenlegen dürfen
Bildungsanwendungen: Szenarien, in denen unangemessene Inhalte verstanden werden müssen, um zu unterrichten, aber nicht verbreitet werden sollen

Literaturverzeichnis

Das Paper zitiert mehrere wichtige Arbeiten, einschließlich:

Longpre et al. (2023): Forschung über die Auswirkungen von Vortrainingsdaten auf Modellkapazitäten
Welleck et al. (2019): Originalarbeit zum Unlikelihood Training
Soldaini et al. (2024): Konstruktion und Filtermethoden des Dolma-Datensatzes
Gehman et al. (2020): RealToxicityPrompts-Bewertungsmaßstab

Dieses Paper leistet einen wichtigen methodologischen Beitrag zum sicheren Training von Sprachmodellen. Durch geschicktes Design der Verlustfunktion realisiert es die Entkopplung von Verständnis und Generierung und legt den Grundstein für zukünftige sichere KI-Forschung.