2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.
Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
academic

Modelle lehren, hochriskante Daten zu verstehen (aber nicht zu generieren)

Grundinformationen

  • Paper-ID: 2505.03052
  • Titel: Teaching Models to Understand (but not Generate) High-risk Data
  • Autoren: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
  • Klassifizierung: cs.CL cs.LG
  • Veröffentlichungskonferenz: COLM 2025
  • Paper-Link: https://arxiv.org/abs/2505.03052

Zusammenfassung

Sprachmodell-Entwickler filtern typischerweise hochriskante Inhalte – wie toxische oder urheberrechtlich geschützte Texte – aus ihren Vortrainingsdaten, um zu verhindern, dass Modelle ähnliche Ausgaben generieren. Das vollständige Entfernen solcher Daten schränkt jedoch die Fähigkeit von Modellen ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren. In diesem Paper stellen wir Selective Loss to Understand but Not Generate (SLUNG) vor – ein Vortrainingsprogramm, durch das Modelle lernen, hochriskante Daten zu verstehen, ohne zu lernen, diese zu generieren. Anstatt einheitlich den Next-Token-Prediction-Loss anzuwenden, vermeidet SLUNG selektiv, die Generierung hochriskanter Token zu fördern, während diese im Kontextfenster des Modells verbleiben. Während das Modell lernt, niedrigriskante Token vorherzusagen, die auf hochriskante folgen, wird es gezwungen, den hochriskanten Inhalt zu verstehen. Durch unsere Experimente zeigen wir, dass SLUNG konsistent das Verständnis von Modellen für hochriskante Daten verbessert (z.B. Fähigkeit, toxische Inhalte zu erkennen), ohne deren Generierung zu erhöhen (z.B. Toxizität von Modellausgaben). Insgesamt ermöglicht das SLUNG-Paradigma Modellen, von hochriskanten Texten zu profitieren, die sonst gefiltert würden.

Forschungshintergrund und Motivation

Problemhintergrund

In der aktuellen Sprachmodell-Entwicklung besteht ein grundlegender Widerspruch: Um zu verhindern, dass Modelle schädliche Inhalte generieren (wie toxische Texte, urheberrechtlich geschützte Inhalte usw.), filtern Entwickler typischerweise diese hochriskanten Inhalte aus den Vortrainingsdaten. Obwohl dieses Vorgehen die Modellsicherheit erhöht, schränkt es die Fähigkeit des Modells ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren.

Kernprobleme

  1. Nebenwirkungen der Datenfilterung: Das vollständige Entfernen hochriskanter Daten verringert die Fähigkeit des Modells, solche Inhalte zu verstehen
  2. Kopplung von Verständnis und Generierung: Das traditionelle Next-Token-Prediction-Ziel koppelt die Verständnis- und Generierungsfähigkeiten des Modells inhärent aneinander
  3. Anforderungen der praktischen Bereitstellung: In realen Anwendungen müssen Modelle schädliche Anfragen erkennen und verarbeiten können, was ein gewisses Verständnis schädlicher Inhalte erfordert

Forschungsmotivation

Die Autoren schlagen vor, das "Beste aus beiden Welten" zu erreichen: Modelle zu trainieren, die hochriskante Daten verstehen können, ohne solche Inhalte zu generieren. Dies erfordert, über das Standard-Next-Token-Prediction-Ziel hinauszugehen und die Verständnis- und Generierungsfähigkeiten des Modells zu entkoppeln.

Kernbeiträge

  1. Einführung des SLUNG-Frameworks: Ein neues Vortrainingsprogramm, das die Entkopplung von Verständnis und Generierung durch selektive Verlustfunktionen ermöglicht
  2. Technische Innovation: Entwurf einer differenzierten Trainingsstrategie basierend auf Token-Risikostufen, einschließlich zwei Implementierungen: Masked SLUNG und Unlikelihood SLUNG
  3. Experimentelle Validierung: Validierung der Methode in zwei Szenarien – Verständnis toxischer Inhalte und Lernen fiktiver Entitäten
  4. Theoretischer Beitrag: Bereitstellung eines neuen Frameworks und neuer Perspektiven für die sichere und fähige Entwicklung von Sprachmodellen

Methodische Details

Aufgabendefinition

Gegeben ein Vortrainingsdokument X=(x1,x2,...,xX)X = (x_1, x_2, ..., x_{|X|}), wobei jeder Token ein entsprechendes binäres Label (l1,l2,...,lX)(l_1, l_2, ..., l_{|X|}) hat, mit li{0,1}l_i \in \{0,1\}, das angibt, ob der i-te Token ein hochriskanter Token (li=1l_i = 1) oder ein niedrigriskanter Token (li=0l_i = 0) ist.

Das Ziel besteht darin, ein Modell zu trainieren, das hochriskanten Spans hohe Verwirrung zuweist, während es niedrigriskante Spans, die möglicherweise durch hochriskante Inhalte bedingt sind, mit niedriger Verwirrung behandelt.

Modellarchitektur

SLUNG-Kernidee

Die Schlüsselinnovation von SLUNG besteht darin, unterschiedliche Verlustfunktionen für Token verschiedener Risikostufen zu verwenden:

L(θ,X)=i=1X[1[li=1]fθ(xix<i)+1[li=0]logpθ(xix<i)]L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]

Wobei:

  • Hochriskante Token (li=1l_i = 1) eine benutzerdefinierte Verlustfunktion fθ(xix<i)f_\theta(x_i | x_{<i}) verwenden
  • Niedrigriskante Token (li=0l_i = 0) das Standard-Maximum-Likelihood-Ziel verwenden
  • Alle Token im Kontextfenster des Modells verbleiben

Zwei konkrete Implementierungen

1. Masked SLUNG Für hochriskante Token wird fθ(xix<i)=0f_\theta(x_i | x_{<i}) = 0 gesetzt, d.h. der Generierungsverlust wird maskiert, aber der Token bleibt für den Aufmerksamkeitsmechanismus sichtbar.

2. Unlikelihood SLUNG Für hochriskante Token wird fθ(xix<i)=log(1pθ(xix<i))f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i})) angewendet, was das Modell explizit dafür bestraft, hochriskanten Token hohe Wahrscheinlichkeiten zuzuweisen.

Technische Innovationspunkte

  1. Entkopplungsdesign: Erste Realisierung der Entkopplung von Verständnis- und Generierungsfähigkeiten in der Vortrainingphase
  2. Kontextbeibehaltung: Hochriskante Token nehmen zwar nicht an der Verlustberechnung teil oder werden bestraft, bleiben aber im Kontext, um sicherzustellen, dass das Modell ihre Darstellungen lernt
  3. Indirekter Lernmechanismus: Durch das Lernen, niedrigriskante Token vorherzusagen, die auf hochriskante folgen, wird das Modell gezwungen, hochriskante Inhalte zu verstehen
  4. Flexibles Framework: Kann mit jedem Risikodetektor-Klassifizierer kombiniert werden

Experimentelles Setup

Experiment 1: Verständnis toxischer Inhalte

Datensatz

  • Basismodell: OLMo 1B (Weitervortaining ab Checkpoint 737)
  • Trainingsdaten: Letzte 40 Milliarden Token des ursprünglichen Dolma-Datensatzes + injizierte toxische Reddit-Dokumente (ca. 2,12 Milliarden Token, 5% Anteil)
  • Toxizitätsklassifizierung: Verwendung eines FastText-Toxizitätsklassifizierers, der Inhalte in drei Kategorien einteilt: Not Toxic, Possibly Toxic und Definitely Toxic

Vergleichsmethoden

  • Control (OLMo 1B): Originalmodell ohne Kontakt zu toxischen Daten
  • Low-risk Baseline: Training nur auf nicht-toxischen Reddit-Inhalten
  • Toxic Baseline: Training auf allen Daten (einschließlich toxischer Inhalte) mit Standard-Maximum-Likelihood
  • Masked SLUNG: Maskierung des Verlusts für Definitely Toxic und Possibly Toxic Token
  • Unlikelihood SLUNG: Anwendung von Unlikelihood-Verlust auf Definitely Toxic Token

Experiment 2: Lernen fiktiver Entitäten

Datensatz

  • TOFU-Datensatz: Enthält synthetische Autorenprofile mit Frage-Antwort-Paaren
  • Trainingssetup: Nur Feinabstimmung in der Antwortspalte, Entitätsnamen werden als hochriskante Token gekennzeichnet
  • Ziel: Lernen von entitätsbezogenen Fakten, während die Generierung von Entitätsnamen vermieden wird

Bewertungsmetriken

Toxizitätsexperimente

  • Generierungsbewertung: Verwendung von RealToxicityPrompts zur Bewertung der Neigung des Modells, toxische Inhalte zu generieren, durch Perspective API-Bewertung
  • Verständnisbewertung: Training eines linearen Probes auf dem CivilComments-Datensatz zur Bewertung der Toxizitätsklassifizierungsfähigkeit der verborgenen Zustände des Modells (AUROC)

Entitätslern-Experimente

  • Generierungsbewertung: Messung des Anteils der Modellausgaben, die Entitätsnamen enthalten
  • Verständnisbewertung: Verwendung von GPT-4o zur Bewertung der Korrektheit der Modellbeantwortung von Faktenfragen

Experimentelle Ergebnisse

Hauptergebnisse

Kernfunde des Toxizitätsexperiments

  1. Pareto-Optimalität: Die SLUNG-Methode erreicht die Pareto-Front im Verständnis-Generierungs-Tradeoff, verbessert sowohl die Fähigkeit zum Verständnis von Toxizität als auch reduziert die Toxizitätsgenerierung
  2. Verbesserung des Verständnisses: Masked SLUNG und Unlikelihood SLUNG erreichen AUROC-Werte von etwa 0,825 bzw. 0,820 auf CivilComments, deutlich besser als die Control-Baseline von 0,810
  3. Generierungssicherheit: Die Toxizitäts-Generierungswerte beider SLUNG-Methoden liegen bei etwa 0,165, deutlich unter der Toxic Baseline von 0,175
  4. Persistenz nach Instruction-Tuning: Nach Instruction-Tuning behält die SLUNG-Methode ihre Pareto-Optimalität bei

Effekt der Datengröße

Mit zunehmender Menge toxischer Daten von 20M auf 320M Token:

  • Masked SLUNG behält konsistent den besten Verständnis-Generierungs-Tradeoff
  • Die Verständnisfähigkeit steigt linear mit der Datenmenge, aber die Toxizitätsgenerierung wächst langsam
  • Beweist die gute Skalierbarkeit von SLUNG

Ergebnisse des Entitätslern-Experiments

MethodeNamens-Generierungsrate↓Vollständig korrekt↑Teilweise korrekt↑
OLMo 1B57,5%3,5%15,5%
Direktes Training34,3±9,2%28,2±0,6%51,4±0,7%
Masked SLUNG4,1±1,2%20,8±1,9%44,0±2,1%
Unlikelihood SLUNG1,5±0,7%22,3±2,1%43,6±3,2%

Ablationsstudien

Verwirrungsanalyse

  • Alle Methoden zeigen keine signifikanten Unterschiede in der Verwirrung auf Dolma-Dokumenten, was zeigt, dass SLUNG die allgemeine Sprachmodellierungsfähigkeit nicht beeinträchtigt
  • Masked SLUNG hat die niedrigste Verwirrung auf nicht-toxischen Reddit-Dokumenten
  • Unlikelihood SLUNG hat höhere Verwirrung in der Reddit-Domäne, möglicherweise weil der Unlikelihood-Verlust die Generierungsverteilung dieser Domäne beeinflusst

Fallstudien

Im TOFU-Experiment lernten SLUNG-Modelle, Fragen mit Pronomen ("he", "she") oder durch Auslassung des Subjekts zu beantworten, wodurch sie erfolgreich die Generierung von Entitätsnamen vermieden, während sie Faktenwissen bewahrten.

Verwandte Arbeiten

Datenfilterung und Umgang mit hochriskanten Daten

  • Bestehende Arbeiten behandeln hochriskante Inhalte hauptsächlich durch Filterung
  • Grattafiori et al. (2024), Soldaini et al. (2024) und andere verwenden Dokument- oder Span-Level-Filterung
  • Diese Methoden erhöhen zwar die Sicherheit, verlieren aber Datendiversität

Trainingsmethoden zur Verhinderung schädlicher Generierung

  • Unlikelihood Training: Bestrafung von Sequenzen mit hoher Wahrscheinlichkeit
  • Kontrastives Lernen: Förderung bevorzugter Kandidaten durch Kontrast
  • RLHF: Unterdrückung schädlicher Generierung durch menschliches Feedback
  • Diese Methoden konzentrieren sich hauptsächlich auf die Unterdrückung der Generierung, bewerten aber nicht explizit die Verständnisfähigkeit

Dekodierungszeitliche Methoden

  • Klassifizierer-gesteuertes Dekodieren: Verwendung eines Hilfsklassifizierers zur Anpassung der Generierungswahrscheinlichkeit
  • Control-Token-Methoden: Konditionierung der Generierung durch spezielle Token
  • DExperts: Verwendung von "guten" und "schlechten" Expertmodellen zur Steuerung der Generierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. SLUNG realisiert erfolgreich die Entkopplung von Verständnis- und Generierungsfähigkeiten von Sprachmodellen und bietet ein neues Paradigma für sichere KI-Entwicklung
  2. Die Methode zeigt hervorragende Leistung in zwei verschiedenen Szenarien – toxische Inhalte und Entitätenlernern – und beweist ihre Universalität
  3. SLUNG ermöglicht es Modellen, von hochriskanten Texten zu profitieren, die sonst gefiltert würden, und verbessert die Datennutzungseffizienz

Einschränkungen

  1. Rechnerbudget-Beschränkungen: Experimente verwenden Weitervortaining statt Training von Grund auf, was das volle Potenzial der Methode möglicherweise unterschätzt
  2. Klassifizierer-Abhängigkeit: Die Methodeneffektivität hängt von der Qualität des Risikodetektor-Klassifizierers ab
  3. Bewertungsumfang: Validierung hauptsächlich auf 1B-Parameter-Modellen, Effekte auf großen Modellen sind noch zu überprüfen
  4. Domänenspezifität: Unlikelihood SLUNG kann die Generierungsfähigkeit in bestimmten Domänen beeinträchtigen

Zukünftige Richtungen

  1. Großflächiges Vortaining: Bewertung der SLUNG-Effektivität in vollständigen Vortrainingssettings
  2. Angriffsresistenz-Forschung: Erkundung der Widerstandsfähigkeit von SLUNG gegen Jailbreak-Angriffe
  3. Klassifizierer-Verbesserung: Entwicklung präziserer Risikodetektor-Systeme
  4. Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen des Entkopplungsmechanismus

Tiefgehende Bewertung

Stärken

  1. Starke Innovation: Erste Realisierung der Entkopplung von Verständnis und Generierung in der Vortrainingphase mit neuartigen Ideen
  2. Hoher praktischer Wert: Löst wichtige Probleme im KI-Sicherheitsbereich mit breiten Anwendungsperspektiven
  3. Umfassende Experimente: Validierung in zwei verschiedenen Szenarien mit mehreren Vergleichsmethoden und Ablationsstudien
  4. Einfache Methode: Relativ einfache Implementierung, leicht zu reproduzieren und anzuwenden
  5. Klare Theorie: Klare Darlegung des Entkopplungsmechanismus mit strenger mathematischer Formulierung

Mängel

  1. Skalierungsbeschränkungen: Experimente hauptsächlich auf kleineren Modellen durchgeführt, Effekte auf großen Modellen unbekannt
  2. Bewertungslimitierungen: Toxizitätserkennung hängt von spezifischen Klassifizierern ab, möglicherweise mit Verzerrungen
  3. Langzeiteffekte: Keine Bewertung der Auswirkungen der Methode auf das langfristige Verhalten des Modells
  4. Rechneraufwand: Erfordert zusätzliche Risiko-Annotation, erhöht die Vorverarbeitungskosten

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für KI-Sicherheitsforschung, kann nachfolgende Arbeiten inspirieren
  2. Praktischer Wert: Direkte Anleitung für die Sprachmodell-Entwicklung in der Industrie
  3. Reproduzierbarkeit: Autoren versprechen, Code open-source zu machen, erleichtert Gemeinschaftsvalidierung und Erweiterung

Anwendungsszenarien

  1. Content-Moderationssysteme: Anwendungen, die schädliche Inhalte erkennen, aber nicht generieren müssen
  2. Urheberrechtsschutz: Szenarien, in denen urheberrechtlich geschützte Inhalte gelernt, aber nicht direkt kopiert werden sollen
  3. Verarbeitung sensibler Informationen: Systeme, die sensible Informationen verstehen, aber nicht offenlegen dürfen
  4. Bildungsanwendungen: Szenarien, in denen unangemessene Inhalte verstanden werden müssen, um zu unterrichten, aber nicht verbreitet werden sollen

Literaturverzeichnis

Das Paper zitiert mehrere wichtige Arbeiten, einschließlich:

  • Longpre et al. (2023): Forschung über die Auswirkungen von Vortrainingsdaten auf Modellkapazitäten
  • Welleck et al. (2019): Originalarbeit zum Unlikelihood Training
  • Soldaini et al. (2024): Konstruktion und Filtermethoden des Dolma-Datensatzes
  • Gehman et al. (2020): RealToxicityPrompts-Bewertungsmaßstab

Dieses Paper leistet einen wichtigen methodologischen Beitrag zum sicheren Training von Sprachmodellen. Durch geschicktes Design der Verlustfunktion realisiert es die Entkopplung von Verständnis und Generierung und legt den Grundstein für zukünftige sichere KI-Forschung.