2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

高リスクデータの理解（ただし生成ではない）をモデルに教える

基本情報

論文ID: 2505.03052
タイトル: Teaching Models to Understand (but not Generate) High-risk Data
著者: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
分類: cs.CL cs.LG
発表会議: COLM 2025
論文リンク: https://arxiv.org/abs/2505.03052

要約

言語モデル開発者は通常、毒性テキストや著作権保護されたテキストなどの高リスクコンテンツを事前学習データから除外し、モデルが同様の出力を生成することを防いでいます。しかし、そのようなデータを完全に削除することは、有害または機密コンテンツを認識し、適切に対応するモデルの能力を制限しています。本論文では、Selective Loss to Understand but Not Generate（SLUNG）を紹介します。これは、モデルが高リスクデータを理解しながら、それを生成することを学ばない事前学習パラダイムです。次トークン予測損失を均一に適用する代わりに、SLUNGは高リスクトークンの生成を促進することを選択的に回避しながら、それらがモデルのコンテキストウィンドウ内に留まることを保証します。モデルが高リスクトークンに続く低リスクトークンを予測することを学ぶにつれて、高リスクコンテンツを理解することが強制されます。実験を通じて、SLUNGが高リスクデータの理解（例えば、毒性コンテンツを認識する能力）を一貫して向上させ、その生成（例えば、モデル応答の毒性）を増加させないことを示します。全体として、SLUNGパラダイムにより、モデルはそれ以外の場合は除外されるであろう高リスクテキストから利益を得ることができます。

研究背景と動機

問題背景

現在の言語モデル開発には根本的な矛盾が存在します。有害なコンテンツ（毒性テキスト、著作権保護されたコンテンツなど）の生成を防ぐために、開発者は通常、事前学習データからこれらの高リスクコンテンツを除外しています。しかし、この方法はモデルの安全性を向上させる一方で、有害または機密コンテンツを認識し、適切に対応するモデルの能力を制限しています。

核心的な問題

データフィルタリングの副作用：高リスクデータを完全に削除すると、モデルのこのようなコンテンツに対する理解能力が低下します
理解と生成の結合：従来の次トークン予測目標は、本質的にモデルの理解能力と生成能力を結合しています
実際の展開ニーズ：実際のアプリケーションでは、モデルは有害なリクエストを識別および処理できる必要があり、これには有害なコンテンツに対する一定の理解が必要です

研究動機

著者は「両方の利点を得る」効果を達成することを提案しています。つまり、高リスクデータを理解しながら、このようなコンテンツを生成しないモデルを訓練することです。これには、標準的な次トークン予測目標を超えて、モデルの理解能力と生成能力を分離する必要があります。

核心的貢献

SLUNGフレームワークの提案：選択的損失関数を通じて理解と生成の分離を実現する新しい事前学習パラダイム
技術的革新：トークンのリスクレベルに基づいた差別化された訓練戦略の設計。Masked SLUNGとUnlikelihood SLUNGの2つの実装を含む
実験検証：毒性コンテンツの理解と虚構実体の学習という2つのシナリオでメソッドの有効性を検証
理論的貢献：安全で能力のある言語モデル開発のための新しいフレームワークと思考を提供

方法の詳細説明

タスク定義

事前学習ドキュメント $X = (x_1, x_2, ..., x_{|X|})$ が与えられ、各トークンは対応する二値ラベル $(l_1, l_2, ..., l_{|X|})$ を持ちます。ここで $l_i \in \{0,1\}$ は第i番目のトークンが高リスクトークン（ $l_i = 1$ ）か低リスクトークン（ $l_i = 0$ ）かを示します。

目標は、高リスクスパンに高いパープレキシティを割り当てながら、高リスクコンテンツを条件とする可能性のある低リスクスパンに低いパープレキシティを保つモデルを訓練することです。

モデルアーキテクチャ

SLUNG核心思想

SLUNGの主要な革新は、異なるリスクレベルのトークンに異なる損失関数を適用することです：

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

ここで：

高リスクトークン（ $l_i = 1$ ）はカスタム損失関数 $f_\theta(x_i | x_{<i})$ を使用します
低リスクトークン（ $l_i = 0$ ）は標準的な最大尤度目標を使用します
すべてのトークンはモデルのコンテキストウィンドウ内に保持されます

2つの具体的な実装

1. Masked SLUNG 高リスクトークンに対して $f_\theta(x_i | x_{<i}) = 0$ を設定します。つまり、その生成損失をマスクしますが、トークンは注意メカニズムに対して可視のままです。

2. Unlikelihood SLUNG
高リスクトークンに対して $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ を適用し、モデルが高リスクトークンに高い確率を割り当てることを明示的に罰します。

技術的革新点

分離設計：事前学習段階で理解と生成能力の分離を初めて実現
コンテキスト保持：高リスクトークンは損失計算に参加しないか罰せられますが、コンテキストに残り、モデルがその表現を学習できるようにします
間接学習メカニズム：高リスクコンテンツに続く低リスクトークンを予測することを学ぶことで、モデルが高リスクコンテンツを理解することが強制されます
柔軟なフレームワーク：任意のリスク検出分類器と組み合わせて使用できます

基本モデル：OLMo 1B（チェックポイント737から継続事前学習）
訓練データ：Dolmaデータセットの最後の40億トークン+注入された毒性Redditドキュメント（約2.12億トークン、全体の5%）
毒性分類：FastText毒性分類器を使用し、コンテンツを「Not Toxic」「Possibly Toxic」「Definitely Toxic」の3つのカテゴリに分類

比較方法

Control (OLMo 1B)：毒性データに接触していない元のモデル
Low-risk Baseline：非毒性Redditコンテンツのみで訓練
Toxic Baseline：標準的な最大尤度を使用してすべてのデータ（毒性コンテンツを含む）で訓練
Masked SLUNG：「Definitely Toxic」および「Possibly Toxic」トークンの損失をマスク
Unlikelihood SLUNG：「Definitely Toxic」トークンにunlikelihood損失を適用

実験2：虚構実体の学習

データセット

TOFUデータセット：合成著者プロファイルを含むQ&Aペア
訓練設定：回答列のみで微調整し、実体名を高リスクトークンとしてマーク
目標：実体関連の事実を学習しながら、実体名の生成を回避

評価指標

毒性実験

生成評価：RealToxicityPromptsを使用してモデルが毒性コンテンツを生成する傾向を評価し、Perspective APIスコアで評価
理解評価：CivilCommentsデータセットで線形プローブを訓練し、モデルの隠れ状態の毒性分類能力（AUROC）を評価

実体学習実験

生成評価：モデル出力に実体名が含まれる割合を測定
理解評価：GPT-4oを使用してモデルが事実的な質問に正しく答える能力を評価

パレート最適性：SLUNGメソッドは理解-生成のトレードオフにおいてパレート最適フロンティアに達し、毒性理解能力を向上させながら毒性生成を低下させます
理解能力の向上：Masked SLUNGとUnlikelihood SLUNGのCivilCommentsでのAUROCはそれぞれ約0.825と0.820に達し、Controlベースラインの0.810を大幅に上回ります
生成安全性：両方のSLUNGメソッドの毒性生成スコアは約0.165に制御され、Toxic Baselineの0.175をはるかに下回ります
指示微調整後の効果の継続：指示微調整後も、SLUNGメソッドはパレート最適性を保ちます

データスケール効果

毒性データが20Mから320Mトークンに増加するにつれて：

Masked SLUNGは常に最良の理解-生成トレードオフを保ちます
理解能力はデータ量とともに線形に向上しますが、毒性生成の増加は遅いです
SLUNGの良好なスケーラビリティを証明します

実体学習実験結果

メソッド	名前生成率↓	完全正解率↑	部分正解率↑
OLMo 1B	57.5%	3.5%	15.5%
直接訓練	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

アブレーション実験

パープレキシティ分析

すべてのメソッドのDolmaドキュメント上のパープレキシティに有意な差がなく、SLUNGが一般的な言語モデリング能力を損なわないことを示しています
Masked SLUNGは非毒性Redditドキュメント上で最も低いパープレキシティを示します
Unlikelihood SLUNGはRedditドメインで比較的高いパープレキシティを示し、unlikelihood損失がそのドメインの生成分布に影響を与えた可能性があります