2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.
Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
academic

高リスクデータの理解(ただし生成ではない)をモデルに教える

基本情報

  • 論文ID: 2505.03052
  • タイトル: Teaching Models to Understand (but not Generate) High-risk Data
  • 著者: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
  • 分類: cs.CL cs.LG
  • 発表会議: COLM 2025
  • 論文リンク: https://arxiv.org/abs/2505.03052

要約

言語モデル開発者は通常、毒性テキストや著作権保護されたテキストなどの高リスクコンテンツを事前学習データから除外し、モデルが同様の出力を生成することを防いでいます。しかし、そのようなデータを完全に削除することは、有害または機密コンテンツを認識し、適切に対応するモデルの能力を制限しています。本論文では、Selective Loss to Understand but Not Generate(SLUNG)を紹介します。これは、モデルが高リスクデータを理解しながら、それを生成することを学ばない事前学習パラダイムです。次トークン予測損失を均一に適用する代わりに、SLUNGは高リスクトークンの生成を促進することを選択的に回避しながら、それらがモデルのコンテキストウィンドウ内に留まることを保証します。モデルが高リスクトークンに続く低リスクトークンを予測することを学ぶにつれて、高リスクコンテンツを理解することが強制されます。実験を通じて、SLUNGが高リスクデータの理解(例えば、毒性コンテンツを認識する能力)を一貫して向上させ、その生成(例えば、モデル応答の毒性)を増加させないことを示します。全体として、SLUNGパラダイムにより、モデルはそれ以外の場合は除外されるであろう高リスクテキストから利益を得ることができます。

研究背景と動機

問題背景

現在の言語モデル開発には根本的な矛盾が存在します。有害なコンテンツ(毒性テキスト、著作権保護されたコンテンツなど)の生成を防ぐために、開発者は通常、事前学習データからこれらの高リスクコンテンツを除外しています。しかし、この方法はモデルの安全性を向上させる一方で、有害または機密コンテンツを認識し、適切に対応するモデルの能力を制限しています。

核心的な問題

  1. データフィルタリングの副作用:高リスクデータを完全に削除すると、モデルのこのようなコンテンツに対する理解能力が低下します
  2. 理解と生成の結合:従来の次トークン予測目標は、本質的にモデルの理解能力と生成能力を結合しています
  3. 実際の展開ニーズ:実際のアプリケーションでは、モデルは有害なリクエストを識別および処理できる必要があり、これには有害なコンテンツに対する一定の理解が必要です

研究動機

著者は「両方の利点を得る」効果を達成することを提案しています。つまり、高リスクデータを理解しながら、このようなコンテンツを生成しないモデルを訓練することです。これには、標準的な次トークン予測目標を超えて、モデルの理解能力と生成能力を分離する必要があります。

核心的貢献

  1. SLUNGフレームワークの提案:選択的損失関数を通じて理解と生成の分離を実現する新しい事前学習パラダイム
  2. 技術的革新:トークンのリスクレベルに基づいた差別化された訓練戦略の設計。Masked SLUNGとUnlikelihood SLUNGの2つの実装を含む
  3. 実験検証:毒性コンテンツの理解と虚構実体の学習という2つのシナリオでメソッドの有効性を検証
  4. 理論的貢献:安全で能力のある言語モデル開発のための新しいフレームワークと思考を提供

方法の詳細説明

タスク定義

事前学習ドキュメント X=(x1,x2,...,xX)X = (x_1, x_2, ..., x_{|X|}) が与えられ、各トークンは対応する二値ラベル (l1,l2,...,lX)(l_1, l_2, ..., l_{|X|}) を持ちます。ここで li{0,1}l_i \in \{0,1\} は第i番目のトークンが高リスクトークン(li=1l_i = 1)か低リスクトークン(li=0l_i = 0)かを示します。

目標は、高リスクスパンに高いパープレキシティを割り当てながら、高リスクコンテンツを条件とする可能性のある低リスクスパンに低いパープレキシティを保つモデルを訓練することです。

モデルアーキテクチャ

SLUNG核心思想

SLUNGの主要な革新は、異なるリスクレベルのトークンに異なる損失関数を適用することです:

L(θ,X)=i=1X[1[li=1]fθ(xix<i)+1[li=0]logpθ(xix<i)]L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]

ここで:

  • 高リスクトークン(li=1l_i = 1)はカスタム損失関数 fθ(xix<i)f_\theta(x_i | x_{<i}) を使用します
  • 低リスクトークン(li=0l_i = 0)は標準的な最大尤度目標を使用します
  • すべてのトークンはモデルのコンテキストウィンドウ内に保持されます

2つの具体的な実装

1. Masked SLUNG 高リスクトークンに対して fθ(xix<i)=0f_\theta(x_i | x_{<i}) = 0 を設定します。つまり、その生成損失をマスクしますが、トークンは注意メカニズムに対して可視のままです。

2. Unlikelihood SLUNG
高リスクトークンに対して fθ(xix<i)=log(1pθ(xix<i))f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i})) を適用し、モデルが高リスクトークンに高い確率を割り当てることを明示的に罰します。

技術的革新点

  1. 分離設計:事前学習段階で理解と生成能力の分離を初めて実現
  2. コンテキスト保持:高リスクトークンは損失計算に参加しないか罰せられますが、コンテキストに残り、モデルがその表現を学習できるようにします
  3. 間接学習メカニズム:高リスクコンテンツに続く低リスクトークンを予測することを学ぶことで、モデルが高リスクコンテンツを理解することが強制されます
  4. 柔軟なフレームワーク:任意のリスク検出分類器と組み合わせて使用できます

実験設定

実験1:毒性コンテンツの理解

データセット

  • 基本モデル:OLMo 1B(チェックポイント737から継続事前学習)
  • 訓練データ:Dolmaデータセットの最後の40億トークン+注入された毒性Redditドキュメント(約2.12億トークン、全体の5%)
  • 毒性分類:FastText毒性分類器を使用し、コンテンツを「Not Toxic」「Possibly Toxic」「Definitely Toxic」の3つのカテゴリに分類

比較方法

  • Control (OLMo 1B):毒性データに接触していない元のモデル
  • Low-risk Baseline:非毒性Redditコンテンツのみで訓練
  • Toxic Baseline:標準的な最大尤度を使用してすべてのデータ(毒性コンテンツを含む)で訓練
  • Masked SLUNG:「Definitely Toxic」および「Possibly Toxic」トークンの損失をマスク
  • Unlikelihood SLUNG:「Definitely Toxic」トークンにunlikelihood損失を適用

実験2:虚構実体の学習

データセット

  • TOFUデータセット:合成著者プロファイルを含むQ&Aペア
  • 訓練設定:回答列のみで微調整し、実体名を高リスクトークンとしてマーク
  • 目標:実体関連の事実を学習しながら、実体名の生成を回避

評価指標

毒性実験

  • 生成評価:RealToxicityPromptsを使用してモデルが毒性コンテンツを生成する傾向を評価し、Perspective APIスコアで評価
  • 理解評価:CivilCommentsデータセットで線形プローブを訓練し、モデルの隠れ状態の毒性分類能力(AUROC)を評価

実体学習実験

  • 生成評価:モデル出力に実体名が含まれる割合を測定
  • 理解評価:GPT-4oを使用してモデルが事実的な質問に正しく答える能力を評価

実験結果

主要な結果

毒性実験の核心的発見

  1. パレート最適性:SLUNGメソッドは理解-生成のトレードオフにおいてパレート最適フロンティアに達し、毒性理解能力を向上させながら毒性生成を低下させます
  2. 理解能力の向上:Masked SLUNGとUnlikelihood SLUNGのCivilCommentsでのAUROCはそれぞれ約0.825と0.820に達し、Controlベースラインの0.810を大幅に上回ります
  3. 生成安全性:両方のSLUNGメソッドの毒性生成スコアは約0.165に制御され、Toxic Baselineの0.175をはるかに下回ります
  4. 指示微調整後の効果の継続:指示微調整後も、SLUNGメソッドはパレート最適性を保ちます

データスケール効果

毒性データが20Mから320Mトークンに増加するにつれて:

  • Masked SLUNGは常に最良の理解-生成トレードオフを保ちます
  • 理解能力はデータ量とともに線形に向上しますが、毒性生成の増加は遅いです
  • SLUNGの良好なスケーラビリティを証明します

実体学習実験結果

メソッド名前生成率↓完全正解率↑部分正解率↑
OLMo 1B57.5%3.5%15.5%
直接訓練34.3±9.2%28.2±0.6%51.4±0.7%
Masked SLUNG4.1±1.2%20.8±1.9%44.0±2.1%
Unlikelihood SLUNG1.5±0.7%22.3±2.1%43.6±3.2%

アブレーション実験

パープレキシティ分析

  • すべてのメソッドのDolmaドキュメント上のパープレキシティに有意な差がなく、SLUNGが一般的な言語モデリング能力を損なわないことを示しています
  • Masked SLUNGは非毒性Redditドキュメント上で最も低いパープレキシティを示します
  • Unlikelihood SLUNGはRedditドメインで比較的高いパープレキシティを示し、unlikelihood損失がそのドメインの生成分布に影響を与えた可能性があります

ケース分析

TOFU実験では、SLUNGモデルは代名詞(「he」「she」)を使用するか、主語を省略する方法で質問に答えることを学び、実体名の生成を成功裏に回避しながら事実情報を保持しました。

関連研究

データフィルタリングと高リスクデータ処理

  • 既存の研究は主にフィルタリングによって高リスクコンテンツの問題に対処しています
  • Grattafiori et al. (2024)、Soldaini et al. (2024)などはドキュメントレベルまたはスパンレベルのフィルタリングを採用しています
  • これらのメソッドは安全性を向上させますが、データの多様性を失います

不良生成を防ぐ訓練メソッド

  • Unlikelihood訓練:不良シーケンスの高い確率を罰します
  • 対比学習:対比によって優先候補を促進します
  • RLHF:人間のフィードバックを通じて有害な生成を抑制します
  • これらのメソッドは主に生成の抑制に焦点を当て、理解能力を明示的に評価していません

デコード時メソッド

  • 分類器ガイド付きデコード:補助分類器を使用して生成確率を調整します
  • 制御トークンメソッド:特殊トークンを通じて生成を条件化します
  • DExperts:「良い」と「悪い」専門家モデルを使用して生成をガイドします

結論と議論

主要な結論

  1. SLUNGは言語モデルの理解と生成能力の分離を成功裏に実現し、安全なAI開発のための新しいパラダイムを提供します
  2. このメソッドは毒性コンテンツと実体学習という2つの異なるシナリオで優れた性能を示し、その汎用性を証明しています
  3. SLUNGにより、モデルはそれ以外の場合は除外されるであろう高リスクテキストから利益を得ることができ、データ利用効率を向上させます

制限事項

  1. 計算予算の制限:実験は最初からの訓練ではなく継続事前学習を採用しており、メソッドの完全な可能性を過小評価している可能性があります
  2. 分類器への依存:メソッドの効果はリスク検出分類器の品質に依存しています
  3. 評価範囲:主に1Bパラメータモデルで検証され、大規模モデルの効果は検証が必要です
  4. ドメイン特異性:Unlikelihood SLUNGは特定のドメインの生成能力に影響を与える可能性があります

今後の方向性

  1. 大規模事前学習:完全な事前学習設定でSLUNGの効果を評価します
  2. 攻撃耐性研究:SLUNGのjailbreak攻撃への耐性を探索します
  3. 分類器改善:より正確なリスク検出システムを開発します
  4. 理論分析:分離メカニズムの理論的基礎を深く理解します

深い評価

利点

  1. 革新性が強い:事前学習段階で理解と生成の分離を初めて実現し、思考が新しいです
  2. 実用価値が高い:AI安全分野の重要な問題を解決し、広い応用前景があります
  3. 実験が充分:2つの異なるシナリオで検証し、複数の比較メソッドとアブレーション実験を含みます
  4. メソッドが簡潔:実装が比較的簡単で、再現と応用が容易です
  5. 理論が明確:分離メカニズムの原理の説明が明確で、数学的表現が厳密です

不足

  1. スケール制限:実験は主に小規模モデルで実施され、大規模モデルの効果は不明です
  2. 評価の制限:毒性検出は特定の分類器に依存し、偏りが存在する可能性があります
  3. 長期効果:メソッドがモデルの長期的な行動に与える影響は評価されていません
  4. 計算オーバーヘッド:追加のリスク注釈が必要で、前処理コストが増加します

影響力

  1. 学術的貢献:AI安全研究に新しい思考を提供し、後続の研究を刺激する可能性があります
  2. 実用価値:産業界の言語モデル開発に直接的な指導意義があります
  3. 再現性:著者がコードのオープンソース化を約束し、コミュニティの検証と拡張を便利にします

適用シナリオ

  1. コンテンツモデレーションシステム:有害なコンテンツを識別する必要があるが生成しないアプリケーション
  2. 著作権保護:著作権コンテンツを学習しながら直接コピーを回避するシナリオ
  3. 機密情報処理:プライバシー情報を理解しながら漏らさないシステム
  4. 教育アプリケーション:不適切なコンテンツを理解して教育するが伝播しないシーン

参考文献

論文は複数の重要な研究を引用しており、以下を含みます:

  • Longpre et al. (2023):事前学習データがモデル能力に与える影響に関する研究
  • Welleck et al. (2019):Unlikelihood訓練の元の研究
  • Soldaini et al. (2024):Dolmaデータセットの構築とフィルタリング方法
  • Gehman et al. (2020):RealToxicityPromptsの評価ベンチマーク

本論文は言語モデルの安全な訓練に重要な方法論的貢献を提供し、巧妙な損失関数設計を通じて理解と生成の分離を実現し、将来の安全なAI研究の基礎を築いています。