2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Teaching Models to Understand (but not Generate) High-risk Data

基本信息

论文ID: 2505.03052
标题: Teaching Models to Understand (but not Generate) High-risk Data
作者: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
分类: cs.CL cs.LG
发表会议: COLM 2025
论文链接: https://arxiv.org/abs/2505.03052

摘要

研究背景与动机

问题背景

当前语言模型开发中存在一个根本矛盾：为了防止模型生成有害内容（如毒性文本、版权内容等），开发者通常会从预训练数据中过滤掉这些高风险内容。然而，这种做法虽然提高了模型的安全性，却限制了模型识别和适当响应有害或敏感内容的能力。

核心问题

数据过滤的副作用：完全移除高风险数据会降低模型对这类内容的理解能力
理解与生成的耦合：传统的下一token预测目标本质上将模型的理解能力和生成能力耦合在一起
现实部署需求：实际应用中，模型需要能够识别和处理有害请求，但这需要对有害内容有一定理解

研究动机

作者提出要获得"两全其美"的效果：训练出既能理解高风险数据又不会生成这类内容的模型。这需要超越标准的下一token预测目标，将模型的理解能力和生成能力解耦。

核心贡献

提出SLUNG框架：一种新的预训练范式，通过选择性损失函数实现理解与生成的解耦
技术创新：设计了基于token风险级别的差异化训练策略，包括Masked SLUNG和Unlikelihood SLUNG两种实现
实验验证：在毒性内容理解和虚构实体学习两个场景下验证了方法的有效性
理论贡献：为安全且有能力的语言模型开发提供了新的框架和思路

其中：

高风险token（ $l_i = 1$ ）使用自定义损失函数 $f_\theta(x_i | x_{<i})$
低风险token（ $l_i = 0$ ）使用标准最大似然目标
所有token都保留在模型的上下文窗口中

两种具体实现

1. Masked SLUNG 对高风险token设置 $f_\theta(x_i | x_{<i}) = 0$ ，即屏蔽其生成损失，但token仍然对注意力机制可见。

2. Unlikelihood SLUNG
对高风险token应用 $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ ，显式惩罚模型对高风险token分配高概率。

技术创新点

解耦设计：首次在预训练阶段实现理解与生成能力的解耦
上下文保持：高风险token虽然不参与损失计算或被惩罚，但仍在上下文中，确保模型能学习其表示
间接学习机制：通过学习预测跟随高风险内容的低风险token，强制模型理解高风险内容
灵活框架：可以与任何风险检测分类器配合使用

基础模型：OLMo 1B（从checkpoint 737开始继续预训练）
训练数据：原始Dolma数据集的最后40亿token + 注入的毒性Reddit文档（约2.12亿token，占5%）
毒性分类：使用FastText毒性分类器，将内容分为Not Toxic、Possibly Toxic和Definitely Toxic三类

对比方法

Control (OLMo 1B)：未接触毒性数据的原始模型
Low-risk Baseline：仅在非毒性Reddit内容上训练
Toxic Baseline：在所有数据（包括毒性内容）上使用标准最大似然训练
Masked SLUNG：对Definitely Toxic和Possibly Toxic token屏蔽损失
Unlikelihood SLUNG：对Definitely Toxic token应用unlikelihood损失

实验二：虚构实体学习

数据集

TOFU数据集：包含合成作者档案的问答对
训练设置：仅在答案列进行微调，实体名称被标记为高风险token
目标：学习实体相关事实但避免生成实体名称

评价指标

毒性实验

生成评估：使用RealToxicityPrompts评估模型生成毒性内容的倾向，通过Perspective API评分
理解评估：在CivilComments数据集上训练线性探针，评估模型隐藏状态的毒性分类能力（AUROC）

实体学习实验

生成评估：测量模型输出实体名称的比例
理解评估：使用GPT-4o评估模型回答事实性问题的正确性

帕累托最优：SLUNG方法在理解-生成权衡中达到帕累托前沿，既提高了毒性理解能力又降低了毒性生成
理解能力提升：Masked SLUNG和Unlikelihood SLUNG在CivilComments上的AUROC分别达到约0.825和0.820，显著优于Control基线的0.810
生成安全性：两种SLUNG方法的毒性生成分数都控制在0.165左右，远低于Toxic Baseline的0.175
指令微调后效果持续：经过指令微调后，SLUNG方法仍然保持帕累托最优性

数据规模效应

随着毒性数据量从20M增加到320M token：

Masked SLUNG始终保持最佳的理解-生成权衡
理解能力随数据量线性提升，但生成毒性增长缓慢
证明了SLUNG的良好扩展性

实体学习实验结果

方法	名称生成率↓	完全正确率↑	部分正确率↑
OLMo 1B	57.5%	3.5%	15.5%
Direct training	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%