2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Обучение моделей пониманию (но не генерации) высокорисковых данных

Основная информация

ID статьи: 2505.03052
Название: Teaching Models to Understand (but not Generate) High-risk Data
Авторы: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
Классификация: cs.CL cs.LG
Конференция: COLM 2025
Ссылка на статью: https://arxiv.org/abs/2505.03052

Аннотация

Разработчики языковых моделей обычно фильтруют высокорисковый контент — такой как токсичный или защищённый авторским правом текст — из данных предварительного обучения, чтобы предотвратить генерацию моделями аналогичных выходов. Однако полное удаление таких данных ограничивает способность моделей распознавать и надлежащим образом реагировать на вредоносный или чувствительный контент. В этой статье мы представляем Selective Loss to Understand but Not Generate (SLUNG) — парадигму предварительного обучения, посредством которой модели учатся понимать высокорисковые данные, не обучаясь их генерировать. Вместо равномерного применения потерь предсказания следующего токена SLUNG избирательно избегает стимулирования генерации высокорисковых токенов, обеспечивая их присутствие в контекстном окне модели. По мере того как модель учится предсказывать низкорисковые токены, следующие за высокорисковыми, она вынуждена понимать высокорисковый контент. Через наши эксперименты мы показываем, что SLUNG последовательно улучшает понимание моделями высокорисковых данных (например, способность распознавать токсичный контент) без увеличения их генерации (например, токсичность ответов модели). В целом, парадигма SLUNG позволяет моделям извлекать выгоду из высокорискового текста, который в противном случае был бы отфильтрован.

Исследовательский контекст и мотивация

Проблемный контекст

В современной разработке языковых моделей существует фундаментальное противоречие: чтобы предотвратить генерацию моделями вредоносного контента (такого как токсичный текст, защищённый авторским правом контент и т.д.), разработчики обычно фильтруют эти высокорисковые данные из данных предварительного обучения. Однако, хотя такой подход повышает безопасность модели, он ограничивает способность модели распознавать и надлежащим образом реагировать на вредоносный или чувствительный контент.

Основные проблемы

Побочные эффекты фильтрации данных: полное удаление высокорисковых данных снижает способность модели понимать такой контент
Связанность понимания и генерации: стандартная цель предсказания следующего токена по сути связывает способность модели к пониманию и генерации
Требования практического развёртывания: в реальных приложениях модели должны быть способны распознавать и обрабатывать вредоносные запросы, что требует определённого понимания вредоносного контента

Исследовательская мотивация

Авторы предлагают достичь "лучшего из обоих миров": обучить модель, которая одновременно может понимать высокорисковые данные и не будет генерировать такой контент. Это требует выхода за пределы стандартной цели предсказания следующего токена и разделения способности модели к пониманию и генерации.

Основные вклады

Предложение фреймворка SLUNG: новая парадигма предварительного обучения, реализующая разделение понимания и генерации через селективную функцию потерь
Технические инновации: разработка дифференцированной стратегии обучения на основе уровня риска токена, включая две реализации — Masked SLUNG и Unlikelihood SLUNG
Экспериментальная проверка: валидация метода в двух сценариях — понимание токсичного контента и обучение вымышленным сущностям
Теоретический вклад: предоставление новой фреймворки и подходов для безопасной и способной разработки языковых моделей

Детальное описание метода

Определение задачи

Дан документ предварительного обучения $X = (x_1, x_2, ..., x_{|X|})$ , где каждый токен имеет соответствующую бинарную метку $(l_1, l_2, ..., l_{|X|})$ , где $l_i \in \{0,1\}$ указывает, является ли i-й токен высокорисковым токеном ( $l_i = 1$ ) или низкорисковым токеном ( $l_i = 0$ ).

Цель состоит в обучении модели таким образом, чтобы она присваивала высокую перплексию высокорисковым спанам, одновременно поддерживая низкую перплексию для низкорисковых спанов, которые могут быть обусловлены высокорисковым контентом.

Архитектура модели

Основная идея SLUNG

Ключевая инновация SLUNG заключается в применении различных функций потерь для токенов разных уровней риска:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

где:

Высокорисковые токены ( $l_i = 1$ ) используют пользовательскую функцию потерь $f_\theta(x_i | x_{<i})$
Низкорисковые токены ( $l_i = 0$ ) используют стандартную цель максимального правдоподобия
Все токены остаются в контекстном окне модели

Две конкретные реализации

1. Masked SLUNG Установка $f_\theta(x_i | x_{<i}) = 0$ для высокорисковых токенов, то есть маскирование потерь генерации, но токены остаются видимыми для механизма внимания.

2. Unlikelihood SLUNG
Применение $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ для высокорисковых токенов, явно штрафуя модель за присвоение высокой вероятности высокорисковым токенам.

Технические инновационные моменты

Дизайн разделения: первое достижение разделения способности к пониманию и генерации на этапе предварительного обучения
Сохранение контекста: хотя высокорисковые токены не участвуют в вычислении потерь или штрафуются, они остаются в контексте, обеспечивая модели возможность изучить их представления
Механизм косвенного обучения: путём обучения предсказанию низкорисковых токенов, следующих за высокорисковым контентом, модель вынуждена понимать высокорисковый контент
Гибкая фреймворка: может использоваться с любым классификатором обнаружения риска

Экспериментальная установка

Эксперимент 1: Понимание токсичного контента

Набор данных

Базовая модель: OLMo 1B (продолжение предварительного обучения с контрольной точки 737)
Данные обучения: последние 4 миллиарда токенов исходного набора данных Dolma + внедрённые токсичные документы Reddit (примерно 212 миллионов токенов, составляющих 5%)
Классификация токсичности: использование классификатора токсичности FastText, разделение контента на категории Not Toxic, Possibly Toxic и Definitely Toxic

Методы сравнения

Control (OLMo 1B): исходная модель без доступа к токсичным данным
Low-risk Baseline: обучение только на нетоксичном контенте Reddit
Toxic Baseline: обучение на всех данных (включая токсичный контент) с использованием стандартного максимального правдоподобия
Masked SLUNG: маскирование потерь для токенов Definitely Toxic и Possibly Toxic
Unlikelihood SLUNG: применение потерь unlikelihood для токенов Definitely Toxic

Эксперимент 2: Обучение вымышленным сущностям

Набор данных

Набор данных TOFU: содержит синтетические профили авторов с парами вопрос-ответ
Установка обучения: тонкая настройка только в столбце ответов, имена сущностей помечены как высокорисковые токены
Цель: изучение фактов, связанных с сущностями, при избежании генерации имён сущностей

Метрики оценки

Эксперименты с токсичностью

Оценка генерации: использование RealToxicityPrompts для оценки склонности модели генерировать токсичный контент, оценка через Perspective API
Оценка понимания: обучение линейного зонда на наборе данных CivilComments для оценки способности скрытых состояний модели к классификации токсичности (AUROC)

Эксперименты с обучением сущностям

Оценка генерации: измерение доли выходов модели, содержащих имена сущностей
Оценка понимания: использование GPT-4o для оценки правильности ответов модели на вопросы о фактах

Результаты экспериментов

Основные результаты

Ключевые находки экспериментов с токсичностью

Парето-оптимальность: метод SLUNG достигает парето-фронтира в компромиссе понимание-генерация, одновременно улучшая способность к пониманию токсичности и снижая генерацию токсичности
Улучшение понимания: Masked SLUNG и Unlikelihood SLUNG достигают AUROC примерно 0.825 и 0.820 соответственно на наборе данных CivilComments, значительно превосходя базовый контроль с 0.810
Безопасность генерации: обе версии SLUNG поддерживают оценку токсичности генерации около 0.165, значительно ниже Toxic Baseline с 0.175
Сохранение эффекта после инструкционной тонкой настройки: методы SLUNG сохраняют парето-оптимальность даже после инструкционной тонкой настройки

Эффект масштаба данных

По мере увеличения объёма токсичных данных с 20M до 320M токенов:

Masked SLUNG последовательно поддерживает лучший компромисс понимание-генерация
Способность к пониманию линейно улучшается с объёмом данных, но рост генерации токсичности медленный
Демонстрирует хорошую масштабируемость SLUNG

Результаты экспериментов с обучением сущностям

Метод	Частота генерации имён↓	Полная правильность↑	Частичная правильность↑
OLMo 1B	57.5%	3.5%	15.5%
Direct training	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

Абляционные эксперименты

Анализ перплексии

Все методы показывают незначительные различия в перплексии на документах Dolma, указывая на то, что SLUNG не повреждает способность к общему языковому моделированию
Masked SLUNG показывает наименьшую перплексию на нетоксичном контенте Reddit
Unlikelihood SLUNG показывает более высокую перплексию в домене Reddit, возможно, потому что потери unlikelihood влияют на распределение генерации в этом домене

Анализ примеров

В экспериментах TOFU модели SLUNG научились отвечать на вопросы, используя местоимения ("he", "she") или опуская подлежащее, успешно избегая генерации имён сущностей при сохранении фактической информации.

Связанные работы

Фильтрация данных и обработка высокорисковых данных

Существующие работы в основном решают проблему высокорискового контента через фильтрацию
Grattafiori et al. (2024), Soldaini et al. (2024) и другие применяют фильтрацию на уровне документа или спана
Хотя эти методы повышают безопасность, они теряют разнообразие данных

Методы обучения для предотвращения нежелательной генерации

Unlikelihood training: штрафование высокой вероятности нежелательных последовательностей
Контрастивное обучение: продвижение предпочтительных кандидатов через контраст
RLHF: подавление вредоносной генерации через обратную связь от человека
Эти методы в основном сосредоточены на подавлении генерации, не явно оценивая способность к пониманию

Методы на этапе декодирования

Декодирование с направлением классификатора: использование вспомогательного классификатора для корректировки вероятностей генерации
Методы управляющих токенов: обусловливание генерации специальными токенами
DExperts: использование моделей "хороших" и "плохих" экспертов для направления генерации

Заключение и обсуждение

Основные выводы

SLUNG успешно достигает разделения способности языковой модели к пониманию и генерации, предоставляя новую парадигму для безопасной разработки ИИ
Метод показывает отличные результаты в двух различных сценариях — токсичный контент и обучение сущностям, доказывая его универсальность
SLUNG позволяет моделям извлекать выгоду из высокорискового текста, который в противном случае был бы отфильтрован, повышая эффективность использования данных

Ограничения

Ограничения вычислительного бюджета: эксперименты используют продолжение предварительного обучения, а не обучение с нуля, что может недооценивать полный потенциал метода
Зависимость от классификатора: эффективность метода зависит от качества классификатора обнаружения риска
Объём оценки: валидация в основном проведена на моделях с 1B параметрами, эффективность на больших моделях требует дальнейшей проверки
Специфичность домена: Unlikelihood SLUNG может влиять на способность генерации в определённых доменах

Направления будущих исследований

Полномасштабное предварительное обучение: оценка эффективности SLUNG в полной установке предварительного обучения
Исследование устойчивости к атакам: изучение способности SLUNG противостоять атакам jailbreak
Улучшение классификатора: разработка более точных систем обнаружения риска
Теоретический анализ: углубленное понимание теоретических основ механизма разделения

Глубокая оценка

Преимущества

Высокая инновационность: первое достижение разделения понимания и генерации на этапе предварительного обучения, новаторский подход
Высокая практическая ценность: решение важной проблемы в области безопасности ИИ с широкими перспективами применения
Достаточные эксперименты: валидация в двух различных сценариях с множеством методов сравнения и абляционных экспериментов
Простота метода: относительно простая реализация, легко воспроизводится и применяется
Ясная теория: принципы механизма разделения ясно изложены, математическое выражение строго

Недостатки

Ограничение масштаба: эксперименты в основном проведены на моделях малого масштаба, эффективность на больших моделях неизвестна
Ограничения оценки: обнаружение токсичности зависит от конкретного классификатора, возможны смещения
Долгосрочные эффекты: не оценены долгосрочные влияния метода на поведение модели
Вычислительные издержки: требуется дополнительная аннотация риска, увеличивая затраты на предварительную обработку

Влияние

Академический вклад: предоставление новых идей для исследований безопасности ИИ, потенциально вдохновляющее последующие работы
Практическая ценность: прямое руководство для разработки языковых моделей в промышленности
Воспроизводимость: авторы обещают открыть исходный код, облегчая проверку и расширение сообществом

Применимые сценарии

Системы модерации контента: приложения, требующие распознавания, но не генерации вредоносного контента
Защита авторских прав: сценарии изучения защищённого авторским правом контента без прямого копирования
Обработка чувствительной информации: системы, понимающие, но не раскрывающие конфиденциальную информацию
Образовательные приложения: сценарии, требующие понимания ненадлежащего контента в образовательных целях без его распространения

Библиография

Статья цитирует множество важных работ, включая:

Longpre et al. (2023): исследование влияния данных предварительного обучения на способности модели
Welleck et al. (2019): оригинальная работа по Unlikelihood training
Soldaini et al. (2024): построение и методы фильтрации набора данных Dolma
Gehman et al. (2020): эталон оценки RealToxicityPrompts

Данная статья предоставляет важный методологический вклад в безопасное обучение языковых моделей, достигая разделения понимания и генерации через искусный дизайн функции потерь, закладывая основу для будущих исследований безопасного ИИ.