Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- ID статьи: 2505.03052
- Название: Teaching Models to Understand (but not Generate) High-risk Data
- Авторы: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
- Классификация: cs.CL cs.LG
- Конференция: COLM 2025
- Ссылка на статью: https://arxiv.org/abs/2505.03052
Разработчики языковых моделей обычно фильтруют высокорисковый контент — такой как токсичный или защищённый авторским правом текст — из данных предварительного обучения, чтобы предотвратить генерацию моделями аналогичных выходов. Однако полное удаление таких данных ограничивает способность моделей распознавать и надлежащим образом реагировать на вредоносный или чувствительный контент. В этой статье мы представляем Selective Loss to Understand but Not Generate (SLUNG) — парадигму предварительного обучения, посредством которой модели учатся понимать высокорисковые данные, не обучаясь их генерировать. Вместо равномерного применения потерь предсказания следующего токена SLUNG избирательно избегает стимулирования генерации высокорисковых токенов, обеспечивая их присутствие в контекстном окне модели. По мере того как модель учится предсказывать низкорисковые токены, следующие за высокорисковыми, она вынуждена понимать высокорисковый контент. Через наши эксперименты мы показываем, что SLUNG последовательно улучшает понимание моделями высокорисковых данных (например, способность распознавать токсичный контент) без увеличения их генерации (например, токсичность ответов модели). В целом, парадигма SLUNG позволяет моделям извлекать выгоду из высокорискового текста, который в противном случае был бы отфильтрован.
В современной разработке языковых моделей существует фундаментальное противоречие: чтобы предотвратить генерацию моделями вредоносного контента (такого как токсичный текст, защищённый авторским правом контент и т.д.), разработчики обычно фильтруют эти высокорисковые данные из данных предварительного обучения. Однако, хотя такой подход повышает безопасность модели, он ограничивает способность модели распознавать и надлежащим образом реагировать на вредоносный или чувствительный контент.
- Побочные эффекты фильтрации данных: полное удаление высокорисковых данных снижает способность модели понимать такой контент
- Связанность понимания и генерации: стандартная цель предсказания следующего токена по сути связывает способность модели к пониманию и генерации
- Требования практического развёртывания: в реальных приложениях модели должны быть способны распознавать и обрабатывать вредоносные запросы, что требует определённого понимания вредоносного контента
Авторы предлагают достичь "лучшего из обоих миров": обучить модель, которая одновременно может понимать высокорисковые данные и не будет генерировать такой контент. Это требует выхода за пределы стандартной цели предсказания следующего токена и разделения способности модели к пониманию и генерации.
- Предложение фреймворка SLUNG: новая парадигма предварительного обучения, реализующая разделение понимания и генерации через селективную функцию потерь
- Технические инновации: разработка дифференцированной стратегии обучения на основе уровня риска токена, включая две реализации — Masked SLUNG и Unlikelihood SLUNG
- Экспериментальная проверка: валидация метода в двух сценариях — понимание токсичного контента и обучение вымышленным сущностям
- Теоретический вклад: предоставление новой фреймворки и подходов для безопасной и способной разработки языковых моделей
Дан документ предварительного обучения X=(x1,x2,...,x∣X∣), где каждый токен имеет соответствующую бинарную метку (l1,l2,...,l∣X∣), где li∈{0,1} указывает, является ли i-й токен высокорисковым токеном (li=1) или низкорисковым токеном (li=0).
Цель состоит в обучении модели таким образом, чтобы она присваивала высокую перплексию высокорисковым спанам, одновременно поддерживая низкую перплексию для низкорисковых спанов, которые могут быть обусловлены высокорисковым контентом.
Ключевая инновация SLUNG заключается в применении различных функций потерь для токенов разных уровней риска:
L(θ,X)=−∑i=1∣X∣[1[li=1]fθ(xi∣x<i)+1[li=0]logpθ(xi∣x<i)]
где:
- Высокорисковые токены (li=1) используют пользовательскую функцию потерь fθ(xi∣x<i)
- Низкорисковые токены (li=0) используют стандартную цель максимального правдоподобия
- Все токены остаются в контекстном окне модели
1. Masked SLUNG
Установка fθ(xi∣x<i)=0 для высокорисковых токенов, то есть маскирование потерь генерации, но токены остаются видимыми для механизма внимания.
2. Unlikelihood SLUNG
Применение fθ(xi∣x<i)=log(1−pθ(xi∣x<i)) для высокорисковых токенов, явно штрафуя модель за присвоение высокой вероятности высокорисковым токенам.
- Дизайн разделения: первое достижение разделения способности к пониманию и генерации на этапе предварительного обучения
- Сохранение контекста: хотя высокорисковые токены не участвуют в вычислении потерь или штрафуются, они остаются в контексте, обеспечивая модели возможность изучить их представления
- Механизм косвенного обучения: путём обучения предсказанию низкорисковых токенов, следующих за высокорисковым контентом, модель вынуждена понимать высокорисковый контент
- Гибкая фреймворка: может использоваться с любым классификатором обнаружения риска
- Базовая модель: OLMo 1B (продолжение предварительного обучения с контрольной точки 737)
- Данные обучения: последние 4 миллиарда токенов исходного набора данных Dolma + внедрённые токсичные документы Reddit (примерно 212 миллионов токенов, составляющих 5%)
- Классификация токсичности: использование классификатора токсичности FastText, разделение контента на категории Not Toxic, Possibly Toxic и Definitely Toxic
- Control (OLMo 1B): исходная модель без доступа к токсичным данным
- Low-risk Baseline: обучение только на нетоксичном контенте Reddit
- Toxic Baseline: обучение на всех данных (включая токсичный контент) с использованием стандартного максимального правдоподобия
- Masked SLUNG: маскирование потерь для токенов Definitely Toxic и Possibly Toxic
- Unlikelihood SLUNG: применение потерь unlikelihood для токенов Definitely Toxic
- Набор данных TOFU: содержит синтетические профили авторов с парами вопрос-ответ
- Установка обучения: тонкая настройка только в столбце ответов, имена сущностей помечены как высокорисковые токены
- Цель: изучение фактов, связанных с сущностями, при избежании генерации имён сущностей
- Оценка генерации: использование RealToxicityPrompts для оценки склонности модели генерировать токсичный контент, оценка через Perspective API
- Оценка понимания: обучение линейного зонда на наборе данных CivilComments для оценки способности скрытых состояний модели к классификации токсичности (AUROC)
- Оценка генерации: измерение доли выходов модели, содержащих имена сущностей
- Оценка понимания: использование GPT-4o для оценки правильности ответов модели на вопросы о фактах
- Парето-оптимальность: метод SLUNG достигает парето-фронтира в компромиссе понимание-генерация, одновременно улучшая способность к пониманию токсичности и снижая генерацию токсичности
- Улучшение понимания: Masked SLUNG и Unlikelihood SLUNG достигают AUROC примерно 0.825 и 0.820 соответственно на наборе данных CivilComments, значительно превосходя базовый контроль с 0.810
- Безопасность генерации: обе версии SLUNG поддерживают оценку токсичности генерации около 0.165, значительно ниже Toxic Baseline с 0.175
- Сохранение эффекта после инструкционной тонкой настройки: методы SLUNG сохраняют парето-оптимальность даже после инструкционной тонкой настройки
По мере увеличения объёма токсичных данных с 20M до 320M токенов:
- Masked SLUNG последовательно поддерживает лучший компромисс понимание-генерация
- Способность к пониманию линейно улучшается с объёмом данных, но рост генерации токсичности медленный
- Демонстрирует хорошую масштабируемость SLUNG
| Метод | Частота генерации имён↓ | Полная правильность↑ | Частичная правильность↑ |
|---|
| OLMo 1B | 57.5% | 3.5% | 15.5% |
| Direct training | 34.3±9.2% | 28.2±0.6% | 51.4±0.7% |
| Masked SLUNG | 4.1±1.2% | 20.8±1.9% | 44.0±2.1% |
| Unlikelihood SLUNG | 1.5±0.7% | 22.3±2.1% | 43.6±3.2% |
- Все методы показывают незначительные различия в перплексии на документах Dolma, указывая на то, что SLUNG не повреждает способность к общему языковому моделированию
- Masked SLUNG показывает наименьшую перплексию на нетоксичном контенте Reddit
- Unlikelihood SLUNG показывает более высокую перплексию в домене Reddit, возможно, потому что потери unlikelihood влияют на распределение генерации в этом домене
В экспериментах TOFU модели SLUNG научились отвечать на вопросы, используя местоимения ("he", "she") или опуская подлежащее, успешно избегая генерации имён сущностей при сохранении фактической информации.
- Существующие работы в основном решают проблему высокорискового контента через фильтрацию
- Grattafiori et al. (2024), Soldaini et al. (2024) и другие применяют фильтрацию на уровне документа или спана
- Хотя эти методы повышают безопасность, они теряют разнообразие данных
- Unlikelihood training: штрафование высокой вероятности нежелательных последовательностей
- Контрастивное обучение: продвижение предпочтительных кандидатов через контраст
- RLHF: подавление вредоносной генерации через обратную связь от человека
- Эти методы в основном сосредоточены на подавлении генерации, не явно оценивая способность к пониманию
- Декодирование с направлением классификатора: использование вспомогательного классификатора для корректировки вероятностей генерации
- Методы управляющих токенов: обусловливание генерации специальными токенами
- DExperts: использование моделей "хороших" и "плохих" экспертов для направления генерации
- SLUNG успешно достигает разделения способности языковой модели к пониманию и генерации, предоставляя новую парадигму для безопасной разработки ИИ
- Метод показывает отличные результаты в двух различных сценариях — токсичный контент и обучение сущностям, доказывая его универсальность
- SLUNG позволяет моделям извлекать выгоду из высокорискового текста, который в противном случае был бы отфильтрован, повышая эффективность использования данных
- Ограничения вычислительного бюджета: эксперименты используют продолжение предварительного обучения, а не обучение с нуля, что может недооценивать полный потенциал метода
- Зависимость от классификатора: эффективность метода зависит от качества классификатора обнаружения риска
- Объём оценки: валидация в основном проведена на моделях с 1B параметрами, эффективность на больших моделях требует дальнейшей проверки
- Специфичность домена: Unlikelihood SLUNG может влиять на способность генерации в определённых доменах
- Полномасштабное предварительное обучение: оценка эффективности SLUNG в полной установке предварительного обучения
- Исследование устойчивости к атакам: изучение способности SLUNG противостоять атакам jailbreak
- Улучшение классификатора: разработка более точных систем обнаружения риска
- Теоретический анализ: углубленное понимание теоретических основ механизма разделения
- Высокая инновационность: первое достижение разделения понимания и генерации на этапе предварительного обучения, новаторский подход
- Высокая практическая ценность: решение важной проблемы в области безопасности ИИ с широкими перспективами применения
- Достаточные эксперименты: валидация в двух различных сценариях с множеством методов сравнения и абляционных экспериментов
- Простота метода: относительно простая реализация, легко воспроизводится и применяется
- Ясная теория: принципы механизма разделения ясно изложены, математическое выражение строго
- Ограничение масштаба: эксперименты в основном проведены на моделях малого масштаба, эффективность на больших моделях неизвестна
- Ограничения оценки: обнаружение токсичности зависит от конкретного классификатора, возможны смещения
- Долгосрочные эффекты: не оценены долгосрочные влияния метода на поведение модели
- Вычислительные издержки: требуется дополнительная аннотация риска, увеличивая затраты на предварительную обработку
- Академический вклад: предоставление новых идей для исследований безопасности ИИ, потенциально вдохновляющее последующие работы
- Практическая ценность: прямое руководство для разработки языковых моделей в промышленности
- Воспроизводимость: авторы обещают открыть исходный код, облегчая проверку и расширение сообществом
- Системы модерации контента: приложения, требующие распознавания, но не генерации вредоносного контента
- Защита авторских прав: сценарии изучения защищённого авторским правом контента без прямого копирования
- Обработка чувствительной информации: системы, понимающие, но не раскрывающие конфиденциальную информацию
- Образовательные приложения: сценарии, требующие понимания ненадлежащего контента в образовательных целях без его распространения
Статья цитирует множество важных работ, включая:
- Longpre et al. (2023): исследование влияния данных предварительного обучения на способности модели
- Welleck et al. (2019): оригинальная работа по Unlikelihood training
- Soldaini et al. (2024): построение и методы фильтрации набора данных Dolma
- Gehman et al. (2020): эталон оценки RealToxicityPrompts
Данная статья предоставляет важный методологический вклад в безопасное обучение языковых моделей, достигая разделения понимания и генерации через искусный дизайн функции потерь, закладывая основу для будущих исследований безопасного ИИ.