2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

Почему ваша языковая модель является плохой неявной моделью вознаграждения?

Основная информация

ID статьи: 2507.07981
Название: Why is Your Language Model a Poor Implicit Reward Model?
Авторы: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Принстонский университет, ‡Университет Иллинойса в Урбане-Шампейне)
Классификация: cs.CL cs.AI cs.LG stat.ML
Дата публикации/конференция: препринт arXiv (обновлено 16 октября 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2507.07981v2

Аннотация

Модели вознаграждения являются ключевым компонентом конвейеров постобучения и логического вывода языковых моделей. Недавние исследования показали, что каждая языковая модель определяет неявную модель вознаграждения (IM-RM) без каких-либо изменений архитектуры. Однако по сравнению с явными моделями вознаграждения (EX-RM), которые применяют специализированные линейные головы к скрытым представлениям языковой модели, IM-RM часто демонстрирует худшую способность к обобщению, особенно в распределениях вне области. Этот разрыв в обобщении озадачивает, поскольку EX-RM и IM-RM почти идентичны — они могут обучаться с использованием одних и тех же данных, функций потерь и языковой модели, различаясь только в способе вычисления вознаграждения. В данной статье проводится глубокое исследование коренных причин этого разрыва, выявляя, что IM-RM в большей степени зависит от поверхностных сигналов на уровне токенов и, следовательно, демонстрирует худшее обобщение как при распределениях токенов вне области, так и в распределениях внутри области по сравнению с EX-RM.

Исследовательский контекст и мотивация

Определение проблемы

Модели вознаграждения играют центральную роль в современной экосистеме языковых моделей и широко применяются в обучении с подкреплением, алгоритмах прямого выравнивания, отклонении выборок, фильтрации данных и расширении времени логического вывода. В настоящее время существуют два основных типа моделей вознаграждения:

Явная модель вознаграждения (EX-RM): применяет линейную голову к скрытым представлениям языковой модели для вычисления вознаграждения
Неявная модель вознаграждения (IM-RM): неявно определяет вознаграждение через логарифмическую вероятность языковой модели

Исследовательская мотивация

Несмотря на то, что EX-RM и IM-RM архитектурно почти идентичны, предыдущие исследования наблюдали, что IM-RM часто демонстрирует худшую способность к обобщению, особенно в сценариях вне области. Это явление озадачивает, поскольку обе модели могут обучаться на основе одной и той же языковой модели, используя одни и те же данные и функции потерь, с минимальными различиями только в способе вычисления вознаграждения.

Значимость

Понимание неявных смещений различных типов моделей вознаграждения имеет важное значение для:

выбора подходящей архитектуры модели вознаграждения
повышения надежности модели вознаграждения
оптимизации конвейера постобучения языковой модели

Основные вклады

Теоретический анализ: посредством анализа динамики обучения раскрывается, что IM-RM в большей степени зависит от сигналов на уровне токенов, тогда как EX-RM в основном обобщается через скрытые представления
Опровержение интуитивных предположений: доказывается, что проблемы обобщения IM-RM не вытекают из разрыва между генерацией и проверкой; обучение проверке не требует обучения генерации
Эмпирическая проверка: в контролируемых экспериментах и реальных сценариях проверяется, что IM-RM работает хуже при распределениях токенов вне области, но может работать сравнимо или лучше при смещении домена
Теоретические гарантии: в упрощенных условиях доказывается, что IM-RM не может обобщаться на невидимые токены, тогда как EX-RM может успешно обобщаться через хорошо структурированные скрытые представления

Детальное описание методов

Определение задачи

Исследование точности ранжирования моделей вознаграждения на данных предпочтений, то есть для пары подсказка-ответ (x, y+, y-), где y+ — предпочтительный ответ, y- — отклоненный ответ, оценивается, может ли модель вознаграждения правильно ранжировать: r(x, y+) > r(x, y-).

Архитектура модели

Явная модель вознаграждения (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

где u — параметры линейной головы, h_{x,y} — скрытое представление, созданное языковой моделью для пары подсказка-ответ (x, y).

Неявная модель вознаграждения (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

где β — фиксированный коэффициент, π_ref — эталонное распределение (обычно инициализированная языковая модель).

Технические инновации

1. Анализ динамики обучения

Посредством анализа того, как обновления градиента влияют на распределение вознаграждения, обнаруживается:

Динамика EX-RM:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

Динамика IM-RM:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

Ключевое открытие: изменение EX-RM зависит только от скрытых представлений, тогда как изменение IM-RM зависит от конкретных токенов, коэффициенты ρ_{k,l} отражают перекрытие токенов.

2. Теория разрыва обобщения

Теорема 2: в упрощенных условиях (ответы с одним токеном) IM-RM не может обобщаться на невидимые токены (точность остается на уровне 0,5), тогда как EX-RM может обобщаться через разделитель максимального запаса скрытых представлений.

Экспериментальная установка

Наборы данных

Контролируемые эксперименты:
- Набор данных Persona: задачи согласия/несогласия
- Проверка гамильтонова цикла: синтетическая задача теории графов
Реальные сценарии:
- UltraFeedback: универсальные данные диалога
- RewardMATH: данные математического рассуждения
- RewardBench: многодоменный эталон оценки

Метрики оценки

Точность: точность ранжирования на данных предпочтений
Абсолютная граница вознаграждения: нормализованное значение |r(x, y+) - r(x, y-)|

Методы сравнения

Явная модель вознаграждения (EX-RM)
Неявная модель вознаграждения (IM-RM)
Явная модель вознаграждения генерации (EX-GRM)

Детали реализации

Языковые модели: Pythia, Gemma-2, Qwen-2.5, серия Llama-3 (параметры 1B-8B)
Оптимизатор: Adam
Скорость обучения: 1e-6
Коэффициент β: 0,01 (для IM-RM)
Функция потерь: логарифмическая вероятность Брэдли-Терри

Результаты экспериментов

Основные результаты

1. Распределение токенов вне области

Обучение на UltraFeedback: EX-RM имеет коэффициент побед 83,4% при распределении токенов вне области, IM-RM — 16,6%
Обучение на RewardMATH: EX-RM имеет коэффициент побед 100% при распределении токенов вне области, IM-RM — 0%

2. Смещение домена

Обучение на UltraFeedback: при смещении домена коэффициент побед IM-RM составляет 66,7%, EX-RM — 33,3%
Обучение на RewardMATH: при смещении домена коэффициент побед IM-RM составляет 33,4%, EX-RM — 66,6%

3. Результаты контролируемых экспериментов

В задаче перефразирования набора данных Persona:

EX-RM достигает 100% точности как на исходных, так и на перефразированных ответах
IM-RM достигает 100% точности на исходных ответах, но только 2,2% точности на перефразированных ответах

Абляционные эксперименты

1. Проверка гипотезы генерации-проверки

Эксперимент с гамильтоновым циклом показывает:

Точность обучения IM-RM: 100%, точность тестирования: 99,3%
Количество правильно сгенерированных IM-RM: 0 (не может сгенерировать ни один правильный гамильтонов цикл)
Доказывает, что обучение проверке не требует обучения генерации

2. Проверка альтернативных гипотез

Протестированы варианты EX-RM на основе всех скрытых представлений
Протестированы варианты IM-RM без эталонного распределения
Результаты показывают, что разрыв в обобщении все еще существует

Экспериментальные находки

Чувствительность к токенам: IM-RM чрезвычайно чувствительна к изменениям поверхностных токенов, даже если они семантически идентичны
Обобщение скрытых представлений: EX-RM может успешно обобщаться через семантически богатые скрытые представления
Граница вознаграждения: EX-RM постоянно производит более высокие абсолютные границы вознаграждения, что благоприятно для оптимизации обучения с подкреплением
Адаптация к домену: IM-RM показывает лучшие результаты в некоторых сценариях смещения домена

Связанные работы

Анализ моделей вознаграждения

Существующие исследования в основном сосредоточены на границах сложности выборки и теоретических свойствах моделей вознаграждения, но меньше внимания уделяется влиянию различных способов параметризации на обобщение.

DPO vs RLHF

Данное исследование связано со сравнением DPO (Direct Preference Optimization) и RLHF (Reinforcement Learning from Human Feedback), но с другим фокусом: данная работа сосредоточена на способности обобщения модели вознаграждения, а не на сравнении алгоритмов обучения.

Динамика обучения нейронных сетей

Заимствует методы анализа траекторий обучения с градиентом из литературы по неявным смещениям, но применяет их к конкретному сценарию моделей вознаграждения.

Выводы и обсуждение

Основные выводы

Коренная причина: проблемы обобщения IM-RM вытекают из чрезмерной зависимости от поверхностных сигналов на уровне токенов, а не из разрыва между генерацией и проверкой
Влияние дизайна: кажущиеся незначительными выборы в дизайне (способ вычисления вознаграждения) могут оказать значительное влияние на поведение обобщения
Рекомендации по применению: в сценариях распределения токенов вне области следует отдавать предпочтение EX-RM, в сценариях смещения домена можно рассмотреть IM-RM

Ограничения

Теоретические предположения: теоретический анализ основан на упрощенных предположениях о фиксированных скрытых представлениях и ответах с одним токеном
Метрики оценки: в основном сосредоточены на точности, не охватывают все аспекты эффективности модели вознаграждения
Диапазон моделей: в основном исследуются три типа моделей вознаграждения, не охватывают все возможные варианты

Направления будущих исследований

Расширение теории: ослабление ограничивающих предположений текущего теоретического анализа
Исследование факторов: изучение других факторов, влияющих на обобщение различных типов моделей вознаграждения
Расширение оценки: разработка более комплексных критериев оценки моделей вознаграждения
Новые архитектуры: исследование неявных смещений других типов моделей вознаграждения

Глубокая оценка

Преимущества

Теоретическая глубина: обеспечивает строгий математический анализ, объясняющий разрыв в обобщении с точки зрения динамики обучения
Полнота экспериментов: сочетает контролируемые эксперименты и реальные сценарии, охватывает несколько языковых моделей и наборов данных
Проверка гипотез: систематически проверяет и опровергает интуитивные, но ошибочные объяснения
Практическая ценность: предоставляет четкие рекомендации по выбору модели вознаграждения в практических приложениях

Недостатки

Ограничения предположений: упрощенные предположения теоретического анализа могут ограничить универсальность выводов
Понимание механизмов: отсутствует глубокий анализ механизма, по которому IM-RM показывает лучшие результаты при смещении домена
Проверка масштаба: эксперименты в основном проводятся на моделях среднего и малого размера, выводы для крупномасштабных моделей требуют дальнейшей проверки

Влияние

Теоретический вклад: обеспечивает важную теоретическую основу для понимания поведения различных типов моделей вознаграждения
Практическое руководство: имеет прямое руководящее значение для применения таких технологий, как RLHF и DPO
Исследовательское вдохновение: открывает новые направления для дальнейшего исследования неявных смещений моделей вознаграждения

Применимые сценарии

Требования высокого качества: приложения, требующие стабильной производительности при распределении вне области
Задачи, чувствительные к токенам: сценарии, связанные с перефразированием, переводом и другими изменениями на уровне токенов
Критичность надежности: системы со строгими требованиями к надежности модели вознаграждения

Библиография

Статья цитирует большое количество связанных работ, включая:

Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

Общая оценка: это высококачественная исследовательская статья, которая посредством строгого теоретического анализа и комплексной экспериментальной проверки глубоко раскрывает коренные причины различий в способности обобщения различных типов моделей вознаграждения. Статья не только имеет важное теоретическое значение, но и предоставляет ценное руководство для практического применения. Методология исследования научна и строга, выводы убедительны, что делает эту работу важным вкладом в область исследования моделей вознаграждения.