Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic
Почему ваша языковая модель является плохой неявной моделью вознаграждения?
Модели вознаграждения являются ключевым компонентом конвейеров постобучения и логического вывода языковых моделей. Недавние исследования показали, что каждая языковая модель определяет неявную модель вознаграждения (IM-RM) без каких-либо изменений архитектуры. Однако по сравнению с явными моделями вознаграждения (EX-RM), которые применяют специализированные линейные головы к скрытым представлениям языковой модели, IM-RM часто демонстрирует худшую способность к обобщению, особенно в распределениях вне области. Этот разрыв в обобщении озадачивает, поскольку EX-RM и IM-RM почти идентичны — они могут обучаться с использованием одних и тех же данных, функций потерь и языковой модели, различаясь только в способе вычисления вознаграждения. В данной статье проводится глубокое исследование коренных причин этого разрыва, выявляя, что IM-RM в большей степени зависит от поверхностных сигналов на уровне токенов и, следовательно, демонстрирует худшее обобщение как при распределениях токенов вне области, так и в распределениях внутри области по сравнению с EX-RM.
Модели вознаграждения играют центральную роль в современной экосистеме языковых моделей и широко применяются в обучении с подкреплением, алгоритмах прямого выравнивания, отклонении выборок, фильтрации данных и расширении времени логического вывода. В настоящее время существуют два основных типа моделей вознаграждения:
Явная модель вознаграждения (EX-RM): применяет линейную голову к скрытым представлениям языковой модели для вычисления вознаграждения
Неявная модель вознаграждения (IM-RM): неявно определяет вознаграждение через логарифмическую вероятность языковой модели
Несмотря на то, что EX-RM и IM-RM архитектурно почти идентичны, предыдущие исследования наблюдали, что IM-RM часто демонстрирует худшую способность к обобщению, особенно в сценариях вне области. Это явление озадачивает, поскольку обе модели могут обучаться на основе одной и той же языковой модели, используя одни и те же данные и функции потерь, с минимальными различиями только в способе вычисления вознаграждения.
Теоретический анализ: посредством анализа динамики обучения раскрывается, что IM-RM в большей степени зависит от сигналов на уровне токенов, тогда как EX-RM в основном обобщается через скрытые представления
Опровержение интуитивных предположений: доказывается, что проблемы обобщения IM-RM не вытекают из разрыва между генерацией и проверкой; обучение проверке не требует обучения генерации
Эмпирическая проверка: в контролируемых экспериментах и реальных сценариях проверяется, что IM-RM работает хуже при распределениях токенов вне области, но может работать сравнимо или лучше при смещении домена
Теоретические гарантии: в упрощенных условиях доказывается, что IM-RM не может обобщаться на невидимые токены, тогда как EX-RM может успешно обобщаться через хорошо структурированные скрытые представления
Исследование точности ранжирования моделей вознаграждения на данных предпочтений, то есть для пары подсказка-ответ (x, y+, y-), где y+ — предпочтительный ответ, y- — отклоненный ответ, оценивается, может ли модель вознаграждения правильно ранжировать: r(x, y+) > r(x, y-).
Ключевое открытие: изменение EX-RM зависит только от скрытых представлений, тогда как изменение IM-RM зависит от конкретных токенов, коэффициенты ρ_{k,l} отражают перекрытие токенов.
Теорема 2: в упрощенных условиях (ответы с одним токеном) IM-RM не может обобщаться на невидимые токены (точность остается на уровне 0,5), тогда как EX-RM может обобщаться через разделитель максимального запаса скрытых представлений.
Чувствительность к токенам: IM-RM чрезвычайно чувствительна к изменениям поверхностных токенов, даже если они семантически идентичны
Обобщение скрытых представлений: EX-RM может успешно обобщаться через семантически богатые скрытые представления
Граница вознаграждения: EX-RM постоянно производит более высокие абсолютные границы вознаграждения, что благоприятно для оптимизации обучения с подкреплением
Адаптация к домену: IM-RM показывает лучшие результаты в некоторых сценариях смещения домена
Существующие исследования в основном сосредоточены на границах сложности выборки и теоретических свойствах моделей вознаграждения, но меньше внимания уделяется влиянию различных способов параметризации на обобщение.
Данное исследование связано со сравнением DPO (Direct Preference Optimization) и RLHF (Reinforcement Learning from Human Feedback), но с другим фокусом: данная работа сосредоточена на способности обобщения модели вознаграждения, а не на сравнении алгоритмов обучения.
Заимствует методы анализа траекторий обучения с градиентом из литературы по неявным смещениям, но применяет их к конкретному сценарию моделей вознаграждения.
Коренная причина: проблемы обобщения IM-RM вытекают из чрезмерной зависимости от поверхностных сигналов на уровне токенов, а не из разрыва между генерацией и проверкой
Влияние дизайна: кажущиеся незначительными выборы в дизайне (способ вычисления вознаграждения) могут оказать значительное влияние на поведение обобщения
Рекомендации по применению: в сценариях распределения токенов вне области следует отдавать предпочтение EX-RM, в сценариях смещения домена можно рассмотреть IM-RM
Теоретические предположения: теоретический анализ основан на упрощенных предположениях о фиксированных скрытых представлениях и ответах с одним токеном
Метрики оценки: в основном сосредоточены на точности, не охватывают все аспекты эффективности модели вознаграждения
Диапазон моделей: в основном исследуются три типа моделей вознаграждения, не охватывают все возможные варианты
Ограничения предположений: упрощенные предположения теоретического анализа могут ограничить универсальность выводов
Понимание механизмов: отсутствует глубокий анализ механизма, по которому IM-RM показывает лучшие результаты при смещении домена
Проверка масштаба: эксперименты в основном проводятся на моделях среднего и малого размера, выводы для крупномасштабных моделей требуют дальнейшей проверки
Статья цитирует большое количество связанных работ, включая:
Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling
Общая оценка: это высококачественная исследовательская статья, которая посредством строгого теоретического анализа и комплексной экспериментальной проверки глубоко раскрывает коренные причины различий в способности обобщения различных типов моделей вознаграждения. Статья не только имеет важное теоретическое значение, но и предоставляет ценное руководство для практического применения. Методология исследования научна и строга, выводы убедительны, что делает эту работу важным вкладом в область исследования моделей вознаграждения.