Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic
¿Por Qué Su Modelo de Lenguaje es un Modelo de Recompensa Implícito Deficiente?
Los modelos de recompensa son componentes clave en los procesos de post-entrenamiento e inferencia de modelos de lenguaje. Investigaciones recientes demuestran que cada modelo de lenguaje define un modelo de recompensa implícito (IM-RM) sin cambios arquitectónicos. Sin embargo, en comparación con los modelos de recompensa explícitos (EX-RM) que aplican cabezales lineales dedicados en representaciones ocultas del modelo de lenguaje, el IM-RM generalmente presenta capacidades de generalización más pobres, especialmente en escenarios fuera de distribución. Esta brecha de generalización es desconcertante porque EX-RM e IM-RM son casi idénticos: pueden entrenarse con los mismos datos, funciones de pérdida y modelos de lenguaje, diferenciándose únicamente en cómo se calcula la recompensa. Este artículo investiga profundamente las causas fundamentales de esta brecha, descubriendo que IM-RM depende más de pistas superficiales a nivel de token, resultando en una generalización inferior tanto bajo cambios de distribución a nivel de token como en escenarios dentro de distribución.
Los modelos de recompensa desempeñan un papel central en el ecosistema moderno de modelos de lenguaje, aplicándose ampliamente en entrenamiento de aprendizaje reforzado, algoritmos de alineación directa, muestreo rechazado, filtrado de datos y escalado en tiempo de inferencia. Actualmente existen dos tipos principales de modelos de recompensa:
Modelo de Recompensa Explícito (EX-RM): Aplica un cabezal lineal en las representaciones ocultas del modelo de lenguaje para calcular recompensas
Modelo de Recompensa Implícito (IM-RM): Define recompensas implícitamente a través de la probabilidad logarítmica del modelo de lenguaje
A pesar de que EX-RM e IM-RM son casi idénticos arquitectónicamente, investigaciones previas han observado que IM-RM frecuentemente presenta capacidades de generalización más pobres, especialmente en escenarios fuera de distribución. Este fenómeno es desconcertante porque ambos modelos pueden entrenarse basándose en el mismo modelo de lenguaje, utilizando los mismos datos y funciones de pérdida, diferenciándose únicamente en pequeñas variaciones en cómo se calcula la recompensa.
Análisis Teórico: Mediante análisis de dinámicas de aprendizaje, revela que IM-RM depende más de pistas a nivel de token, mientras que EX-RM generaliza principalmente a través de representaciones ocultas
Refutación de Intuiciones: Demuestra que los problemas de generalización de IM-RM no provienen de la brecha generación-verificación; aprender verificación no requiere aprender generación
Verificación Empírica: Valida en experimentos controlados y escenarios reales que IM-RM funciona peor bajo cambios de distribución a nivel de token, pero puede funcionar comparablemente o mejor bajo cambios de dominio
Garantías Teóricas: Prueba en configuraciones simplificadas que IM-RM no puede generalizar a tokens no vistos, mientras que EX-RM puede generalizar exitosamente mediante representaciones ocultas bien estructuradas
Estudia la precisión de clasificación de modelos de recompensa en datos de preferencia, es decir, dado pares de indicación-respuesta (x,y+,y-), donde y+ es la respuesta preferida y y- es la respuesta rechazada, evalúa si el modelo de recompensa puede clasificar correctamente: r(x,y+) > r(x,y-).
donde u son los parámetros del cabezal lineal y h_{x,y} es la representación oculta producida por el modelo de lenguaje para el par indicación-respuesta (x,y).
Hallazgo clave: El cambio en EX-RM depende únicamente de representaciones ocultas, mientras que el cambio en IM-RM depende de tokens específicos, con coeficientes ρ_{k,l} reflejando superposiciones de tokens.
Teorema 2: En configuraciones simplificadas (respuestas de un solo token), IM-RM no puede generalizar a tokens no vistos (la precisión se mantiene en 0.5), mientras que EX-RM puede generalizar mediante separadores de margen máximo de representaciones ocultas.
La investigación existente se enfoca principalmente en límites de complejidad de muestras y propiedades teóricas de modelos de recompensa, pero presta menos atención al impacto de diferentes parametrizaciones en la generalización.
Este estudio se relaciona con comparaciones entre DPO (Optimización Directa de Preferencias) y RLHF (Aprendizaje Reforzado desde Retroalimentación Humana), pero con un enfoque diferente: este artículo se centra en la capacidad de generalización de modelos de recompensa en lugar de comparaciones de algoritmos de entrenamiento.
Adopta métodos de la literatura de sesgo implícito que analizan trayectorias de entrenamiento de gradiente, pero aplicados al escenario específico de modelos de recompensa.
Causa Fundamental: Los problemas de generalización de IM-RM provienen de la dependencia excesiva de pistas superficiales a nivel de token, no de la brecha generación-verificación
Impacto del Diseño: Las opciones de diseño aparentemente menores (cómo calcular la recompensa) pueden tener impactos significativos en el comportamiento de generalización
Orientación de Aplicación: Bajo cambios de distribución a nivel de token, se debe priorizar EX-RM; bajo cambios de dominio, se puede considerar IM-RM
Limitaciones de Supuestos: Los supuestos simplificados del análisis teórico pueden limitar la universalidad de las conclusiones
Comprensión de Mecanismos: Carece de análisis profundo sobre los mecanismos por los que IM-RM funciona mejor bajo cambios de dominio
Validación a Escala: Los experimentos se realizan principalmente en modelos de escala pequeña a mediana; las conclusiones en modelos a gran escala requieren verificación adicional
El artículo cita numerosos trabajos relacionados, incluyendo:
Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling
Evaluación General: Este es un artículo de investigación de alta calidad que, mediante análisis teórico riguroso y verificación experimental completa, revela profundamente las causas fundamentales de las diferencias en capacidades de generalización entre diferentes tipos de modelos de recompensa. El artículo no solo posee valor teórico importante, sino que también proporciona orientación valiosa para aplicaciones prácticas. La metodología de investigación es científicamente rigurosa, las conclusiones son convincentes, y representa una contribución importante en el campo de investigación de modelos de recompensa.