2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

¿Por Qué Su Modelo de Lenguaje es un Modelo de Recompensa Implícito Deficiente?

Información Básica

ID del Artículo: 2507.07981
Título: Why is Your Language Model a Poor Implicit Reward Model?
Autores: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Universidad de Princeton, ‡Universidad de Illinois Urbana-Champaign)
Clasificación: cs.CL cs.AI cs.LG stat.ML
Fecha de Publicación/Conferencia: Preimpresión en arXiv (Actualizado el 16 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2507.07981v2

Resumen

Los modelos de recompensa son componentes clave en los procesos de post-entrenamiento e inferencia de modelos de lenguaje. Investigaciones recientes demuestran que cada modelo de lenguaje define un modelo de recompensa implícito (IM-RM) sin cambios arquitectónicos. Sin embargo, en comparación con los modelos de recompensa explícitos (EX-RM) que aplican cabezales lineales dedicados en representaciones ocultas del modelo de lenguaje, el IM-RM generalmente presenta capacidades de generalización más pobres, especialmente en escenarios fuera de distribución. Esta brecha de generalización es desconcertante porque EX-RM e IM-RM son casi idénticos: pueden entrenarse con los mismos datos, funciones de pérdida y modelos de lenguaje, diferenciándose únicamente en cómo se calcula la recompensa. Este artículo investiga profundamente las causas fundamentales de esta brecha, descubriendo que IM-RM depende más de pistas superficiales a nivel de token, resultando en una generalización inferior tanto bajo cambios de distribución a nivel de token como en escenarios dentro de distribución.

Contexto de Investigación y Motivación

Definición del Problema

Los modelos de recompensa desempeñan un papel central en el ecosistema moderno de modelos de lenguaje, aplicándose ampliamente en entrenamiento de aprendizaje reforzado, algoritmos de alineación directa, muestreo rechazado, filtrado de datos y escalado en tiempo de inferencia. Actualmente existen dos tipos principales de modelos de recompensa:

Modelo de Recompensa Explícito (EX-RM): Aplica un cabezal lineal en las representaciones ocultas del modelo de lenguaje para calcular recompensas
Modelo de Recompensa Implícito (IM-RM): Define recompensas implícitamente a través de la probabilidad logarítmica del modelo de lenguaje

Motivación de la Investigación

A pesar de que EX-RM e IM-RM son casi idénticos arquitectónicamente, investigaciones previas han observado que IM-RM frecuentemente presenta capacidades de generalización más pobres, especialmente en escenarios fuera de distribución. Este fenómeno es desconcertante porque ambos modelos pueden entrenarse basándose en el mismo modelo de lenguaje, utilizando los mismos datos y funciones de pérdida, diferenciándose únicamente en pequeñas variaciones en cómo se calcula la recompensa.

Importancia

Comprender los sesgos implícitos de diferentes tipos de modelos de recompensa es significativo para:

Seleccionar arquitecturas apropiadas de modelos de recompensa
Mejorar la robustez de los modelos de recompensa
Optimizar procesos de post-entrenamiento de modelos de lenguaje

Contribuciones Principales

Análisis Teórico: Mediante análisis de dinámicas de aprendizaje, revela que IM-RM depende más de pistas a nivel de token, mientras que EX-RM generaliza principalmente a través de representaciones ocultas
Refutación de Intuiciones: Demuestra que los problemas de generalización de IM-RM no provienen de la brecha generación-verificación; aprender verificación no requiere aprender generación
Verificación Empírica: Valida en experimentos controlados y escenarios reales que IM-RM funciona peor bajo cambios de distribución a nivel de token, pero puede funcionar comparablemente o mejor bajo cambios de dominio
Garantías Teóricas: Prueba en configuraciones simplificadas que IM-RM no puede generalizar a tokens no vistos, mientras que EX-RM puede generalizar exitosamente mediante representaciones ocultas bien estructuradas

Detalles Metodológicos

Definición de Tareas

Estudia la precisión de clasificación de modelos de recompensa en datos de preferencia, es decir, dado pares de indicación-respuesta (x,y+,y-), donde y+ es la respuesta preferida y y- es la respuesta rechazada, evalúa si el modelo de recompensa puede clasificar correctamente: r(x,y+) > r(x,y-).

Arquitecturas de Modelos

Modelo de Recompensa Explícito (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

donde u son los parámetros del cabezal lineal y h_{x,y} es la representación oculta producida por el modelo de lenguaje para el par indicación-respuesta (x,y).

Modelo de Recompensa Implícito (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

donde β es un coeficiente fijo y π_ref es la distribución de referencia (típicamente el modelo de lenguaje inicializado).

Puntos de Innovación Técnica

1. Análisis de Dinámicas de Aprendizaje

Mediante análisis de cómo las actualizaciones de gradiente afectan la asignación de recompensas, descubre:

Dinámica de EX-RM:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

Dinámica de IM-RM:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

Hallazgo clave: El cambio en EX-RM depende únicamente de representaciones ocultas, mientras que el cambio en IM-RM depende de tokens específicos, con coeficientes ρ_{k,l} reflejando superposiciones de tokens.

2. Teoría de Brecha de Generalización

Teorema 2: En configuraciones simplificadas (respuestas de un solo token), IM-RM no puede generalizar a tokens no vistos (la precisión se mantiene en 0.5), mientras que EX-RM puede generalizar mediante separadores de margen máximo de representaciones ocultas.

Configuración Experimental

Conjuntos de Datos

Experimentos Controlados:
- Conjunto de datos Persona: Tareas de acuerdo/desacuerdo
- Verificación de Ciclo Hamiltoniano: Tarea sintética de teoría de grafos
Escenarios Reales:
- UltraFeedback: Datos de diálogo general
- RewardMATH: Datos de razonamiento matemático
- RewardBench: Punto de referencia de evaluación multidominio

Métricas de Evaluación

Precisión: Precisión de clasificación en datos de preferencia
Margen de Recompensa Absoluto: Valor normalizado de |r(x,y+) - r(x,y-)|

Métodos de Comparación

Modelo de Recompensa Explícito (EX-RM)
Modelo de Recompensa Implícito (IM-RM)
Modelo de Recompensa Generativa Explícito (EX-GRM)

Detalles de Implementación

Modelos de Lenguaje: Series Pythia, Gemma-2, Qwen-2.5, Llama-3 (1B-8B parámetros)
Optimizador: Adam
Tasa de Aprendizaje: 1e-6
Coeficiente β: 0.01 (para IM-RM)
Función de Pérdida: Pérdida de verosimilitud Bradley-Terry

Resultados Experimentales

Resultados Principales

1. Cambio de Distribución a Nivel de Token

Entrenamiento en UltraFeedback: EX-RM con tasa de victoria del 83.4% bajo cambio de token, IM-RM con tasa de victoria del 16.6%
Entrenamiento en RewardMATH: EX-RM con tasa de victoria del 100% bajo cambio de token, IM-RM con tasa de victoria del 0%

2. Cambio de Dominio

Entrenamiento en UltraFeedback: Bajo cambio de dominio, IM-RM con tasa de victoria del 66.7%, EX-RM con tasa de victoria del 33.3%
Entrenamiento en RewardMATH: Bajo cambio de dominio, IM-RM con tasa de victoria del 33.4%, EX-RM con tasa de victoria del 66.6%

3. Resultados de Experimentos Controlados

En la tarea de paráfrasis del conjunto de datos Persona:

EX-RM alcanza precisión del 100% tanto en respuestas originales como parafraseadas
IM-RM alcanza precisión del 100% en respuestas originales, pero solo 2.2% de precisión en respuestas parafraseadas

Experimentos de Ablación

1. Verificación de la Hipótesis Generación-Verificación

El experimento del Ciclo Hamiltoniano muestra:

Precisión de entrenamiento de IM-RM: 100%, precisión de prueba: 99.3%
Número de ciclos hamiltonianos generados correctamente por IM-RM: 0 (no puede generar ningún ciclo hamiltoniano correcto)
Prueba que aprender verificación no requiere aprender generación

2. Prueba de Hipótesis Alternativas

Se probaron variantes de EX-RM basadas en todas las representaciones ocultas
Se probaron variantes de IM-RM sin distribución de referencia
Los resultados muestran que la brecha de generalización persiste

Hallazgos Experimentales

Sensibilidad a Tokens: IM-RM es extremadamente sensible a cambios superficiales de tokens, fallando incluso cuando el significado es idéntico
Generalización de Representaciones Ocultas: EX-RM puede generalizar exitosamente mediante representaciones ocultas semánticamente ricas
Margen de Recompensa: EX-RM produce consistentemente márgenes de recompensa absolutos más altos, favoreciendo la optimización de aprendizaje reforzado
Adaptabilidad de Dominio: IM-RM funciona mejor en ciertos escenarios de cambio de dominio

Trabajo Relacionado

Análisis de Modelos de Recompensa

La investigación existente se enfoca principalmente en límites de complejidad de muestras y propiedades teóricas de modelos de recompensa, pero presta menos atención al impacto de diferentes parametrizaciones en la generalización.

DPO vs RLHF

Este estudio se relaciona con comparaciones entre DPO (Optimización Directa de Preferencias) y RLHF (Aprendizaje Reforzado desde Retroalimentación Humana), pero con un enfoque diferente: este artículo se centra en la capacidad de generalización de modelos de recompensa en lugar de comparaciones de algoritmos de entrenamiento.

Dinámicas de Aprendizaje de Redes Neuronales

Adopta métodos de la literatura de sesgo implícito que analizan trayectorias de entrenamiento de gradiente, pero aplicados al escenario específico de modelos de recompensa.

Conclusiones y Discusión

Conclusiones Principales

Causa Fundamental: Los problemas de generalización de IM-RM provienen de la dependencia excesiva de pistas superficiales a nivel de token, no de la brecha generación-verificación
Impacto del Diseño: Las opciones de diseño aparentemente menores (cómo calcular la recompensa) pueden tener impactos significativos en el comportamiento de generalización
Orientación de Aplicación: Bajo cambios de distribución a nivel de token, se debe priorizar EX-RM; bajo cambios de dominio, se puede considerar IM-RM

Limitaciones

Supuestos Teóricos: El análisis teórico se basa en supuestos simplificados de representaciones ocultas fijas y respuestas de un solo token
Métricas de Evaluación: Se enfoca principalmente en precisión, sin cubrir todas las dimensiones de efectividad del modelo de recompensa
Rango de Modelos: Estudia principalmente tres tipos de modelos de recompensa, sin cubrir todas las variantes posibles

Direcciones Futuras

Extensión Teórica: Relajar los supuestos restrictivos del análisis teórico actual
Exploración de Factores: Investigar otros factores que afecten la generalización de diferentes tipos de modelos de recompensa
Extensión de Evaluación: Desarrollar criterios de evaluación más completos para modelos de recompensa
Nuevas Arquitecturas: Explorar sesgos implícitos de otros tipos de modelos de recompensa

Evaluación Profunda

Fortalezas

Profundidad Teórica: Proporciona análisis matemático riguroso, explicando la brecha de generalización desde la perspectiva de dinámicas de aprendizaje
Experimentos Completos: Combina experimentos controlados y escenarios reales, cubriendo múltiples modelos de lenguaje y conjuntos de datos
Verificación de Hipótesis: Verifica y refuta sistemáticamente explicaciones intuitivas pero incorrectas
Valor Práctico: Proporciona orientación clara para la selección de modelos de recompensa en aplicaciones prácticas

Insuficiencias

Limitaciones de Supuestos: Los supuestos simplificados del análisis teórico pueden limitar la universalidad de las conclusiones
Comprensión de Mecanismos: Carece de análisis profundo sobre los mecanismos por los que IM-RM funciona mejor bajo cambios de dominio
Validación a Escala: Los experimentos se realizan principalmente en modelos de escala pequeña a mediana; las conclusiones en modelos a gran escala requieren verificación adicional

Impacto

Contribución Teórica: Proporciona base teórica importante para comprender el comportamiento de diferentes tipos de modelos de recompensa
Orientación Práctica: Tiene implicaciones directas para la aplicación de técnicas como RLHF y DPO
Inspiración de Investigación: Abre nuevas direcciones para investigar sesgos implícitos de modelos de recompensa

Escenarios Aplicables

Requisitos de Alta Calidad: Aplicaciones que requieren estabilidad de rendimiento bajo cambios de distribución
Tareas Sensibles a Tokens: Escenarios que involucran cambios a nivel de token como paráfrasis y traducción
Robustez Crítica: Sistemas con requisitos estrictos de robustez del modelo de recompensa

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo:

Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

Evaluación General: Este es un artículo de investigación de alta calidad que, mediante análisis teórico riguroso y verificación experimental completa, revela profundamente las causas fundamentales de las diferencias en capacidades de generalización entre diferentes tipos de modelos de recompensa. El artículo no solo posee valor teórico importante, sino que también proporciona orientación valiosa para aplicaciones prácticas. La metodología de investigación es científicamente rigurosa, las conclusiones son convincentes, y representa una contribución importante en el campo de investigación de modelos de recompensa.