2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

Pourquoi Votre Modèle de Langage est-il un Mauvais Modèle de Récompense Implicite ?

Informations Fondamentales

ID de l'article : 2507.07981
Titre : Why is Your Language Model a Poor Implicit Reward Model?
Auteurs : Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Université de Princeton, ‡Université de l'Illinois Urbana-Champaign)
Classification : cs.CL cs.AI cs.LG stat.ML
Date de publication/Conférence : Prépublication arXiv (mise à jour du 16 octobre 2025)
Lien de l'article : https://arxiv.org/abs/2507.07981v2

Résumé

Les modèles de récompense constituent un élément clé des pipelines d'entraînement post-hoc et d'inférence des modèles de langage. Des recherches récentes ont montré que chaque modèle de langage définit un modèle de récompense implicite (IM-RM) sans modification architecturale. Cependant, comparé aux modèles de récompense explicites (EX-RM) qui appliquent une tête linéaire dédiée sur les représentations cachées du modèle de langage, l'IM-RM présente généralement une capacité de généralisation inférieure, particulièrement dans les scénarios hors-distribution. Cet écart de généralisation est déroutant, car EX-RM et IM-RM sont presque identiques — ils peuvent être entraînés avec les mêmes données, fonctions de perte et modèle de langage, différant uniquement dans la manière de calculer la récompense. Cet article enquête en profondeur sur les causes fondamentales de cet écart, révélant que l'IM-RM dépend davantage d'indices superficiels au niveau des tokens, et donc généralise moins bien que l'EX-RM tant dans les décalages de distribution au niveau des tokens que dans les scénarios intra-distribution.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de récompense jouent un rôle central dans l'écosystème moderne des modèles de langage, avec des applications généralisées en entraînement par apprentissage par renforcement, algorithmes d'alignement direct, rejet d'échantillons, filtrage de données et expansion au moment de l'inférence. Il existe actuellement deux types principaux de modèles de récompense :

Modèle de Récompense Explicite (EX-RM) : applique une tête linéaire sur les représentations cachées du modèle de langage pour calculer la récompense
Modèle de Récompense Implicite (IM-RM) : définit la récompense implicitement par la probabilité logarithmique du modèle de langage

Motivation de la Recherche

Bien que EX-RM et IM-RM soient architecturalement presque identiques, des études antérieures ont observé que l'IM-RM présente généralement une capacité de généralisation inférieure, particulièrement dans les scénarios hors-distribution. Ce phénomène est déroutant, car les deux modèles peuvent être entraînés sur la base du même modèle de langage, utilisant les mêmes données et fonctions de perte, avec seulement une légère différence dans la manière de calculer la récompense.

Importance

Comprendre les biais implicites de différents types de modèles de récompense est important pour :

Sélectionner une architecture de modèle de récompense appropriée
Améliorer la robustesse du modèle de récompense
Optimiser le pipeline d'entraînement post-hoc du modèle de langage

Contributions Principales

Analyse Théorique : par l'analyse de la dynamique d'apprentissage, révèle que l'IM-RM dépend davantage d'indices au niveau des tokens, tandis que l'EX-RM généralise principalement par les représentations cachées
Réfutation d'Hypothèses Intuitives : prouve que les problèmes de généralisation de l'IM-RM ne proviennent pas de l'écart génération-vérification, l'apprentissage de la vérification ne nécessitant pas d'apprendre la génération
Vérification Empirique : valide dans des expériences contrôlées et des scénarios réels que l'IM-RM fonctionne plus mal sous décalage de distribution au niveau des tokens, mais peut fonctionner de manière comparable ou meilleure sous décalage de domaine
Garanties Théoriques : prouve dans un cadre simplifié que l'IM-RM ne peut pas généraliser à des tokens non vus, tandis que l'EX-RM peut généraliser avec succès par des représentations cachées bien structurées

Détails de la Méthode

Définition de la Tâche

Étudier la précision du classement des modèles de récompense sur les données de préférence, c'est-à-dire, étant donné des paires (x,y+,y-) où y+ est la réponse préférée et y- est la réponse rejetée, évaluer si le modèle de récompense peut correctement classer : r(x,y+) > r(x,y-).

Architecture du Modèle

Modèle de Récompense Explicite (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

où u sont les paramètres de la tête linéaire et h_{x,y} est la représentation cachée produite par le modèle de langage pour la paire (x,y).

Modèle de Récompense Implicite (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

où β est un coefficient fixe et π_ref est la distribution de référence (généralement le modèle de langage initialisé).

Points d'Innovation Technique

1. Analyse de la Dynamique d'Apprentissage

Par l'analyse de la façon dont les mises à jour de gradient affectent l'attribution de récompense, on découvre :

Dynamique EX-RM :

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

Dynamique IM-RM :

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

Découverte clé : le changement d'EX-RM dépend uniquement des représentations cachées, tandis que le changement d'IM-RM dépend des tokens spécifiques, les coefficients ρ_{k,l} reflétant les chevauchements de tokens.

2. Théorie de l'Écart de Généralisation

Théorème 2 : dans un cadre simplifié (réponses à un seul token), l'IM-RM ne peut pas généraliser à des tokens non vus (la précision reste à 0,5), tandis que l'EX-RM peut généraliser par un séparateur à marge maximale de représentations cachées.

Configuration Expérimentale

Ensembles de Données

Expériences Contrôlées :
- Ensemble de données Persona : tâches d'accord/désaccord
- Vérification du cycle hamiltonien : tâche synthétique de théorie des graphes
Scénarios Réels :
- UltraFeedback : données de dialogue générales
- RewardMATH : données de raisonnement mathématique
- RewardBench : référence d'évaluation multi-domaines

Métriques d'Évaluation

Précision : précision du classement sur les données de préférence
Marge de Récompense Absolue : valeur normalisée de |r(x,y+) - r(x,y-)|

Méthodes de Comparaison

Modèle de Récompense Explicite (EX-RM)
Modèle de Récompense Implicite (IM-RM)
Modèle de Récompense Génération Explicite (EX-GRM)

Détails d'Implémentation

Modèles de Langage : Pythia, Gemma-2, Qwen-2.5, séries Llama-3 (1B-8B paramètres)
Optimiseur : Adam
Taux d'apprentissage : 1e-6
Coefficient β : 0,01 (pour IM-RM)
Fonction de perte : perte de vraisemblance Bradley-Terry

Résultats Expérimentaux

Résultats Principaux

1. Décalage de Distribution au Niveau des Tokens

Entraînement UltraFeedback : taux de victoire EX-RM 83,4%, taux de victoire IM-RM 16,6%
Entraînement RewardMATH : taux de victoire EX-RM 100%, taux de victoire IM-RM 0%

2. Décalage de Domaine

Entraînement UltraFeedback : sous décalage de domaine, taux de victoire IM-RM 66,7%, taux de victoire EX-RM 33,3%
Entraînement RewardMATH : sous décalage de domaine, taux de victoire IM-RM 33,4%, taux de victoire EX-RM 66,6%

3. Résultats des Expériences Contrôlées

Dans la tâche de paraphrase de l'ensemble de données Persona :

EX-RM atteint 100% de précision sur les réponses originales et paraphrasées
IM-RM atteint 100% de précision sur les réponses originales, mais seulement 2,2% de précision sur les réponses paraphrasées

Expériences d'Ablation

1. Vérification de l'Hypothèse Génération-Vérification

L'expérience du cycle hamiltonien montre :

Précision d'entraînement IM-RM : 100%, précision de test : 99,3%
Nombre de générations correctes IM-RM : 0 (impossible de générer un cycle hamiltonien correct)
Prouve que l'apprentissage de la vérification ne nécessite pas d'apprendre la génération

2. Test d'Hypothèses Alternatives

Test de variantes EX-RM basées sur toutes les représentations cachées
Test de variantes IM-RM sans distribution de référence
Les résultats montrent que l'écart de généralisation persiste

Découvertes Expérimentales

Sensibilité aux Tokens : l'IM-RM est extrêmement sensible aux changements de tokens superficiels, échouant même si la sémantique est identique
Généralisation par Représentation Cachée : l'EX-RM peut généraliser avec succès par des représentations cachées sémantiquement riches
Marge de Récompense : l'EX-RM produit systématiquement des marges de récompense absolues plus élevées, favorisant l'optimisation par apprentissage par renforcement
Adaptabilité de Domaine : l'IM-RM fonctionne mieux dans certains scénarios de décalage de domaine

Travaux Connexes

Analyse des Modèles de Récompense

Les recherches existantes se concentrent principalement sur les limites de complexité d'échantillon et les propriétés théoriques des modèles de récompense, mais accordent peu d'attention à l'impact de différentes paramétrisations sur la généralisation.

DPO vs RLHF

Cette recherche est liée à la comparaison entre DPO (Direct Preference Optimization) et RLHF (Reinforcement Learning from Human Feedback), mais l'accent est différent : cet article se concentre sur la capacité de généralisation du modèle de récompense plutôt que sur la comparaison des algorithmes d'entraînement.

Dynamique d'Apprentissage des Réseaux de Neurones

Emprunte les méthodes de la littérature sur les biais implicites pour analyser les trajectoires d'entraînement par gradient, mais les applique au scénario spécifique des modèles de récompense.

Conclusion et Discussion

Conclusions Principales

Cause Fondamentale : les problèmes de généralisation de l'IM-RM proviennent d'une dépendance excessive aux indices superficiels au niveau des tokens, et non de l'écart génération-vérification
Impact de la Conception : des choix de conception apparemment mineurs (comment calculer la récompense) peuvent avoir un impact majeur sur le comportement de généralisation
Orientation Pratique : privilégier l'EX-RM dans les scénarios de décalage de distribution au niveau des tokens, considérer l'IM-RM dans les scénarios de décalage de domaine

Limitations

Hypothèses Théoriques : l'analyse théorique repose sur des hypothèses simplifiées de représentations cachées fixes et de réponses à un seul token
Métriques d'Évaluation : se concentre principalement sur la précision, ne couvrant pas toutes les dimensions de l'efficacité du modèle de récompense
Portée du Modèle : étudie principalement trois types de modèles de récompense, ne couvrant pas toutes les variantes possibles

Directions Futures

Extension Théorique : assouplir les hypothèses restrictives de l'analyse théorique actuelle
Exploration de Facteurs : étudier d'autres facteurs influençant la généralisation de différents types de modèles de récompense
Extension d'Évaluation : développer des critères d'évaluation plus complets pour les modèles de récompense
Nouvelles Architectures : explorer les biais implicites d'autres types de modèles de récompense

Évaluation Approfondie

Points Forts

Profondeur Théorique : fournit une analyse mathématique rigoureuse expliquant l'écart de généralisation du point de vue de la dynamique d'apprentissage
Expériences Complètes : combine expériences contrôlées et scénarios réels, couvrant plusieurs modèles de langage et ensembles de données
Vérification d'Hypothèses : teste systématiquement et réfute les explications intuitives mais erronées
Valeur Pratique : fournit des orientations claires pour la sélection du modèle de récompense dans les applications réelles

Insuffisances

Limitations des Hypothèses : les hypothèses simplifiées de l'analyse théorique peuvent limiter l'universalité des conclusions
Compréhension des Mécanismes : manque d'analyse approfondie du mécanisme selon lequel l'IM-RM fonctionne mieux sous décalage de domaine
Vérification à Grande Échelle : les expériences sont principalement menées sur des modèles de petite et moyenne taille, les conclusions sur les modèles à grande échelle nécessitent une vérification supplémentaire

Impact

Contribution Théorique : fournit une base théorique importante pour comprendre le comportement de différents types de modèles de récompense
Orientation Pratique : a une signification directe pour l'application de techniques telles que RLHF et DPO
Inspiration pour la Recherche : ouvre de nouvelles directions pour l'étude ultérieure des biais implicites des modèles de récompense

Scénarios Applicables

Exigences de Haute Qualité : applications nécessitant une performance stable sous décalage de distribution
Tâches Sensibles aux Tokens : scénarios impliquant des changements au niveau des tokens tels que la paraphrase et la traduction
Robustesse Critique : systèmes ayant des exigences strictes en matière de robustesse du modèle de récompense

Références

L'article cite de nombreux travaux connexes, notamment :

Ouyang et al. (2022) : Training language models to follow instructions with human feedback
Rafailov et al. (2023) : Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024) : On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025) : Rewardbench: Evaluating reward models for language modeling

Évaluation Globale : Ceci est un article de recherche de haute qualité qui, par une analyse théorique rigoureuse et une vérification expérimentale complète, révèle en profondeur les causes fondamentales des différences de capacité de généralisation entre différents types de modèles de récompense. L'article possède non seulement une valeur théorique importante, mais fournit également des orientations précieuses pour les applications pratiques. La méthodologie de recherche est scientifiquement rigoureuse, les conclusions sont convaincantes, et c'est une contribution importante au domaine de la recherche sur les modèles de récompense.