Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic
Warum ist Ihr Sprachmodell ein schlechtes implizites Belohnungsmodell?
Belohnungsmodelle sind Schlüsselkomponenten in der Nachtrainings- und Inferenz-Pipeline von Sprachmodellen. Jüngste Forschungen zeigen, dass jedes Sprachmodell ein implizites Belohnungsmodell (IM-RM) definiert, ohne dass Architekturänderungen erforderlich sind. Im Vergleich zu expliziten Belohnungsmodellen (EX-RM), die spezialisierte lineare Köpfe auf verborgenen Darstellungen von Sprachmodellen anwenden, weist IM-RM jedoch häufig schlechtere Generalisierungsfähigkeiten auf, besonders in verteilungsfernen Szenarien. Diese Generalisierungslücke ist verwirrend, da EX-RM und IM-RM nahezu identisch sind – sie können mit denselben Daten, Verlustfunktionen und Sprachmodellen trainiert werden und unterscheiden sich nur in der Belohnungsberechnung. Dieses Papier untersucht die Grundursachen dieser Lücke eingehend und stellt fest, dass IM-RM stärker von oberflächlichen Token-Hinweisen abhängt und daher sowohl bei Token-Ebenen-Verteilungsverschiebungen als auch in verteilungsinternen Szenarien schlechter generalisiert als EX-RM.
Belohnungsmodelle spielen eine zentrale Rolle im modernen Sprachmodell-Ökosystem und werden häufig in Verstärkungslerntraining, direkten Ausrichtungsalgorithmen, Ablehnungsstichprobenentnahme, Datenfilterung und Inferenzzeitausweitung eingesetzt. Es gibt derzeit zwei Haupttypen von Belohnungsmodellen:
Explizites Belohnungsmodell (EX-RM): Wendet einen linearen Kopf auf verborgene Darstellungen des Sprachmodells an, um Belohnungen zu berechnen
Implizites Belohnungsmodell (IM-RM): Definiert Belohnungen implizit durch die Protokollwahrscheinlichkeit des Sprachmodells
Obwohl sich EX-RM und IM-RM architektonisch kaum unterscheiden, haben frühere Studien beobachtet, dass IM-RM häufig schlechtere Generalisierungsfähigkeiten aufweist, besonders in verteilungsfernen Szenarien. Dieses Phänomen ist verwirrend, da beide Modelle auf der Grundlage desselben Sprachmodells trainiert werden können, dieselben Daten und Verlustfunktionen verwenden und nur in der Belohnungsberechnung minimal unterscheiden.
Theoretische Analyse: Durch die Analyse der Lernungsdynamik wird offengelegt, dass IM-RM stärker von Token-Ebenen-Hinweisen abhängt, während EX-RM hauptsächlich durch verborgene Darstellungen generalisiert
Widerlegung intuitiver Annahmen: Beweist, dass die Generalisierungsprobleme von IM-RM nicht aus der Generierungs-Verifikationslücke stammen; das Erlernen der Verifikation erfordert nicht das Erlernen der Generierung
Empirische Validierung: Validiert in kontrollierten Experimenten und realen Szenarien, dass IM-RM bei Token-Ebenen-Verteilungsverschiebungen schlechter abschneidet, aber bei Domänenverschiebungen vergleichbar oder besser abschneiden kann
Theoretische Garantien: Beweist in vereinfachten Einstellungen, dass IM-RM nicht auf ungesehene Token generalisieren kann, während EX-RM durch gut strukturierte verborgene Darstellungen erfolgreich generalisieren kann
Untersuchung der Ranggenauigkeit von Belohnungsmodellen auf Präferenzdaten, d.h. bei gegebenen Eingabeaufforderungs-Antwort-Paaren (x,y+,y-), wobei y+ die bevorzugte Antwort und y- die abgelehnte Antwort ist, wird bewertet, ob das Belohnungsmodell korrekt rangieren kann: r(x,y+) > r(x,y-).
wobei u die Parameter des linearen Kopfes sind und h_{x,y} die verborgene Darstellung ist, die das Sprachmodell für das Eingabeaufforderungs-Antwort-Paar (x,y) erzeugt.
Schlüsselfund: Die Veränderung von EX-RM hängt nur von verborgenen Darstellungen ab, während die Veränderung von IM-RM von spezifischen Token abhängt, wobei der Koeffizient ρ_{k,l} die Token-Überlappung widerspiegelt.
Theorem 2: In vereinfachten Einstellungen (Einzeltoken-Antworten) kann IM-RM nicht auf ungesehene Token generalisieren (Genauigkeit bleibt bei 0,5), während EX-RM durch den maximalen Rand-Separator der verborgenen Darstellungen generalisieren kann.
Bestehende Forschungen konzentrieren sich hauptsächlich auf Stichprobenkomplexitätsgrenzen und theoretische Eigenschaften von Belohnungsmodellen, befassen sich aber weniger mit dem Einfluss verschiedener Parametrisierungsmethoden auf die Generalisierung.
Diese Forschung bezieht sich auf Vergleiche zwischen DPO (Direct Preference Optimization) und RLHF (Reinforcement Learning from Human Feedback), unterscheidet sich aber in der Ausrichtung: Dieses Papier konzentriert sich auf die Generalisierungsfähigkeit von Belohnungsmodellen statt auf den Vergleich von Trainingsalgorithmen.
Nutzt Methoden aus der impliziten Verzerrungsliteratur zur Analyse von Gradienten-Trainingstrajektorien, wendet sie aber auf das spezifische Szenario von Belohnungsmodellen an.
Grundursache: Die Generalisierungsprobleme von IM-RM stammen aus der übermäßigen Abhängigkeit von oberflächlichen Token-Hinweisen, nicht aus der Generierungs-Verifikationslücke
Designauswirkungen: Scheinbar kleine Designentscheidungen (wie Belohnungen berechnet werden) können erhebliche Auswirkungen auf das Generalisierungsverhalten haben
Anwendungsleitfaden: Bei Token-Ebenen-Verteilungsverschiebungen sollte EX-RM bevorzugt werden; bei Domänenverschiebungen kann IM-RM in Betracht gezogen werden
Annahmebeschränkungen: Die vereinfachten Annahmen der theoretischen Analyse können die Universalität der Schlussfolgerungen einschränken
Mechanismusverständnis: Mangelnde tiefgreifende Analyse des Mechanismus, warum IM-RM bei Domänenverschiebungen besser abschneidet
Skalierungsvalidierung: Experimente wurden hauptsächlich auf mittelgroßen Modellen durchgeführt; Schlussfolgerungen für große Modelle erfordern weitere Validierung
Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:
Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge theoretische Analyse und umfassende experimentelle Validierung die Grundursachen der Unterschiede in der Generalisierungsfähigkeit verschiedener Belohnungsmodelltypen tiefgreifend offenlegt. Das Papier hat nicht nur wichtigen theoretischen Wert, sondern bietet auch wertvolle Leitlinien für praktische Anwendungen. Die Forschungsmethodik ist wissenschaftlich rigoros und die Schlussfolgerungen überzeugend – ein wichtiger Beitrag zum Forschungsgebiet der Belohnungsmodelle.