2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

Warum ist Ihr Sprachmodell ein schlechtes implizites Belohnungsmodell?

Grundlegende Informationen

Papier-ID: 2507.07981
Titel: Why is Your Language Model a Poor Implicit Reward Model?
Autoren: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Princeton University, ‡University of Illinois Urbana-Champaign)
Klassifizierung: cs.CL cs.AI cs.LG stat.ML
Veröffentlichungsdatum/Konferenz: arXiv preprint (aktualisiert am 16. Oktober 2025)
Papierlink: https://arxiv.org/abs/2507.07981v2

Zusammenfassung

Belohnungsmodelle sind Schlüsselkomponenten in der Nachtrainings- und Inferenz-Pipeline von Sprachmodellen. Jüngste Forschungen zeigen, dass jedes Sprachmodell ein implizites Belohnungsmodell (IM-RM) definiert, ohne dass Architekturänderungen erforderlich sind. Im Vergleich zu expliziten Belohnungsmodellen (EX-RM), die spezialisierte lineare Köpfe auf verborgenen Darstellungen von Sprachmodellen anwenden, weist IM-RM jedoch häufig schlechtere Generalisierungsfähigkeiten auf, besonders in verteilungsfernen Szenarien. Diese Generalisierungslücke ist verwirrend, da EX-RM und IM-RM nahezu identisch sind – sie können mit denselben Daten, Verlustfunktionen und Sprachmodellen trainiert werden und unterscheiden sich nur in der Belohnungsberechnung. Dieses Papier untersucht die Grundursachen dieser Lücke eingehend und stellt fest, dass IM-RM stärker von oberflächlichen Token-Hinweisen abhängt und daher sowohl bei Token-Ebenen-Verteilungsverschiebungen als auch in verteilungsinternen Szenarien schlechter generalisiert als EX-RM.

Forschungshintergrund und Motivation

Problemdefinition

Belohnungsmodelle spielen eine zentrale Rolle im modernen Sprachmodell-Ökosystem und werden häufig in Verstärkungslerntraining, direkten Ausrichtungsalgorithmen, Ablehnungsstichprobenentnahme, Datenfilterung und Inferenzzeitausweitung eingesetzt. Es gibt derzeit zwei Haupttypen von Belohnungsmodellen:

Explizites Belohnungsmodell (EX-RM): Wendet einen linearen Kopf auf verborgene Darstellungen des Sprachmodells an, um Belohnungen zu berechnen
Implizites Belohnungsmodell (IM-RM): Definiert Belohnungen implizit durch die Protokollwahrscheinlichkeit des Sprachmodells

Forschungsmotivation

Obwohl sich EX-RM und IM-RM architektonisch kaum unterscheiden, haben frühere Studien beobachtet, dass IM-RM häufig schlechtere Generalisierungsfähigkeiten aufweist, besonders in verteilungsfernen Szenarien. Dieses Phänomen ist verwirrend, da beide Modelle auf der Grundlage desselben Sprachmodells trainiert werden können, dieselben Daten und Verlustfunktionen verwenden und nur in der Belohnungsberechnung minimal unterscheiden.

Bedeutung

Das Verständnis der impliziten Verzerrungen verschiedener Belohnungsmodelltypen ist wichtig für:

Die Auswahl geeigneter Belohnungsmodellarchitekturen
Die Verbesserung der Robustheit von Belohnungsmodellen
Die Optimierung der Nachtrainingsprozesse von Sprachmodellen

Kernbeiträge

Theoretische Analyse: Durch die Analyse der Lernungsdynamik wird offengelegt, dass IM-RM stärker von Token-Ebenen-Hinweisen abhängt, während EX-RM hauptsächlich durch verborgene Darstellungen generalisiert
Widerlegung intuitiver Annahmen: Beweist, dass die Generalisierungsprobleme von IM-RM nicht aus der Generierungs-Verifikationslücke stammen; das Erlernen der Verifikation erfordert nicht das Erlernen der Generierung
Empirische Validierung: Validiert in kontrollierten Experimenten und realen Szenarien, dass IM-RM bei Token-Ebenen-Verteilungsverschiebungen schlechter abschneidet, aber bei Domänenverschiebungen vergleichbar oder besser abschneiden kann
Theoretische Garantien: Beweist in vereinfachten Einstellungen, dass IM-RM nicht auf ungesehene Token generalisieren kann, während EX-RM durch gut strukturierte verborgene Darstellungen erfolgreich generalisieren kann

Methodische Details

Aufgabendefinition

Untersuchung der Ranggenauigkeit von Belohnungsmodellen auf Präferenzdaten, d.h. bei gegebenen Eingabeaufforderungs-Antwort-Paaren (x,y+,y-), wobei y+ die bevorzugte Antwort und y- die abgelehnte Antwort ist, wird bewertet, ob das Belohnungsmodell korrekt rangieren kann: r(x,y+) > r(x,y-).

Modellarchitektur

Explizites Belohnungsmodell (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

wobei u die Parameter des linearen Kopfes sind und h_{x,y} die verborgene Darstellung ist, die das Sprachmodell für das Eingabeaufforderungs-Antwort-Paar (x,y) erzeugt.

Implizites Belohnungsmodell (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

wobei β ein fester Koeffizient ist und π_ref die Referenzverteilung ist (normalerweise das initialisierte Sprachmodell).

Technische Innovationen

1. Analyse der Lernungsdynamik

Durch die Analyse, wie Gradientenaktualisierungen die Belohnungsverteilung beeinflussen, wird festgestellt:

EX-RM-Dynamik:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM-Dynamik:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

Schlüsselfund: Die Veränderung von EX-RM hängt nur von verborgenen Darstellungen ab, während die Veränderung von IM-RM von spezifischen Token abhängt, wobei der Koeffizient ρ_{k,l} die Token-Überlappung widerspiegelt.

2. Theoretische Generalisierungslücke

Theorem 2: In vereinfachten Einstellungen (Einzeltoken-Antworten) kann IM-RM nicht auf ungesehene Token generalisieren (Genauigkeit bleibt bei 0,5), während EX-RM durch den maximalen Rand-Separator der verborgenen Darstellungen generalisieren kann.

Experimentelle Einrichtung

Datensätze

Kontrollierte Experimente:
- Persona-Datensatz: Zustimmungs-/Ablehnungsaufgaben
- Hamilton-Kreis-Verifikation: Synthetische graphentheoretische Aufgabe
Reale Szenarien:
- UltraFeedback: Allgemeine Dialogdaten
- RewardMATH: Mathematische Reasoning-Daten
- RewardBench: Multi-Domain-Evaluierungs-Benchmark

Bewertungsmetriken

Genauigkeit: Ranggenauigkeit auf Präferenzdaten
Absolute Belohnungsgrenze: Normalisierter Wert von |r(x,y+) - r(x,y-)|

Vergleichsmethoden

Explizites Belohnungsmodell (EX-RM)
Implizites Belohnungsmodell (IM-RM)
Explizites Generierungs-Belohnungsmodell (EX-GRM)

Implementierungsdetails

Sprachmodelle: Pythia, Gemma-2, Qwen-2.5, Llama-3-Serie (1B-8B Parameter)
Optimierer: Adam
Lernrate: 1e-6
β-Koeffizient: 0,01 (für IM-RM)
Verlustfunktion: Bradley-Terry-Protokollwahrscheinlichkeitsverlust

Experimentelle Ergebnisse

Hauptergebnisse

1. Token-Ebenen-Verteilungsverschiebung

UltraFeedback-Training: EX-RM Gewinnrate bei Token-Ebenen-Verschiebung 83,4%, IM-RM Gewinnrate 16,6%
RewardMATH-Training: EX-RM bei Token-Ebenen-Verschiebung 100%, IM-RM 0%

2. Domänenverschiebung

UltraFeedback-Training: Bei Domänenverschiebung IM-RM Gewinnrate 66,7%, EX-RM Gewinnrate 33,3%
RewardMATH-Training: Bei Domänenverschiebung IM-RM Gewinnrate 33,4%, EX-RM Gewinnrate 66,6%

3. Kontrollierte Experimentergebnisse

In der Umschreibungsaufgabe des Persona-Datensatzes:

EX-RM erreicht 100% Genauigkeit sowohl auf ursprünglichen als auch auf umgeschriebenen Antworten
IM-RM erreicht 100% Genauigkeit auf ursprünglichen Antworten, aber nur 2,2% auf umgeschriebenen Antworten

Ablationsstudien

1. Validierung der Generierungs-Verifikationshypothese

Das Hamilton-Kreis-Experiment zeigt:

IM-RM Trainingsgenauigkeit: 100%, Testgenauigkeit: 99,3%
IM-RM korrekt generierte Zahlen: 0 (konnte keinen korrekten Hamilton-Kreis generieren)
Beweist, dass das Erlernen der Verifikation nicht das Erlernen der Generierung erfordert

2. Prüfung alternativer Hypothesen

Getestete EX-RM-Varianten basierend auf allen verborgenen Darstellungen
Getestete IM-RM-Varianten ohne Referenzverteilung
Ergebnisse zeigen, dass die Generalisierungslücke bestehen bleibt

Experimentelle Erkenntnisse

Token-Empfindlichkeit: IM-RM ist extrem empfindlich gegenüber oberflächlichen Token-Änderungen, auch wenn die Semantik identisch ist
Generalisierung verborgener Darstellungen: EX-RM kann erfolgreich durch semantisch reichhaltige verborgene Darstellungen generalisieren
Belohnungsgrenze: EX-RM erzeugt konsistent höhere absolute Belohnungsgrenzen, was für die Verstärkungslernoptimierung vorteilhaft ist
Domänenadaptation: IM-RM zeigt in einigen Domänenverschiebungsszenarien bessere Leistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Grundursache: Die Generalisierungsprobleme von IM-RM stammen aus der übermäßigen Abhängigkeit von oberflächlichen Token-Hinweisen, nicht aus der Generierungs-Verifikationslücke
Designauswirkungen: Scheinbar kleine Designentscheidungen (wie Belohnungen berechnet werden) können erhebliche Auswirkungen auf das Generalisierungsverhalten haben
Anwendungsleitfaden: Bei Token-Ebenen-Verteilungsverschiebungen sollte EX-RM bevorzugt werden; bei Domänenverschiebungen kann IM-RM in Betracht gezogen werden

Einschränkungen

Theoretische Annahmen: Die theoretische Analyse basiert auf vereinfachten Annahmen mit festen verborgenen Darstellungen und Einzeltoken-Antworten
Bewertungsmetriken: Konzentriert sich hauptsächlich auf Genauigkeit, deckt nicht alle Dimensionen der Belohnungsmodell-Effektivität ab
Modellbereich: Untersucht hauptsächlich drei Belohnungsmodelltypen, deckt nicht alle möglichen Varianten ab

Zukünftige Richtungen

Theoretische Erweiterung: Lockerung der restriktiven Annahmen der aktuellen theoretischen Analyse
Faktorenforschung: Untersuchung anderer Faktoren, die die Generalisierung verschiedener Belohnungsmodelltypen beeinflussen
Bewertungserweiterung: Entwicklung umfassenderer Bewertungsstandards für Belohnungsmodelle
Neue Architekturen: Erforschung impliziter Verzerrungen anderer Belohnungsmodelltypen

Tiefgreifende Bewertung

Stärken

Theoretische Tiefe: Bietet strenge mathematische Analyse und erklärt die Generalisierungslücke aus der Perspektive der Lernungsdynamik
Umfassende Experimente: Kombiniert kontrollierte Experimente und reale Szenarien, deckt mehrere Sprachmodelle und Datensätze ab
Hypothesenprüfung: Systematische Prüfung und Widerlegung intuitiver aber fehlerhafter Erklärungen
Praktischer Wert: Bietet klare Leitlinien für die Auswahl von Belohnungsmodellen in praktischen Anwendungen

Mängel

Annahmebeschränkungen: Die vereinfachten Annahmen der theoretischen Analyse können die Universalität der Schlussfolgerungen einschränken
Mechanismusverständnis: Mangelnde tiefgreifende Analyse des Mechanismus, warum IM-RM bei Domänenverschiebungen besser abschneidet
Skalierungsvalidierung: Experimente wurden hauptsächlich auf mittelgroßen Modellen durchgeführt; Schlussfolgerungen für große Modelle erfordern weitere Validierung

Auswirkungen

Theoretischer Beitrag: Bietet wichtige theoretische Grundlagen zum Verständnis des Verhaltens verschiedener Belohnungsmodelltypen
Praktische Leitlinien: Hat direkte Auswirkungen auf die Anwendung von Techniken wie RLHF und DPO
Forschungsinspiration: Eröffnet neue Richtungen für die weitere Erforschung impliziter Verzerrungen von Belohnungsmodellen

Anwendungsszenarien

Hohe Qualitätsanforderungen: Anwendungen, die stabile Leistung unter Verteilungsverschiebungen erfordern
Token-sensitive Aufgaben: Szenarien mit Umschreibungen, Übersetzungen und anderen Token-Ebenen-Änderungen
Robustheit kritisch: Systeme mit strengeren Anforderungen an die Robustheit von Belohnungsmodellen

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge theoretische Analyse und umfassende experimentelle Validierung die Grundursachen der Unterschiede in der Generalisierungsfähigkeit verschiedener Belohnungsmodelltypen tiefgreifend offenlegt. Das Papier hat nicht nur wichtigen theoretischen Wert, sondern bietet auch wertvolle Leitlinien für praktische Anwendungen. Die Forschungsmethodik ist wissenschaftlich rigoros und die Schlussfolgerungen überzeugend – ein wichtiger Beitrag zum Forschungsgebiet der Belohnungsmodelle.