2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic

Warum ist Ihr Sprachmodell ein schlechtes implizites Belohnungsmodell?

Grundlegende Informationen

  • Papier-ID: 2507.07981
  • Titel: Why is Your Language Model a Poor Implicit Reward Model?
  • Autoren: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Princeton University, ‡University of Illinois Urbana-Champaign)
  • Klassifizierung: cs.CL cs.AI cs.LG stat.ML
  • Veröffentlichungsdatum/Konferenz: arXiv preprint (aktualisiert am 16. Oktober 2025)
  • Papierlink: https://arxiv.org/abs/2507.07981v2

Zusammenfassung

Belohnungsmodelle sind Schlüsselkomponenten in der Nachtrainings- und Inferenz-Pipeline von Sprachmodellen. Jüngste Forschungen zeigen, dass jedes Sprachmodell ein implizites Belohnungsmodell (IM-RM) definiert, ohne dass Architekturänderungen erforderlich sind. Im Vergleich zu expliziten Belohnungsmodellen (EX-RM), die spezialisierte lineare Köpfe auf verborgenen Darstellungen von Sprachmodellen anwenden, weist IM-RM jedoch häufig schlechtere Generalisierungsfähigkeiten auf, besonders in verteilungsfernen Szenarien. Diese Generalisierungslücke ist verwirrend, da EX-RM und IM-RM nahezu identisch sind – sie können mit denselben Daten, Verlustfunktionen und Sprachmodellen trainiert werden und unterscheiden sich nur in der Belohnungsberechnung. Dieses Papier untersucht die Grundursachen dieser Lücke eingehend und stellt fest, dass IM-RM stärker von oberflächlichen Token-Hinweisen abhängt und daher sowohl bei Token-Ebenen-Verteilungsverschiebungen als auch in verteilungsinternen Szenarien schlechter generalisiert als EX-RM.

Forschungshintergrund und Motivation

Problemdefinition

Belohnungsmodelle spielen eine zentrale Rolle im modernen Sprachmodell-Ökosystem und werden häufig in Verstärkungslerntraining, direkten Ausrichtungsalgorithmen, Ablehnungsstichprobenentnahme, Datenfilterung und Inferenzzeitausweitung eingesetzt. Es gibt derzeit zwei Haupttypen von Belohnungsmodellen:

  1. Explizites Belohnungsmodell (EX-RM): Wendet einen linearen Kopf auf verborgene Darstellungen des Sprachmodells an, um Belohnungen zu berechnen
  2. Implizites Belohnungsmodell (IM-RM): Definiert Belohnungen implizit durch die Protokollwahrscheinlichkeit des Sprachmodells

Forschungsmotivation

Obwohl sich EX-RM und IM-RM architektonisch kaum unterscheiden, haben frühere Studien beobachtet, dass IM-RM häufig schlechtere Generalisierungsfähigkeiten aufweist, besonders in verteilungsfernen Szenarien. Dieses Phänomen ist verwirrend, da beide Modelle auf der Grundlage desselben Sprachmodells trainiert werden können, dieselben Daten und Verlustfunktionen verwenden und nur in der Belohnungsberechnung minimal unterscheiden.

Bedeutung

Das Verständnis der impliziten Verzerrungen verschiedener Belohnungsmodelltypen ist wichtig für:

  • Die Auswahl geeigneter Belohnungsmodellarchitekturen
  • Die Verbesserung der Robustheit von Belohnungsmodellen
  • Die Optimierung der Nachtrainingsprozesse von Sprachmodellen

Kernbeiträge

  1. Theoretische Analyse: Durch die Analyse der Lernungsdynamik wird offengelegt, dass IM-RM stärker von Token-Ebenen-Hinweisen abhängt, während EX-RM hauptsächlich durch verborgene Darstellungen generalisiert
  2. Widerlegung intuitiver Annahmen: Beweist, dass die Generalisierungsprobleme von IM-RM nicht aus der Generierungs-Verifikationslücke stammen; das Erlernen der Verifikation erfordert nicht das Erlernen der Generierung
  3. Empirische Validierung: Validiert in kontrollierten Experimenten und realen Szenarien, dass IM-RM bei Token-Ebenen-Verteilungsverschiebungen schlechter abschneidet, aber bei Domänenverschiebungen vergleichbar oder besser abschneiden kann
  4. Theoretische Garantien: Beweist in vereinfachten Einstellungen, dass IM-RM nicht auf ungesehene Token generalisieren kann, während EX-RM durch gut strukturierte verborgene Darstellungen erfolgreich generalisieren kann

Methodische Details

Aufgabendefinition

Untersuchung der Ranggenauigkeit von Belohnungsmodellen auf Präferenzdaten, d.h. bei gegebenen Eingabeaufforderungs-Antwort-Paaren (x,y+,y-), wobei y+ die bevorzugte Antwort und y- die abgelehnte Antwort ist, wird bewertet, ob das Belohnungsmodell korrekt rangieren kann: r(x,y+) > r(x,y-).

Modellarchitektur

Explizites Belohnungsmodell (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

wobei u die Parameter des linearen Kopfes sind und h_{x,y} die verborgene Darstellung ist, die das Sprachmodell für das Eingabeaufforderungs-Antwort-Paar (x,y) erzeugt.

Implizites Belohnungsmodell (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

wobei β ein fester Koeffizient ist und π_ref die Referenzverteilung ist (normalerweise das initialisierte Sprachmodell).

Technische Innovationen

1. Analyse der Lernungsdynamik

Durch die Analyse, wie Gradientenaktualisierungen die Belohnungsverteilung beeinflussen, wird festgestellt:

EX-RM-Dynamik:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM-Dynamik:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

Schlüsselfund: Die Veränderung von EX-RM hängt nur von verborgenen Darstellungen ab, während die Veränderung von IM-RM von spezifischen Token abhängt, wobei der Koeffizient ρ_{k,l} die Token-Überlappung widerspiegelt.

2. Theoretische Generalisierungslücke

Theorem 2: In vereinfachten Einstellungen (Einzeltoken-Antworten) kann IM-RM nicht auf ungesehene Token generalisieren (Genauigkeit bleibt bei 0,5), während EX-RM durch den maximalen Rand-Separator der verborgenen Darstellungen generalisieren kann.

Experimentelle Einrichtung

Datensätze

  1. Kontrollierte Experimente:
    • Persona-Datensatz: Zustimmungs-/Ablehnungsaufgaben
    • Hamilton-Kreis-Verifikation: Synthetische graphentheoretische Aufgabe
  2. Reale Szenarien:
    • UltraFeedback: Allgemeine Dialogdaten
    • RewardMATH: Mathematische Reasoning-Daten
    • RewardBench: Multi-Domain-Evaluierungs-Benchmark

Bewertungsmetriken

  • Genauigkeit: Ranggenauigkeit auf Präferenzdaten
  • Absolute Belohnungsgrenze: Normalisierter Wert von |r(x,y+) - r(x,y-)|

Vergleichsmethoden

  • Explizites Belohnungsmodell (EX-RM)
  • Implizites Belohnungsmodell (IM-RM)
  • Explizites Generierungs-Belohnungsmodell (EX-GRM)

Implementierungsdetails

  • Sprachmodelle: Pythia, Gemma-2, Qwen-2.5, Llama-3-Serie (1B-8B Parameter)
  • Optimierer: Adam
  • Lernrate: 1e-6
  • β-Koeffizient: 0,01 (für IM-RM)
  • Verlustfunktion: Bradley-Terry-Protokollwahrscheinlichkeitsverlust

Experimentelle Ergebnisse

Hauptergebnisse

1. Token-Ebenen-Verteilungsverschiebung

  • UltraFeedback-Training: EX-RM Gewinnrate bei Token-Ebenen-Verschiebung 83,4%, IM-RM Gewinnrate 16,6%
  • RewardMATH-Training: EX-RM bei Token-Ebenen-Verschiebung 100%, IM-RM 0%

2. Domänenverschiebung

  • UltraFeedback-Training: Bei Domänenverschiebung IM-RM Gewinnrate 66,7%, EX-RM Gewinnrate 33,3%
  • RewardMATH-Training: Bei Domänenverschiebung IM-RM Gewinnrate 33,4%, EX-RM Gewinnrate 66,6%

3. Kontrollierte Experimentergebnisse

In der Umschreibungsaufgabe des Persona-Datensatzes:

  • EX-RM erreicht 100% Genauigkeit sowohl auf ursprünglichen als auch auf umgeschriebenen Antworten
  • IM-RM erreicht 100% Genauigkeit auf ursprünglichen Antworten, aber nur 2,2% auf umgeschriebenen Antworten

Ablationsstudien

1. Validierung der Generierungs-Verifikationshypothese

Das Hamilton-Kreis-Experiment zeigt:

  • IM-RM Trainingsgenauigkeit: 100%, Testgenauigkeit: 99,3%
  • IM-RM korrekt generierte Zahlen: 0 (konnte keinen korrekten Hamilton-Kreis generieren)
  • Beweist, dass das Erlernen der Verifikation nicht das Erlernen der Generierung erfordert

2. Prüfung alternativer Hypothesen

  • Getestete EX-RM-Varianten basierend auf allen verborgenen Darstellungen
  • Getestete IM-RM-Varianten ohne Referenzverteilung
  • Ergebnisse zeigen, dass die Generalisierungslücke bestehen bleibt

Experimentelle Erkenntnisse

  1. Token-Empfindlichkeit: IM-RM ist extrem empfindlich gegenüber oberflächlichen Token-Änderungen, auch wenn die Semantik identisch ist
  2. Generalisierung verborgener Darstellungen: EX-RM kann erfolgreich durch semantisch reichhaltige verborgene Darstellungen generalisieren
  3. Belohnungsgrenze: EX-RM erzeugt konsistent höhere absolute Belohnungsgrenzen, was für die Verstärkungslernoptimierung vorteilhaft ist
  4. Domänenadaptation: IM-RM zeigt in einigen Domänenverschiebungsszenarien bessere Leistung

Verwandte Arbeiten

Analyse von Belohnungsmodellen

Bestehende Forschungen konzentrieren sich hauptsächlich auf Stichprobenkomplexitätsgrenzen und theoretische Eigenschaften von Belohnungsmodellen, befassen sich aber weniger mit dem Einfluss verschiedener Parametrisierungsmethoden auf die Generalisierung.

DPO vs. RLHF

Diese Forschung bezieht sich auf Vergleiche zwischen DPO (Direct Preference Optimization) und RLHF (Reinforcement Learning from Human Feedback), unterscheidet sich aber in der Ausrichtung: Dieses Papier konzentriert sich auf die Generalisierungsfähigkeit von Belohnungsmodellen statt auf den Vergleich von Trainingsalgorithmen.

Lernungsdynamik neuronaler Netze

Nutzt Methoden aus der impliziten Verzerrungsliteratur zur Analyse von Gradienten-Trainingstrajektorien, wendet sie aber auf das spezifische Szenario von Belohnungsmodellen an.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Grundursache: Die Generalisierungsprobleme von IM-RM stammen aus der übermäßigen Abhängigkeit von oberflächlichen Token-Hinweisen, nicht aus der Generierungs-Verifikationslücke
  2. Designauswirkungen: Scheinbar kleine Designentscheidungen (wie Belohnungen berechnet werden) können erhebliche Auswirkungen auf das Generalisierungsverhalten haben
  3. Anwendungsleitfaden: Bei Token-Ebenen-Verteilungsverschiebungen sollte EX-RM bevorzugt werden; bei Domänenverschiebungen kann IM-RM in Betracht gezogen werden

Einschränkungen

  1. Theoretische Annahmen: Die theoretische Analyse basiert auf vereinfachten Annahmen mit festen verborgenen Darstellungen und Einzeltoken-Antworten
  2. Bewertungsmetriken: Konzentriert sich hauptsächlich auf Genauigkeit, deckt nicht alle Dimensionen der Belohnungsmodell-Effektivität ab
  3. Modellbereich: Untersucht hauptsächlich drei Belohnungsmodelltypen, deckt nicht alle möglichen Varianten ab

Zukünftige Richtungen

  1. Theoretische Erweiterung: Lockerung der restriktiven Annahmen der aktuellen theoretischen Analyse
  2. Faktorenforschung: Untersuchung anderer Faktoren, die die Generalisierung verschiedener Belohnungsmodelltypen beeinflussen
  3. Bewertungserweiterung: Entwicklung umfassenderer Bewertungsstandards für Belohnungsmodelle
  4. Neue Architekturen: Erforschung impliziter Verzerrungen anderer Belohnungsmodelltypen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Tiefe: Bietet strenge mathematische Analyse und erklärt die Generalisierungslücke aus der Perspektive der Lernungsdynamik
  2. Umfassende Experimente: Kombiniert kontrollierte Experimente und reale Szenarien, deckt mehrere Sprachmodelle und Datensätze ab
  3. Hypothesenprüfung: Systematische Prüfung und Widerlegung intuitiver aber fehlerhafter Erklärungen
  4. Praktischer Wert: Bietet klare Leitlinien für die Auswahl von Belohnungsmodellen in praktischen Anwendungen

Mängel

  1. Annahmebeschränkungen: Die vereinfachten Annahmen der theoretischen Analyse können die Universalität der Schlussfolgerungen einschränken
  2. Mechanismusverständnis: Mangelnde tiefgreifende Analyse des Mechanismus, warum IM-RM bei Domänenverschiebungen besser abschneidet
  3. Skalierungsvalidierung: Experimente wurden hauptsächlich auf mittelgroßen Modellen durchgeführt; Schlussfolgerungen für große Modelle erfordern weitere Validierung

Auswirkungen

  1. Theoretischer Beitrag: Bietet wichtige theoretische Grundlagen zum Verständnis des Verhaltens verschiedener Belohnungsmodelltypen
  2. Praktische Leitlinien: Hat direkte Auswirkungen auf die Anwendung von Techniken wie RLHF und DPO
  3. Forschungsinspiration: Eröffnet neue Richtungen für die weitere Erforschung impliziter Verzerrungen von Belohnungsmodellen

Anwendungsszenarien

  1. Hohe Qualitätsanforderungen: Anwendungen, die stabile Leistung unter Verteilungsverschiebungen erfordern
  2. Token-sensitive Aufgaben: Szenarien mit Umschreibungen, Übersetzungen und anderen Token-Ebenen-Änderungen
  3. Robustheit kritisch: Systeme mit strengeren Anforderungen an die Robustheit von Belohnungsmodellen

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Ouyang et al. (2022): Training language models to follow instructions with human feedback
  • Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
  • Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
  • Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge theoretische Analyse und umfassende experimentelle Validierung die Grundursachen der Unterschiede in der Generalisierungsfähigkeit verschiedener Belohnungsmodelltypen tiefgreifend offenlegt. Das Papier hat nicht nur wichtigen theoretischen Wert, sondern bietet auch wertvolle Leitlinien für praktische Anwendungen. Die Forschungsmethodik ist wissenschaftlich rigoros und die Schlussfolgerungen überzeugend – ein wichtiger Beitrag zum Forschungsgebiet der Belohnungsmodelle.