Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic
Perché il Tuo Modello Linguistico è un Modello di Ricompensa Implicito Scadente?
I modelli di ricompensa sono componenti cruciali nella pipeline di post-addestramento e inferenza dei modelli linguistici. Ricerche recenti hanno dimostrato che ogni modello linguistico definisce un modello di ricompensa implicito (IM-RM) senza alcuna modifica architettonica. Tuttavia, rispetto ai modelli di ricompensa espliciti (EX-RM) che applicano una testina lineare dedicata alle rappresentazioni nascoste del modello linguistico, l'IM-RM generalmente presenta capacità di generalizzazione inferiori, in particolare in scenari fuori distribuzione. Questo divario di generalizzazione è sconcertante poiché EX-RM e IM-RM sono quasi identici—possono essere addestrati utilizzando gli stessi dati, funzioni di perdita e modello linguistico, differendo solo nel modo in cui viene calcolata la ricompensa. Questo articolo indaga a fondo le cause fondamentali di questo divario, scoprendo che l'IM-RM dipende maggiormente da indizi superficiali a livello di token, e quindi generalizza peggio dell'EX-RM sia in caso di spostamento della distribuzione a livello di token che in scenari all'interno della distribuzione.
I modelli di ricompensa svolgono un ruolo centrale nell'ecosistema moderno dei modelli linguistici, con applicazioni diffuse in addestramento con apprendimento per rinforzo, algoritmi di allineamento diretto, campionamento con rifiuto, filtraggio dei dati ed estensione al momento dell'inferenza. Attualmente esistono due tipi principali di modelli di ricompensa:
Modello di Ricompensa Esplicito (EX-RM): applica una testina lineare alle rappresentazioni nascoste del modello linguistico per calcolare la ricompensa
Modello di Ricompensa Implicito (IM-RM): definisce la ricompensa implicitamente attraverso la probabilità logaritmica del modello linguistico
Sebbene EX-RM e IM-RM siano quasi identici dal punto di vista architettonico, ricerche precedenti hanno osservato che l'IM-RM generalmente presenta capacità di generalizzazione inferiori, in particolare in scenari fuori distribuzione. Questo fenomeno è sconcertante poiché entrambi i modelli possono essere addestrati basandosi sullo stesso modello linguistico, utilizzando gli stessi dati e funzioni di perdita, differendo solo in minime differenze nel modo in cui viene calcolata la ricompensa.
Analisi Teorica: attraverso l'analisi della dinamica di apprendimento, rivela che l'IM-RM dipende maggiormente da indizi a livello di token, mentre l'EX-RM generalizza principalmente attraverso rappresentazioni nascoste
Confutazione di Assunzioni Intuitive: dimostra che i problemi di generalizzazione dell'IM-RM non derivano dal divario generazione-verifica; l'apprendimento della verifica non richiede l'apprendimento della generazione
Verifica Empirica: convalida in esperimenti controllati e scenari reali che l'IM-RM funziona peggio in caso di spostamento della distribuzione a livello di token, ma potrebbe funzionare in modo equivalente o migliore in caso di spostamento di dominio
Garanzie Teoriche: in un contesto semplificato, dimostra che l'IM-RM non può generalizzare a token non visti, mentre l'EX-RM può generalizzare con successo attraverso rappresentazioni nascoste ben strutturate
Studia l'accuratezza del ranking dei modelli di ricompensa su dati di preferenza, ovvero dato una coppia prompt-risposta (x,y+,y-), dove y+ è la risposta preferita e y- è la risposta rifiutata, valuta se il modello di ricompensa può classificare correttamente: r(x,y+) > r(x,y-).
dove u sono i parametri della testina lineare e h_{x,y} è la rappresentazione nascosta prodotta dal modello linguistico per la coppia prompt-risposta (x,y).
Scoperta chiave: il cambiamento dell'EX-RM dipende solo dalle rappresentazioni nascoste, mentre il cambiamento dell'IM-RM dipende dai token specifici, con i coefficienti ρ_{k,l} che riflettono la sovrapposizione dei token.
Teorema 2: in un contesto semplificato (risposte a singolo token), l'IM-RM non può generalizzare a token non visti (l'accuratezza rimane a 0,5), mentre l'EX-RM può generalizzare attraverso il separatore di margine massimo delle rappresentazioni nascoste.
Sensibilità ai Token: l'IM-RM è estremamente sensibile ai cambiamenti superficiali dei token, fallendo anche quando il significato è identico
Generalizzazione delle Rappresentazioni Nascoste: l'EX-RM generalizza con successo attraverso rappresentazioni nascoste semanticamente ricche
Margine di Ricompensa: l'EX-RM produce costantemente margini di ricompensa assoluti più elevati, favorendo l'ottimizzazione dell'apprendimento per rinforzo
Adattabilità di Dominio: l'IM-RM funziona meglio in alcuni scenari di spostamento di dominio
La ricerca esistente si concentra principalmente sui limiti della complessità del campione e sulle proprietà teoriche dei modelli di ricompensa, ma presta minore attenzione all'impatto di diverse parametrizzazioni sulla generalizzazione.
Questo studio è correlato al confronto tra DPO (Direct Preference Optimization) e RLHF (Reinforcement Learning from Human Feedback), ma con un focus diverso: questo articolo si concentra sulla capacità di generalizzazione del modello di ricompensa piuttosto che sul confronto degli algoritmi di addestramento.
Prende in prestito metodi dalla letteratura sul pregiudizio implicito per analizzare le traiettorie di addestramento del gradiente, ma li applica allo scenario specifico dei modelli di ricompensa.
Causa Fondamentale: i problemi di generalizzazione dell'IM-RM derivano da una dipendenza eccessiva da indizi superficiali a livello di token, non dal divario generazione-verifica
Impatto della Progettazione: scelte progettuali apparentemente minori (come calcolare la ricompensa) possono avere un impatto significativo sul comportamento di generalizzazione
Guida Applicativa: in scenari di spostamento della distribuzione a livello di token, è preferibile scegliere EX-RM; in scenari di spostamento di dominio, è possibile considerare IM-RM
Profondità Teorica: fornisce un'analisi matematica rigorosa che spiega il divario di generalizzazione dal punto di vista della dinamica di apprendimento
Completezza Sperimentale: combina esperimenti controllati e scenari reali, coprendo più modelli linguistici e dataset
Verifica di Ipotesi: verifica sistematicamente e confuta spiegazioni intuitive ma errate
Valore Pratico: fornisce una guida chiara per la scelta del modello di ricompensa nelle applicazioni pratiche
Limitazioni delle Assunzioni: le assunzioni semplificate dell'analisi teorica potrebbero limitare l'universalità delle conclusioni
Comprensione dei Meccanismi: manca un'analisi approfondita del meccanismo per cui l'IM-RM funziona meglio in caso di spostamento di dominio
Verifica su Larga Scala: gli esperimenti si concentrano principalmente su modelli di scala media; le conclusioni su modelli di larga scala richiedono ulteriore verifica
L'articolo cita numerosi lavori correlati, inclusi:
Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling
Valutazione Complessiva: questo è un articolo di ricerca di alta qualità che, attraverso un'analisi teorica rigorosa e una verifica sperimentale completa, rivela a fondo le cause fondamentali delle differenze nelle capacità di generalizzazione di diversi tipi di modelli di ricompensa. L'articolo non solo ha un valore teorico importante, ma fornisce anche una guida preziosa per le applicazioni pratiche. Il metodo di ricerca è scientificamente rigoroso, le conclusioni sono convincenti ed è un contributo importante nel campo della ricerca sui modelli di ricompensa.