On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic
Sul Ruolo della Varianza di Preferenza nell'Ottimizzazione delle Preferenze
L'Ottimizzazione Diretta delle Preferenze (DPO) è diventato un metodo importante per l'apprendimento dalle preferenze umane al fine di allineare i Modelli di Linguaggio di Grandi Dimensioni (LLM). Tuttavia, la raccolta di dati di preferenza umana è costosa e inefficiente, il che ha spinto i ricercatori a cercare metodi per ridurre i requisiti di annotazione. Questo articolo esamina l'impatto della varianza di preferenza (PVar) sull'efficacia dell'addestramento DPO, dove PVar misura la varianza delle preferenze del modello quando si confrontano coppie di risposte. Lo studio fornisce intuizioni teoriche stabilendo un limite superiore della norma del gradiente DPO per qualsiasi prompt dato, dimostrando che è controllato dalla PVar di quel prompt. Ciò implica che i prompt con bassa PVar possono produrre solo piccoli aggiornamenti di gradiente, rendendoli di minore valore per l'apprendimento. I risultati sperimentali mostrano che i prompt con PVar più elevata superano la selezione casuale o i prompt con PVar inferiore. Notevolmente, negli esperimenti che utilizzano le annotazioni umane originali del dataset UltraFeedback, l'addestramento utilizzando solo il 10% superiore dei prompt con PVar più elevata raggiunge prestazioni di valutazione migliori rispetto all'utilizzo del dataset completo.
L'allineamento dei modelli di linguaggio di grandi dimensioni è un processo cruciale per garantire che gli output generati dal modello siano coerenti con i valori e le aspettative umane. Il metodo tradizionale RLHF (Reinforcement Learning from Human Feedback) richiede un addestramento complesso in più fasi, mentre DPO rappresenta un'alternativa più semplice, eseguendo il fine-tuning direttamente su dati di coppie di preferenze.
Costo elevato della raccolta dati: L'annotazione delle preferenze umane richiede risorse umane e tempo considerevoli
Problemi di efficienza dell'addestramento: Non tutti i campioni di addestramento contribuiscono allo stesso modo al miglioramento del modello
Mancanza di guida teorica nella selezione dei dati: I metodi esistenti mancano di fondamenti teorici per identificare campioni di addestramento di alto valore
Ispirato da ricerche recenti sulla dinamica dell'addestramento RLHF e sui modelli di varianza della ricompensa, gli autori ipotizzano che i prompt che generano risposte "simili" producano segnali di preferenza deboli, potenzialmente causando inefficienza nell'addestramento DPO. Pertanto, questo articolo mira a trovare una caratteristica quantificabile del prompt per determinare la sua utilità in DPO.
Contributo Teorico: Stabilisce il collegamento teorico tra la norma del gradiente DPO e la varianza di preferenza (PVar), dimostrando che quando PVar è zero, l'ampiezza del gradiente della politica DPO è necessariamente piccola
Innovazione Metodologica: Propone un metodo di selezione dei dati basato su PVar, fornendo un teorema ponte dal quantitativo teorico online alla stima pratica offline
Verifica Empirica: Valida la superiorità delle prestazioni dei sottoinsiemi di dati ad alta PVar su più modelli, dataset e benchmark
Valore Pratico: Dimostra che l'utilizzo di solo il 10% superiore dei prompt ad alta PVar supera le prestazioni del dataset completo, riducendo significativamente il carico di annotazione
Dato un prompt x e una coppia di risposte (y_w, y_l), dove y_w è preferito a y_l, l'obiettivo di DPO è minimizzare la perdita di verosimiglianza negativa:
dove Ξ(x; θ, φ) contiene tre termini di errore: divergenza politica-ricompensa, errore del modello di ricompensa e spostamento della distribuzione della politica.
La distribuzione di PVar su due dataset mostra un ampio intervallo da valori prossimi a 0 fino a un massimo di 0,25, indicando differenze significative nell'intensità del segnale di preferenza tra i prompt.
Gli esperimenti comparativi utilizzando modelli di ricompensa di diverse dimensioni (1B, 3B, 8B) dimostrano che il metodo PVar supera costantemente la baseline del divario di ricompensa, con vantaggi ancora più evidenti quando si utilizzano modelli di ricompensa più piccoli e meno affidabili.
Scoperta Chiave: Il modello addestrato utilizzando solo il 10% superiore dei prompt con annotazione umana ad alta PVar (AlpacaEval 2.0 WR: 37,0%) supera significativamente le prestazioni di picco del modello che utilizza il dataset completo (36,5%), con una riduzione del volume di dati superiore a 6 volte.
Gli esperimenti di ablazione che modificano il parametro β (β = 0,01) confermano la robustezza dei risultati, con la strategia di selezione Top che mantiene le migliori prestazioni su tutte le combinazioni modello-dataset.
DPO funge da alternativa semplificata a RLHF, eliminando la fase di modellazione della ricompensa indipendente. Le varianti successive includono estensioni che gestiscono ordinamenti oltre le preferenze appaiate, obiettivi semplificati senza modello di riferimento, e altro ancora.
Ricerche recenti si concentrano sull'impatto critico della varianza della ricompensa sugli obiettivi RLHF, scoprendo che la bassa varianza della ricompensa porta alla scomparsa del gradiente. Questo articolo estende queste intuizioni al campo dell'apprendimento delle preferenze.
I lavori correlati includono strategie di apprendimento attivo nel fine-tuning di LLM, metodi di selezione dei campioni basati su incertezza e diversità, e formulazioni specifiche di problemi di banditi duelli offline per RLHF e DPO.
Intuizioni Teoriche: Stabilisce il collegamento diretto tra PVar e l'ampiezza del gradiente DPO, con prompt a bassa PVar che producono aggiornamenti di gradiente più piccoli
Verifica Empirica: I sottoinsiemi di dati ad alta PVar superano costantemente la selezione casuale o a bassa PVar in più impostazioni
Valore Pratico: Solo il 10% di dati di alta qualità supera le prestazioni del dataset completo, migliorando significativamente l'efficienza dell'annotazione
Fondamento Teorico Solido: Fornisce prove matematiche rigorose, stabilendo il collegamento teorico tra la selezione offline e la dinamica online
Progettazione Sperimentale Completa: Copre più modelli, dataset e benchmark di valutazione, con risultati convincenti
Valore Pratico Significativo: Riduce significativamente i requisiti di annotazione mantenendo il miglioramento delle prestazioni, con importante valore applicativo
Forte Robustezza del Metodo: Eccellenti prestazioni sotto la guida di modelli di ricompensa di diverse dimensioni
Sovraccarico Computazionale: Richiede la generazione di più risposte per ogni prompt per stimare PVar, aumentando i costi computazionali
Ipotesi Teoriche: Alcune analisi teoriche si basano su ipotesi come la continuità di Lipschitz, che potrebbero non essere completamente soddisfatte nelle applicazioni pratiche
Confronti di Baseline Limitati: Principalmente confrontato con il metodo del divario di ricompensa, mancano confronti con altri metodi di selezione dei dati
Questo articolo cita importanti lavori nei campi dell'ottimizzazione delle preferenze, dell'analisi teorica di RLHF e dell'apprendimento attivo, in particolare l'articolo originale di Rafailov et al. (2023) su DPO e l'analisi teorica di Razin et al. (2025) sulla varianza della ricompensa forniscono fondamenti importanti per questa ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità che combina bene la teoria e la pratica, fornendo non solo intuizioni teoriche approfondite ma anche significativo valore pratico. L'introduzione del concetto di PVar fornisce un nuovo strumento di analisi al campo dell'ottimizzazione delle preferenze, promettendo di promuovere ulteriormente lo sviluppo di questo campo.