2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.

Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.

academic

Sur le Rôle de la Variance de Préférence dans l'Optimisation de Préférence

Informations Fondamentales

ID de l'article: 2510.13022
Titre: On the Role of Preference Variance in Preference Optimization
Auteurs: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (Université de Princeton)
Classification: cs.CL
Date de publication: 14 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13022

Résumé

L'Optimisation Directe de Préférence (DPO) est devenue une méthode importante pour apprendre à partir des préférences humaines afin d'aligner les grands modèles de langage (LLMs). Cependant, la collecte de données de préférence humaine est coûteuse et inefficace, ce qui a motivé les chercheurs à chercher des moyens de réduire les exigences d'annotation. Cet article étudie l'impact de la variance de préférence (PVar) sur l'efficacité de l'entraînement DPO, où PVar mesure la variance des préférences du modèle lors de la comparaison de paires de réponses. L'étude fournit des perspectives théoriques en établissant une borne supérieure de la norme du gradient DPO pour tout invite donné, montrant qu'elle est contrôlée par la PVar de cet invite. Cela implique que les invites avec une PVar faible ne peuvent générer que de petites mises à jour de gradient, les rendant moins utiles pour l'apprentissage. Les résultats expérimentaux montrent que les invites avec une PVar plus élevée surpassent la sélection aléatoire ou les invites avec une PVar plus faible. Notamment, dans les expériences utilisant les annotations humaines originales du jeu de données UltraFeedback, l'entraînement en utilisant uniquement les 10% d'invites avec la PVar la plus élevée atteint une performance d'évaluation meilleure que l'utilisation de l'ensemble complet de données.

Contexte et Motivation de la Recherche

1. Définition du Problème

L'alignement des grands modèles de langage est un processus crucial pour assurer que les résultats générés par le modèle sont conformes aux valeurs et aux attentes humaines. La méthode traditionnelle RLHF (Apprentissage par Renforcement à partir de Retours Humains) nécessite un entraînement complexe en plusieurs étapes, tandis que DPO, en tant qu'alternative plus simple, effectue un ajustement fin directement sur les données de paires de préférences.

2. Défis Fondamentaux

Coût élevé de la collecte de données: L'annotation des préférences humaines nécessite d'importantes ressources humaines et du temps
Problèmes d'efficacité d'entraînement: Tous les échantillons d'entraînement ne contribuent pas de manière égale à l'amélioration du modèle
Manque de guidance théorique pour la sélection de données: Les méthodes existantes manquent de fondement théorique pour identifier les échantillons d'entraînement de haute valeur

3. Motivation de la Recherche

Inspirés par les recherches récentes sur la dynamique d'entraînement RLHF et les modèles de variance de récompense, les auteurs supposent que les invites générant des réponses « similaires » produisent des signaux de préférence faibles, ce qui pourrait entraîner une inefficacité de l'entraînement DPO. Par conséquent, cet article vise à trouver une caractéristique d'invite quantifiable pour déterminer son utilité dans DPO.

Contributions Fondamentales

Contribution théorique: Établit le lien théorique entre la norme du gradient DPO et la variance de préférence (PVar), prouvant que le gradient de politique DPO doit nécessairement être petit lorsque PVar est zéro
Innovation méthodologique: Propose une méthode de sélection de données basée sur PVar, fournissant un théorème de pont entre la quantité théorique en ligne et l'estimation hors ligne pratique
Vérification empirique: Valide la supériorité des sous-ensembles de données à PVar élevée sur plusieurs modèles, jeux de données et benchmarks
Valeur pratique: Démontre que l'utilisation uniquement des 10% d'invites avec la PVar la plus élevée surpasse la performance de l'ensemble complet de données, réduisant considérablement les efforts d'annotation

Détails de la Méthode

Définition de la Tâche

Étant donné une invite x et une paire de réponses (yw, yl), où yw est préféré à yl, l'objectif de DPO est de minimiser la perte de log-vraisemblance négative:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

où r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) est la fonction de récompense implicite.

Définition de la Variance de Préférence (PVar)

Pour une invite fixe x, PVar est définie comme:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

où pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) est la probabilité de préférence.

Méthode d'Estimation Pratique

Utilisant la méthode de Monte-Carlo et un modèle de récompense externe rφ(x, y) pour estimer PVar:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

où p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2.

Analyse Théorique

Théorème 4.1 (PVar borne le gradient DPO)

Pour les paramètres θ et l'entrée x, la norme du gradient de perte DPO est bornée par:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

où C(x, θ) = 8β|y|γ(x; θ) est une constante dépendant de la norme jacobienne du modèle et de la longueur de réponse.

Théorème 4.2 (Borne du gradient hors ligne vers en ligne)

Connecte l'estimation PVar hors ligne pratique à la dynamique d'entraînement en ligne:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

où Ξ(x; θ, φ) contient trois termes d'erreur: la divergence politique-récompense, l'erreur du modèle de récompense et le décalage de distribution de politique.

Configuration Expérimentale

Jeux de Données

UltraFeedback: Grand jeu de données avec 60K invites diversifiées
Chatbot Arena Conversations: 33K conversations d'utilisateurs réels
HH-RLHF: 160K comparaisons de préférences humaines d'Anthropic
WebGPT: 20K paires de questions-réponses factuelles sur le web

Modèles

Modèles de base: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
Modèles de récompense: Skywork-Reward-Llama-3.1-8B-v0.2

Benchmarks d'Évaluation

AlpacaEval 2.0: 805 invites diversifiées, utilisant GPT-4-Turbo comme évaluateur
Arena-Hard: Tâches de raisonnement difficiles, comparaison avec GPT-4-0314

Détails d'Implémentation

Optimiseur: AdamW
Taux d'apprentissage: 5×10⁻⁷ (planification cosinus, ratio de préchauffage 0.1)
Taille de lot: 32
Paramètre DPO β: 0.1
Nombre d'époques d'entraînement: 2

Résultats Expérimentaux

Résultats Principaux

Analyse de la Distribution PVar

La distribution PVar sur les deux jeux de données montre une large plage allant de près de 0 à un maximum de 0.25, indiquant une variation significative dans l'intensité des signaux de préférence entre les invites.

Analyse de la Perte d'Entraînement

Top 50% (PVar la plus élevée): Perte diminue le plus rapidement, converge vers la valeur la plus basse
Bottom 50% (PVar la plus faible): Converge le plus lentement, perte finale la plus élevée
Random 50%: Performance intermédiaire

Résultats de Comparaison de Performance

Dans la combinaison Llama-3.1-8B-Instruct + UltraFeedback:

AlpacaEval 2.0 LC: Top 50% (36.2%) > Random (34.9%) > Bottom (34.8%)
Arena-Hard WR: Top 50% (32.2%) > Random (31.0%) > Bottom (30.7%)

Vérification de la Robustesse

Les expériences de comparaison utilisant des modèles de récompense de différentes tailles (1B, 3B, 8B) montrent que la méthode PVar surpasse systématiquement la ligne de base de l'écart de récompense, particulièrement lorsqu'on utilise des modèles de récompense plus petits et moins fiables.

Expériences DPO Efficace

Découverte clé: Le modèle entraîné en utilisant uniquement les 10% d'invites annotées par l'homme avec la PVar la plus élevée (AlpacaEval 2.0 WR: 37.0%) surpasse significativement la performance maximale du modèle utilisant l'ensemble complet de données (36.5%), avec une réduction du volume de données de plus de 6 fois.

Expériences d'Ablation

Les expériences d'ablation modifiant le paramètre β (β = 0.01) confirment la robustesse des résultats, la stratégie de sélection Top maintenant la meilleure performance sur toutes les combinaisons modèle-jeu de données.

Travaux Connexes

DPO et ses Variantes

DPO, en tant qu'alternative simplifiée à RLHF, élimine l'étape indépendante de modélisation des récompenses. Les variantes ultérieures incluent des extensions traitant les classements au-delà des préférences appariées et des objectifs simplifiés sans modèle de référence.

Analyse Théorique de RLHF

Les recherches récentes se concentrent sur l'impact critique de la variance de récompense sur l'objectif RLHF, découvrant que la faible variance de récompense entraîne la disparition des gradients. Cet article étend ces perspectives au domaine de l'apprentissage de préférences.

Apprentissage Actif

Les travaux connexes incluent les stratégies d'apprentissage actif dans l'ajustement fin des LLMs, les méthodes de sélection d'échantillons basées sur l'incertitude et la diversité, ainsi que les formulations de problèmes de bandits contextuels hors ligne spécifiquement pour RLHF et DPO.

Conclusions et Discussion

Conclusions Principales

Perspectives théoriques: Établit le lien direct entre PVar et l'amplitude du gradient DPO, les invites avec PVar faible produisant de petites mises à jour de gradient
Vérification empirique: Les sous-ensembles de données à PVar élevée surpassent systématiquement la sélection aléatoire ou à PVar faible dans plusieurs configurations
Valeur pratique: Seules 10% de données de haute qualité peuvent surpasser la performance de l'ensemble complet de données, améliorant considérablement l'efficacité d'annotation

Limitations

Dépendance au modèle de récompense externe: La qualité de l'estimation PVar dépend directement de la fiabilité du modèle de récompense externe
Contrôle des termes d'erreur: L'efficacité de la méthode suppose que le signal PVar n'est pas dominé par les termes d'erreur
Portée d'application: Principalement validée sur des tâches en anglais, la généralisation à d'autres langues et domaines reste à vérifier

Directions Futures

Explorer l'application de PVar dans d'autres algorithmes d'optimisation de préférence
Étudier les méthodes d'estimation PVar dynamique pour s'adapter aux changements de distribution pendant l'entraînement
Étendre le concept de PVar aux configurations multimodales et multilingues

Évaluation Approfondie

Points Forts

Fondations théoriques solides: Fournit des preuves mathématiques rigoureuses, établissant le lien théorique entre la sélection hors ligne et la dynamique en ligne
Conception expérimentale complète: Couvre plusieurs modèles, jeux de données et benchmarks d'évaluation, avec des résultats convaincants
Valeur pratique significative: Réduit considérablement les exigences d'annotation tout en améliorant les performances, avec une importante valeur d'application
Robustesse méthodologique forte: Montre d'excellentes performances sous la guidance de modèles de récompense de différentes tailles

Insuffisances

Surcharge de calcul: Nécessite de générer plusieurs réponses pour chaque invite pour estimer PVar, augmentant les coûts de calcul
Hypothèses théoriques: Certaines analyses théoriques dépendent d'hypothèses comme la continuité de Lipschitz, qui peuvent ne pas être complètement satisfaites en pratique
Comparaisons de base limitées: Principalement comparé à la méthode d'écart de récompense, manquant de comparaisons avec d'autres méthodes de sélection de données

Impact

Contribution académique: Fournit une nouvelle perspective théorique et des outils pratiques au domaine de l'optimisation de préférence
Application industrielle: Peut réduire considérablement les coûts d'annotation pour l'alignement des LLMs, avec une importante valeur commerciale
Reproductibilité: Fournit des détails d'implémentation détaillés et des paramètres d'hypertuning, facilitant la reproduction

Scénarios d'Application

Environnements à ressources limitées: Particulièrement adapté aux scénarios avec un budget d'annotation limité
Déploiement à grande échelle: Peut être utilisé pour optimiser les processus d'alignement des LLMs au niveau industriel
Outils de recherche: Fournit de nouveaux outils d'analyse pour la recherche en apprentissage de préférences

Références

Cet article cite des travaux importants dans les domaines de l'optimisation de préférence, de l'analyse théorique de RLHF et de l'apprentissage actif. En particulier, l'article DPO original de Rafailov et al. (2023) et l'analyse théorique de la variance de récompense de Razin et al. (2025) fournissent des fondations importantes pour cette recherche.

Évaluation Globale: Ceci est un article de haute qualité combinant bien la théorie et la pratique, fournissant non seulement des perspectives théoriques approfondies mais aussi une valeur pratique significative. L'introduction du concept de PVar fournit un nouvel outil d'analyse au domaine de l'optimisation de préférence, susceptible de promouvoir le développement ultérieur de ce domaine.