On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic
Sur le Rôle de la Variance de Préférence dans l'Optimisation de Préférence
L'Optimisation Directe de Préférence (DPO) est devenue une méthode importante pour apprendre à partir des préférences humaines afin d'aligner les grands modèles de langage (LLMs). Cependant, la collecte de données de préférence humaine est coûteuse et inefficace, ce qui a motivé les chercheurs à chercher des moyens de réduire les exigences d'annotation. Cet article étudie l'impact de la variance de préférence (PVar) sur l'efficacité de l'entraînement DPO, où PVar mesure la variance des préférences du modèle lors de la comparaison de paires de réponses. L'étude fournit des perspectives théoriques en établissant une borne supérieure de la norme du gradient DPO pour tout invite donné, montrant qu'elle est contrôlée par la PVar de cet invite. Cela implique que les invites avec une PVar faible ne peuvent générer que de petites mises à jour de gradient, les rendant moins utiles pour l'apprentissage. Les résultats expérimentaux montrent que les invites avec une PVar plus élevée surpassent la sélection aléatoire ou les invites avec une PVar plus faible. Notamment, dans les expériences utilisant les annotations humaines originales du jeu de données UltraFeedback, l'entraînement en utilisant uniquement les 10% d'invites avec la PVar la plus élevée atteint une performance d'évaluation meilleure que l'utilisation de l'ensemble complet de données.
L'alignement des grands modèles de langage est un processus crucial pour assurer que les résultats générés par le modèle sont conformes aux valeurs et aux attentes humaines. La méthode traditionnelle RLHF (Apprentissage par Renforcement à partir de Retours Humains) nécessite un entraînement complexe en plusieurs étapes, tandis que DPO, en tant qu'alternative plus simple, effectue un ajustement fin directement sur les données de paires de préférences.
Coût élevé de la collecte de données: L'annotation des préférences humaines nécessite d'importantes ressources humaines et du temps
Problèmes d'efficacité d'entraînement: Tous les échantillons d'entraînement ne contribuent pas de manière égale à l'amélioration du modèle
Manque de guidance théorique pour la sélection de données: Les méthodes existantes manquent de fondement théorique pour identifier les échantillons d'entraînement de haute valeur
Inspirés par les recherches récentes sur la dynamique d'entraînement RLHF et les modèles de variance de récompense, les auteurs supposent que les invites générant des réponses « similaires » produisent des signaux de préférence faibles, ce qui pourrait entraîner une inefficacité de l'entraînement DPO. Par conséquent, cet article vise à trouver une caractéristique d'invite quantifiable pour déterminer son utilité dans DPO.
Contribution théorique: Établit le lien théorique entre la norme du gradient DPO et la variance de préférence (PVar), prouvant que le gradient de politique DPO doit nécessairement être petit lorsque PVar est zéro
Innovation méthodologique: Propose une méthode de sélection de données basée sur PVar, fournissant un théorème de pont entre la quantité théorique en ligne et l'estimation hors ligne pratique
Vérification empirique: Valide la supériorité des sous-ensembles de données à PVar élevée sur plusieurs modèles, jeux de données et benchmarks
Valeur pratique: Démontre que l'utilisation uniquement des 10% d'invites avec la PVar la plus élevée surpasse la performance de l'ensemble complet de données, réduisant considérablement les efforts d'annotation
Étant donné une invite x et une paire de réponses (yw, yl), où yw est préféré à yl, l'objectif de DPO est de minimiser la perte de log-vraisemblance négative:
où Ξ(x; θ, φ) contient trois termes d'erreur: la divergence politique-récompense, l'erreur du modèle de récompense et le décalage de distribution de politique.
La distribution PVar sur les deux jeux de données montre une large plage allant de près de 0 à un maximum de 0.25, indiquant une variation significative dans l'intensité des signaux de préférence entre les invites.
Les expériences de comparaison utilisant des modèles de récompense de différentes tailles (1B, 3B, 8B) montrent que la méthode PVar surpasse systématiquement la ligne de base de l'écart de récompense, particulièrement lorsqu'on utilise des modèles de récompense plus petits et moins fiables.
Découverte clé: Le modèle entraîné en utilisant uniquement les 10% d'invites annotées par l'homme avec la PVar la plus élevée (AlpacaEval 2.0 WR: 37.0%) surpasse significativement la performance maximale du modèle utilisant l'ensemble complet de données (36.5%), avec une réduction du volume de données de plus de 6 fois.
Les expériences d'ablation modifiant le paramètre β (β = 0.01) confirment la robustesse des résultats, la stratégie de sélection Top maintenant la meilleure performance sur toutes les combinaisons modèle-jeu de données.
DPO, en tant qu'alternative simplifiée à RLHF, élimine l'étape indépendante de modélisation des récompenses. Les variantes ultérieures incluent des extensions traitant les classements au-delà des préférences appariées et des objectifs simplifiés sans modèle de référence.
Les recherches récentes se concentrent sur l'impact critique de la variance de récompense sur l'objectif RLHF, découvrant que la faible variance de récompense entraîne la disparition des gradients. Cet article étend ces perspectives au domaine de l'apprentissage de préférences.
Les travaux connexes incluent les stratégies d'apprentissage actif dans l'ajustement fin des LLMs, les méthodes de sélection d'échantillons basées sur l'incertitude et la diversité, ainsi que les formulations de problèmes de bandits contextuels hors ligne spécifiquement pour RLHF et DPO.
Perspectives théoriques: Établit le lien direct entre PVar et l'amplitude du gradient DPO, les invites avec PVar faible produisant de petites mises à jour de gradient
Vérification empirique: Les sous-ensembles de données à PVar élevée surpassent systématiquement la sélection aléatoire ou à PVar faible dans plusieurs configurations
Valeur pratique: Seules 10% de données de haute qualité peuvent surpasser la performance de l'ensemble complet de données, améliorant considérablement l'efficacité d'annotation
Fondations théoriques solides: Fournit des preuves mathématiques rigoureuses, établissant le lien théorique entre la sélection hors ligne et la dynamique en ligne
Conception expérimentale complète: Couvre plusieurs modèles, jeux de données et benchmarks d'évaluation, avec des résultats convaincants
Valeur pratique significative: Réduit considérablement les exigences d'annotation tout en améliorant les performances, avec une importante valeur d'application
Robustesse méthodologique forte: Montre d'excellentes performances sous la guidance de modèles de récompense de différentes tailles
Surcharge de calcul: Nécessite de générer plusieurs réponses pour chaque invite pour estimer PVar, augmentant les coûts de calcul
Hypothèses théoriques: Certaines analyses théoriques dépendent d'hypothèses comme la continuité de Lipschitz, qui peuvent ne pas être complètement satisfaites en pratique
Comparaisons de base limitées: Principalement comparé à la méthode d'écart de récompense, manquant de comparaisons avec d'autres méthodes de sélection de données
Cet article cite des travaux importants dans les domaines de l'optimisation de préférence, de l'analyse théorique de RLHF et de l'apprentissage actif. En particulier, l'article DPO original de Rafailov et al. (2023) et l'analyse théorique de la variance de récompense de Razin et al. (2025) fournissent des fondations importantes pour cette recherche.
Évaluation Globale: Ceci est un article de haute qualité combinant bien la théorie et la pratique, fournissant non seulement des perspectives théoriques approfondies mais aussi une valeur pratique significative. L'introduction du concept de PVar fournit un nouvel outil d'analyse au domaine de l'optimisation de préférence, susceptible de promouvoir le développement ultérieur de ce domaine.