On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
Direct Preference Optimization (DPO) は、人間の選好から学習して大規模言語モデル(LLMs)を調整するための重要な手法となっています。しかし、人間の選好データの収集は費用がかかり効率が低いため、研究者は注釈要件を削減する方法を模索しています。本論文は、選好度分散(PVar)がDPO訓練の有効性に与える影響を研究しています。PVarは、応答ペアを比較する際のモデル選好の分散を測定します。本研究は理論的洞察を提供し、任意のプロンプトに対するDPO勾配ノルムの上界を確立することで、それがそのプロンプトのPVarによって制御されることを示しています。これは、低PVarのプロンプトが小さな勾配更新しか生成できず、学習価値が低いことを意味します。実験結果は、高PVarのプロンプトがランダム選択または低PVarのプロンプトより優れていることを示しています。特に、UltraFeedbackデータセットの元の人間注釈を使用した実験では、最高PVarの上位10%のプロンプトのみを使用して訓練することで、完全なデータセットを使用した場合よりも優れた評価性能を達成できます。