On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
직접 선호도 최적화(Direct Preference Optimization, DPO)는 인간 선호도로부터 학습하여 대규모 언어 모델(LLMs)을 정렬하는 중요한 방법이 되었습니다. 그러나 인간 선호도 데이터 수집은 비용이 높고 비효율적이므로, 연구자들은 주석 요구사항을 줄이는 방법을 모색하고 있습니다. 본 논문은 선호도 분산(PVar)이 DPO 훈련 효과에 미치는 영향을 연구합니다. PVar는 응답 쌍을 비교할 때 모델 선호도의 분산을 측정합니다. 본 연구는 임의의 주어진 프롬프트에 대한 DPO 그래디언트 노름의 상한을 설정하여 해당 프롬프트의 PVar에 의해 제어됨을 보여주는 이론적 통찰력을 제공합니다. 이는 낮은 PVar의 프롬프트가 작은 그래디언트 업데이트만 생성할 수 있으므로 학습 가치가 낮다는 것을 의미합니다. 실험 결과는 높은 PVar의 프롬프트가 무작위 선택 또는 낮은 PVar의 프롬프트보다 우수함을 보여줍니다. 특히 UltraFeedback 데이터셋의 원본 인간 주석을 사용한 실험에서, 최고 PVar의 상위 10% 프롬프트만 사용하여 훈련한 결과가 전체 데이터셋을 사용한 것보다 더 나은 평가 성능을 달성했습니다.
대규모 언어 모델의 정렬은 모델이 생성하는 출력이 인간의 가치관과 기대에 부합하도록 보장하는 핵심 프로세스입니다. 전통적인 인간 피드백으로부터의 강화학습(RLHF) 방법은 복잡한 다단계 훈련이 필요하지만, DPO는 더 간단한 대안으로서 선호도 쌍 데이터에 대해 직접 미세 조정합니다.
최근 RLHF 훈련 동역학 및 보상 분산 패턴 연구에서 영감을 받아, 저자들은 "유사한" 응답을 생성하는 프롬프트가 약한 선호도 신호를 생성하여 DPO 훈련 효율성을 저하시킬 수 있다고 가정합니다. 따라서 본 논문은 DPO에서 프롬프트의 유용성을 결정하는 정량화 가능한 프롬프트 특성을 찾는 것을 목표로 합니다.