2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic

प्राथमिकता अनुकूलन में प्राथमिकता विचरण की भूमिका पर

मूल जानकारी

  • पेपर ID: 2510.13022
  • शीर्षक: प्राथमिकता अनुकूलन में प्राथमिकता विचरण की भूमिका पर
  • लेखक: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (प्रिंसटन विश्वविद्यालय)
  • वर्गीकरण: cs.CL
  • प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.13022

सारांश

Direct Preference Optimization (DPO) मानव प्राथमिकताओं से सीखने और बड़े भाषा मॉडल (LLMs) को संरेखित करने के लिए एक महत्वपूर्ण विधि बन गई है। हालांकि, मानव प्राथमिकता डेटा संग्रह महंगा और अक्षम है, जिससे शोधकर्ताओं को एनोटेशन आवश्यकताओं को कम करने के तरीके खोजने के लिए प्रेरित किया गया है। यह पेपर प्राथमिकता विचरण (PVar) के DPO प्रशिक्षण प्रभावशीलता पर प्रभाव का अध्ययन करता है, जो प्रतिक्रिया जोड़ी की तुलना करते समय मॉडल प्राथमिकता के विचरण को मापता है। अनुसंधान सैद्धांतिक अंतर्दृष्टि प्रदान करता है, किसी भी दिए गए प्रॉम्प्ट के लिए DPO ग्रेडिएंट नॉर्म पर ऊपरी सीमा स्थापित करके, जो उस प्रॉम्प्ट के PVar द्वारा नियंत्रित होता है। इसका अर्थ है कि कम PVar वाले प्रॉम्प्ट केवल छोटे ग्रेडिएंट अपडेट उत्पन्न कर सकते हैं, जिससे उनका सीखने के लिए मूल्य कम होता है। प्रायोगिक परिणाम दर्शाते हैं कि उच्च PVar वाले प्रॉम्प्ट यादृच्छिक चयन या कम PVar वाले प्रॉम्प्ट से बेहतर हैं। उल्लेखनीय रूप से, UltraFeedback डेटासेट के मूल मानव एनोटेशन का उपयोग करके प्रयोगों में, केवल सर्वोच्च PVar के शीर्ष 10% प्रॉम्प्ट का उपयोग करके प्रशिक्षण पूर्ण डेटासेट का उपयोग करने की तुलना में बेहतर मूल्यांकन प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या परिभाषा

बड़े भाषा मॉडल का संरेखण यह सुनिश्चित करने की एक महत्वपूर्ण प्रक्रिया है कि मॉडल द्वारा उत्पन्न आउटपुट मानव मूल्यों और अपेक्षाओं के अनुरूप हो। पारंपरिक RLHF (मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना) विधि को जटिल बहु-चरणीय प्रशिक्षण की आवश्यकता होती है, जबकि DPO एक सरल विकल्प के रूप में प्राथमिकता जोड़ी डेटा पर सीधे सूक्ष्म-ट्यूनिंग करता है।

2. मुख्य चुनौतियाँ

  • डेटा संग्रह की उच्च लागत: मानव प्राथमिकता एनोटेशन को बड़े पैमाने पर मानव संसाधन और समय की आवश्यकता होती है
  • प्रशिक्षण दक्षता समस्या: सभी प्रशिक्षण नमूने मॉडल सुधार में समान योगदान नहीं देते हैं
  • डेटा चयन में सैद्धांतिक मार्गदर्शन की कमी: मौजूदा विधियों में उच्च-मूल्य प्रशिक्षण नमूनों की पहचान के लिए सैद्धांतिक आधार का अभाव है

3. अनुसंधान प्रेरणा

RLHF प्रशिक्षण गतिशीलता और पुरस्कार विचरण पैटर्न पर हाल के अनुसंधान से प्रेरित होकर, लेखकों का अनुमान है कि "समान" प्रतिक्रियाएं उत्पन्न करने वाले प्रॉम्प्ट कमजोर प्राथमिकता संकेत उत्पन्न करते हैं, जिससे DPO प्रशिक्षण दक्षता कम हो सकती है। इसलिए, यह पेपर एक मात्रात्मक प्रॉम्प्ट विशेषता खोजने का लक्ष्य रखता है जो DPO में इसकी उपयोगिता निर्धारित करे।

मुख्य योगदान

  1. सैद्धांतिक योगदान: DPO ग्रेडिएंट नॉर्म और प्राथमिकता विचरण (PVar) के बीच सैद्धांतिक संबंध स्थापित करता है, यह साबित करता है कि जब PVar शून्य हो तो DPO नीति ग्रेडिएंट परिमाण आवश्यक रूप से छोटा होता है
  2. विधि नवाचार: PVar-आधारित डेटा चयन विधि प्रस्तावित करता है, सैद्धांतिक ऑनलाइन मात्रा से व्यावहारिक ऑफलाइन अनुमान तक पुल प्रमेय प्रदान करता है
  3. अनुभवजन्य सत्यापन: कई मॉडल, डेटासेट और बेंचमार्क पर उच्च PVar डेटा सबसेट की श्रेष्ठता को सत्यापित करता है
  4. व्यावहारिक मूल्य: साबित करता है कि केवल शीर्ष 10% उच्च PVar प्रॉम्प्ट का उपयोग करके पूर्ण डेटासेट के प्रदर्शन को पार किया जा सकता है, एनोटेशन कार्य को महत्वपूर्ण रूप से कम करता है

विधि विवरण

कार्य परिभाषा

दिए गए प्रॉम्प्ट x और प्रतिक्रिया जोड़ी (yw, yl) को देखते हुए, जहां yw, yl से बेहतर है, DPO का उद्देश्य नकारात्मक लॉग संभावना हानि को कम करना है:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

जहां r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) अंतर्निहित पुरस्कार फ़ंक्शन है।

प्राथमिकता विचरण (PVar) परिभाषा

निश्चित प्रॉम्प्ट x के लिए, PVar को इस प्रकार परिभाषित किया गया है:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

जहां pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) प्राथमिकता संभावना है।

व्यावहारिक अनुमान विधि

Monte Carlo विधि और बाहरी पुरस्कार मॉडल rφ(x, y) का उपयोग करके PVar का अनुमान लगाएं:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

जहां p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2।

सैद्धांतिक विश्लेषण

प्रमेय 4.1 (PVar DPO ग्रेडिएंट को सीमित करता है)

पैरामीटर θ और इनपुट x के लिए, DPO हानि ग्रेडिएंट के नॉर्म पर ऊपरी सीमा है:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

जहां C(x, θ) = 8β|y|γ(x; θ) मॉडल जैकोबियन नॉर्म और प्रतिक्रिया लंबाई पर निर्भर है।

प्रमेय 4.2 (ऑफलाइन से ऑनलाइन ग्रेडिएंट सीमा)

वास्तविक ऑफलाइन PVar अनुमान को ऑनलाइन प्रशिक्षण गतिशीलता से जोड़ता है:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

जहां Ξ(x; θ, φ) नीति-पुरस्कार विसंगति, पुरस्कार मॉडल त्रुटि और नीति वितरण बदलाव के तीन त्रुटि शब्द शामिल हैं।

प्रयोगात्मक सेटअप

डेटासेट

  • UltraFeedback: 60K विविध प्रॉम्प्ट की बड़े पैमाने पर डेटासेट
  • Chatbot Arena Conversations: 33K वास्तविक उपयोगकर्ता संवाद
  • HH-RLHF: Anthropic का 160K मानव प्राथमिकता तुलना
  • WebGPT: 20K तथ्य-घने वेब प्रश्नोत्तर जोड़ी

मॉडल

  • आधार मॉडल: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
  • पुरस्कार मॉडल: Skywork-Reward-Llama-3.1-8B-v0.2

मूल्यांकन बेंचमार्क

  • AlpacaEval 2.0: 805 विविध प्रॉम्प्ट, GPT-4-Turbo को न्यायाधीश के रूप में उपयोग करते हुए
  • Arena-Hard: कठिन तर्क कार्य, GPT-4-0314 के साथ तुलना

कार्यान्वयन विवरण

  • अनुकूलक: AdamW
  • सीखने की दर: 5×10⁻⁷ (कोसाइन शेड्यूल, 0.1 वार्मअप अनुपात)
  • बैच आकार: 32
  • DPO β: 0.1
  • प्रशिक्षण एपोक: 2

प्रयोगात्मक परिणाम

मुख्य परिणाम

PVar वितरण विश्लेषण

दोनों डेटासेट के PVar वितरण 0 के करीब से अधिकतम 0.25 तक व्यापक श्रेणी दिखाते हैं, जो प्रॉम्प्ट के बीच प्राथमिकता संकेत शक्ति में महत्वपूर्ण अंतर को दर्शाता है।

प्रशिक्षण हानि विश्लेषण

  • शीर्ष 50% (उच्चतम PVar): सबसे तेजी से हानि में कमी, सबसे कम मूल्य में परिवर्तन
  • निचला 50% (सबसे कम PVar): सबसे धीमा अभिसरण, अंतिम हानि सबसे अधिक
  • यादृच्छिक 50%: दोनों के बीच प्रदर्शन

प्रदर्शन तुलना परिणाम

Llama-3.1-8B-Instruct + UltraFeedback संयोजन में:

  • AlpacaEval 2.0 LC: शीर्ष 50% (36.2%) > यादृच्छिक (34.9%) > निचला (34.8%)
  • Arena-Hard WR: शीर्ष 50% (32.2%) > यादृच्छिक (31.0%) > निचला (30.7%)

मजबूती सत्यापन

विभिन्न आकार के पुरस्कार मॉडल (1B, 3B, 8B) का उपयोग करके तुलनात्मक प्रयोग दर्शाते हैं कि PVar विधि लगातार पुरस्कार अंतर आधार से बेहतर है, विशेष रूप से छोटे, कम विश्वसनीय पुरस्कार मॉडल का उपयोग करते समय लाभ अधिक स्पष्ट है।

कुशल DPO प्रयोग

मुख्य खोज: केवल सर्वोच्च PVar के शीर्ष 10% मानव एनोटेशन प्रॉम्प्ट का उपयोग करके प्रशिक्षित मॉडल (AlpacaEval 2.0 WR: 37.0%) पूर्ण डेटासेट का उपयोग करने वाले मॉडल के शीर्ष प्रदर्शन (36.5%) से महत्वपूर्ण रूप से बेहतर है, डेटा मात्रा 6 गुना से अधिक कम है।

विलोपन प्रयोग

β पैरामीटर (β = 0.01) को बदलने के विलोपन प्रयोग परिणामों की मजबूती की पुष्टि करते हैं, शीर्ष चयन रणनीति सभी मॉडल-डेटासेट संयोजनों में सर्वोत्तम प्रदर्शन बनाए रखती है।

संबंधित कार्य

DPO और इसके वेरिएंट

DPO RLHF का एक सरलीकृत विकल्प है, जो स्वतंत्र पुरस्कार मॉडलिंग चरण को समाप्त करता है। बाद के वेरिएंट में जोड़ी प्राथमिकता से परे रैंकिंग को संभालने वाले विस्तार, संदर्भ मॉडल के बिना सरलीकृत उद्देश्य आदि शामिल हैं।

RLHF सैद्धांतिक विश्लेषण

हाल के अनुसंधान RLHF उद्देश्य पर पुरस्कार विचरण के महत्वपूर्ण प्रभाव पर ध्यान केंद्रित करते हैं, यह पाते हुए कि कम पुरस्कार विचरण ग्रेडिएंट लुप्त होने की ओर जाता है। यह पेपर इन अंतर्दृष्टि को प्राथमिकता सीखने के क्षेत्र में विस्तारित करता है।

सक्रिय सीखना

संबंधित कार्य में LLM सूक्ष्म-ट्यूनिंग में सक्रिय सीखन रणनीति, अनिश्चितता और विविधता-आधारित नमूना चयन विधि, और RLHF और DPO के लिए विशेष रूप से ऑफलाइन संदर्भ द्वैध डाकू समस्या formulation शामिल हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक अंतर्दृष्टि: PVar और DPO ग्रेडिएंट परिमाण के बीच प्रत्यक्ष संबंध स्थापित करता है, कम PVar प्रॉम्प्ट छोटे ग्रेडिएंट अपडेट उत्पन्न करते हैं
  2. अनुभवजन्य सत्यापन: उच्च PVar डेटा सबसेट कई सेटिंग में लगातार यादृच्छिक या कम PVar चयन से बेहतर हैं
  3. व्यावहारिक मूल्य: केवल 10% उच्च-गुणवत्ता डेटा पूर्ण डेटासेट प्रदर्शन से बेहतर हो सकता है, एनोटेशन दक्षता में महत्वपूर्ण सुधार

सीमाएं

  1. बाहरी पुरस्कार मॉडल पर निर्भरता: PVar अनुमान की गुणवत्ता सीधे बाहरी पुरस्कार मॉडल की विश्वसनीयता पर निर्भर करती है
  2. त्रुटि शब्द नियंत्रण: विधि प्रभावशीलता यह मानती है कि PVar संकेत त्रुटि शब्दों द्वारा प्रभुत्व नहीं है
  3. प्रयोज्यता सीमा: मुख्य रूप से अंग्रेजी कार्यों पर सत्यापित, अन्य भाषाओं और डोमेन में सामान्यीकरण सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएं

  1. अन्य प्राथमिकता अनुकूलन एल्गोरिदम में PVar के अनुप्रयोग की खोज करें
  2. प्रशिक्षण प्रक्रिया के दौरान वितरण परिवर्तन के अनुकूल गतिशील PVar अनुमान विधि का अनुसंधान करें
  3. PVar अवधारणा को बहु-मोडल और बहु-भाषा सेटिंग में विस्तारित करें

गहन मूल्यांकन

शक्तियां

  1. मजबूत सैद्धांतिक आधार: कठोर गणितीय प्रमाण प्रदान करता है, ऑफलाइन चयन और ऑनलाइन गतिशीलता के बीच सैद्धांतिक संबंध स्थापित करता है
  2. व्यापक प्रयोगात्मक डिजाइन: कई मॉडल, डेटासेट और मूल्यांकन बेंचमार्क को कवर करता है, परिणाम प्रेरक हैं
  3. महत्वपूर्ण व्यावहारिक मूल्य: एनोटेशन आवश्यकताओं को महत्वपूर्ण रूप से कम करते हुए प्रदर्शन में सुधार करता है, महत्वपूर्ण अनुप्रयोग मूल्य है
  4. विधि मजबूती: विभिन्न आकार के पुरस्कार मॉडल के तहत उत्कृष्ट प्रदर्शन

कमियां

  1. कम्प्यूटेशनल ओवरहेड: PVar अनुमान के लिए प्रत्येक प्रॉम्प्ट के लिए कई प्रतिक्रियाएं उत्पन्न करने की आवश्यकता होती है, कम्प्यूटेशनल लागत बढ़ाता है
  2. सैद्धांतिक मान्यताएं: कुछ सैद्धांतिक विश्लेषण Lipschitz निरंतरता जैसी मान्यताओं पर निर्भर करते हैं, व्यावहारिक अनुप्रयोग में पूरी तरह संतुष्ट नहीं हो सकते हैं
  3. सीमित आधार तुलना: मुख्य रूप से पुरस्कार अंतर विधि के साथ तुलना, अन्य डेटा चयन विधियों के साथ तुलना की कमी

प्रभाव

  1. शैक्षणिक योगदान: प्राथमिकता अनुकूलन क्षेत्र के लिए नया सैद्धांतिक दृष्टिकोण और व्यावहारिक उपकरण प्रदान करता है
  2. औद्योगिक अनुप्रयोग: LLM संरेखण की एनोटेशन लागत को महत्वपूर्ण रूप से कम कर सकता है, महत्वपूर्ण व्यावसायिक मूल्य है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

प्रयोज्य परिदृश्य

  1. संसाधन-सीमित वातावरण: विशेष रूप से सीमित एनोटेशन बजट वाले परिदृश्यों के लिए उपयुक्त
  2. बड़े पैमाने पर तैनाती: औद्योगिक-स्तर की LLM संरेखण प्रक्रिया अनुकूलन के लिए उपयोग किया जा सकता है
  3. अनुसंधान उपकरण: प्राथमिकता सीखने के अनुसंधान के लिए नया विश्लेषण उपकरण प्रदान करता है

संदर्भ

यह पेपर प्राथमिकता अनुकूलन, RLHF सैद्धांतिक विश्लेषण, सक्रिय सीखना आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, विशेष रूप से Rafailov et al. (2023) का DPO मूल पेपर और Razin et al. (2025) का पुरस्कार विचरण पर सैद्धांतिक विश्लेषण इस अनुसंधान के लिए महत्वपूर्ण आधार प्रदान करता है।


समग्र मूल्यांकन: यह सिद्धांत और अभ्यास का अच्छी तरह से संयुक्त उच्च-गुणवत्ता वाला पेपर है, जो न केवल गहन सैद्धांतिक अंतर्दृष्टि प्रदान करता है बल्कि महत्वपूर्ण व्यावहारिक मूल्य भी प्रदर्शित करता है। PVar अवधारणा का प्रस्ताव प्राथमिकता अनुकूलन क्षेत्र के लिए नया विश्लेषण उपकरण प्रदान करता है, इस क्षेत्र के आगे विकास को बढ़ावा देने की संभावना है।