2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic

পছন্দ অপ্টিমাইজেশনে পছন্দ ভেরিয়েন্সের ভূমিকা সম্পর্কে

মৌলিক তথ্য

  • পেপার আইডি: 2510.13022
  • শিরোনাম: On the Role of Preference Variance in Preference Optimization
  • লেখক: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (প্রিন্সটন বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL
  • প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2510.13022

সারসংক্ষেপ

Direct Preference Optimization (DPO) মানব পছন্দ থেকে শিখে বড় ভাষা মডেল (LLMs) সারিবদ্ধ করার একটি গুরুত্বপূর্ণ পদ্ধতি হয়ে উঠেছে। তবে মানব পছন্দের ডেটা সংগ্রহ ব্যয়বহুল এবং অদক্ষ, যা গবেষকদের মন্তব্য প্রয়োজনীয়তা হ্রাস করার উপায় খুঁজতে উৎসাহিত করে। এই পেপারটি পছন্দ ভেরিয়েন্স (PVar) এর DPO প্রশিক্ষণের কার্যকারিতার উপর প্রভাব অধ্যয়ন করে, যেখানে PVar প্রতিক্রিয়া জোড়া তুলনা করার সময় মডেল পছন্দের ভেরিয়েন্স পরিমাপ করে। গবেষণা তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে যে যেকোনো প্রদত্ত প্রম্পটের জন্য DPO গ্রেডিয়েন্ট নর্মের উপরের সীমা প্রতিষ্ঠা করে, যা সেই প্রম্পটের PVar দ্বারা নিয়ন্ত্রিত হয়। এর অর্থ হল কম PVar সহ প্রম্পটগুলি শুধুমাত্র ছোট গ্রেডিয়েন্ট আপডেট তৈরি করতে পারে, যা তাদের শেখার জন্য কম মূল্যবান করে তোলে। পরীক্ষামূলক ফলাফলগুলি দেখায় যে উচ্চতর PVar সহ প্রম্পটগুলি র্যান্ডম নির্বাচন বা কম PVar প্রম্পটগুলির চেয়ে উন্নত। উল্লেখযোগ্যভাবে, UltraFeedback ডেটাসেটের মূল মানব মন্তব্য ব্যবহার করে পরীক্ষায়, সর্বোচ্চ PVar সহ শীর্ষ ১০% প্রম্পট ব্যবহার করে প্রশিক্ষণ সম্পূর্ণ ডেটাসেট ব্যবহারের চেয়ে ভাল মূল্যায়ন কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

১. সমস্যা সংজ্ঞা

বড় ভাষা মডেলের সারিবদ্ধতা নিশ্চিত করার একটি মূল প্রক্রিয়া যে মডেল দ্বারা উৎপন্ন আউটপুট মানব মূল্যবোধ এবং প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ। ঐতিহ্যবাহী RLHF (Reinforcement Learning from Human Feedback) পদ্ধতি জটিল বহু-পর্যায়ের প্রশিক্ষণের প্রয়োজন, যখন DPO একটি সহজ বিকল্প হিসাবে কাজ করে যা সরাসরি পছন্দের জোড়া ডেটায় সূক্ষ্ম-সুর করে।

২. মূল চ্যালেঞ্জ

  • ডেটা সংগ্রহের উচ্চ খরচ: মানব পছন্দের মন্তব্যের জন্য উল্লেখযোগ্য মানব সম্পদ এবং সময় প্রয়োজন
  • প্রশিক্ষণ দক্ষতার সমস্যা: সমস্ত প্রশিক্ষণ নমুনা মডেল উন্নতিতে সমান অবদান রাখে না
  • ডেটা নির্বাচনে তাত্ত্বিক নির্দেশনার অভাব: বর্তমান পদ্ধতিগুলি উচ্চ-মূল্যের প্রশিক্ষণ নমুনা চিহ্নিত করার জন্য তাত্ত্বিক ভিত্তি অভাব করে

३. গবেষণা প্রেরণা

RLHF প্রশিক্ষণ গতিশীলতা এবং পুরস্কার ভেরিয়েন্স প্যাটার্নের সম্প্রতিকালীন গবেষণা দ্বারা অনুপ্রাণিত, লেখকরা অনুমান করেন যে "অনুরূপ" প্রতিক্রিয়া তৈরি করে এমন প্রম্পটগুলি দুর্বল পছন্দের সংকেত তৈরি করে, যা DPO প্রশিক্ষণ দক্ষতা হ্রাস করতে পারে। অতএব, এই পেপারটি একটি পরিমাণযোগ্য প্রম্পট বৈশিষ্ট্য খুঁজে পাওয়ার লক্ষ্য রাখে যা DPO-তে এর উপযোগিতা নির্ধারণ করে।

মূল অবদান

১. তাত্ত্বিক অবদান: DPO গ্রেডিয়েন্ট নর্ম এবং পছন্দ ভেরিয়েন্স (PVar) এর মধ্যে তাত্ত্বিক সংযোগ প্রতিষ্ঠা করে, প্রমাণ করে যে PVar শূন্য হলে DPO নীতি গ্রেডিয়েন্ট মাত্রা অবশ্যই ছোট হবে २. পদ্ধতি উদ্ভাবন: PVar-ভিত্তিক ডেটা নির্বাচন পদ্ধতি প্রস্তাব করে, তাত্ত্বিক অনলাইন পরিমাণ থেকে ব্যবহারিক অফলাইন অনুমানের সেতু প্রদান করে ३. অভিজ্ঞতামূলক যাচাইকরণ: একাধিক মডেল, ডেটাসেট এবং বেঞ্চমার্কে উচ্চ PVar ডেটা সাবসেটের উচ্চতর কর্মক্ষমতা যাচাই করে ४. ব্যবহারিক মূল্য: প্রমাণ করে যে শুধুমাত্র শীর্ষ ১০% উচ্চ PVar প্রম্পট ব্যবহার করে সম্পূর্ণ ডেটাসেটের কর্মক্ষমতা অতিক্রম করা যায়, মন্তব্য কাজ উল্লেখযোগ্যভাবে হ্রাস করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রম্পট x এবং প্রতিক্রিয়া জোড়া (yw, yl) দেওয়া, যেখানে yw yl এর চেয়ে ভাল, DPO এর লক্ষ্য হল নেতিবাচক লগ সম্ভাবনা ক্ষতি কমানো:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

যেখানে r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) হল নিহিত পুরস্কার ফাংশন।

পছন্দ ভেরিয়েন্স (PVar) সংজ্ঞা

একটি নির্দিষ্ট প্রম্পট x এর জন্য, PVar সংজ্ঞায়িত হয় হিসাবে:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

যেখানে pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) হল পছন্দের সম্ভাবনা।

ব্যবহারিক অনুমান পদ্ধতি

মন্টে কার্লো পদ্ধতি এবং বাহ্যিক পুরস্কার মডেল rφ(x, y) ব্যবহার করে PVar অনুমান করতে:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

যেখানে p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2।

তাত্ত্বিক বিশ্লেষণ

উপপাদ্য ४.१ (PVar DPO গ্রেডিয়েন্ট সীমাবদ্ধ করে)

প্যারামিটার θ এবং ইনপুট x এর জন্য, DPO ক্ষতি গ্রেডিয়েন্টের নর্মের একটি উপরের সীমা রয়েছে:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

যেখানে C(x, θ) = 8β|y|γ(x; θ) মডেল জ্যাকোবিয়ান নর্ম এবং প্রতিক্রিয়া দৈর্ঘ্যের উপর নির্ভরশীল একটি ধ্রুবক।

উপপাদ্য ४.२ (অফলাইন থেকে অনলাইন গ্রেডিয়েন্ট সীমা)

ব্যবহারিক অফলাইন PVar অনুমান এবং অনলাইন প্রশিক্ষণ গতিশীলতা সংযুক্ত করে:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

যেখানে Ξ(x; θ, φ) নীতি-পুরস্কার বিচ্ছিন্নতা, পুরস্কার মডেল ত্রুটি এবং নীতি বিতরণ পরিবর্তন তিনটি ত্রুটি পদ অন্তর্ভুক্ত করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • UltraFeedback: ৬০K বৈচিত্র্যময় প্রম্পটের বৃহৎ-স্কেল ডেটাসেট
  • Chatbot Arena Conversations: ৩३K প্রকৃত ব্যবহারকারী কথোপকথন
  • HH-RLHF: Anthropic এর ১६०K মানব পছন্দ তুলনা ডেটা
  • WebGPT: २०K তথ্য-ঘন ওয়েব প্রশ্নোত্তর জোড়া

মডেল

  • ভিত্তি মডেল: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
  • পুরস্কার মডেল: Skywork-Reward-Llama-3.1-8B-v0.2

মূল্যায়ন বেঞ্চমার্ক

  • AlpacaEval 2.0: ८०५ বৈচিত্র্যময় প্রম্পট, GPT-4-Turbo ব্যবহার করে মূল্যায়ন
  • Arena-Hard: কঠিন যুক্তিযুক্ত কাজ, GPT-4-0314 এর সাথে তুলনা

বাস্তবায়ন বিবরণ

  • অপ্টিমাইজার: AdamW
  • শেখার হার: ५×१०⁻⁷ (কোসাইন সময়সূচী, ०.१ ওয়ার্মআপ অনুপাত)
  • ব্যাচ আকার: ३२
  • DPO β: ०.१
  • প্রশিক্ষণ যুগ: २ যুগ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

PVar বিতরণ বিশ্লেষণ

দুটি ডেটাসেটের PVar বিতরণ ০ এর কাছাকাছি থেকে সর্বোচ্চ ०.२५ পর্যন্ত বিস্তৃত পরিসীমা দেখায়, যা প্রম্পট জুড়ে পছন্দের সংকেত শক্তিতে উল্লেখযোগ্য পার্থক্য নির্দেশ করে।

প্রশিক্ষণ ক্ষতি বিশ্লেষণ

  • শীর্ষ ५०% (সর্বোচ্চ PVar): ক্ষতি দ্রুততম হ্রাস, সর্বনিম্ন মূল্যে রূপান্তরিত
  • নীচে ५०% (সর্বনিম্ন PVar): সবচেয়ে ধীর রূপান্তর, চূড়ান্ত ক্ষতি সর্বোচ্চ
  • র্যান্ডম ५०%: কর্মক্ষমতা দুটির মধ্যে মধ্যবর্তী

কর্মক্ষমতা তুলনা ফলাফল

Llama-3.1-8B-Instruct + UltraFeedback সমন্বয়ে:

  • AlpacaEval 2.0 LC: শীর্ষ ५०% (३६.२%) > র্যান্ডম (३४.९%) > নীচে (३४.८%)
  • Arena-Hard WR: শীর্ষ ५०% (३२.२%) > র্যান্ডম (३१.०%) > নীচে (३०.७%)

দৃঢ়তা যাচাইকরণ

বিভিন্ন আকারের পুরস্কার মডেল (१B, ३B, ८B) ব্যবহার করে তুলনামূলক পরীক্ষা দেখায় যে PVar পদ্ধতি সর্বদা পুরস্কার ব্যবধান ভিত্তিরেখার চেয়ে উন্নত, বিশেষত ছোট, কম নির্ভরযোগ্য পুরস্কার মডেল ব্যবহার করার সময় সুবিধা আরও স্পষ্ট।

দক্ষ DPO পরীক্ষা

মূল আবিষ্কার: সর্বোচ্চ PVar সহ শীর্ষ ১०% মানব মন্তব্য প্রম্পট ব্যবহার করে প্রশিক্ষিত মডেল (AlpacaEval 2.0 WR: ३७.०%) সম্পূর্ণ ডেটাসেট ব্যবহার করে মডেলের শিখর কর্মক্ষমতা (३६.५%) উল্লেখযোগ্যভাবে অতিক্রম করে, ডেটা পরিমাণ ६ গুণেরও বেশি হ্রাস পায়।

বিলোপন পরীক্ষা

β প্যারামিটার (β = ०.०१) পরিবর্তন করার বিলোপন পরীক্ষা সমস্ত মডেল-ডেটাসেট সমন্বয়ে শীর্ষ নির্বাচন কৌশল সর্বোত্তম কর্মক্ষমতা বজায় রাখে তা নিশ্চিত করে।

সম্পর্কিত কাজ

DPO এবং এর বৈকল্পিক

DPO RLHF এর একটি সরলীকৃত বিকল্প হিসাবে কাজ করে, স্বাধীন পুরস্কার মডেলিং পর্যায় দূর করে। পরবর্তী বৈকল্পিকগুলি জোড়া পছন্দের বাইরে র‍্যাঙ্কিং পরিচালনা করে এমন সম্প্রসারণ, রেফারেন্স মডেল ছাড়াই সরলীকৃত উদ্দেশ্য অন্তর্ভুক্ত করে।

RLHF তাত্ত্বিক বিশ্লেষণ

সাম্প্রতিক গবেষণা RLHF উদ্দেশ্যে পুরস্কার ভেরিয়েন্সের গুরুত্বপূর্ণ প্রভাবের উপর দৃষ্টি নিবদ্ধ করে, কম পুরস্কার ভেরিয়েন্স গ্রেডিয়েন্ট অদৃশ্য হওয়ার দিকে পরিচালিত করে আবিষ্কার করে। এই পেপারটি এই অন্তর্দৃষ্টিগুলি পছন্দ শেখার ক্ষেত্রে প্রসারিত করে।

সক্রিয় শেখা

সম্পর্কিত কাজে LLM সূক্ষ্ম-সুর করার জন্য সক্রিয় শেখার কৌশল, অনিশ্চয়তা এবং বৈচিত্র্যের উপর ভিত্তি করে নমুনা নির্বাচন পদ্ধতি, এবং RLHF এবং DPO এর জন্য বিশেষভাবে অফলাইন প্রসঙ্গ দ্বন্দ্বমূলক ডাকাত সমস্যা সূত্র অন্তর্ভুক্ত।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক অন্তর্দৃষ্টি: PVar এবং DPO গ্রেডিয়েন্ট মাত্রার মধ্যে সরাসরি সংযোগ প্রতিষ্ঠা করে, কম PVar প্রম্পট ছোট গ্রেডিয়েন্ট আপডেট তৈরি করে २. অভিজ্ঞতামূলক যাচাইকরণ: উচ্চ PVar ডেটা সাবসেট একাধিক সেটিংয়ে ধারাবাহিকভাবে র্যান্ডম বা কম PVar নির্বাচনের চেয়ে উন্নত ३. ব্যবহারিক মূল্য: শুধুমাত্র ১०% উচ্চ-মানের ডেটা সম্পূর্ণ ডেটাসেট কর্মক্ষমতা অতিক্রম করতে পারে, মন্তব্য দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে

সীমাবদ্ধতা

१. বাহ্যিক পুরস্কার মডেলের উপর নির্ভরতা: PVar অনুমান গুণমান সরাসরি বাহ্যিক পুরস্কার মডেলের নির্ভরযোগ্যতার উপর নির্ভর করে २. ত্রুটি পদ নিয়ন্ত্রণ: পদ্ধতির কার্যকারিতা PVar সংকেত ত্রুটি পদ দ্বারা আধিপত্য না করার অনুমান করে ३. প্রযোজ্যতার পরিধি: প্রধানত ইংরেজি কাজে যাচাই করা হয়েছে, অন্যান্য ভাষা এবং ডোমেনে সাধারণীকরণ যাচাই করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. অন্যান্য পছন্দ অপ্টিমাইজেশন অ্যালগরিদমে PVar এর প্রয়োগ অন্বেষণ করা २. প্রশিক্ষণ প্রক্রিয়া জুড়ে বিতরণ পরিবর্তন মানিয়ে নিতে গতিশীল PVar অনুমান পদ্ধতি গবেষণা করা ३. মাল্টিমোডাল এবং বহুভাষিক সেটিংসে PVar ধারণা প্রসারিত করা

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী তাত্ত্বিক ভিত্তি: কঠোর গাণিতিক প্রমাণ প্রদান করে, অফলাইন নির্বাচন এবং অনলাইন গতিশীলতার মধ্যে তাত্ত্বিক সংযোগ প্রতিষ্ঠা করে २. ব্যাপক পরীক্ষামূলক ডিজাইন: একাধিক মডেল, ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক জুড়ে বিস্তৃত, ফলাফল প্রভাবশালী ३. উল্লেখযোগ্য ব্যবহারিক মূল্য: মন্তব্য প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করার সময় কর্মক্ষমতা উন্নত করে, গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে ४. শক্তিশালী পদ্ধতি দৃঢ়তা: বিভিন্ন আকারের পুরস্কার মডেল দ্বারা পরিচালিত সমস্ত সেটিংয়ে চমৎকার কর্মক্ষমতা

অপূর্ণতা

१. গণনা ওভারহেড: PVar অনুমান করতে প্রতিটি প্রম্পটের জন্য একাধিক প্রতিক্রিয়া তৈরি করা প্রয়োজন, গণনা খরচ বৃদ্ধি করে २. তাত্ত্বিক অনুমান: কিছু তাত্ত্বিক বিশ্লেষণ Lipschitz ধারাবাহিকতার মতো অনুমানের উপর নির্ভর করে, ব্যবহারিক প্রয়োগে সম্পূর্ণভাবে পূরণ না হতে পারে ३. সীমিত ভিত্তিরেখা তুলনা: প্রধানত পুরস্কার ব্যবধান পদ্ধতির সাথে তুলনা করে, অন্যান্য ডেটা নির্বাচন পদ্ধতির সাথে তুলনা অভাব

প্রভাব

१. একাডেমিক অবদান: পছন্দ অপ্টিমাইজেশন ক্ষেত্রে নতুন তাত্ত্বিক দৃষ্টিভঙ্গি এবং ব্যবহারিক সরঞ্জাম প্রদান করে २. শিল্প প্রয়োগ: LLM সারিবদ্ধতার মন্তব্য খরচ উল্লেখযোগ্যভাবে হ্রাস করতে পারে, গুরুত্বপূর্ণ বাণিজ্যিক মূল্য রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করে, পুনরুৎপাদন সহজতর করে

প্রযোজ্য পরিস্থিতি

१. সম্পদ-সীমিত পরিবেশ: বিশেষত মন্তব্য বাজেট সীমিত পরিস্থিতিতে উপযুক্ত २. বৃহৎ-স্কেল স্থাপনা: শিল্প-গ্রেড LLM সারিবদ্ধতা প্রক্রিয়া অপ্টিমাইজেশনে ব্যবহার করা যেতে পারে ३. গবেষণা সরঞ্জাম: পছন্দ শেখার গবেষণার জন্য নতুন বিশ্লেষণ সরঞ্জাম প্রদান করে

সংদর্ভ

এই পেপারটি পছন্দ অপ্টিমাইজেশন, RLHF তাত্ত্বিক বিশ্লেষণ, সক্রিয় শেখা এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, বিশেষত Rafailov et al. (२०२३) এর DPO মূল পেপার এবং Razin et al. (२०२५) এর পুরস্কার ভেরিয়েন্স সম্পর্কিত তাত্ত্বিক বিশ্লেষণ এই গবেষণার জন্য গুরুত্বপূর্ণ ভিত্তি প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের পেপার যা তত্ত্ব এবং অনুশীলনকে ভালভাবে একত্রিত করে, শুধুমাত্র গভীর তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে না বরং উল্লেখযোগ্য ব্যবহারিক মূল্যও প্রদর্শন করে। PVar ধারণার প্রস্তাব পছন্দ অপ্টিমাইজেশন ক্ষেত্রে নতুন বিশ্লেষণ সরঞ্জাম প্রদান করে, এই ক্ষেত্রের আরও উন্নয়ন চালিত করার সম্ভাবনা রয়েছে।