Direct Preference Optimization (DPO) মানব পছন্দ থেকে শিখে বড় ভাষা মডেল (LLMs) সারিবদ্ধ করার একটি গুরুত্বপূর্ণ পদ্ধতি হয়ে উঠেছে। তবে মানব পছন্দের ডেটা সংগ্রহ ব্যয়বহুল এবং অদক্ষ, যা গবেষকদের মন্তব্য প্রয়োজনীয়তা হ্রাস করার উপায় খুঁজতে উৎসাহিত করে। এই পেপারটি পছন্দ ভেরিয়েন্স (PVar) এর DPO প্রশিক্ষণের কার্যকারিতার উপর প্রভাব অধ্যয়ন করে, যেখানে PVar প্রতিক্রিয়া জোড়া তুলনা করার সময় মডেল পছন্দের ভেরিয়েন্স পরিমাপ করে। গবেষণা তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে যে যেকোনো প্রদত্ত প্রম্পটের জন্য DPO গ্রেডিয়েন্ট নর্মের উপরের সীমা প্রতিষ্ঠা করে, যা সেই প্রম্পটের PVar দ্বারা নিয়ন্ত্রিত হয়। এর অর্থ হল কম PVar সহ প্রম্পটগুলি শুধুমাত্র ছোট গ্রেডিয়েন্ট আপডেট তৈরি করতে পারে, যা তাদের শেখার জন্য কম মূল্যবান করে তোলে। পরীক্ষামূলক ফলাফলগুলি দেখায় যে উচ্চতর PVar সহ প্রম্পটগুলি র্যান্ডম নির্বাচন বা কম PVar প্রম্পটগুলির চেয়ে উন্নত। উল্লেখযোগ্যভাবে, UltraFeedback ডেটাসেটের মূল মানব মন্তব্য ব্যবহার করে পরীক্ষায়, সর্বোচ্চ PVar সহ শীর্ষ ১০% প্রম্পট ব্যবহার করে প্রশিক্ষণ সম্পূর্ণ ডেটাসেট ব্যবহারের চেয়ে ভাল মূল্যায়ন কর্মক্ষমতা অর্জন করে।
বড় ভাষা মডেলের সারিবদ্ধতা নিশ্চিত করার একটি মূল প্রক্রিয়া যে মডেল দ্বারা উৎপন্ন আউটপুট মানব মূল্যবোধ এবং প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ। ঐতিহ্যবাহী RLHF (Reinforcement Learning from Human Feedback) পদ্ধতি জটিল বহু-পর্যায়ের প্রশিক্ষণের প্রয়োজন, যখন DPO একটি সহজ বিকল্প হিসাবে কাজ করে যা সরাসরি পছন্দের জোড়া ডেটায় সূক্ষ্ম-সুর করে।
RLHF প্রশিক্ষণ গতিশীলতা এবং পুরস্কার ভেরিয়েন্স প্যাটার্নের সম্প্রতিকালীন গবেষণা দ্বারা অনুপ্রাণিত, লেখকরা অনুমান করেন যে "অনুরূপ" প্রতিক্রিয়া তৈরি করে এমন প্রম্পটগুলি দুর্বল পছন্দের সংকেত তৈরি করে, যা DPO প্রশিক্ষণ দক্ষতা হ্রাস করতে পারে। অতএব, এই পেপারটি একটি পরিমাণযোগ্য প্রম্পট বৈশিষ্ট্য খুঁজে পাওয়ার লক্ষ্য রাখে যা DPO-তে এর উপযোগিতা নির্ধারণ করে।
১. তাত্ত্বিক অবদান: DPO গ্রেডিয়েন্ট নর্ম এবং পছন্দ ভেরিয়েন্স (PVar) এর মধ্যে তাত্ত্বিক সংযোগ প্রতিষ্ঠা করে, প্রমাণ করে যে PVar শূন্য হলে DPO নীতি গ্রেডিয়েন্ট মাত্রা অবশ্যই ছোট হবে २. পদ্ধতি উদ্ভাবন: PVar-ভিত্তিক ডেটা নির্বাচন পদ্ধতি প্রস্তাব করে, তাত্ত্বিক অনলাইন পরিমাণ থেকে ব্যবহারিক অফলাইন অনুমানের সেতু প্রদান করে ३. অভিজ্ঞতামূলক যাচাইকরণ: একাধিক মডেল, ডেটাসেট এবং বেঞ্চমার্কে উচ্চ PVar ডেটা সাবসেটের উচ্চতর কর্মক্ষমতা যাচাই করে ४. ব্যবহারিক মূল্য: প্রমাণ করে যে শুধুমাত্র শীর্ষ ১০% উচ্চ PVar প্রম্পট ব্যবহার করে সম্পূর্ণ ডেটাসেটের কর্মক্ষমতা অতিক্রম করা যায়, মন্তব্য কাজ উল্লেখযোগ্যভাবে হ্রাস করে
প্রম্পট x এবং প্রতিক্রিয়া জোড়া (yw, yl) দেওয়া, যেখানে yw yl এর চেয়ে ভাল, DPO এর লক্ষ্য হল নেতিবাচক লগ সম্ভাবনা ক্ষতি কমানো:
LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]
যেখানে r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) হল নিহিত পুরস্কার ফাংশন।
একটি নির্দিষ্ট প্রম্পট x এর জন্য, PVar সংজ্ঞায়িত হয় হিসাবে:
PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]
যেখানে pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) হল পছন্দের সম্ভাবনা।
মন্টে কার্লো পদ্ধতি এবং বাহ্যিক পুরস্কার মডেল rφ(x, y) ব্যবহার করে PVar অনুমান করতে:
P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²
যেখানে p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2।
প্যারামিটার θ এবং ইনপুট x এর জন্য, DPO ক্ষতি গ্রেডিয়েন্টের নর্মের একটি উপরের সীমা রয়েছে:
‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)
যেখানে C(x, θ) = 8β|y|γ(x; θ) মডেল জ্যাকোবিয়ান নর্ম এবং প্রতিক্রিয়া দৈর্ঘ্যের উপর নির্ভরশীল একটি ধ্রুবক।
ব্যবহারিক অফলাইন PVar অনুমান এবং অনলাইন প্রশিক্ষণ গতিশীলতা সংযুক্ত করে:
‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)
যেখানে Ξ(x; θ, φ) নীতি-পুরস্কার বিচ্ছিন্নতা, পুরস্কার মডেল ত্রুটি এবং নীতি বিতরণ পরিবর্তন তিনটি ত্রুটি পদ অন্তর্ভুক্ত করে।
দুটি ডেটাসেটের PVar বিতরণ ০ এর কাছাকাছি থেকে সর্বোচ্চ ०.२५ পর্যন্ত বিস্তৃত পরিসীমা দেখায়, যা প্রম্পট জুড়ে পছন্দের সংকেত শক্তিতে উল্লেখযোগ্য পার্থক্য নির্দেশ করে।
Llama-3.1-8B-Instruct + UltraFeedback সমন্বয়ে:
বিভিন্ন আকারের পুরস্কার মডেল (१B, ३B, ८B) ব্যবহার করে তুলনামূলক পরীক্ষা দেখায় যে PVar পদ্ধতি সর্বদা পুরস্কার ব্যবধান ভিত্তিরেখার চেয়ে উন্নত, বিশেষত ছোট, কম নির্ভরযোগ্য পুরস্কার মডেল ব্যবহার করার সময় সুবিধা আরও স্পষ্ট।
মূল আবিষ্কার: সর্বোচ্চ PVar সহ শীর্ষ ১०% মানব মন্তব্য প্রম্পট ব্যবহার করে প্রশিক্ষিত মডেল (AlpacaEval 2.0 WR: ३७.०%) সম্পূর্ণ ডেটাসেট ব্যবহার করে মডেলের শিখর কর্মক্ষমতা (३६.५%) উল্লেখযোগ্যভাবে অতিক্রম করে, ডেটা পরিমাণ ६ গুণেরও বেশি হ্রাস পায়।
β প্যারামিটার (β = ०.०१) পরিবর্তন করার বিলোপন পরীক্ষা সমস্ত মডেল-ডেটাসেট সমন্বয়ে শীর্ষ নির্বাচন কৌশল সর্বোত্তম কর্মক্ষমতা বজায় রাখে তা নিশ্চিত করে।
DPO RLHF এর একটি সরলীকৃত বিকল্প হিসাবে কাজ করে, স্বাধীন পুরস্কার মডেলিং পর্যায় দূর করে। পরবর্তী বৈকল্পিকগুলি জোড়া পছন্দের বাইরে র্যাঙ্কিং পরিচালনা করে এমন সম্প্রসারণ, রেফারেন্স মডেল ছাড়াই সরলীকৃত উদ্দেশ্য অন্তর্ভুক্ত করে।
সাম্প্রতিক গবেষণা RLHF উদ্দেশ্যে পুরস্কার ভেরিয়েন্সের গুরুত্বপূর্ণ প্রভাবের উপর দৃষ্টি নিবদ্ধ করে, কম পুরস্কার ভেরিয়েন্স গ্রেডিয়েন্ট অদৃশ্য হওয়ার দিকে পরিচালিত করে আবিষ্কার করে। এই পেপারটি এই অন্তর্দৃষ্টিগুলি পছন্দ শেখার ক্ষেত্রে প্রসারিত করে।
সম্পর্কিত কাজে LLM সূক্ষ্ম-সুর করার জন্য সক্রিয় শেখার কৌশল, অনিশ্চয়তা এবং বৈচিত্র্যের উপর ভিত্তি করে নমুনা নির্বাচন পদ্ধতি, এবং RLHF এবং DPO এর জন্য বিশেষভাবে অফলাইন প্রসঙ্গ দ্বন্দ্বমূলক ডাকাত সমস্যা সূত্র অন্তর্ভুক্ত।
१. তাত্ত্বিক অন্তর্দৃষ্টি: PVar এবং DPO গ্রেডিয়েন্ট মাত্রার মধ্যে সরাসরি সংযোগ প্রতিষ্ঠা করে, কম PVar প্রম্পট ছোট গ্রেডিয়েন্ট আপডেট তৈরি করে २. অভিজ্ঞতামূলক যাচাইকরণ: উচ্চ PVar ডেটা সাবসেট একাধিক সেটিংয়ে ধারাবাহিকভাবে র্যান্ডম বা কম PVar নির্বাচনের চেয়ে উন্নত ३. ব্যবহারিক মূল্য: শুধুমাত্র ১०% উচ্চ-মানের ডেটা সম্পূর্ণ ডেটাসেট কর্মক্ষমতা অতিক্রম করতে পারে, মন্তব্য দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে
१. বাহ্যিক পুরস্কার মডেলের উপর নির্ভরতা: PVar অনুমান গুণমান সরাসরি বাহ্যিক পুরস্কার মডেলের নির্ভরযোগ্যতার উপর নির্ভর করে २. ত্রুটি পদ নিয়ন্ত্রণ: পদ্ধতির কার্যকারিতা PVar সংকেত ত্রুটি পদ দ্বারা আধিপত্য না করার অনুমান করে ३. প্রযোজ্যতার পরিধি: প্রধানত ইংরেজি কাজে যাচাই করা হয়েছে, অন্যান্য ভাষা এবং ডোমেনে সাধারণীকরণ যাচাই করা প্রয়োজন
१. অন্যান্য পছন্দ অপ্টিমাইজেশন অ্যালগরিদমে PVar এর প্রয়োগ অন্বেষণ করা २. প্রশিক্ষণ প্রক্রিয়া জুড়ে বিতরণ পরিবর্তন মানিয়ে নিতে গতিশীল PVar অনুমান পদ্ধতি গবেষণা করা ३. মাল্টিমোডাল এবং বহুভাষিক সেটিংসে PVar ধারণা প্রসারিত করা
१. শক্তিশালী তাত্ত্বিক ভিত্তি: কঠোর গাণিতিক প্রমাণ প্রদান করে, অফলাইন নির্বাচন এবং অনলাইন গতিশীলতার মধ্যে তাত্ত্বিক সংযোগ প্রতিষ্ঠা করে २. ব্যাপক পরীক্ষামূলক ডিজাইন: একাধিক মডেল, ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক জুড়ে বিস্তৃত, ফলাফল প্রভাবশালী ३. উল্লেখযোগ্য ব্যবহারিক মূল্য: মন্তব্য প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করার সময় কর্মক্ষমতা উন্নত করে, গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে ४. শক্তিশালী পদ্ধতি দৃঢ়তা: বিভিন্ন আকারের পুরস্কার মডেল দ্বারা পরিচালিত সমস্ত সেটিংয়ে চমৎকার কর্মক্ষমতা
१. গণনা ওভারহেড: PVar অনুমান করতে প্রতিটি প্রম্পটের জন্য একাধিক প্রতিক্রিয়া তৈরি করা প্রয়োজন, গণনা খরচ বৃদ্ধি করে २. তাত্ত্বিক অনুমান: কিছু তাত্ত্বিক বিশ্লেষণ Lipschitz ধারাবাহিকতার মতো অনুমানের উপর নির্ভর করে, ব্যবহারিক প্রয়োগে সম্পূর্ণভাবে পূরণ না হতে পারে ३. সীমিত ভিত্তিরেখা তুলনা: প্রধানত পুরস্কার ব্যবধান পদ্ধতির সাথে তুলনা করে, অন্যান্য ডেটা নির্বাচন পদ্ধতির সাথে তুলনা অভাব
१. একাডেমিক অবদান: পছন্দ অপ্টিমাইজেশন ক্ষেত্রে নতুন তাত্ত্বিক দৃষ্টিভঙ্গি এবং ব্যবহারিক সরঞ্জাম প্রদান করে २. শিল্প প্রয়োগ: LLM সারিবদ্ধতার মন্তব্য খরচ উল্লেখযোগ্যভাবে হ্রাস করতে পারে, গুরুত্বপূর্ণ বাণিজ্যিক মূল্য রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করে, পুনরুৎপাদন সহজতর করে
१. সম্পদ-সীমিত পরিবেশ: বিশেষত মন্তব্য বাজেট সীমিত পরিস্থিতিতে উপযুক্ত २. বৃহৎ-স্কেল স্থাপনা: শিল্প-গ্রেড LLM সারিবদ্ধতা প্রক্রিয়া অপ্টিমাইজেশনে ব্যবহার করা যেতে পারে ३. গবেষণা সরঞ্জাম: পছন্দ শেখার গবেষণার জন্য নতুন বিশ্লেষণ সরঞ্জাম প্রদান করে
এই পেপারটি পছন্দ অপ্টিমাইজেশন, RLHF তাত্ত্বিক বিশ্লেষণ, সক্রিয় শেখা এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, বিশেষত Rafailov et al. (२०२३) এর DPO মূল পেপার এবং Razin et al. (२०२५) এর পুরস্কার ভেরিয়েন্স সম্পর্কিত তাত্ত্বিক বিশ্লেষণ এই গবেষণার জন্য গুরুত্বপূর্ণ ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের পেপার যা তত্ত্ব এবং অনুশীলনকে ভালভাবে একত্রিত করে, শুধুমাত্র গভীর তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে না বরং উল্লেখযোগ্য ব্যবহারিক মূল্যও প্রদর্শন করে। PVar ধারণার প্রস্তাব পছন্দ অপ্টিমাইজেশন ক্ষেত্রে নতুন বিশ্লেষণ সরঞ্জাম প্রদান করে, এই ক্ষেত্রের আরও উন্নয়ন চালিত করার সম্ভাবনা রয়েছে।