On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
أصبحت طريقة تحسين التفضيل المباشر (DPO) أداة مهمة للتعلم من التفضيلات البشرية لمحاذاة نماذج اللغة الكبيرة (LLMs). ومع ذلك، فإن جمع بيانات التفضيلات البشرية مكلف وغير فعال، مما دفع الباحثين للبحث عن طرق لتقليل متطلبات التعليق. تدرس هذه الورقة تأثير تباين التفضيل (PVar) على فعالية تدريب DPO، حيث يقيس PVar التباين في تفضيلات النموذج عند مقارنة أزواج الاستجابات. توفر الدراسة رؤى نظرية من خلال إنشاء حد أعلى لمعيار تدرج DPO لأي موجه معين، مما يدل على أنه يتحكم فيه PVar لهذا الموجه. هذا يعني أن الموجهات ذات PVar المنخفض يمكن أن تنتج فقط تحديثات تدرج صغيرة، مما يجعلها ذات قيمة تعليمية أقل. تظهر النتائج التجريبية أن الموجهات ذات PVar الأعلى تتفوق على الاختيار العشوائي أو الموجهات ذات PVar المنخفض. والجدير بالملاحظة أنه في التجارب باستخدام التعليقات البشرية الأصلية لمجموعة بيانات UltraFeedback، فإن التدريب باستخدام أعلى 10% فقط من الموجهات ذات PVar يحقق أداء تقييم أفضل من استخدام مجموعة البيانات الكاملة.
محاذاة نماذج اللغة الكبيرة هي عملية حاسمة لضمان أن المخرجات التي ينتجها النموذج تتوافق مع القيم والتوقعات البشرية. تتطلب الطريقة التقليدية للتعلم من التعليقات البشرية (RLHF) تدريباً متعدد المراحل معقداً، بينما يعمل DPO كبديل أبسط، حيث يقوم بالضبط الدقيق مباشرة على بيانات أزواج التفضيل.
مستوحاة من الأبحاث الحديثة حول ديناميكيات تدريب RLHF وأنماط تباين المكافآت، يفترض المؤلفون أن الموجهات التي تنتج استجابات "متشابهة" تولد إشارات تفضيل ضعيفة، مما قد يؤدي إلى انخفاض كفاءة تدريب DPO. لذلك، تهدف هذه الورقة إلى إيجاد خاصية موجه قابلة للقياس الكمي لتحديد فائدتها في DPO.
المساهمة النظرية: إنشاء الربط النظري بين معيار تدرج DPO وتباين التفضيل (PVar)، مما يثبت أن تدرج سياسة DPO يجب أن يكون صغيراً عندما يكون PVar صفراً
الابتكار في الطريقة: اقتراح طريقة اختيار البيانات بناءً على PVar، مع توفير نظرية جسر من الكميات النظرية عبر الإنترنت إلى التقديرات العملية غير المتصلة بالإنترنت
التحقق التجريبي: التحقق من الأداء المتفوقة لمجموعات البيانات الجزئية ذات PVar العالي عبر نماذج وقواعد بيانات ومعايير متعددة
القيمة العملية: إثبات أن استخدام أعلى 10% من الموجهات ذات PVar فقط يمكن أن يتفوق على أداء مجموعة البيانات الكاملة، مما يقلل بشكل كبير من حجم العمل المطلوب للتعليق
يظهر توزيع PVar في مجموعتي البيانات نطاقاً واسعاً من القريب إلى الصفر إلى الحد الأقصى 0.25، مما يشير إلى وجود اختلافات كبيرة في قوة إشارات التفضيل بين الموجهات.
تظهر تجارب المقارنة باستخدام نماذج مكافآت بأحجام مختلفة (1B, 3B, 8B) أن طريقة PVar تتفوق باستمرار على خط الأساس لفجوة المكافآت، خاصة عند استخدام نماذج مكافآت أصغر وأقل موثوقية.
الاكتشاف الرئيسي: يحقق النموذج المدرب باستخدام أعلى 10% فقط من موجهات التعليق البشري ذات PVar (AlpacaEval 2.0 WR: 37.0%) أداءً متفوقاً بشكل كبير على أداء الذروة لاستخدام مجموعة البيانات الكاملة (36.5%)، مع تقليل حجم البيانات بأكثر من 6 مرات.
تؤكد تجارب الاستئصال بتغيير معامل β (β = 0.01) على متانة النتائج، حيث تحافظ استراتيجية الاختيار الأعلى على أفضل أداء عبر جميع مجموعات النموذج والبيانات.
يعمل DPO كبديل مبسط لـ RLHF، مما يلغي مرحلة نمذجة المكافآت المستقلة. تشمل الأشكال اللاحقة امتدادات للتعامل مع الترتيب خارج التفضيلات المقترنة، وأهداف مبسطة بدون نموذج مرجعي، وغيرها.
يركز البحث الحديث على التأثير الحاسم لتباين المكافآت على أهداف RLHF، مما يكتشف أن تباين المكافآت المنخفض يؤدي إلى اختفاء التدرج. تمتد هذه الورقة هذه الرؤى إلى مجال التعلم من التفضيلات.
تشمل الأعمال ذات الصلة استراتيجيات التعلم النشط في الضبط الدقيق لـ LLM، وطرق اختيار العينات بناءً على عدم اليقين والتنوع، وصيغ مشاكل قراصنة السياق غير المتصلة بالإنترنت المتخصصة في RLHF و DPO.
تستشهد هذه الورقة بأعمال مهمة في مجالات تحسين التفضيل وتحليل نظرية RLHF والتعلم النشط، خاصة ورقة DPO الأصلية من Rafailov et al. (2023) والتحليل النظري لتباين المكافآت من Razin et al. (2025) اللذان وفرا أساساً مهماً لهذا البحث.
التقييم الإجمالي: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة بشكل جيد، حيث توفر ليس فقط رؤى نظرية عميقة بل أيضاً قيمة عملية كبيرة. يوفر مفهوم PVar أداة تحليل جديدة لمجال تحسين التفضيل، ومن المتوقع أن يدفع هذا المجال نحو تطور إضافي.