2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.

Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.

academic

حول دور تباين التفضيل في تحسين التفضيل

المعلومات الأساسية

معرّف الورقة: 2510.13022
العنوان: On the Role of Preference Variance in Preference Optimization
المؤلفون: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (جامعة برينستون)
التصنيف: cs.CL
تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.13022

الملخص

أصبحت طريقة تحسين التفضيل المباشر (DPO) أداة مهمة للتعلم من التفضيلات البشرية لمحاذاة نماذج اللغة الكبيرة (LLMs). ومع ذلك، فإن جمع بيانات التفضيلات البشرية مكلف وغير فعال، مما دفع الباحثين للبحث عن طرق لتقليل متطلبات التعليق. تدرس هذه الورقة تأثير تباين التفضيل (PVar) على فعالية تدريب DPO، حيث يقيس PVar التباين في تفضيلات النموذج عند مقارنة أزواج الاستجابات. توفر الدراسة رؤى نظرية من خلال إنشاء حد أعلى لمعيار تدرج DPO لأي موجه معين، مما يدل على أنه يتحكم فيه PVar لهذا الموجه. هذا يعني أن الموجهات ذات PVar المنخفض يمكن أن تنتج فقط تحديثات تدرج صغيرة، مما يجعلها ذات قيمة تعليمية أقل. تظهر النتائج التجريبية أن الموجهات ذات PVar الأعلى تتفوق على الاختيار العشوائي أو الموجهات ذات PVar المنخفض. والجدير بالملاحظة أنه في التجارب باستخدام التعليقات البشرية الأصلية لمجموعة بيانات UltraFeedback، فإن التدريب باستخدام أعلى 10% فقط من الموجهات ذات PVar يحقق أداء تقييم أفضل من استخدام مجموعة البيانات الكاملة.

خلفية البحث والدافع

1. تعريف المشكلة

محاذاة نماذج اللغة الكبيرة هي عملية حاسمة لضمان أن المخرجات التي ينتجها النموذج تتوافق مع القيم والتوقعات البشرية. تتطلب الطريقة التقليدية للتعلم من التعليقات البشرية (RLHF) تدريباً متعدد المراحل معقداً، بينما يعمل DPO كبديل أبسط، حيث يقوم بالضبط الدقيق مباشرة على بيانات أزواج التفضيل.

2. التحديات الأساسية

تكاليف جمع البيانات المرتفعة: يتطلب التعليق على التفضيلات البشرية موارد بشرية وقتاً كبيراً
مشاكل كفاءة التدريب: لا تساهم جميع عينات التدريب بالتساوي في تحسين النموذج
نقص التوجيه النظري لاختيار البيانات: تفتقر الطرق الحالية إلى أساس نظري لتحديد عينات التدريب ذات القيمة العالية

3. دافع البحث

مستوحاة من الأبحاث الحديثة حول ديناميكيات تدريب RLHF وأنماط تباين المكافآت، يفترض المؤلفون أن الموجهات التي تنتج استجابات "متشابهة" تولد إشارات تفضيل ضعيفة، مما قد يؤدي إلى انخفاض كفاءة تدريب DPO. لذلك، تهدف هذه الورقة إلى إيجاد خاصية موجه قابلة للقياس الكمي لتحديد فائدتها في DPO.

المساهمات الأساسية

المساهمة النظرية: إنشاء الربط النظري بين معيار تدرج DPO وتباين التفضيل (PVar)، مما يثبت أن تدرج سياسة DPO يجب أن يكون صغيراً عندما يكون PVar صفراً
الابتكار في الطريقة: اقتراح طريقة اختيار البيانات بناءً على PVar، مع توفير نظرية جسر من الكميات النظرية عبر الإنترنت إلى التقديرات العملية غير المتصلة بالإنترنت
التحقق التجريبي: التحقق من الأداء المتفوقة لمجموعات البيانات الجزئية ذات PVar العالي عبر نماذج وقواعد بيانات ومعايير متعددة
القيمة العملية: إثبات أن استخدام أعلى 10% من الموجهات ذات PVar فقط يمكن أن يتفوق على أداء مجموعة البيانات الكاملة، مما يقلل بشكل كبير من حجم العمل المطلوب للتعليق

شرح الطريقة

تعريف المهمة

بالنظر إلى موجه x وزوج استجابات (yw, yl)، حيث yw أفضل من yl، الهدف من DPO هو تقليل خسارة السجل السالب:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

حيث r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) هي دالة المكافأة الضمنية.

تعريف تباين التفضيل (PVar)

بالنسبة لموجه ثابت x، يُعرّف PVar على النحو التالي:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

حيث pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) هي احتمالية التفضيل.

طريقة التقدير العملي

استخدام طريقة مونت كارلو ونموذج مكافأة خارجي rφ(x, y) لتقدير PVar:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

حيث p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj))، و p̄ = 1/2.

التحليل النظري

النظرية 4.1 (تحديد PVar لتدرج DPO)

بالنسبة للمعاملات θ والمدخل x، معيار تدرج خسارة DPO له حد أعلى:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

حيث C(x, θ) = 8β|y|γ(x; θ) ثابت يعتمد على معيار جاكوبيان للنموذج وطول الاستجابة.

النظرية 4.2 (حد التدرج من غير المتصل بالإنترنت إلى المتصل بالإنترنت)

ربط تقدير PVar غير المتصل بالإنترنت الفعلي بديناميكيات التدريب المتصلة بالإنترنت:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

حيث Ξ(x; θ, φ) يحتوي على ثلاثة حدود خطأ: الاختلاف بين السياسة والمكافأة، وخطأ نموذج المكافأة، وتحول توزيع السياسة.

إعداد التجارب

قواعس البيانات

UltraFeedback: مجموعة بيانات كبيرة الحجم تحتوي على 60K موجه متنوع
محادثات Chatbot Arena: 33K محادثة حقيقية من المستخدمين
HH-RLHF: 160K مقارنة تفضيل بشري من Anthropic
WebGPT: 20K زوج أسئلة وإجابات ويب كثيفة الحقائق

النماذج

النماذج الأساسية: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
نموذج المكافأة: Skywork-Reward-Llama-3.1-8B-v0.2

معايير التقييم

AlpacaEval 2.0: 805 موجهات متنوعة، باستخدام GPT-4-Turbo كمقيّم
Arena-Hard: مهام استدلال صعبة، مقارنة مع GPT-4-0314

تفاصيل التنفيذ

المُحسِّن: AdamW
معدل التعلم: 5×10⁻⁷ (جدولة جيب التمام، نسبة الإحماء 0.1)
حجم الدفعة: 32
معامل DPO β: 0.1
عدد الحقب: حقبتان

نتائج التجارب

النتائج الرئيسية

تحليل توزيع PVar

يظهر توزيع PVar في مجموعتي البيانات نطاقاً واسعاً من القريب إلى الصفر إلى الحد الأقصى 0.25، مما يشير إلى وجود اختلافات كبيرة في قوة إشارات التفضيل بين الموجهات.

تحليل خسارة التدريب

أعلى 50% (أعلى PVar): انخفاض الخسارة الأسرع، التقارب إلى أقل قيمة
أسفل 50% (أقل PVar): التقارب الأبطأ، أعلى خسارة نهائية
عشوائي 50%: الأداء بين الاثنين

نتائج مقارنة الأداء

في مجموعة Llama-3.1-8B-Instruct + UltraFeedback:

AlpacaEval 2.0 LC: أعلى 50% (36.2%) > عشوائي (34.9%) > أسفل (34.8%)
Arena-Hard WR: أعلى 50% (32.2%) > عشوائي (31.0%) > أسفل (30.7%)

التحقق من المتانة

تظهر تجارب المقارنة باستخدام نماذج مكافآت بأحجام مختلفة (1B, 3B, 8B) أن طريقة PVar تتفوق باستمرار على خط الأساس لفجوة المكافآت، خاصة عند استخدام نماذج مكافآت أصغر وأقل موثوقية.

تجارب DPO الفعالة

الاكتشاف الرئيسي: يحقق النموذج المدرب باستخدام أعلى 10% فقط من موجهات التعليق البشري ذات PVar (AlpacaEval 2.0 WR: 37.0%) أداءً متفوقاً بشكل كبير على أداء الذروة لاستخدام مجموعة البيانات الكاملة (36.5%)، مع تقليل حجم البيانات بأكثر من 6 مرات.

تجارب الاستئصال

تؤكد تجارب الاستئصال بتغيير معامل β (β = 0.01) على متانة النتائج، حيث تحافظ استراتيجية الاختيار الأعلى على أفضل أداء عبر جميع مجموعات النموذج والبيانات.

الأعمال ذات الصلة

DPO وأشكاله المختلفة

يعمل DPO كبديل مبسط لـ RLHF، مما يلغي مرحلة نمذجة المكافآت المستقلة. تشمل الأشكال اللاحقة امتدادات للتعامل مع الترتيب خارج التفضيلات المقترنة، وأهداف مبسطة بدون نموذج مرجعي، وغيرها.

التحليل النظري لـ RLHF

يركز البحث الحديث على التأثير الحاسم لتباين المكافآت على أهداف RLHF، مما يكتشف أن تباين المكافآت المنخفض يؤدي إلى اختفاء التدرج. تمتد هذه الورقة هذه الرؤى إلى مجال التعلم من التفضيلات.

التعلم النشط

تشمل الأعمال ذات الصلة استراتيجيات التعلم النشط في الضبط الدقيق لـ LLM، وطرق اختيار العينات بناءً على عدم اليقين والتنوع، وصيغ مشاكل قراصنة السياق غير المتصلة بالإنترنت المتخصصة في RLHF و DPO.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الرؤى النظرية: إنشاء الربط المباشر بين PVar وحجم تدرج DPO، حيث تنتج موجهات PVar المنخفضة تحديثات تدرج أصغر
التحقق التجريبي: مجموعات البيانات الجزئية ذات PVar العالي تتفوق باستمرار على الاختيار العشوائي أو الاختيار ذي PVar المنخفض عبر إعدادات متعددة
القيمة العملية: يمكن لـ 10% فقط من البيانات عالية الجودة أن تتفوق على أداء مجموعة البيانات الكاملة، مما يحسن بشكل كبير من كفاءة التعليق

القيود

الاعتماد على نموذج مكافأة خارجي: تعتمد جودة تقدير PVar بشكل مباشر على موثوقية نموذج المكافأة الخارجي
التحكم في حدود الخطأ: تفترض فعالية الطريقة أن إشارة PVar لا تهيمن عليها حدود الخطأ
نطاق التطبيق: تم التحقق منها بشكل أساسي على المهام باللغة الإنجليزية، والقابلية للتعميم على اللغات والمجالات الأخرى تحتاج إلى التحقق

الاتجاهات المستقبلية

استكشاف تطبيق PVar في خوارزميات تحسين التفضيل الأخرى
دراسة طرق تقدير PVar الديناميكية للتكيف مع تغييرات التوزيع أثناء التدريب
توسيع مفهوم PVar إلى الإعدادات متعددة الأنماط واللغات

التقييم المتعمق

المزايا

أساس نظري قوي: يوفر إثباتات رياضية صارمة، مما يؤسس الربط النظري بين الاختيار غير المتصل بالإنترنت والديناميكيات المتصلة بالإنترنت
تصميم تجريبي شامل: يغطي نماذج وقواعس بيانات ومعايير تقييم متعددة، مما يجعل النتائج مقنعة
قيمة عملية كبيرة: يقلل بشكل كبير من متطلبات التعليق مع تحسين الأداء، مما يحمل قيمة تطبيقية مهمة
متانة الطريقة قوية: تظهر أداء ممتازة تحت إرشادات نماذج مكافآت بأحجام مختلفة

أوجه القصور

التكاليف الحسابية: يتطلب توليد استجابات متعددة لكل موجه لتقدير PVar، مما يزيد من التكاليف الحسابية
الافتراضات النظرية: يعتمد بعض التحليل النظري على افتراضات مثل الاستمرارية Lipschitz، والتي قد لا تكون مستوفاة بالكامل في التطبيقات العملية
مقارنات الخط الأساسي محدودة: تقارن بشكل أساسي مع طريقة فجوة المكافآت، وتفتقر إلى المقارنة مع طرق اختيار البيانات الأخرى

التأثير

المساهمة الأكاديمية: توفر منظوراً نظرياً جديداً وأداة عملية لمجال تحسين التفضيل
التطبيق الصناعي: يمكن أن يقلل بشكل كبير من تكاليف التعليق لمحاذاة LLM، مما يحمل قيمة تجارية مهمة
قابلية الاستنساخ: يوفر تفاصيل تنفيذ شاملة وإعدادات معاملات، مما يسهل الاستنساخ

السيناريوهات القابلة للتطبيق

البيئات ذات الموارد المحدودة: مناسبة بشكل خاص للسيناريوهات التي يكون فيها ميزانية التعليق محدودة
النشر على نطاق واسع: يمكن استخدامها لتحسين عمليات محاذاة LLM على مستوى الصناعة
أداة البحث: توفر أداة تحليل جديدة لأبحاث التعلم من التفضيلات

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات تحسين التفضيل وتحليل نظرية RLHF والتعلم النشط، خاصة ورقة DPO الأصلية من Rafailov et al. (2023) والتحليل النظري لتباين المكافآت من Razin et al. (2025) اللذان وفرا أساساً مهماً لهذا البحث.

التقييم الإجمالي: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة بشكل جيد، حيث توفر ليس فقط رؤى نظرية عميقة بل أيضاً قيمة عملية كبيرة. يوفر مفهوم PVar أداة تحليل جديدة لمجال تحسين التفضيل، ومن المتوقع أن يدفع هذا المجال نحو تطور إضافي.