2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

طرح أسئلة توضيحية لاستخراج التفضيلات مع نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.12015
  • العنوان: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • المؤلفون: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • التصنيف: cs.AI
  • المؤتمر المنشور: GENNEXT@SIGIR'25
  • رابط الورقة: https://arxiv.org/abs/2510.12015

الملخص

تمكّن نماذج اللغة الكبيرة (LLMs) أنظمة التوصيات من التفاعل مع المستخدمين من خلال واجهات حوار مفتوحة. لتخصيص استجابات نموذج اللغة الكبيرة، خاصة عندما يكون لدى المستخدم سجل محدود، من الضروري استخراج تفضيلات المستخدم بفعالية. تقترح هذه الورقة طريقة جديدة لتدريب نماذج اللغة الكبيرة على طرح أسئلة توضيحية متسلسلة قادرة على الكشف عن تفضيلات المستخدم. تعتمد الطريقة على عملية ثنائية المراحل مستوحاة من نماذج الانتشار: تبدأ العملية الأمامية من ملف تعريف المستخدم وتولد أسئلة توضيحية مع إزالة الإجابات تدريجياً كـ "ضوضاء"؛ تدرب العملية العكسية النموذج على "إزالة الضوضاء" من ملف تعريف المستخدم من خلال تعلم طرح أسئلة توضيحية فعالة. تُظهر النتائج التجريبية أن هذه الطريقة تحسّن بشكل كبير قدرة نموذج اللغة الكبيرة على طرح أسئلة قمعية وفعالة في استخراج تفضيلات المستخدم.

السياق البحثي والدافع

تعريف المشكلة

تعتمد أنظمة التوصيات عادة على سجل التفاعلات السابقة للمستخدم لتعلم التفضيلات، لكنها تواجه تحديات في الحالات التالية:

  1. مشكلة المستخدم الجديد: نقص سجل تفاعلات كافٍ
  2. قيود الخصوصية: تحديد استخدام بيانات سجل التفاعلات
  3. عدم اليقين السياقي: تتأثر التفضيلات الحالية بعوامل مثل المزاج والبيئة الاجتماعية

أهمية البحث

مع التطور السريع لنماذج اللغة الكبيرة، أصبحت أنظمة التوصيات الحوارية (CRS) ممكنة، حيث يمكن للنظام من خلال أسئلة استخراج التفضيلات المباشرة توضيح احتياجات المستخدم وتقديم توصيات شخصية عالية الجودة.

حدود الطرق الموجودة

يمكن لتقنيات الإشراف البسيطة أن توجه نموذج اللغة الكبيرة لطرح أسئلة استخراج في الوقت المناسب، لكن توليد أسئلة توضيحية متسلسلة فعالة عبر المجالات المختلفة يظل تحدياً.

دافع البحث

تهدف هذه الورقة إلى تحسين قدرة نماذج اللغة الكبيرة على طرح أسئلة استخراج عالية الجودة، خاصة تعلم طرح أسئلة "قمعية" - تبدأ من مفاهيم عامة وتصبح تدريجياً أكثر تحديداً مع تقدم الحوار.

المساهمات الأساسية

  1. إطار عمل مبتكر: اقتراح إطار عمل ثنائي المراحل لاستخراج التفضيلات مستوحى من نماذج الانتشار المنفصلة
  2. توليد الأسئلة المتسلسلة: تطوير طريقة تدريب قادرة على توليد أسئلة توضيحية متسلسلة فعالة
  3. استراتيجية الحوار القمعي: تنفيذ استراتيجية طرح أسئلة من العام إلى المحدد
  4. محاكي المستخدم: بناء نموذج محاكي مستخدم للتقييم
  5. تحسن الأداء الملحوظ: التحقق من فعالية الطريقة على مجموعة بيانات MovieLens

شرح الطريقة

تعريف المهمة

بالنظر إلى ملف تعريف المستخدم P، الهدف هو إعادة بناء ملف التعريف الكامل للمستخدم Pₙ من ملف تعريف فارغ P₀ = ∅ من خلال أسئلة متسلسلة Q₀, Q₁, ..., Qₙ₋₁ وإجابات مقابلة A₀, A₁, ..., Aₙ₋₁.

معمارية النموذج

1. عملية الأسئلة والإجابات المتسلسلة (SQN)

استخدام قاعدة السلسلة والافتراضات الاستقلالية الشرطية:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

حيث يتم تحليل كل احتمالية انتقال إلى ثلاثة مكونات:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)
  • p_θ(Qᵢ₋₁|Pᵢ₋₁): احتمالية منشئ السؤال
  • p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): احتمالية محاكي المستخدم
  • p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): دالة التحديث الحتمية

2. العملية الأمامية: تدمير الملف الشخصي

  1. التحويل المنظم: تحويل ملف التعريف النصي للمستخدم إلى صيغة JSON
  2. ترتيب الوسوم: ترتيب الوسوم وفقاً لدرجة عموميتها
  3. توليد الأسئلة القمعية: توليد سلسلة من الأسئلة من العام إلى المحدد
  4. إزالة المعلومات التدريجية: إزالة المعلومات المقابلة تدريجياً وفقاً لترتيب الأسئلة

تعريف ملف التعريف الجزئي:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. العملية العكسية: تعلم الأسئلة

بناء بيانات التدريب:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

نقاط الابتكار التقني

  1. الإلهام من نماذج الانتشار: تشبيه ملف تعريف المستخدم بمهمة إزالة الضوضاء في عملية الانتشار المنفصلة
  2. الاستراتيجية القمعية: ضمان تدفق طبيعي للأسئلة من العام إلى المحدد من خلال ترتيب الوسوم
  3. التدريب المشترك: تحسين منشئ السؤال ومحاكي المستخدم في نفس الوقت
  4. آلية سجل الأسئلة: تضمين الأسئلة والإجابات في تحديث الملف الشخصي لتجنب الأسئلة المكررة

إعداد التجارب

مجموعات البيانات

  • مجموعة بيانات MovieLens: تُستخدم على نطاق واسع في أبحاث أنظمة التوصيات
  • ملفات تعريف المستخدمين: استخدام ملفات تعريف تم إنشاؤها بواسطة Jeong وآخرين و Tennenholtz وآخرين، والتي تم إنشاؤها بواسطة نموذج لغة كبير بناءً على سجل التقييمات الكامل، وتم التحقق من قدرتها على التنبؤ بتقييمات المستخدم

مؤشرات التقييم

  • درجة ROUGE: قياس التداخل بين ملف التعريف المُنشأ والملف الحقيقي
  • درجة BLEU: تقييم جودة توليد النصوص
  • نسبة الأسئلة غير المجابة: تقييم ملاءمة الأسئلة

طرق المقارنة

  • نموذج Gemma غير المضبوط مقابل نموذج Gemma المضبوط
  • محاكي مستخدم Gemini غير المضبوط مقابل محاكي مستخدم Gemma المضبوط

تفاصيل التنفيذ

  • النموذج الأساسي: Gemma 7B (28 طبقة) كمنشئ أسئلة ومحاكي مستخدم
  • توليد البيانات: Gemini 2.0 لتوليد بيانات عالية الجودة في العملية الأمامية
  • طريقة الضبط الدقيق: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • معاملات التدريب: حجم الدفعة 64، معدل التعلم 0.001
  • حد الأسئلة: بحد أقصى 10 أسئلة أو حتى تطابق الملف الشخصي

نتائج التجارب

النتائج الرئيسية

حسّن الضبط الدقيق أداء النموذج بشكل كبير:

  • درجة ROUGE: من 0.4 إلى 0.68
  • درجة BLEU: من 0.28 إلى 0.49
  • محاكي المستخدم: محاكي Gemma المضبوط يتفوق على محاكي Gemini غير المضبوط

تجارب الاستبعاد

1. تحليل تأثير الضبط الدقيق

  • منشئ الأسئلة المضبوط يطرح أسئلة متسلسلة أكثر فعالية
  • محاكي المستخدم المضبوط يجيب على الأسئلة بدقة أكبر
  • انخفاض كبير في نسبة الأسئلة غير المجابة

2. تأثير عدد الأسئلة

  • يجمع أفضل نموذج معلومات واسعة في الجولات الخمس الأولى
  • ينتقل في الجولات 6-7 إلى أسئلة أكثر تحديداً وتفصيلاً
  • يعكس استراتيجية حوار قمعية جيدة

3. تأثير سجل الأسئلة

  • إضافة سجل الأسئلة يحسّن الأداء في النموذج المضبوط
  • سجل الأسئلة يقلل الأداء في النموذج غير المضبوط
  • يساعد سجل الأسئلة في تجنب الأسئلة المكررة

4. تأثير خطوات الضبط الدقيق

  • المزيد من خطوات الضبط الدقيق (40,000 خطوة) تحقق أداءً أفضل
  • تظهر اتجاهات متزايدة عند 4,000 و 28,000 و 40,000 خطوة

تحليل الحالات

تحليل الأسئلة القمعية

يُظهر التحليل باستخدام الترتيب المرجح (WR):

  • الأسئلة المبكرة: Genre و Film Era و Decade وغيرها من المفاهيم الواسعة
  • الأسئلة المتوسطة: Directors و Visual Style و Tone وغيرها من المفاهيم المحددة
  • الأسئلة المتأخرة: Special Effects و Humor و Atmosphere وغيرها من المفاهيم التفصيلية

يتحقق هذا من أن النموذج تعلم استراتيجية طرح أسئلة من المفاهيم الواسعة إلى التفاصيل المحددة.

النتائج التجريبية

  1. التأثير التآزري: التحسين المشترك لمنشئ الأسئلة ومحاكي المستخدم ينتج تأثيراً تآزرياً
  2. استراتيجية متسلسلة: استراتيجية الأسئلة القمعية أكثر فعالية من طرح الأسئلة العشوائية
  3. استخدام السياق: تضمين سجل الأسئلة يساعد في تجنب التكرار وتحسين جودة الحوار

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. أنظمة التوصيات الحوارية: تقنيات استخراج التفضيلات في CRS
  2. توليد الأسئلة التوضيحية: تعليم نماذج اللغة طرح أسئلة توضيحية
  3. طرق التحسين البايزي: خوارزميات مثل PEBOL وغيرها من أطر عمل استخراج التفضيلات باللغة الطبيعية
  4. الاستدلال النشط للتفضيلات: خوارزميات تستخدم نماذج اللغة الكبيرة والاستدلال الاحتمالي

مزايا هذه الورقة

  • أول تطبيق لأفكار نماذج الانتشار على استخراج التفضيلات
  • اقتراح استراتيجية منهجية لتوليد الأسئلة القمعية
  • تحسين مشترك لمكونات توليد الأسئلة ومحاكاة المستخدم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يمكن للإطار ثنائي المراحل المستوحى من نماذج الانتشار تدريب نموذج اللغة الكبيرة بفعالية على طرح أسئلة توضيحية عالية الجودة
  2. استراتيجية الأسئلة القمعية تتفوق بشكل كبير على طريقة طرح الأسئلة العشوائية
  3. التحسين المشترك لمنشئ الأسئلة ومحاكي المستخدم ينتج تأثيراً تآزرياً

القيود

  1. الاعتماد على البيانات: يعتمد على بيانات ملف تعريف مستخدم عالية الجودة
  2. التخصص بالمجال: تم التحقق منه بشكل أساسي في مجال توصيات الأفلام
  3. بيئة محاكاة: يعتمد التقييم بشكل أساسي على محاكي المستخدم وليس المستخدمين الحقيقيين
  4. التكلفة الحسابية: يتطلب موارد حسابية كبيرة للضبط الدقيق

الاتجاهات المستقبلية

  1. التوسع إلى مزيد من مجالات التوصيات
  2. التحقق من خلال التفاعل مع المستخدمين الحقيقيين
  3. استكشاف استراتيجيات تدريب أكثر كفاءة
  4. دمج المعلومات متعددة الأنماط

التقييم المتعمق

المزايا

  1. الابتكار في الطريقة: تطبيق ذكي لأفكار نماذج الانتشار على الأنظمة الحوارية، مفهوم جديد ومعقول
  2. اكتمال التقنية: توفير إطار عمل تدريب كامل يشمل توليد البيانات وتدريب النموذج والتقييم
  3. كفاية التجارب: تجارب استبعاد شاملة تتحقق من فعالية كل مكون
  4. القيمة العملية: حل مشاكل عملية في أنظمة التوصيات بإمكانية تطبيق قوية

أوجه القصور

  1. حدود التقييم: يعتمد بشكل أساسي على بيئة محاكاة، يفتقد التحقق من التفاعل مع المستخدمين الحقيقيين
  2. حدود المجال: تم التحقق منه فقط في مجال توصيات الأفلام، قدرة التعميم تحتاج إلى التحقق
  3. خطوط الأساس المقارنة: نقص المقارنة المباشرة مع طرق استخراج التفضيلات المتقدمة الأخرى
  4. التحليل النظري: نقص التحليل المتعمق للخصائص النظرية للطريقة

التأثير

  1. المساهمة الأكاديمية: توفير أفكار بحثية جديدة لأنظمة التوصيات الحوارية
  2. القيمة العملية: يمكن تطبيقها مباشرة في أنظمة التوصيات الفعلية
  3. إمكانية التكرار: توفير تفاصيل تنفيذ مفصلة تسهل التكرار

السيناريوهات المناسبة

  1. توصيات البداية الباردة: مناسبة بشكل خاص لاستخراج تفضيلات المستخدمين الجدد
  2. الأنظمة الحوارية: يمكن دمجها في أنظمة توصيات حوارية متنوعة
  3. الخدمات الشخصية: مناسبة للسيناريوهات التي تتطلب فهماً سريعاً لتفضيلات المستخدم
  4. التفاعل متعدد الجولات: مناسبة للتطبيقات التي تتطلب جمع معلومات تدريجي

المراجع

تستشهد الورقة بـ 31 مرجعاً ذا صلة، تغطي مجالات متعددة ذات صلة بما في ذلك أنظمة التوصيات الحوارية ونماذج اللغة الكبيرة ونماذج الانتشار واستخراج التفضيلات، مما يوفر أساساً نظرياً متيناً لهذا البحث.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تطبق بشكل مبتكر أفكار نماذج الانتشار على مشكلة استخراج التفضيلات، وتقترح حلاً كاملاً وتتحقق من فعاليته من خلال التجارب. على الرغم من وجود بعض القيود، فإن مساهماتها التقنية وقيمتها العملية تجعلها تقدماً مهماً في مجال أنظمة التوصيات الحوارية.