2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim

Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.

academic

ADVICE: تقدير الثقة اللفظية المعتمدة على الإجابة

المعلومات الأساسية

معرّف الورقة: 2510.10913
العنوان: ADVICE: Answer-Dependent Verbalized Confidence Estimation
المؤلفون: Ki Jung Seo, Sehun Lim, Taeuk Kim (جامعة هانيانج)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.10913

الملخص

حققت نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في التعبير عن درجات الثقة باللغة الطبيعية، مما يحسّن الشفافية والموثوقية. ومع ذلك، غالباً ما تظهر درجات ثقتها مشكلة الثقة الزائدة، والتي لم يتم فهم أسبابها الجذرية بشكل كافٍ. يقدم هذا البحث تحليلاً مفصلاً للديناميكيات الداخلية للثقة اللفظية، ويحدد "عدم الاعتماد على الإجابة" كعامل رئيسي، أي فشل النموذج في تعديل درجات الثقة بناءً على إجاباته الخاصة. لمعالجة هذه المشكلة، يقترح المؤلفون ADVICE (تقدير الثقة اللفظية المعتمدة على الإجابة)، وهو إطار عمل لضبط دقيق يعزز تقدير الثقة المعتمد على الإجابة. تُظهر التجارب الموسعة أن ADVICE يحسّن معايرة الثقة بشكل كبير مع الحفاظ على أداء المهمة. يؤكد التحليل الإضافي أن ADVICE يعزز الاعتماد على الإجابة، مما ينتج عنه توزيع ثقة أكثر توازناً وأفضل معايرة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: نماذج اللغة الكبيرة تعاني من مشكلة خطيرة في الثقة الزائدة عند توليد درجات ثقة لفظية، أي أنها تميل إلى التعبير عن ثقة عالية بغض النظر عما إذا كانت الإجابة صحيحة أم خاطئة
الأهمية: عند نشر نماذج اللغة الكبيرة في مجالات عالية المخاطر مثل القانون والطب، يعتبر تقدير الثقة الموثوق به حاسماً لإدارة عدم الاكتمال المتأصل في النموذج
قيود الأساليب الموجودة:
- يركز البحث الحالي على "كيفية" تخفيف الثقة الزائدة بدلاً من "لماذا" تحدث
- نقص الفهم العميق للآليات الداخلية للثقة اللفظية
- على الرغم من أن أساليب الإشارات والعينات والضبط الدقيق توفر تحسينات، إلا أن الأسباب الجذرية لم تُحدد

دافع البحث

استلهم المؤلفون من نظريات تقدير الثقة في علم الأعصاب، حيث يصيغون إطار تقدير الثقة كعملية تراكم الأدلة بعد اتخاذ القرار، واكتشفوا أن نماذج اللغة الكبيرة غالباً ما تتجاهل معلومات الإجابة التي تولدها بنفسها عند تقدير درجات الثقة، وهو ما يتناقض مع تعريف الثقة.

المساهمات الأساسية

الاكتشاف النظري: تحديد وتحليل منهجي لأول مرة لـ "عدم الاعتماد على الإجابة" كسبب جذري للثقة الزائدة في نماذج اللغة الكبيرة
منهج التحليل: اقتراح طريقة تحقق مزدوجة تعتمد على مقارنة التوزيعات الاحتمالية وتحليل الإسناد لتقدير الاعتماد على الإجابة
الحل المقترح: تصميم إطار عمل ADVICE للضبط الدقيق، الذي يشجع النموذج بشكل صريح على الانتباه إلى الإجابة المولدة عند الإبلاغ عن درجات الثقة
التحقق التجريبي: التحقق من فعالية الطريقة على عدة مجموعات بيانات ونماذج، مما يثبت أهمية معلومات الإجابة في تقدير الثقة
القدرة على التعميم: إظهار قدرة الطريقة على التعميم على المهام خارج التوزيع وخصائص توزيع الثقة المتوازن

شرح الطريقة

تعريف المهمة

بالنظر إلى سؤال q والإجابة المقابلة a، يجب أن تقارب الثقة اللفظية احتمالية صحة الإجابة P(correct|q,a). يجب أن يحقق تقدير الثقة المثالي:

التعبير عن ثقة عالية عندما تكون الإجابة صحيحة
التعبير عن ثقة منخفضة عندما تكون الإجابة خاطئة
تعديل مستوى الثقة بناءً على محتوى الإجابة

تحليل عدم الاعتماد على الإجابة

1. طريقة مقارنة التوزيعات الاحتمالية

التحقق من عدم الاعتماد على الإجابة من خلال مقارنة التوزيعين التاليين:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

حيث يتم توسيع الجانب الأيمن باستخدام صيغة الاحتمال الكلي إلى:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

استخدام تباعد Jensen-Shannon (JSD) لتقدير الفرق بين التوزيعين، حيث تشير قيمة JSD القريبة من 0 إلى عدم حساسية النموذج لمعلومات الإجابة.

2. طريقة تحليل الإسناد

فتح الانتباه (Attention Rollout): تحليل أوزان الانتباه لتوليد الثقة على رموز الإجابة
التدرجات المتكاملة (Integrated Gradients): حساب مساهمة رموز الإجابة في التنبؤ بدرجة الثقة

تصميم إطار عمل ADVICE

بناء بيانات التدريب

أخذ عينة من 2000 مثال من TriviaQA
لكل سؤال q، بناء ثلاثيات (q, a_correct, a_wrong)
بناء ثلاث متغيرات صيغة لغوية لتحسين القدرة على التعميم

هدف التدريب

تعريف ثلاث دوال خسارة:

خسارة نمذجة اللغة:

L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

الحفاظ على قدرة النموذج الأصلية على الإجابة على الأسئلة

خسارة التوزيع المتناقض:

L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

دفع النموذج للتعلم بتمييز توزيعات الثقة بين الإجابات الصحيحة والخاطئة

خسارة الهامش:

L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

ضمان حصول الإجابات الصحيحة على درجات ثقة متوقعة أعلى

دالة الخسارة الكلية:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

نقاط الابتكار التقني

تحليل السبب الجذري: أول تحليل لمشكلة الثقة الزائدة من منظور الاعتماد على الإجابة
التحقق المزدوج: دمج التحليل الاحتمالي وطرق إسناد الشبكات العصبية للتحقق من الفرضية
التعلم المتناقض: استخدام أزواج الإجابات الصحيحة/الخاطئة للتدريب المتناقض
التحسين متعدد الأهداف: موازنة الحفاظ على أداء المهمة وتحسين معايرة الثقة

إعداد التجارب

مجموعات البيانات

التدريب: TriviaQA (2000 مثال)
التقييم: TriviaQA, MMLU, SciQ, LogiQA (اختبار التعميم عبر المجالات)

النماذج

LLAMA-3.1-8B-INSTRUCT
MISTRAL-7B-INSTRUCT-V0.3
GEMMA-2-9B-IT

أنواع التعبير عن الثقة

ScoreText: {منخفضة، متوسطة، عالية}
ScoreLetter: {E, D, C, B, A}
ScoreNumber: {0, 1, ..., 9}
ScoreFloat: 0.0, 1.0
ScorePercent: {0%, 1%, ..., 100%}

مؤشرات التقييم

ECE (خطأ المعايرة المتوقع): متوسط الفرق المطلق بين درجة الثقة المتنبأ بها والدقة الفعلية
NCE (خطأ المعايرة الصافي): خطأ المعايرة الموقّع، يعكس الانحياز
BS (درجة Brier): متوسط الخطأ التربيعي للتنبؤ الاحتمالي
AUROC: قدرة ترتيب الثقة

الطرق المقارنة

Default: طريقة الإشارة الأساسية
Self-Consistency: طريقة قائمة على العينات
ConfTuner: أفضل طريقة ضبط دقيق حالية

نتائج التجارب

النتائج الرئيسية

مقارنة الأداء على TriviaQA (GEMMA-2-9B-IT):

ECE: Default (21.9%) → ADVICE (6.5%)
NCE: Default (-21.8%) → ADVICE (1.6%)
AUROC: Default (52.7%) → ADVICE (78.5%)

تظهر نتائج التعميم عبر المجالات أن ADVICE حقق تحسينات كبيرة على MMLU و SciQ و LogiQA، مما يثبت قوة الطريقة.

تجارب الاستئصال

تحليل مساهمة كل دالة خسارة:

استخدام L_JSD وحدها: انخفاض ECE من 19.7% إلى 4.9%
استخدام L_Margin وحدها: انخفاض ECE من 19.7% إلى 3.9%
ADVICE الكامل: أفضل قدرة على التعميم عبر مجموعات البيانات

الاكتشافات الرئيسية

التحقق من عدم الاعتماد على الإجابة: توزيع JSD يظهر نمط قانون القوة، مع معظم القيم قريبة من 0، مما يؤكد فرضية عدم الاعتماد على الإجابة
أنماط الانتباه: أوزان الانتباه من الثقة إلى الإجابة أقل بكثير من الاتجاهات الأخرى
تحسين المعايرة: تُظهر الرسوم البيانية للموثوقية أن ADVICE ينتج توزيع ثقة أكثر دقة وأكثر دقة
تعزيز الوعي بالإجابة: تُظهر تجارب الإخفاء أن ADVICE يعبر بشكل مناسب عن عدم اليقين عند غياب الإجابة

تحليل المعاملات الفائقة

يؤدي الزيادة في δ_JSD إلى انخفاض مستمر في ECE، مما يتحقق من فعالية هدف التعلم المتناقض.

الأعمال ذات الصلة

أبحاث الثقة اللفظية

قدم Lin وآخرون (2022) تقدير الثقة اللفظية لأول مرة
ينقسم البحث اللاحق إلى ثلاث فئات: طرق الإشارات وطرق العينات وطرق الضبط الدقيق
يملأ هذا البحث الفراغ في تحليل الآليات

طرق استكشاف نماذج اللغة الكبيرة

تحليل آليات الانتباه: Attention Rollout, Attention Flow وغيرها
طرق إسناد التدرج: التدرجات المتكاملة وغيرها
يطبق هذا البحث بشكل مبتكر هذه الطرق على تحليل الثقة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينبع الإفراط في ثقة نماذج اللغة الكبيرة بشكل أساسي من مشكلة عدم الاعتماد على الإجابة
يحسّن ADVICE معايرة الثقة بشكل فعال من خلال تعزيز الاعتماد على الإجابة
تتمتع الطريقة بقدرة تعميم جيدة وقيمة عملية

القيود

يركز بشكل أساسي على مهام الإجابة على الأسئلة النصية القصيرة، وتطبيقها على مهام فهم النصوص الطويلة يتطلب مزيد من التحقق
يتطلب تكاليف بناء بيانات إضافية لتوليد أزواج الإجابات المتناقضة
تحتاج فعالية المهام المنطقية المعقدة إلى مزيد من الاستكشاف

الاتجاهات المستقبلية

التوسع إلى المهام التي تتطلب فهم السياق الطويل والاستدلال المعقد
استكشاف طرق أكثر كفاءة لبناء بيانات التدريب
دراسة التطبيقات في الأنماط الأخرى (مثل نماذج الرؤية واللغة)

التقييم المتعمق

المزايا

مساهمة نظرية بارزة: تحليل منهجي لأول مرة للسبب الجذري للثقة الزائدة، مما يوفر رؤى نظرية مهمة
منهجية صارمة: استخدام التحقق متعدد الزوايا (التحليل الاحتمالي + تحليل الإسناد)، مما يعطي موثوقية عالية للاستنتاجات
تصميم تجريبي شامل: تقييم شامل عبر النماذج ومجموعات البيانات، مع تجارب استئصال كافية
قيمة عملية كبيرة: تحسين معايرة الثقة بشكل كبير مع الحفاظ على أداء المهمة
قدرة تعميم قوية: أداء جيدة على البيانات خارج التوزيع، مما يظهر قوة الطريقة

أوجه القصور

نطاق المهام محدود: التحقق الأساسي على مهام الإجابة على الأسئلة، وتطبيقها على مهام NLP الأخرى لم يتم استكشافه بشكل كافٍ
التكاليف الحسابية: يتطلب عملية ضبط دقيق إضافية وبناء بيانات متناقضة
عمق التحليل النظري: على الرغم من تحديد مشكلة عدم الاعتماد على الإجابة، إلا أن التحليل للأسباب الأعمق لحدوثها غير كافٍ
التأثيرات طويلة الأجل: لم يتم تقييم الاستقرار طويل الأجل للنموذج بعد الضبط الدقيق

التأثير

القيمة الأكاديمية: توفير منظور بحثي جديد وإطار تحليل لمجال تقدير الثقة
الأهمية العملية: ذات قيمة مهمة لتحسين موثوقية نماذج اللغة الكبيرة في التطبيقات عالية المخاطر
قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ مفصلة وأكواد مفتوحة المصدر، مما يسهل إعادة الإنتاج والتوسع

السيناريوهات المطبقة

أنظمة الإجابة على الأسئلة التي تتطلب تقدير ثقة موثوق
أنظمة دعم القرارات عالية المخاطر
سيناريوهات التعاون بين الإنسان والآلة لتعبير عدم اليقين
تطبيقات معايرة النموذج والذكاء الاصطناعي الموثوق

المراجع

تستشهد الورقة بـ 68 مرجعاً ذات صلة، تغطي أبحاث الثقة اللفظية وطرق استكشاف نماذج اللغة الكبيرة ونظرية المعايرة وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة بمساهمات مهمة في كل من التحليل النظري والطرق العملية. لم يحدد المؤلفون فقط السبب الجذري للثقة الزائدة في نماذج اللغة الكبيرة، بل اقترحوا أيضاً حلاً فعالاً. الطريقة بسيطة وفعالة، وتصميم التجارب صارم، والنتائج مقنعة. لها أهمية كبيرة لتعزيز الذكاء الاصطناعي الموثوق به وتحسين موثوقية نماذج اللغة الكبيرة في التطبيقات العملية.