Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
حققت نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في التعبير عن درجات الثقة باللغة الطبيعية، مما يحسّن الشفافية والموثوقية. ومع ذلك، غالباً ما تظهر درجات ثقتها مشكلة الثقة الزائدة، والتي لم يتم فهم أسبابها الجذرية بشكل كافٍ. يقدم هذا البحث تحليلاً مفصلاً للديناميكيات الداخلية للثقة اللفظية، ويحدد "عدم الاعتماد على الإجابة" كعامل رئيسي، أي فشل النموذج في تعديل درجات الثقة بناءً على إجاباته الخاصة. لمعالجة هذه المشكلة، يقترح المؤلفون ADVICE (تقدير الثقة اللفظية المعتمدة على الإجابة)، وهو إطار عمل لضبط دقيق يعزز تقدير الثقة المعتمد على الإجابة. تُظهر التجارب الموسعة أن ADVICE يحسّن معايرة الثقة بشكل كبير مع الحفاظ على أداء المهمة. يؤكد التحليل الإضافي أن ADVICE يعزز الاعتماد على الإجابة، مما ينتج عنه توزيع ثقة أكثر توازناً وأفضل معايرة.
المشكلة الأساسية: نماذج اللغة الكبيرة تعاني من مشكلة خطيرة في الثقة الزائدة عند توليد درجات ثقة لفظية، أي أنها تميل إلى التعبير عن ثقة عالية بغض النظر عما إذا كانت الإجابة صحيحة أم خاطئة
الأهمية: عند نشر نماذج اللغة الكبيرة في مجالات عالية المخاطر مثل القانون والطب، يعتبر تقدير الثقة الموثوق به حاسماً لإدارة عدم الاكتمال المتأصل في النموذج
قيود الأساليب الموجودة:
يركز البحث الحالي على "كيفية" تخفيف الثقة الزائدة بدلاً من "لماذا" تحدث
نقص الفهم العميق للآليات الداخلية للثقة اللفظية
على الرغم من أن أساليب الإشارات والعينات والضبط الدقيق توفر تحسينات، إلا أن الأسباب الجذرية لم تُحدد
استلهم المؤلفون من نظريات تقدير الثقة في علم الأعصاب، حيث يصيغون إطار تقدير الثقة كعملية تراكم الأدلة بعد اتخاذ القرار، واكتشفوا أن نماذج اللغة الكبيرة غالباً ما تتجاهل معلومات الإجابة التي تولدها بنفسها عند تقدير درجات الثقة، وهو ما يتناقض مع تعريف الثقة.
تستشهد الورقة بـ 68 مرجعاً ذات صلة، تغطي أبحاث الثقة اللفظية وطرق استكشاف نماذج اللغة الكبيرة ونظرية المعايرة وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة بمساهمات مهمة في كل من التحليل النظري والطرق العملية. لم يحدد المؤلفون فقط السبب الجذري للثقة الزائدة في نماذج اللغة الكبيرة، بل اقترحوا أيضاً حلاً فعالاً. الطريقة بسيطة وفعالة، وتصميم التجارب صارم، والنتائج مقنعة. لها أهمية كبيرة لتعزيز الذكاء الاصطناعي الموثوق به وتحسين موثوقية نماذج اللغة الكبيرة في التطبيقات العملية.