2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: উত্তর-নির্ভর সংবাদিত আত্মবিশ্বাস অনুমান

মৌলিক তথ্য

  • পেপার আইডি: 2510.10913
  • শিরোনাম: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • লেখক: Ki Jung Seo, Sehun Lim, Taeuk Kim (হানইয়াং বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10913

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) প্রাকৃতিক ভাষায় আত্মবিশ্বাস প্রকাশে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, যা স্বচ্ছতা এবং নির্ভরযোগ্যতা বৃদ্ধি করেছে। তবে, এদের আত্মবিশ্বাস প্রায়শই অত্যধিক আত্মবিশ্বাসের সমস্যা প্রদর্শন করে, যার মূল কারণ এখনও পর্যাপ্তভাবে বোঝা যায়নি। এই গবেষণা সংবাদিত আত্মবিশ্বাসের অভ্যন্তরীণ গতিশীলতার বিস্তারিত বিশ্লেষণ পরিচালনা করে, "উত্তর-স্বাধীনতা" কে একটি মূল কারণ হিসাবে চিহ্নিত করে—অর্থাৎ মডেল তার নিজস্ব উত্তরের উপর ভিত্তি করে আত্মবিশ্বাস সামঞ্জস্য করতে ব্যর্থ হয়। এই সমস্যা সমাধানের জন্য, লেখকরা ADVICE (Answer-Dependent Verbalized Confidence Estimation) প্রস্তাব করেছেন, যা উত্তর-ভিত্তিক আত্মবিশ্বাস অনুমান প্রচার করে এমন একটি সূক্ষ্ম-সুর ফ্রেমওয়ার্ক। ব্যাপক পরীক্ষা-নিরীক্ষা দেখায় যে ADVICE কাজের কর্মক্ষমতা বজায় রেখে আত্মবিশ্বাস ক্যালিব্রেশন উল্লেখযোগ্যভাবে উন্নত করে। আরও বিশ্লেষণ নিশ্চিত করে যে ADVICE উত্তর-নির্ভরতা বৃদ্ধি করে, আরও ভারসাম্যপূর্ণ এবং সুক্যালিব্রেটেড আত্মবিশ্বাস বিতরণ তৈরি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

  1. মূল সমস্যা: বৃহৎ ভাষা মডেলগুলি সংবাদিত আত্মবিশ্বাস তৈরি করার সময় গুরুতর অত্যধিক আত্মবিশ্বাসের সমস্যা প্রদর্শন করে, অর্থাৎ উত্তর সঠিক বা ভুল হোক না কেন উচ্চ আত্মবিশ্বাস প্রকাশ করার প্রবণতা রয়েছে
  2. গুরুত্ব: আইন, চিকিৎসা এবং অন্যান্য উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে LLM স্থাপনের সময়, নির্ভরযোগ্য আত্মবিশ্বাস অনুমান মডেলের অন্তর্নিহিত অসম্পূর্ণতা পরিচালনার জন্য গুরুত্বপূর্ণ
  3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
    • বিদ্যমান গবেষণা প্রধানত "কীভাবে" অত্যধিক আত্মবিশ্বাস হ্রাস করতে হয় তার উপর দৃষ্টি নিবদ্ধ করে, "কেন" এর উপর নয়
    • সংবাদিত আত্মবিশ্বাসের অভ্যন্তরীণ প্রক্রিয়া সম্পর্কে গভীর বোঝাপড়ার অভাব
    • প্রম্পটিং পদ্ধতি, নমুনা পদ্ধতি এবং সূক্ষ্ম-সুর পদ্ধতি উন্নতি সত্ত্বেও, মূল কারণ স্পষ্ট নয়

গবেষণা প্রেরণা

লেখকরা স্নায়ুবিজ্ঞানে আত্মবিশ্বাস অনুমান তত্ত্ব থেকে অনুপ্রেরণা পান, আত্মবিশ্বাস অনুমানকে সিদ্ধান্ত-পরবর্তী প্রমাণ সংগ্রহ প্রক্রিয়া হিসাবে কাঠামোবদ্ধ করে, এবং আবিষ্কার করে যে LLM গুলি আত্মবিশ্বাস অনুমান করার সময় তাদের নিজস্ব উত্পাদিত উত্তর তথ্য উপেক্ষা করে, যা আত্মবিশ্বাসের সংজ্ঞার সাথে বিরোধিতা করে।

মূল অবদান

  1. তাত্ত্বিক আবিষ্কার: প্রথমবারের মতো সিস্টেমেটিকভাবে "উত্তর-স্বাধীনতা" কে LLM গুলির অত্যধিক আত্মবিশ্বাসের মূল কারণ হিসাবে চিহ্নিত এবং বিশ্লেষণ করা
  2. বিশ্লেষণ পদ্ধতি: সম্ভাব্যতা বিতরণ তুলনা এবং অ্যাট্রিবিউশন বিশ্লেষণের উপর ভিত্তি করে দ্বৈত যাচাইকরণ পদ্ধতি প্রস্তাব করা
  3. সমাধান: ADVICE সূক্ষ্ম-সুর ফ্রেমওয়ার্ক ডিজাইন করা, যা স্পষ্টভাবে মডেলকে তার উত্পাদিত উত্তরে মনোযোগ দিতে উৎসাহিত করে
  4. অভিজ্ঞতামূলক যাচাইকরণ: একাধিক ডেটাসেট এবং মডেলে পদ্ধতির কার্যকারিতা যাচাই করা, উত্তর তথ্যের গুরুত্ব প্রমাণ করা
  5. সাধারণীকরণ ক্ষমতা: বিতরণ-বাইরের কাজে পদ্ধতির শক্তিশালী সাধারণীকরণ ক্ষমতা এবং ভারসাম্যপূর্ণ আত্মবিশ্বাস বিতরণ বৈশিষ্ট্য প্রদর্শন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রশ্ন q এবং সংশ্লিষ্ট উত্তর a দেওয়া, সংবাদিত আত্মবিশ্বাস উত্তর সঠিক হওয়ার সম্ভাবনা P(correct|q,a) এর কাছাকাছি হওয়া উচিত। আদর্শ আত্মবিশ্বাস অনুমান নিম্নলিখিত হওয়া উচিত:

  • উত্তর সঠিক হলে উচ্চ আত্মবিশ্বাস প্রকাশ করা
  • উত্তর ভুল হলে নিম্ন আত্মবিশ্বাস প্রকাশ করা
  • উত্তর বিষয়বস্তুর উপর ভিত্তি করে আত্মবিশ্বাস স্তর সামঞ্জস্য করা

উত্তর-স্বাধীনতা বিশ্লেষণ

১. সম্ভাব্যতা বিতরণ তুলনা পদ্ধতি

নিম্নলিখিত দুটি বিতরণ তুলনা করে উত্তর-স্বাধীনতা যাচাই করা:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

যেখানে ডান দিকটি সম্পূর্ণ সম্ভাব্যতা সূত্রের মাধ্যমে প্রসারিত হয়:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

দুটি বিতরণের পার্থক্য পরিমাপ করতে Jensen-Shannon বিচ্যুতি (JSD) ব্যবহার করা, JSD মান 0 এর কাছাকাছি নির্দেশ করে যে মডেল উত্তর তথ্যের প্রতি সংবেদনশীল নয়।

২. অ্যাট্রিবিউশন বিশ্লেষণ পদ্ধতি

  • মনোযোগ রোলআউট (Attention Rollout): আত্মবিশ্বাস প্রজন্মের উত্তর টোকেনগুলিতে মনোযোগ ওজন বিশ্লেষণ করা
  • সমন্বিত গ্রেডিয়েন্ট (Integrated Gradients): আত্মবিশ্বাস পূর্বাভাসে উত্তর টোকেনগুলির অবদান গণনা করা

ADVICE ফ্রেমওয়ার্ক ডিজাইন

প্রশিক্ষণ ডেটা নির্মাণ

  1. TriviaQA থেকে ২০০০ উদাহরণ নমুনা করা
  2. প্রতিটি প্রশ্ন q এর জন্য ত্রিমুখী (q, a_correct, a_wrong) নির্মাণ করা
  3. সাধারণীকরণ ক্ষমতা বৃদ্ধির জন্য তিনটি ভাষাগত ফর্ম্যাট ভেরিয়েন্ট নির্মাণ করা

প্রশিক্ষণ উদ্দেশ্য

তিনটি ক্ষতি ফাংশন সংজ্ঞায়িত করা:

  1. ভাষা মডেলিং ক্ষতি:
L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

মডেলের মূল QA ক্ষমতা বজায় রাখা

  1. বৈপরীত্যমূলক বিতরণ ক্ষতি:
L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

মডেলকে সঠিক এবং ভুল উত্তরের আত্মবিশ্বাস বিতরণ পার্থক্য শিখতে চালিত করা

  1. মার্জিন ক্ষতি:
L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

নিশ্চিত করা যে সঠিক উত্তর উচ্চতর প্রত্যাশিত আত্মবিশ্বাস পায়

মোট ক্ষতি ফাংশন:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. মূল কারণ বিশ্লেষণ: প্রথমবারের মতো উত্তর-নির্ভরতার দৃষ্টিকোণ থেকে অত্যধিক আত্মবিশ্বাস সমস্যা বিশ্লেষণ করা
  2. দ্বৈত যাচাইকরণ: সম্ভাব্যতা বিশ্লেষণ এবং স্নায়ুজাল নেটওয়ার্ক অ্যাট্রিবিউশন পদ্ধতি একত্রিত করা
  3. বৈপরীত্যমূলক শিক্ষা: সঠিক/ভুল উত্তর জোড়া ব্যবহার করে বৈপরীত্যমূলক প্রশিক্ষণ প্রয়োগ করা
  4. বহু-উদ্দেশ্য অপ্টিমাইজেশন: কাজের কর্মক্ষমতা বজায় রাখা এবং আত্মবিশ্বাস ক্যালিব্রেশন উন্নতির ভারসাম্য রাখা

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

  • প্রশিক্ষণ: TriviaQA (২০০০ উদাহরণ)
  • মূল্যায়ন: TriviaQA, MMLU, SciQ, LogiQA (ক্রস-ডোমেইন সাধারণীকরণ পরীক্ষা)

মডেল

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

আত্মবিশ্বাস প্রকাশের ধরন

  • ScoreText: {low, medium, high}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

মূল্যায়ন মেট্রিক্স

  • ECE (প্রত্যাশিত ক্যালিব্রেশন ত্রুটি): পূর্বাভাসিত আত্মবিশ্বাস এবং প্রকৃত নির্ভুলতার গড় পরম পার্থক্য
  • NCE (নেট ক্যালিব্রেশন ত্রুটি): স্বাক্ষরিত ক্যালিব্রেশন ত্রুটি, পক্ষপাত প্রতিফলিত করে
  • BS (Brier স্কোর): সম্ভাব্যতা পূর্বাভাসের গড় বর্গ ত্রুটি
  • AUROC: আত্মবিশ্বাস র‍্যাঙ্কিং ক্ষমতা

তুলনামূলক পদ্ধতি

  • Default: মৌলিক প্রম্পটিং পদ্ধতি
  • Self-Consistency: নমুনা-ভিত্তিক পদ্ধতি
  • ConfTuner: বর্তমান সেরা সূক্ষ্ম-সুর পদ্ধতি

পরীক্ষা-নিরীক্ষা ফলাফল

প্রধান ফলাফল

TriviaQA-তে কর্মক্ষমতা তুলনা (GEMMA-2-9B-IT):

  • ECE: Default (21.9%) → ADVICE (6.5%)
  • NCE: Default (-21.8%) → ADVICE (1.6%)
  • AUROC: Default (52.7%) → ADVICE (78.5%)

ক্রস-ডোমেইন সাধারণীকরণ ফলাফল দেখায় যে ADVICE MMLU, SciQ, LogiQA-তে উল্লেখযোগ্য উন্নতি অর্জন করে, পদ্ধতির শক্তিশালীতা প্রমাণ করে।

বিলোপন পরীক্ষা-নিরীক্ষা

প্রতিটি ক্ষতি ফাংশনের অবদান বিশ্লেষণ:

  • L_JSD একা ব্যবহার: ECE 19.7% থেকে 4.9% এ হ্রাস
  • L_Margin একা ব্যবহার: ECE 19.7% থেকে 3.9% এ হ্রাস
  • সম্পূর্ণ ADVICE: সর্বোত্তম ক্রস-ডেটাসেট সাধারণীকরণ ক্ষমতা

মূল আবিষ্কার

  1. উত্তর-স্বাধীনতা যাচাইকরণ: JSD বিতরণ শক্তি-আইন প্যাটার্ন প্রদর্শন করে, বেশিরভাগ মান 0 এর কাছাকাছি, উত্তর-স্বাধীনতা অনুমান নিশ্চিত করে
  2. মনোযোগ প্যাটার্ন: আত্মবিশ্বাস → উত্তরের মনোযোগ ওজন অন্যান্য দিকের তুলনায় উল্লেখযোগ্যভাবে কম
  3. ক্যালিব্রেশন উন্নতি: নির্ভরযোগ্যতা গ্রাফ নির্দেশ করে যে ADVICE আরও সূক্ষ্ম-দানাদার, আরও নির্ভুল আত্মবিশ্বাস বিতরণ তৈরি করে
  4. উত্তর সচেতনতা বৃদ্ধি: মাস্কিং পরীক্ষা দেখায় যে ADVICE উত্তর অনুপস্থিত থাকলে যথাযথভাবে অনিশ্চয়তা প্রকাশ করে

হাইপারপ্যারামিটার বিশ্লেষণ

δ_JSD এর বৃদ্ধি ক্রমাগত ECE হ্রাস করে, বৈপরীত্যমূলক শিক্ষা উদ্দেশ্যের কার্যকারিতা যাচাই করে।

সম্পর্কিত কাজ

সংবাদিত আত্মবিশ্বাস গবেষণা

  • Lin এবং অন্যরা (2022) প্রথম সংবাদিত আত্মবিশ্বাস অনুমান প্রবর্তন করেন
  • পরবর্তী গবেষণা প্রধানত তিনটি বিভাগে বিভক্ত: প্রম্পটিং পদ্ধতি, নমুনা পদ্ধতি এবং সূক্ষ্ম-সুর পদ্ধতি
  • এই গবেষণা প্রক্রিয়া বিশ্লেষণের শূন্যতা পূরণ করে

LLM অনুসন্ধান পদ্ধতি

  • মনোযোগ প্রক্রিয়া বিশ্লেষণ: Attention Rollout, Attention Flow ইত্যাদি
  • গ্রেডিয়েন্ট অ্যাট্রিবিউশন পদ্ধতি: Integrated Gradients ইত্যাদি
  • এই গবেষণা সৃজনশীলভাবে এই পদ্ধতিগুলি আত্মবিশ্বাস বিশ্লেষণে প্রয়োগ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. LLM গুলির অত্যধিক আত্মবিশ্বাস প্রধানত উত্তর-স্বাধীনতা সমস্যা থেকে উদ্ভূত হয়
  2. ADVICE উত্তর-নির্ভরতা বৃদ্ধির মাধ্যমে কার্যকরভাবে আত্মবিশ্বাস ক্যালিব্রেশন উন্নত করে
  3. পদ্ধতিটি ভাল সাধারণীকরণ ক্ষমতা এবং ব্যবহারিক মূল্য রাখে

সীমাবদ্ধতা

  1. প্রধানত সংক্ষিপ্ত পাঠ্য QA কাজে ফোকাস করে, দীর্ঘ পাঠ্য বোঝার কাজে প্রয়োগযোগ্যতা যাচাই করা বাকি
  2. বৈপরীত্যমূলক উত্তর জোড়া তৈরি করতে অতিরিক্ত ডেটা নির্মাণ খরচ প্রয়োজন
  3. জটিল যুক্তি কাজে প্রভাব আরও অন্বেষণ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. দীর্ঘ প্রসঙ্গ বোঝা এবং জটিল যুক্তির প্রয়োজন এমন কাজে সম্প্রসারণ করা
  2. আরও দক্ষ প্রশিক্ষণ ডেটা নির্মাণ পদ্ধতি অন্বেষণ করা
  3. অন্যান্য পদ্ধতিতে (যেমন দৃষ্টি-ভাষা মডেল) প্রয়োগ গবেষণা করা

গভীর মূল্যায়ন

শক্তি

  1. তাত্ত্বিক অবদান উল্লেখযোগ্য: প্রথমবারের মতো সিস্টেমেটিকভাবে অত্যধিক আত্মবিশ্বাসের মূল কারণ বিশ্লেষণ করা, গুরুত্বপূর্ণ তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করা
  2. পদ্ধতিগত কঠোরতা: একাধিক কোণ থেকে যাচাইকরণ (সম্ভাব্যতা বিশ্লেষণ + অ্যাট্রিবিউশন বিশ্লেষণ), উচ্চ সিদ্ধান্তের বিশ্বাসযোগ্যতা
  3. পরীক্ষা-নিরীক্ষা ডিজাইন সম্পূর্ণ: ক্রস-মডেল, ক্রস-ডেটাসেট ব্যাপক মূল্যায়ন, পর্যাপ্ত বিলোপন পরীক্ষা-নিরীক্ষা
  4. ব্যবহারিক মূল্য উল্লেখযোগ্য: কাজের কর্মক্ষমতা বজায় রেখে আত্মবিশ্বাস ক্যালিব্রেশন উল্লেখযোগ্যভাবে উন্নত করা
  5. সাধারণীকরণ ক্ষমতা শক্তিশালী: বিতরণ-বাইরের ডেটায় ভাল কর্মক্ষমতা, পদ্ধতির শক্তিশালীতা প্রদর্শন করা

অপূর্ণতা

  1. কাজের পরিসীমা সীমিত: প্রধানত QA কাজ যাচাই করা, অন্যান্য NLP কাজে প্রয়োগযোগ্যতা পর্যাপ্তভাবে অন্বেষণ করা হয়নি
  2. গণনা ওভারহেড: অতিরিক্ত সূক্ষ্ম-সুর প্রক্রিয়া এবং বৈপরীত্যমূলক ডেটা নির্মাণ প্রয়োজন
  3. তাত্ত্বিক বিশ্লেষণ গভীরতা: যদিও উত্তর-স্বাধীনতা সমস্যা চিহ্নিত করা হয়েছে, এর উৎপত্তির গভীর কারণ বিশ্লেষণ অপর্যাপ্ত
  4. দীর্ঘমেয়াদী প্রভাব: সূক্ষ্ম-সুর পরবর্তী মডেলের দীর্ঘমেয়াদী ব্যবহারে স্থিতিশীলতা মূল্যায়ন করা হয়নি

প্রভাব

  1. একাডেমিক মূল্য: আত্মবিশ্বাস অনুমান ক্ষেত্রে নতুন গবেষণা দৃষ্টিভঙ্গি এবং বিশ্লেষণ ফ্রেমওয়ার্ক প্রদান করা
  2. ব্যবহারিক তাৎপর্য: উচ্চ-ঝুঁকিপূর্ণ প্রয়োগে LLM গুলির নির্ভরযোগ্যতা উন্নত করতে গুরুত্বপূর্ণ মূল্য রাখা
  3. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স কোড প্রদান করা, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করা

প্রযোজ্য পরিস্থিতি

  • নির্ভরযোগ্য আত্মবিশ্বাস অনুমানের প্রয়োজন এমন প্রশ্নোত্তর সিস্টেম
  • উচ্চ-ঝুঁকিপূর্ণ সিদ্ধান্ত সহায়তা সিস্টেম
  • মানব-মেশিন সহযোগিতা পরিস্থিতিতে অনিশ্চয়তা প্রকাশ
  • মডেল ক্যালিব্রেশন এবং বিশ্বাসযোগ্য AI প্রয়োগ

রেফারেন্স

পেপারটি ৬৮টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা সংবাদিত আত্মবিশ্বাস, LLM অনুসন্ধান পদ্ধতি, ক্যালিব্রেশন তত্ত্ব এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা তাত্ত্বিক বিশ্লেষণ এবং ব্যবহারিক পদ্ধতি উভয় ক্ষেত্রেই গুরুত্বপূর্ণ অবদান রাখে। লেখকরা শুধুমাত্র LLM গুলির অত্যধিক আত্মবিশ্বাসের মূল কারণ চিহ্নিত করেননি, বরং একটি কার্যকর সমাধানও প্রস্তাব করেছেন। পদ্ধতিটি সহজ এবং কার্যকর, পরীক্ষা-নিরীক্ষা ডিজাইন কঠোর, এবং ফলাফল প্রভাবশালী। বিশ্বাসযোগ্য AI প্রচার এবং বাস্তব প্রয়োগে LLM গুলির নির্ভরযোগ্যতা উন্নত করার জন্য গুরুত্বপূর্ণ তাৎপর্য রাখে।