2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.
Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
academic

বড় ভাষা মডেলগুলি অতিরিক্ত আত্মবিশ্বাসী এবং মানব পক্ষপাত প্রসারিত করে

মৌলিক তথ্য

  • পেপার আইডি: 2505.02151
  • শিরোনাম: বড় ভাষা মডেলগুলি অতিরিক্ত আত্মবিশ্বাসী এবং মানব পক্ষপাত প্রসারিত করে
  • লেখক: ফেংফেই সান, নিংকে লি, কাইলং ওয়াং, লরেঞ্জ গোয়েটে
  • শ্রেণীবিভাগ: cs.SE (সফটওয়্যার ইঞ্জিনিয়ারিং), cs.CY (কম্পিউটার এবং সমাজ)
  • প্রকাশনার সময়: ২০২৫ সালের মে (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2505.02151v2

সারসংক্ষেপ

বড় ভাষা মডেলগুলি (LLMs) সমাজের বিভিন্ন দিক সম্পূর্ণভাবে পরিবর্তন করছে এবং মানব মূল্যায়ন এবং যুক্তির প্রতিস্থাপন করে এমন সমস্যা সমাধানের কাজে ক্রমবর্ধমানভাবে ব্যবহৃত হচ্ছে। যেহেতু LLMs মানব-লিখিত বিষয়বস্তুতে প্রশিক্ষিত, তারা মানব পক্ষপাতের সংস্পর্শে আসে। এই গবেষণা মূল্যায়ন করে যে LLMs মানব পক্ষপাতের সবচেয়ে সাধারণ একটি উত্তরাধিকার সূত্র করেছে কিনা: অতিরিক্ত আত্মবিশ্বাস। গবেষকরা অ্যালগরিদমিকভাবে পরিচিত সঠিক উত্তর সহ যুক্তিসঙ্গত সমস্যা তৈরি করেছেন, LLMs-কে এই প্রশ্নগুলির উত্তর দিতে অনুরোধ করেছেন এবং তাদের উত্তরের আত্মবিশ্বাস মূল্যায়ন করেছেন। গবেষণা দেখায় যে অধ্যয়ন করা সমস্ত পাঁচটি LLMs অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে: তারা তাদের উত্তরের সঠিকতার সম্ভাবনা ২০% থেকে ৬০% দ্বারা অতিমূল্যায়ন করে। যদিও মানব নির্ভুলতা আরও উন্নত LLMs-এর সাথে সমান, অতিরিক্ত আত্মবিশ্বাসের মাত্রা অনেক কম। যখন LLMs উত্তর সম্পর্কে কম নিশ্চিত থাকে, তখন মানুষের তুলনায় তাদের পক্ষপাত নাটকীয়ভাবে বৃদ্ধি পায়। গবেষণা আরও দেখায় যে LLM ইনপুট মানব সিদ্ধান্তে জটিল প্রভাব ফেলে: যদিও এটি নির্ভুলতা উন্নত করে, তবে এটি অতিরিক্ত আত্মবিশ্বাসের মাত্রা দ্বিগুণেরও বেশি বৃদ্ধি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: বড় ভাষা মডেলগুলি কি মানব অতিরিক্ত আত্মবিশ্বাস পক্ষপাত উত্তরাধিকার এবং প্রসারিত করেছে? এই প্রশ্নটি গুরুত্বপূর্ণ কারণ:

  1. ব্যাপক প্রয়োগের পরিস্থিতি: LLMs ক্রমবর্ধমানভাবে সাবধানী যুক্তি এবং মূল্যায়নের প্রয়োজন এমন সমস্যা সমাধানের কাজে ব্যবহৃত হয়
  2. প্রশিক্ষণ ডেটা পক্ষপাত: LLMs মানব-লিখিত বিষয়বস্তুতে প্রশিক্ষিত, স্বাভাবিকভাবে মানব পক্ষপাতের সংস্পর্শে আসে
  3. সিদ্ধান্ত গ্রহণের প্রভাব: অতিরিক্ত আত্মবিশ্বাস পেশাদার এবং দৈনন্দিন সিদ্ধান্তের একাধিক ক্ষেত্রকে প্রভাবিত করতে প্রমাণিত হয়েছে

গবেষণার গুরুত্ব

অতিরিক্ত আত্মবিশ্বাস মানব বিচারে সবচেয়ে সাধারণ পক্ষপাতগুলির মধ্যে একটি এবং একাধিক ক্ষেত্রে নেতিবাচক প্রভাব ফেলেছে:

  • পেশাদার ক্ষেত্র: অতিরিক্ত আত্মবিশ্বাসী ব্যবস্থাপকরা লাভজনক অধিগ্রহণে জড়িত হওয়ার সম্ভাবনা বেশি
  • দৈনন্দিন আচরণ: ব্যায়াম অভ্যাস, খাদ্য পছন্দ এবং আর্থিক বিনিয়োগ সিদ্ধান্তকে প্রভাবিত করে
  • শেখার ক্ষমতা: প্রতিক্রিয়া থেকে শেখার পরিবর্তে ক্রমাগত পক্ষপাত হতে পারে

বিদ্যমান গবেষণার সীমাবদ্ধতা

LLM ক্যালিব্রেশন সম্পর্কিত বিদ্যমান গবেষণা প্রধানত নিম্নলিখিত সমস্যাগুলি উপস্থাপন করে:

  1. প্রধানত মানক প্রশ্নোত্তর ডেটাসেটের উপর নির্ভর করে, যা LLMs প্রশিক্ষণে দেখার সম্ভাবনা রয়েছে
  2. যুক্তি ক্ষমতা প্রয়োজন এমন সমস্যাগুলির আত্মবিশ্বাসের অধ্যয়নের অভাব
  3. মানব সিদ্ধান্তে LLM আত্মবিশ্বাসের প্রভাব পর্যাপ্তভাবে অন্বেষণ করা হয়নি

মূল অবদান

  1. প্রথম সিস্টেমেটিক মূল্যায়ন: পাঁচটি প্রধান LLMs-এর অতিরিক্ত আত্মবিশ্বাস পক্ষপাতের ব্যাপক মূল্যায়ন
  2. উদ্ভাবনী পরীক্ষামূলক ডিজাইন: ১০,০০০টি অ্যালগরিদমিকভাবে উৎপন্ন যুক্তিসঙ্গত সমস্যা তৈরি করেছে, প্রশিক্ষণ দূষণ নিশ্চিত করতে
  3. মানব-মেশিন তুলনামূলক বিশ্লেষণ: একই কাজে LLM এবং মানুষের মধ্যে সরাসরি তুলনা প্রদান করে
  4. আত্মবিশ্বাস গ্রেডিয়েন্ট আবিষ্কার: LLM অনিশ্চয়তায় পক্ষপাত তীব্রভাবে বৃদ্ধির "ডানিং-ক্রুগার প্রভাব" প্রকাশ করে
  5. মানব সিদ্ধান্তের প্রভাব গবেষণা: মানব নির্ভুলতা এবং পক্ষপাতে LLM ইনপুটের দ্বৈত প্রভাব পরিমাপ করে
  6. কল্যাণ প্রভাব বিশ্লেষণ: LLM এক্সপোজারের কল্যাণ প্রভাব বিশ্লেষণের জন্য তাত্ত্বিক মডেল প্রতিষ্ঠা করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

গবেষণা তিনটি পারস্পরিক সম্পর্কিত পরীক্ষা ডিজাইন করেছে:

  1. LLM অতিরিক্ত আত্মবিশ্বাস মূল্যায়ন: যুক্তিসঙ্গত কাজে LLMs-এর নির্ভুলতা এবং আত্মবিশ্বাস পরিমাপ করে
  2. মানব বেঞ্চমার্ক পরীক্ষা: একই কাজে মানব কর্মক্ষমতা মূল্যায়ন করে
  3. LLM এক্সপোজার পরীক্ষা: মানব সিদ্ধান্তে LLM ইনপুটের প্রভাব পরীক্ষা করে

সমস্যা উৎপাদন পদ্ধতি

ট্রিপলেট নিষ্কাশন

উইকিডেটা থেকে কাঠামোগত ট্রিপলেট (বিষয়, বিধেয়, বস্তু) নিষ্কাশন করে, দশটি জনপ্রিয় বিভাগ জুড়ে।

যুক্তিসঙ্গত অনুমান নিয়ম

পাঁচটি অনুমান ধরন বাস্তবায়ন করে:

  1. নেতিবাচক অনুমান: তথ্য জ্ঞান থেকে এর নেতিবাচকতার বৈধতা অনুমান করে
  2. সমরূপ অনুমান: সমরূপ সম্পর্কে বিষয় এবং বস্তু বিনিময় করে
  3. বিপরীত অনুমান: বিপরীত সম্পর্কের মাধ্যমে বিষয় এবং বস্তু সংযুক্ত করে
  4. ট্রানজিটিভ অনুমান: নতুন ট্রিপলেট উৎপাদনের জন্য শৃঙ্খল অনুমান করে
  5. যৌগিক অনুমান: একাধিক মৌলিক অনুমান নিয়ম সংমিশ্রণ করে

সমস্যা যাচাইকরণ

স্বয়ংক্রিয় অনুমানের জন্য Prolog অনুমান ইঞ্জিন ব্যবহার করে, বিধেয় উপাদান হাতে যাচাই করে, চূড়ান্তভাবে ৪৭৬টি বিধেয় এবং তাদের সংশ্লিষ্ট ট্রিপলেট ধরে রাখে।

আত্মবিশ্বাস পরিমাপ

একযোগে পেতে বিশেষভাবে ডিজাইন করা প্রম্পট ব্যবহার করে:

  • উত্তরের সঠিকতার আত্মবিশ্বাস
  • তথ্য জ্ঞানের সঠিকতার আত্মবিশ্বাস
  • যুক্তিসঙ্গত প্রক্রিয়ার সঠিকতার আত্মবিশ্বাস

সাদৃশ্য মূল্যায়ন

LLM প্রতিক্রিয়া এবং মানক উত্তরের মধ্যে সাদৃশ্য গণনা করতে অ্যালগরিদম বিকশিত করে:

  • তথ্য সাদৃশ্য: বিষয় মিলান এবং বস্তু সাদৃশ্যের উপর ভিত্তি করে
  • যুক্তিসঙ্গত সাদৃশ্য: বিধেয় এবং বস্তু মিলানের মূল্যায়ন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • স্কেল: ১০,০০০টি ভারসাম্যপূর্ণ যুক্তিসঙ্গত সমস্যা
  • বিতরণ: ৫টি অনুমান ধরন × ১০টি জ্ঞান ক্ষেত্র, প্রতিটি সমন্বয়ে ২০০টি সমস্যা
  • মানব বেঞ্চমার্ক: মানব পরীক্ষার জন্য এর মধ্যে ২,০০০টি সমস্যা নির্বাচন করে

মডেল নির্বাচন

পাঁচটি প্রতিনিধিত্বমূলক LLMs পরীক্ষা করেছে:

  • বন্ধ-উৎস মডেল: GPT-3.5, GPT-4o, GPT-o1
  • খোলা-উৎস মডেল: Llama 3.1 8B, Llama 3.2 3B

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা: সঠিক উত্তরের অনুপাত
  • আত্মবিশ্বাস: মডেল স্ব-রিপোর্ট করা সঠিক সম্ভাবনা
  • পক্ষপাত: আত্মবিশ্বাস এবং নির্ভুলতার পার্থক্য
  • আত্মবিশ্বাস গ্রেডিয়েন্ট: আত্মবিশ্বাসের সাপেক্ষে নির্ভুলতার পরিবর্তনের হার

মানব পরীক্ষা ডিজাইন

  • প্ল্যাটফর্ম: Prolific অনলাইন পরীক্ষা প্ল্যাটফর্ম
  • প্রণোদনা প্রক্রিয়া: Danz এবং অন্যদের (২০২২) সত্য প্রণোদনা প্রক্রিয়া অনুসরণ করে
  • নমুনা: বেঞ্চমার্ক পরীক্ষায় ৫৮৮ জন, এক্সপোজার পরীক্ষায় ১,১৬১ জন

পরীক্ষামূলক ফলাফল

LLM অতিরিক্ত আত্মবিশ্বাস কর্মক্ষমতা

প্রধান আবিষ্কার

সমস্ত পাঁচটি LLMs উল্লেখযোগ্য অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে:

  • GPT-3.5: নির্ভুলতা ৩৫%, আত্মবিশ্বাস ৯৪%, পক্ষপাত ৫৯%
  • GPT-4o: নির্ভুলতা ৬৩%, আত্মবিশ্বাস ৯৪%, পক্ষপাত ৩০%
  • GPT-o1: নির্ভুলতা ৭৩%, আত্মবিশ্বাস ৯৫%, পক্ষপাত ২২%
  • Llama 3.1: নির্ভুলতা ৬৩%, আত্মবিশ্বাস ৮৬%, পক্ষপাত ২৩%
  • Llama 3.2: নির্ভুলতা ৬১%, আত্মবিশ্বাস ৯৪%, পক্ষপাত ৩৩%

আত্মবিশ্বাস গ্রেডিয়েন্ট বিশ্লেষণ

আরও উন্নত মডেলগুলি শক্তিশালী আত্মবিশ্বাস গ্রেডিয়েন্ট প্রদর্শন করে:

  • GPT-4o এবং GPT-o1: আত্মবিশ্বাস ১০% হ্রাস নির্ভুলতা প্রায় ২৫% হ্রাসের সাথে সামঞ্জস্যপূর্ণ
  • Llama 3.1: আত্মবিশ্বাস ১০% হ্রাস নির্ভুলতা প্রায় ১৩% হ্রাসের সাথে সামঞ্জস্যপূর্ণ

মানব-মেশিন তুলনা ফলাফল

কর্মক্ষমতা তুলনা

  • মানব নির্ভুলতা: ৬৬% (GPT-4o এবং Llama 3.1-এর সাথে সমতুল্য)
  • মানব আত্মবিশ্বাস: ৭০% (মাত্র ৪% অতিরিক্ত আত্মবিশ্বাস)
  • মূল চাবিকাঠি পার্থক্য: মানুষ অনিশ্চয়তায় পক্ষপাত হ্রাস করে, LLMs বিপরীতটি করে

ডানিং-ক্রুগার প্রভাব

LLMs মানুষের চেয়ে শক্তিশালী ডানিং-ক্রুগার প্রভাব প্রদর্শন করে:

  • সম্পূর্ণ নিশ্চিত হলে, LLMs নির্ভুলতা ৭৯-৮৫% (এখনও ১৫-২১% পক্ষপাত বিদ্যমান)
  • মানুষ অনিশ্চয়তায় চূড়ান্তভাবে হালকা অনুমান প্রদর্শন করে (নির্ভুলতা ৫৪% বনাম প্রত্যাশিত ৫০%)

মানুষের উপর LLM এক্সপোজারের প্রভাব

নির্ভুলতা উন্নতি

  • LLM উত্তর গ্রুপ: নির্ভুলতা ৫.৬ শতাংশ পয়েন্ট উন্নতি
  • LLM উত্তর + আত্মবিশ্বাস গ্রুপ: নির্ভুলতা ৭.০ শতাংশ পয়েন্ট উন্নতি

পক্ষপাত প্রসারণ

  • LLM উত্তর গ্রুপ: পক্ষপাত ৪.২ শতাংশ পয়েন্ট বৃদ্ধি (দ্বিগুণ)
  • LLM উত্তর + আত্মবিশ্বাস গ্রুপ: পক্ষপাত ৭.৬ শতাংশ পয়েন্ট বৃদ্ধি (প্রায় তিনগুণ)

বৈষম্যমূলক প্রভাব

নিম্ন বেসলাইন আত্মবিশ্বাসের অংশগ্রহণকারীরা সবচেয়ে বেশি উপকৃত হয়:

  • নির্ভুলতা ৮.৬-১১.৯ শতাংশ পয়েন্ট উন্নতি
  • কিন্তু পক্ষপাত ৭.০-১৪.১ শতাংশ পয়েন্ট বৃদ্ধি পায়

সম্পর্কিত কাজ

LLM ক্যালিব্রেশন গবেষণা

বিদ্যমান গবেষণা প্রধানত তিনটি পদ্ধতি LLM আত্মবিশ্বাস পরিমাপ করে:

  1. লজিট-ভিত্তিক অনুমান: অভ্যন্তরীণ মডেল অ্যাক্সেস প্রয়োজন
  2. সরাসরি আত্মবিশ্বাস প্রবর্তন: প্রম্পটের মাধ্যমে সরাসরি জিজ্ঞাসা করে
  3. সহায়ক মডেল পদ্ধতি: একক মডেল পূর্বাভাস থেকে বহু-উৎস একীকরণে

এই গবেষণার উদ্ভাবন হল অ্যালগরিদমিকভাবে উৎপন্ন সমস্যা ব্যবহার করে প্রশিক্ষণ দূষণ নিশ্চিত করা।

অতিরিক্ত আত্মবিশ্বাস গবেষণা

অতিরিক্ত আত্মবিশ্বাস একাধিক ক্ষেত্রে প্রভাব:

  • ব্যবসায়িক সিদ্ধান্ত: অর্থায়ন পছন্দ এবং অধিগ্রহণ সিদ্ধান্তকে প্রভাবিত করে
  • ব্যক্তিগত আচরণ: স্বাস্থ্য পছন্দ এবং বিনিয়োগ সিদ্ধান্তকে প্রভাবিত করে
  • শেখার প্রক্রিয়া: প্রতিক্রিয়া থেকে শেখার পরিবর্তে ক্রমাগত পক্ষপাত হতে পারে

মানব-মেশিন ইন্টারঅ্যাকশন

উদীয়মান গবেষণা ব্যক্তিরা কীভাবে (সম্ভাব্যভাবে পক্ষপাতপূর্ণ) AI ইনপুটে সাড়া দেয় তা অন্বেষণ করে, এই গবেষণা এই ক্ষেত্রে গুরুত্বপূর্ণ অবদান প্রদান করে।

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

  1. সর্বজনীন অতিরিক্ত আত্মবিশ্বাস: পরীক্ষিত সমস্ত LLMs উল্লেখযোগ্য অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে, মানুষের চেয়ে অনেক বেশি মাত্রায়
  2. ডানিং-ক্রুগার প্রভাব: LLMs অনিশ্চয়তায় পক্ষপাত তীব্রভাবে বৃদ্ধি করে, জ্ঞানের সীমানা সম্পর্কে সচেতনতার অভাব
  3. দ্বৈত প্রভাব: LLM ইনপুট মানব নির্ভুলতা উন্নত করে, কিন্তু উল্লেখযোগ্যভাবে অতিরিক্ত আত্মবিশ্বাস বৃদ্ধি করে
  4. কল্যাণ জটিলতা: বিনিয়োগ সিদ্ধান্তের প্রয়োজন এমন পরিবেশে, বর্ধিত পক্ষপাত নির্ভুলতা লাভ অফসেট করতে পারে

তাত্ত্বিক অন্তর্দৃষ্টি

ডানিং-ক্রুগার প্রক্রিয়া

LLMs তাদের পূর্বাভাস মডেলে "আটকে" থাকে:

  • প্রশিক্ষণ ডেটায় অনুপস্থিত জ্ঞান উপলব্ধি করতে পারে না
  • প্রশিক্ষণ ডেটার উপর ভিত্তি করে নির্ভুলতা অনুমান গঠন করে
  • জ্ঞান সীমাবদ্ধতার প্রতি মানব অন্তর্দৃষ্টি অভাব

কল্যাণ তাত্ত্বিক মডেল

নির্ভুলতা এবং পক্ষপাত বিবেচনা করে কল্যাণ মডেল প্রতিষ্ঠা করে:

  • যখন বিনিয়োগ সাফল্য সম্ভাবনার প্রতি স্থিতিস্থাপকতা বেশি থাকে, অতিরিক্ত আত্মবিশ্বাসের নেতিবাচক প্রভাব বৃহত্তর
  • এমনকি নির্ভুলতা উন্নত হলেও, LLM এক্সপোজার সামগ্রিক কল্যাণ হ্রাস করতে পারে

সীমাবদ্ধতা

  1. কাজের পরিধি: শুধুমাত্র দ্বিমুখী পছন্দের যুক্তিসঙ্গত সমস্যায় সীমাবদ্ধ
  2. মডেল সংস্করণ: ফলাফল মডেল আপডেটের সাথে পরিবর্তিত হতে পারে
  3. সাংস্কৃতিক পার্থক্য: মানব পরীক্ষা প্রধানত ইংরেজি ব্যবহারকারীদের উপর ভিত্তি করে
  4. সময় প্রভাব: দীর্ঘমেয়াদী শেখা এবং অভিযোজন প্রভাব বিবেচনা করা হয়নি

ব্যবহারিক তাৎপর্য

ব্যবহারকারীদের জন্য নির্দেশনা

  • LLM যুক্তি ক্ষমতা মূল্যায়নের জন্য নতুন বেঞ্চমার্ক প্রদান করেছে
  • LLM সুপারিশের প্রতি উপযুক্ত সন্দেহ বজায় রাখার প্রয়োজন জোর দেয়

বিকাশকারীদের জন্য সুপারিশ

  • বর্তমান প্রশিক্ষণ উদ্দেশ্য প্রবাহিততার উপর নির্ভুলতার চেয়ে অগ্রাধিকার দেয়
  • অনিশ্চয়তা ক্যালিব্রেশন প্রক্রিয়া অন্তর্নির্মিত করা প্রয়োজন
  • যুক্তিসঙ্গত প্রক্রিয়া পরীক্ষা করার যাচাইকরণ প্রক্রিয়া একীভূত করার পরামর্শ দেয়

গবেষণার জন্য অনুপ্রেরণা

  • LLM আচরণ পক্ষপাত মূল্যায়নের গুরুত্ব জোর দেয়
  • অন্যান্য জ্ঞানীয় পক্ষপাত গবেষণার জন্য প্যারাডাইম প্রদান করে
  • আচরণ বিজ্ঞান এবং কম্পিউটার বিজ্ঞানের মধ্যে আন্তঃবিভাগীয় সহযোগিতা প্রচার করে

গভীর মূল্যায়ন

শক্তি

  1. পদ্ধতি উদ্ভাবনী:
    • অ্যালগরিদমিকভাবে উৎপন্ন সমস্যা প্রশিক্ষণ দূষণ ন্যূনতম করে
    • বহু-মাত্রিক আত্মবিশ্বাস পরিমাপ (উত্তর, তথ্য, যুক্তি)
    • কঠোর মানব-মেশিন তুলনামূলক পরীক্ষা ডিজাইন
  2. পরীক্ষা সম্পূর্ণতা:
    • বৃহৎ-স্কেল পরীক্ষা (১০,০০০ LLM সমস্যা, ৫,০০০+ মানব প্রতিক্রিয়া)
    • একাধিক মডেল এবং তাপমাত্রা সেটিংসের শক্তিশালীতা পরীক্ষা
    • বিস্তারিত অপসারণ পরীক্ষা এবং পুনরুৎপাদনযোগ্যতা যাচাইকরণ
  3. তাত্ত্বিক অবদান:
    • প্রথমবার LLM-এর ডানিং-ক্রুগার প্রভাব প্রকাশ করে
    • LLM এক্সপোজারের কল্যাণ বিশ্লেষণ কাঠামো প্রতিষ্ঠা করে
    • আত্মবিশ্বাস ক্যালিব্রেশনের নতুন দৃষ্টিভঙ্গি প্রদান করে
  4. ব্যবহারিক মূল্য:
    • LLM প্রয়োগের জন্য গুরুত্বপূর্ণ নিরাপত্তা বিবেচনা প্রদান করে
    • AI সিস্টেম ডিজাইনে সরাসরি নির্দেশনা প্রদান করে
    • নিয়ন্ত্রক নীতি প্রণয়নের জন্য বৈজ্ঞানিক প্রমাণ প্রদান করে

অসুবিধা

  1. কাজের সীমাবদ্ধতা:
    • শুধুমাত্র দ্বিমুখী পছন্দ সমস্যা বিবেচনা করে, বাস্তব প্রয়োগ পরিস্থিতি সম্পূর্ণভাবে প্রতিনিধিত্ব করতে পারে না
    • যুক্তি ধরন তুলনামূলক সহজ, আরও জটিল বহু-পদক্ষেপ যুক্তির অভাব
  2. পরিমাপ পদ্ধতি:
    • আত্মবিশ্বাস পরিমাপ স্ব-রিপোর্টের উপর নির্ভর করে, প্রম্পট সংবেদনশীলতা থাকতে পারে
    • সাদৃশ্য মূল্যায়ন অ্যালগরিদম বিষয়বস্তু প্রবর্তন করতে পারে
  3. নমুনা প্রতিনিধিত্ব:
    • মানব পরীক্ষা প্রধানত অনলাইন প্ল্যাটফর্ম ব্যবহারকারীদের উপর ভিত্তি করে
    • বিভিন্ন সাংস্কৃতিক পটভূমি এবং পেশাদার ক্ষেত্রের বৈচিত্র্যের অভাব
  4. দীর্ঘমেয়াদী প্রভাব:
    • পুনরাবৃত্ত এক্সপোজারের শেখার প্রভাব বিবেচনা করা হয়নি
    • বাস্তব সিদ্ধান্ত পরিবেশে ইকোলজিক্যাল বৈধতা যাচাইকরণের অভাব

প্রভাব মূল্যায়ন

একাডেমিক প্রভাব

  • তাত্ত্বিক অবদান: LLM আচরণ পক্ষপাত গবেষণার জন্য নতুন দিক খুলে দেয়
  • পদ্ধতি মূল্য: পুনরুৎপাদনযোগ্য পরীক্ষা প্যারাডাইম প্রদান করে
  • আন্তঃবিভাগীয় তাৎপর্য: AI, জ্ঞানীয় বিজ্ঞান এবং আচরণ অর্থনীতি সংযুক্ত করে

ব্যবহারিক প্রভাব

  • শিল্প প্রয়োগ: LLM পণ্য ডিজাইন এবং স্থাপনা কৌশল প্রভাবিত করে
  • শিক্ষা মূল্য: AI সিস্টেম সীমাবদ্ধতার প্রতি জনসাধারণের সচেতনতা বৃদ্ধি করে
  • নীতি প্রণয়ন: AI শাসনের জন্য বৈজ্ঞানিক প্রমাণ প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. উচ্চ ঝুঁকি সিদ্ধান্ত: চিকিৎসা নির্ণয়, আর্থিক বিনিয়োগ যেখানে নির্ভুলতা মূল্যায়ন প্রয়োজন
  2. শিক্ষা প্রয়োগ: শেখার ফলাফলে অতিরিক্ত আত্মবিশ্বাসের প্রভাব বিবেচনা প্রয়োজন
  3. মানব-মেশিন সহযোগিতা: আত্মবিশ্বাস যোগাযোগের আরও ভাল প্রক্রিয়া ডিজাইন করে
  4. AI নিরাপত্তা: আরও নির্ভরযোগ্য অনিশ্চয়তা পরিমাপ পদ্ধতি বিকাশ করে

ভবিষ্যত গবেষণা দিকনির্দেশনা

  1. কাজের ধরন সম্প্রসারণ: আরও জটিল যুক্তি কাজ এবং খোলা-সমাপ্ত প্রশ্ন গবেষণা করে
  2. আন্তঃসাংস্কৃতিক যাচাইকরণ: বিভিন্ন সাংস্কৃতিক পটভূমিতে আবিষ্কারের সর্বজনীনতা যাচাই করে
  3. হস্তক্ষেপ প্রক্রিয়া: অতিরিক্ত আত্মবিশ্বাস হ্রাসের প্রশিক্ষণ এবং প্রম্পট পদ্ধতি বিকাশ করে
  4. দীর্ঘমেয়াদী প্রভাব: পুনরাবৃত্ত ইন্টারঅ্যাকশনে শেখা এবং অভিযোজন প্রক্রিয়া গবেষণা করে
  5. অন্যান্য পক্ষপাত: LLMs-এ অন্যান্য জ্ঞানীয় পক্ষপাত সিস্টেমেটিকভাবে গবেষণা করে

রেফারেন্স

পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা অন্তর্ভুক্ত করে:

  • আচরণ অর্থনীতিতে অতিরিক্ত আত্মবিশ্বাস গবেষণা (Kahneman, 2011; Moore and Healy, 2008)
  • LLM ক্যালিব্রেশন এবং অনিশ্চয়তা পরিমাপ (Tian et al., 2023; Wei et al., 2024)
  • মানব-মেশিন ইন্টারঅ্যাকশন এবং AI পক্ষপাত (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
  • ডানিং-ক্রুগার প্রভাবের ক্লাসিক গবেষণা (Kruger and Dunning, 1999)

এই গবেষণা বড় ভাষা মডেলের নির্ভরযোগ্যতা বোঝা এবং উন্নত করার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে, AI নিরাপত্তা এবং মানব-মেশিন সহযোগিতার জন্য গভীর তাৎপর্য রয়েছে। LLMs-এর অতিরিক্ত আত্মবিশ্বাস সমস্যা প্রকাশ করে, গবেষণা আরও বিশ্বাসযোগ্য AI সিস্টেম বিকাশের দিকে পথ নির্দেশ করে।