2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

बड़े भाषा मॉडल अत्यधिक आत्मविश्वास से ग्रस्त हैं और मानवीय पूर्वाग्रह को बढ़ाते हैं

मूल जानकारी

पेपर ID: 2505.02151
शीर्षक: बड़े भाषा मॉडल अत्यधिक आत्मविश्वास से ग्रस्त हैं और मानवीय पूर्वाग्रह को बढ़ाते हैं
लेखक: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग), cs.CY (कंप्यूटर और समाज)
प्रकाशन समय: मई 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2505.02151v2

सारांश

बड़े भाषा मॉडल (LLMs) समाज के विभिन्न पहलुओं में क्रांतिकारी परिवर्तन ला रहे हैं और मानवीय मूल्यांकन और तर्क को प्रतिस्थापित करने वाले समस्या-समाधान कार्यों में तेजी से उपयोग किए जा रहे हैं। चूंकि LLMs को मानव-लिखित सामग्री पर प्रशिक्षित किया जाता है, इसलिए वे मानवीय पूर्वाग्रह के संपर्क में आते हैं। यह अनुसंधान मूल्यांकन करता है कि क्या LLMs मानवीय पूर्वाग्रहों में से एक सबसे व्यापक को विरासत में लेते हैं: अत्यधिक आत्मविश्वास। शोधकर्ताओं ने ज्ञात सही उत्तरों के साथ तर्क समस्याओं का एल्गोरिदमिक निर्माण किया, LLMs को इन प्रश्नों का उत्तर देने के लिए प्रेरित किया और उनके उत्तरों के आत्मविश्वास का मूल्यांकन किया। अनुसंधान से पता चलता है कि सभी पाँच अध्ययन किए गए LLMs अत्यधिक आत्मविश्वास प्रदर्शित करते हैं: वे अपने उत्तरों की सही संभावना को 20% से 60% तक अधिक आंकते हैं। जबकि मानव सटीकता अधिक उन्नत LLMs के समान है, अत्यधिक आत्मविश्वास की डिग्री बहुत कम है। जब LLMs को उत्तरों के बारे में कम निश्चितता होती है, तो उनका पूर्वाग्रह मानव की तुलना में तेजी से बढ़ता है। अनुसंधान यह भी दर्शाता है कि LLM इनपुट का मानवीय निर्णय पर जटिल प्रभाव पड़ता है: हालांकि सटीकता में सुधार होता है, लेकिन अत्यधिक आत्मविश्वास दोगुने से अधिक बढ़ जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान का मूल प्रश्न है: क्या बड़े भाषा मॉडल मानवीय अत्यधिक आत्मविश्वास पूर्वाग्रह को विरासत में लेते हैं और बढ़ाते हैं? यह प्रश्न महत्वपूर्ण है क्योंकि:

व्यापक अनुप्रयोग परिदृश्य: LLMs को सावधानीपूर्वक तर्क और मूल्यांकन की आवश्यकता वाले समस्या-समाधान कार्यों में तेजी से उपयोग किया जा रहा है
प्रशिक्षण डेटा पूर्वाग्रह: LLMs को मानव-लिखित सामग्री पर प्रशिक्षित किया जाता है, जो स्वाभाविक रूप से मानवीय पूर्वाग्रह के संपर्क में आते हैं
निर्णय प्रभाव: अत्यधिक आत्मविश्वास पेशेवर और दैनिक निर्णय के कई क्षेत्रों को प्रभावित करने के लिए सिद्ध हुआ है

अनुसंधान का महत्व

अत्यधिक आत्मविश्वास मानवीय निर्णय में सबसे व्यापक पूर्वाग्रहों में से एक है, जिसका कई क्षेत्रों में नकारात्मक प्रभाव पड़ा है:

पेशेवर क्षेत्र: अत्यधिक आत्मविश्वास वाले प्रबंधक लाभहीन विलय और अधिग्रहण करने की अधिक संभावना रखते हैं
दैनिक व्यवहार: व्यायाम की आदतों, आहार विकल्पों और वित्तीय निवेश निर्णयों को प्रभावित करता है
सीखने की क्षमता: प्रतिक्रिया से सीखने के बजाय निरंतर पूर्वाग्रह का कारण बन सकता है

मौजूदा अनुसंधान की सीमाएं

LLM कैलिब्रेशन पर मौजूदा अनुसंधान मुख्य रूप से निम्नलिखित समस्याओं से ग्रस्त है:

मुख्य रूप से मानक प्रश्नोत्तरी डेटासेट पर निर्भर है, जिन्हें LLMs प्रशिक्षण में देख सकते हैं
तर्क क्षमता की आवश्यकता वाले प्रश्नों के आत्मविश्वास पर अनुसंधान की कमी
LLM आत्मविश्वास के मानवीय निर्णय पर प्रभाव का अपर्याप्त अन्वेषण

मुख्य योगदान

प्रथम व्यवस्थित मूल्यांकन: पाँच मुख्यधारा LLMs के अत्यधिक आत्मविश्वास पूर्वाग्रह का व्यापक मूल्यांकन
नवीन प्रयोगात्मक डिजाइन: 10,000 एल्गोरिदमिक रूप से उत्पन्न तर्क समस्याओं का निर्माण, न्यूनतम प्रशिक्षण प्रदूषण सुनिश्चित करता है
मानव-मशीन तुलनात्मक विश्लेषण: समान कार्य पर LLM और मानव के बीच सीधी तुलना प्रदान करता है
आत्मविश्वास ढाल खोज: LLM में अनिश्चितता के समय पूर्वाग्रह में तीव्र वृद्धि की "डनिंग-क्रूगर प्रभाव" को प्रकट करता है
मानवीय निर्णय प्रभाव अनुसंधान: LLM इनपुट के मानवीय सटीकता और पूर्वाग्रह पर दोहरे प्रभाव को परिमाणित करता है
कल्याण प्रभाव विश्लेषण: LLM जोखिम के कल्याण प्रभाव का विश्लेषण करने के लिए सैद्धांतिक मॉडल स्थापित करता है

विधि विवरण

कार्य परिभाषा

अनुसंधान ने तीन परस्पर संबंधित प्रयोग डिजाइन किए:

LLM अत्यधिक आत्मविश्वास मूल्यांकन: तर्क कार्यों में LLMs की सटीकता और आत्मविश्वास को मापता है
मानव बेंचमार्क परीक्षण: समान कार्यों पर मानव प्रदर्शन का मूल्यांकन करता है
LLM जोखिम प्रयोग: मानवीय निर्णय पर LLM इनपुट के प्रभाव का परीक्षण करता है

समस्या उत्पादन विधि

त्रिगुण निष्कर्षण

विकिडेटा (Wikidata) से संरचित त्रिगुण (विषय, विधेय, वस्तु) निकाले गए, दस लोकप्रिय श्रेणियों को शामिल करते हुए।

तार्किक तर्क नियम

पाँच तर्क प्रकार लागू किए गए:

नकारात्मक तर्क: तथ्य ज्ञान से इसके नकार की वैधता का अनुमान लगाता है
सममित तर्क: सममित संबंधों में विषय और वस्तु को विनिमय करता है
व्युत्क्रम तर्क: व्युत्क्रम संबंध के माध्यम से विषय और वस्तु को जोड़ता है
संक्रमणीय तर्क: नए त्रिगुण उत्पन्न करने के लिए श्रृंखला तर्क करता है
समग्र तर्क: कई मूल तर्क नियमों को संयोजित करता है

समस्या सत्यापन

Prolog तर्क इंजन का उपयोग करके स्वचालित तर्क, विधेय घटकों का हाथ से सत्यापन, अंतिम रूप से 476 विधेय और उनके संबंधित त्रिगुण को बनाए रखा।

आत्मविश्वास माप

विशेष रूप से डिजाइन किए गए प्रॉम्प्ट का उपयोग करके एक साथ प्राप्त किया गया:

उत्तर की सही संभावना का आत्मविश्वास
तथ्य ज्ञान की सही संभावना का आत्मविश्वास
तर्क प्रक्रिया की सही संभावना का आत्मविश्वास

समानता मूल्यांकन

LLM प्रतिक्रिया और मानक उत्तर के बीच समानता की गणना के लिए एल्गोरिदम विकसित किए गए:

तथ्य समानता: विषय मिलान और वस्तु समानता पर आधारित
तर्क समानता: विधेय और वस्तु मिलान की डिग्री का मूल्यांकन करता है

प्रयोगात्मक सेटअप

डेटासेट

पैमाना: 10,000 संतुलित तर्क समस्याएं
वितरण: 5 तर्क प्रकार × 10 ज्ञान क्षेत्र, प्रत्येक संयोजन में 200 समस्याएं
मानव बेंचमार्क: मानव प्रयोग के लिए 2,000 समस्याओं का चयन

मॉडल चयन

पाँच प्रतिनिधि LLMs का परीक्षण किया गया:

बंद-स्रोत मॉडल: GPT-3.5, GPT-4o, GPT-o1
खुला-स्रोत मॉडल: Llama 3.1 8B, Llama 3.2 3B

मूल्यांकन मेट्रिक्स

सटीकता: सही उत्तरों का अनुपात
आत्मविश्वास: मॉडल द्वारा स्व-रिपोर्ट की गई सही संभावना
पूर्वाग्रह: आत्मविश्वास और सटीकता के बीच अंतर
आत्मविश्वास ढाल: आत्मविश्वास के सापेक्ष सटीकता में परिवर्तन दर

मानव प्रयोग डिजाइन

मंच: Prolific ऑनलाइन प्रयोग मंच
प्रोत्साहन तंत्र: Danz et al. (2022) के सच्चे प्रोत्साहन तंत्र का पालन करता है
नमूना: बेंचमार्क प्रयोग में 588 लोग, जोखिम प्रयोग में 1,161 लोग

प्रयोगात्मक परिणाम

LLM अत्यधिक आत्मविश्वास प्रदर्शन

मुख्य निष्कर्ष

सभी पाँच LLMs महत्वपूर्ण अत्यधिक आत्मविश्वास प्रदर्शित करते हैं:

GPT-3.5: सटीकता 35%, आत्मविश्वास 94%, पूर्वाग्रह 59%
GPT-4o: सटीकता 63%, आत्मविश्वास 94%, पूर्वाग्रह 30%
GPT-o1: सटीकता 73%, आत्मविश्वास 95%, पूर्वाग्रह 22%
Llama 3.1: सटीकता 63%, आत्मविश्वास 86%, पूर्वाग्रह 23%
Llama 3.2: सटीकता 61%, आत्मविश्वास 94%, पूर्वाग्रह 33%

आत्मविश्वास ढाल विश्लेषण

अधिक उन्नत मॉडल मजबूत आत्मविश्वास ढाल प्रदर्शित करते हैं:

GPT-4o और GPT-o1: आत्मविश्वास में 10% की कमी सटीकता में लगभग 25% की कमी के अनुरूप है
Llama 3.1: आत्मविश्वास में 10% की कमी सटीकता में लगभग 13% की कमी के अनुरूप है

मानव-मशीन तुलना परिणाम

प्रदर्शन तुलना

मानव सटीकता: 66% (GPT-4o और Llama 3.1 के समान)
मानव आत्मविश्वास: 70% (केवल 4% अत्यधिक आत्मविश्वास)
मुख्य अंतर: मानव अनिश्चितता के समय पूर्वाग्रह कम करते हैं, LLMs विपरीत करते हैं

डनिंग-क्रूगर प्रभाव

LLMs मानव की तुलना में मजबूत डनिंग-क्रूगर प्रभाव प्रदर्शित करते हैं:

पूरी तरह से निश्चित होने पर, LLMs की सटीकता 79-85% है (अभी भी 15-21% पूर्वाग्रह मौजूद है)
मानव अनिश्चितता के समय हल्के कम आंकलन का प्रदर्शन करते हैं (सटीकता 54% बनाम अपेक्षित 50%)

मानव पर LLM जोखिम का प्रभाव

सटीकता में सुधार

LLM उत्तर समूह: सटीकता में 5.6 प्रतिशत अंक सुधार
LLM उत्तर + आत्मविश्वास समूह: सटीकता में 7.0 प्रतिशत अंक सुधार

पूर्वाग्रह प्रवर्धन

LLM उत्तर समूह: पूर्वाग्रह में 4.2 प्रतिशत अंक वृद्धि (दोगुना)
LLM उत्तर + आत्मविश्वास समूह: पूर्वाग्रह में 7.6 प्रतिशत अंक वृद्धि (लगभग तीन गुना)

विषमता प्रभाव

कम बेसलाइन आत्मविश्वास वाले प्रतिभागियों को सबसे अधिक लाभ:

सटीकता में 8.6-11.9 प्रतिशत अंक सुधार
लेकिन पूर्वाग्रह में भी 7.0-14.1 प्रतिशत अंक वृद्धि

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सार्वभौमिक अत्यधिक आत्मविश्वास: सभी परीक्षित LLMs महत्वपूर्ण अत्यधिक आत्मविश्वास प्रदर्शित करते हैं, जो मानव से कहीं अधिक है
डनिंग-क्रूगर प्रभाव: LLMs अनिश्चितता के समय पूर्वाग्रह में तीव्र वृद्धि दिखाते हैं, ज्ञान की सीमाओं के प्रति जागरूकता की कमी है
दोहरा प्रभाव: LLM इनपुट मानवीय सटीकता में सुधार करता है, लेकिन अत्यधिक आत्मविश्वास में महत्वपूर्ण वृद्धि करता है
कल्याण जटिलता: निवेश निर्णय की आवश्यकता वाले वातावरण में, बढ़ा हुआ पूर्वाग्रह सटीकता लाभ को रद्द कर सकता है

सैद्धांतिक अंतर्दृष्टि

डनिंग-क्रूगर तंत्र

LLMs अपने पूर्वानुमान मॉडल में "फंसे" हैं:

प्रशिक्षण डेटा में मौजूद नहीं ज्ञान को समझ नहीं सकते
प्रशिक्षण डेटा के आधार पर सटीकता अनुमान बनाते हैं
ज्ञान सीमाओं के प्रति मानवीय सहज ज्ञान की कमी है

कल्याण सैद्धांतिक मॉडल

सटीकता और पूर्वाग्रह पर विचार करने वाला कल्याण मॉडल स्थापित किया गया:

जब निवेश सफलता संभावना के लिए लोचदार होते हैं, तो अत्यधिक आत्मविश्वास का नकारात्मक प्रभाव अधिक होता है
यहां तक कि सटीकता में सुधार के साथ, LLM जोखिम समग्र कल्याण को कम कर सकता है

सीमाएं

कार्य दायरा: केवल द्विआधारी विकल्प की तर्क समस्याओं तक सीमित
मॉडल संस्करण: परिणाम मॉडल अपडेट के साथ बदल सकते हैं
सांस्कृतिक अंतर: मानव प्रयोग मुख्य रूप से अंग्रेजी उपयोगकर्ताओं पर आधारित
समय प्रभाव: दीर्घकालिक सीखने और अनुकूलन प्रभाव पर विचार नहीं किया गया

व्यावहारिक महत्व

उपयोगकर्ताओं के लिए मार्गदर्शन

LLM तर्क क्षमता का मूल्यांकन करने के लिए नए बेंचमार्क प्रदान किए
LLM सुझावों के प्रति उचित संदेह बनाए रखने की आवश्यकता पर जोर दिया

डेवलपर्स के लिए सुझाव

वर्तमान प्रशिक्षण उद्देश्य प्रवाहिता को सटीकता से अधिक प्राथमिकता देते हैं
अनिश्चितता कैलिब्रेशन तंत्र विकसित करने की आवश्यकता है
तर्क प्रक्रिया की जांच के लिए सत्यापन तंत्र को एकीकृत करने की सिफारिश

अनुसंधान के लिए प्रेरणा

LLM व्यवहार पूर्वाग्रह का मूल्यांकन करने के महत्व पर जोर दिया
अन्य संज्ञानात्मक पूर्वाग्रह अनुसंधान के लिए प्रतिमान प्रदान किया
व्यवहार विज्ञान और कंप्यूटर विज्ञान के बीच अंतःविषय सहयोग को बढ़ावा दिया

गहन मूल्यांकन

शक्तियां

विधि नवीनता:
- एल्गोरिदमिक रूप से उत्पन्न समस्याएं प्रशिक्षण प्रदूषण को न्यूनतम करती हैं
- बहु-आयामी आत्मविश्वास माप (उत्तर, तथ्य, तर्क)
- कठोर मानव-मशीन तुलनात्मक प्रयोग डिजाइन
प्रयोगात्मक पर्याप्तता:
- बड़े पैमाने पर प्रयोग (10,000 LLM प्रश्न, 5,000+ मानव प्रतिक्रियाएं)
- कई मॉडल और तापमान सेटिंग्स के लिए मजबूती जांच
- विस्तृत विलोपन प्रयोग और पुनरुत्पादन सत्यापन
सैद्धांतिक योगदान:
- पहली बार LLM के डनिंग-क्रूगर प्रभाव को प्रकट किया
- LLM जोखिम के कल्याण विश्लेषण के लिए ढांचा स्थापित किया
- आत्मविश्वास कैलिब्रेशन के लिए नया दृष्टिकोण प्रदान किया
व्यावहारिक मूल्य:
- LLM अनुप्रयोग के लिए महत्वपूर्ण सुरक्षा विचार प्रदान किए
- AI सिस्टम डिजाइन के लिए सीधा मार्गदर्शन है
- नियामक नीति निर्माण के लिए वैज्ञानिक साक्ष्य प्रदान किया

कमियां

कार्य सीमाएं:
- केवल द्विआधारी विकल्प समस्याओं पर विचार, वास्तविक अनुप्रयोग परिदृश्यों का पूरी तरह प्रतिनिधित्व नहीं कर सकता
- तर्क प्रकार अपेक्षाकृत सरल, अधिक जटिल बहु-चरण तर्क की कमी
माप विधि:
- आत्मविश्वास माप स्व-रिपोर्ट पर निर्भर, प्रॉम्प्ट संवेदनशीलता हो सकती है
- समानता मूल्यांकन एल्गोरिदम व्यक्तिपरकता पेश कर सकता है
नमूना प्रतिनिधित्व:
- मानव प्रयोग मुख्य रूप से ऑनलाइन मंच उपयोगकर्ताओं पर आधारित
- विभिन्न सांस्कृतिक पृष्ठभूमि और व्यावसायिक क्षेत्रों में विविधता की कमी
दीर्घकालिक प्रभाव:
- बार-बार जोखिम के सीखने के प्रभाव पर विचार नहीं किया गया
- वास्तविक निर्णय वातावरण के लिए पारिस्थितिक वैधता सत्यापन की कमी

प्रभाव मूल्यांकन

शैक्षणिक प्रभाव

सैद्धांतिक योगदान: LLM व्यवहार पूर्वाग्रह अनुसंधान के लिए नई दिशा खोलता है
पद्धति मूल्य: पुनरुत्पादन योग्य प्रयोगात्मक प्रतिमान प्रदान करता है
अंतःविषय महत्व: AI, संज्ञानात्मक विज्ञान और व्यवहार अर्थशास्त्र को जोड़ता है

व्यावहारिक प्रभाव

औद्योगिक अनुप्रयोग: LLM उत्पाद डिजाइन और तैनाती रणनीति को प्रभावित करता है
शैक्षणिक मूल्य: AI सिस्टम की सीमाओं के बारे में जनता जागरूकता बढ़ाता है
नीति निर्माण: AI शासन के लिए वैज्ञानिक साक्ष्य प्रदान करता है

लागू परिदृश्य

उच्च जोखिम निर्णय: चिकित्सा निदान, वित्तीय निवेश जैसे परिदृश्य जहां सटीकता मूल्यांकन की आवश्यकता है
शैक्षणिक अनुप्रयोग: सीखने के प्रभाव पर अत्यधिक आत्मविश्वास के प्रभाव पर विचार करने की आवश्यकता है
मानव-मशीन सहयोग: बेहतर आत्मविश्वास संचार तंत्र डिजाइन करना
AI सुरक्षा: अधिक विश्वसनीय अनिश्चितता परिमाणीकरण विधियां विकसित करना

भविष्य अनुसंधान दिशाएं

कार्य प्रकार विस्तार: अधिक जटिल तर्क कार्यों और खुले प्रश्नों का अनुसंधान
क्रॉस-सांस्कृतिक सत्यापन: विभिन्न सांस्कृतिक पृष्ठभूमि में निष्कर्षों की सार्वभौमिकता को सत्यापित करना
हस्तक्षेप तंत्र: अत्यधिक आत्मविश्वास को कम करने के लिए प्रशिक्षण और प्रॉम्प्ट विधियां विकसित करना
दीर्घकालिक प्रभाव: बार-बार इंटरैक्शन में सीखने और अनुकूलन प्रक्रिया का अनुसंधान
अन्य पूर्वाग्रह: LLMs में अन्य संज्ञानात्मक पूर्वाग्रहों का व्यवस्थित अनुसंधान

संदर्भ

पेपर में समृद्ध संबंधित साहित्य का हवाला दिया गया है, जिसमें शामिल हैं:

व्यवहार अर्थशास्त्र में अत्यधिक आत्मविश्वास अनुसंधान (Kahneman, 2011; Moore and Healy, 2008)
LLM कैलिब्रेशन और अनिश्चितता परिमाणीकरण (Tian et al., 2023; Wei et al., 2024)
मानव-मशीन इंटरैक्शन और AI पूर्वाग्रह (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
डनिंग-क्रूगर प्रभाव का शास्त्रीय अनुसंधान (Kruger and Dunning, 1999)

यह अनुसंधान बड़े भाषा मॉडल की विश्वसनीयता को समझने और सुधारने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है, जिसका AI सुरक्षा और मानव-मशीन सहयोग के लिए गहरा महत्व है। LLMs के अत्यधिक आत्मविश्वास समस्या को प्रकट करके, अनुसंधान अधिक विश्वसनीय AI सिस्टम विकसित करने के लिए दिशा प्रदान करता है।