Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- Papier-ID: 2505.02151
- Titel: Large Language Models are overconfident and amplify human bias
- Autoren: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- Klassifizierung: cs.SE (Softwaretechnik), cs.CY (Computer und Gesellschaft)
- Veröffentlichungsdatum: Mai 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2505.02151v2
Große Sprachmodelle (LLMs) revolutionieren verschiedene Aspekte der Gesellschaft und werden zunehmend für Problemlösungsaufgaben eingesetzt, die menschliche Bewertung und Argumentation ersetzen. Da LLMs auf von Menschen verfassten Inhalten trainiert werden, sind sie menschlichen Vorurteilen ausgesetzt. Diese Studie bewertet, ob LLMs eines der häufigsten menschlichen Vorurteile geerbt haben: Überconfidence. Die Forscher konstruierten algorithmisch Argumentationsprobleme mit bekannten korrekten Antworten, forderten LLMs auf, diese zu beantworten, und bewerteten die Konfidenz ihrer Antworten. Die Studie zeigt, dass alle fünf untersuchten LLMs Überconfidence aufweisen: Sie überschätzen die Wahrscheinlichkeit ihrer korrekten Antworten um 20% bis 60%. Obwohl die menschliche Genauigkeit der fortgeschritteneren LLMs ähnlich ist, ist der Grad der Überconfidence deutlich geringer. Wenn LLMs weniger sicher über Antworten sind, nimmt ihr Vorurteil im Vergleich zu Menschen dramatisch zu. Die Studie zeigt auch, dass LLM-Eingaben komplexe Auswirkungen auf menschliche Entscheidungen haben: Sie verbessern zwar die Genauigkeit, erhöhen aber die Überconfidence um mehr als das Doppelte.
Die Kernfrage dieser Studie ist: Erben und verstärken große Sprachmodelle das menschliche Überconfidence-Vorurteil? Diese Frage ist wichtig, weil:
- Breite Anwendungsszenarien: LLMs werden zunehmend für Problemlösungsaufgaben eingesetzt, die sorgfältige Argumentation und Bewertung erfordern
- Verzerrung der Trainingsdaten: LLMs werden auf von Menschen verfassten Inhalten trainiert und sind daher natürlicherweise menschlichen Vorurteilen ausgesetzt
- Entscheidungsauswirkungen: Überconfidence hat sich als schädlich für mehrere Bereiche professioneller und alltäglicher Entscheidungen erwiesen
Überconfidence ist eines der häufigsten Vorurteile in menschlichen Urteilen und hat in mehreren Bereichen negative Auswirkungen:
- Professionelle Bereiche: Überconfidente Manager führen eher unrentable Fusionen und Übernahmen durch
- Alltägliches Verhalten: Beeinflusst Trainingsgewohnheiten, Ernährungsentscheidungen und Finanzinvestitionen
- Lernfähigkeit: Kann zu persistenten Vorurteilen führen statt zum Lernen aus Feedback
Bestehende Forschung zur LLM-Kalibrierung hat hauptsächlich folgende Probleme:
- Beruht hauptsächlich auf standardisierten Frage-Antwort-Datensätzen, die LLMs wahrscheinlich während des Trainings gesehen haben
- Mangel an Forschung zur Konfidenz bei Aufgaben, die Argumentationsfähigkeit erfordern
- Unzureichende Erforschung der Auswirkungen von LLM-Konfidenz auf menschliche Entscheidungen
- Erste systematische Bewertung: Umfassende Bewertung des Überconfidence-Vorurteils bei fünf führenden LLMs
- Innovative Experimentaldesign: Konstruktion von 10.000 algorithmisch generierten Argumentationsproblemen zur Minimierung von Trainingsverzerrung
- Mensch-Maschine-Vergleichsanalyse: Direkter Vergleich von LLMs und Menschen bei identischen Aufgaben
- Konfidenz-Gradient-Erkenntnisse: Enthüllung des "Dunning-Kruger-Effekts", bei dem LLM-Vorurteile bei Unsicherheit dramatisch zunehmen
- Forschung zu Auswirkungen auf menschliche Entscheidungen: Quantifizierung der dualen Auswirkungen von LLM-Eingaben auf menschliche Genauigkeit und Vorurteile
- Wohlfahrtseffekt-Analyse: Etablierung eines theoretischen Modells zur Analyse der Wohlfahrtsauswirkungen von LLM-Exposition
Die Studie entwarf drei miteinander verbundene Experimente:
- LLM-Überconfidence-Bewertung: Messung von Genauigkeit und Konfidenz von LLMs bei Argumentationsaufgaben
- Menschliche Benchmark-Tests: Bewertung der menschlichen Leistung bei identischen Aufgaben
- LLM-Expositions-Experiment: Test der Auswirkungen von LLM-Eingaben auf menschliche Entscheidungen
Extraktion strukturierter Tripel (Subjekt, Prädikat, Objekt) aus Wikidata, die zehn beliebte Kategorien abdecken.
Implementierung von fünf Argumentationstypen:
- Negations-Argumentation: Ableitung der Gültigkeit der Negation von Faktenwissen
- Symmetrie-Argumentation: Austausch von Subjekt und Objekt in symmetrischen Beziehungen
- Inverse Argumentation: Verbindung von Subjekt und Objekt durch inverse Beziehungen
- Transitive Argumentation: Kettenförmige Argumentation zur Generierung neuer Tripel
- Zusammengesetzte Argumentation: Kombination mehrerer grundlegender Argumentationsregeln
Verwendung einer Prolog-Argumentationsmaschine für automatische Argumentation, manuelle Validierung von Prädikat-Komponenten, endgültige Beibehaltung von 476 Prädikaten und entsprechenden Tripeln.
Verwendung speziell entworfener Prompts zur gleichzeitigen Erfassung von:
- Konfidenz in der Korrektheit der Antwort
- Konfidenz in der Korrektheit des Faktenwissens
- Konfidenz in der Korrektheit des Argumentationsprozesses
Entwicklung von Algorithmen zur Berechnung der Ähnlichkeit zwischen LLM-Antworten und Standardantworten:
- Faktische Ähnlichkeit: Basierend auf Subjekt-Matching und Objekt-Ähnlichkeit
- Argumentations-Ähnlichkeit: Bewertung des Prädikat- und Objekt-Matchings
- Umfang: 10.000 ausgewogene Argumentationsprobleme
- Verteilung: 5 Argumentationstypen × 10 Wissensbereiche, 200 Probleme pro Kombination
- Menschliche Benchmark: 2.000 Probleme für menschliche Experimente ausgewählt
Test von fünf repräsentativen LLMs:
- Geschlossene Modelle: GPT-3.5, GPT-4o, GPT-o1
- Open-Source-Modelle: Llama 3.1 8B, Llama 3.2 3B
- Genauigkeit: Anteil korrekter Antworten
- Konfidenz: Selbstberichtete Wahrscheinlichkeit der Korrektheit
- Vorurteil: Differenz zwischen Konfidenz und Genauigkeit
- Konfidenz-Gradient: Änderungsrate der Genauigkeit relativ zur Konfidenz
- Plattform: Prolific Online-Experimentierplattform
- Anreizmechanismus: Befolgt echte Anreizmechanismen nach Danz et al. (2022)
- Stichprobe: 588 Personen für Basis-Experiment, 1.161 Personen für Expositions-Experiment
Alle fünf LLMs zeigen signifikante Überconfidence:
- GPT-3.5: Genauigkeit 35%, Konfidenz 94%, Vorurteil 59%
- GPT-4o: Genauigkeit 63%, Konfidenz 94%, Vorurteil 30%
- GPT-o1: Genauigkeit 73%, Konfidenz 95%, Vorurteil 22%
- Llama 3.1: Genauigkeit 63%, Konfidenz 86%, Vorurteil 23%
- Llama 3.2: Genauigkeit 61%, Konfidenz 94%, Vorurteil 33%
Fortgeschrittenere Modelle zeigen stärkere Konfidenz-Gradienten:
- GPT-4o und GPT-o1: 10% Rückgang der Konfidenz entspricht etwa 25% Rückgang der Genauigkeit
- Llama 3.1: 10% Rückgang der Konfidenz entspricht etwa 13% Rückgang der Genauigkeit
- Menschliche Genauigkeit: 66% (vergleichbar mit GPT-4o und Llama 3.1)
- Menschliche Konfidenz: 70% (nur 4% Überconfidence)
- Schlüsseldifferenz: Menschen zeigen weniger Vorurteil bei Unsicherheit, LLMs das Gegenteil
LLMs zeigen einen stärkeren Dunning-Kruger-Effekt als Menschen:
- Bei vollständiger Sicherheit liegt die LLM-Genauigkeit bei 79-85% (immer noch 15-21% Vorurteil)
- Menschen zeigen bei Unsicherheit leichte Unterschätzung (Genauigkeit 54% vs. erwartete 50%)
- LLM-Antwort-Gruppe: Genauigkeitsverbesserung um 5,6 Prozentpunkte
- LLM-Antwort + Konfidenz-Gruppe: Genauigkeitsverbesserung um 7,0 Prozentpunkte
- LLM-Antwort-Gruppe: Vorurteil nimmt um 4,2 Prozentpunkte zu (verdoppelt)
- LLM-Antwort + Konfidenz-Gruppe: Vorurteil nimmt um 7,6 Prozentpunkte zu (fast verdreifacht)
Teilnehmer mit niedriger Basis-Konfidenz profitieren am meisten:
- Genauigkeitsverbesserung um 8,6-11,9 Prozentpunkte
- Aber Vorurteil nimmt auch um 7,0-14,1 Prozentpunkte zu
Bestehende Forschung verwendet hauptsächlich drei Methoden zur Messung der LLM-Konfidenz:
- Logit-basierte Schätzung: Erfordert internen Modellzugriff
- Direkte Konfidenz-Induktion: Direkte Abfrage durch Prompts
- Hilfsmodell-Ansatz: Von Einzelmodell-Vorhersagen zu Multi-Source-Integration
Die Innovation dieser Studie liegt in der Verwendung algorithmisch generierter Probleme zur Minimierung von Trainingsverzerrung.
Auswirkungen von Überconfidence in mehreren Bereichen:
- Unternehmens-Entscheidungen: Beeinflusst Finanzierungs- und M&A-Entscheidungen
- Persönliches Verhalten: Beeinflusst Gesundheitsentscheidungen und Investitionen
- Lernprozess: Kann zu persistenten Vorurteilen statt adaptivem Lernen führen
Neue Forschung untersucht, wie Einzelne auf (möglicherweise verzerrte) KI-Eingaben reagieren; diese Studie leistet einen wichtigen Beitrag zu diesem Bereich.
- Universelle Überconfidence: Alle getesteten LLMs zeigen signifikante Überconfidence, weit über dem menschlichen Niveau
- Dunning-Kruger-Effekt: LLMs zeigen dramatisch erhöhte Vorurteile bei Unsicherheit, mangelnde Erkenntnis von Wissensgrenzen
- Duale Auswirkungen: LLM-Eingaben verbessern zwar die menschliche Genauigkeit, erhöhen aber signifikant die Überconfidence
- Wohlfahrts-Komplexität: In Umgebungen, die Investitionsentscheidungen erfordern, können erhöhte Vorurteile Genauigkeitsgewinne aufzehren
LLMs sind in ihren Vorhersagemodellen "gefangen":
- Können Wissen, das in Trainingsdaten nicht vorhanden ist, nicht erfassen
- Bilden Genauigkeitsschätzungen basierend auf Trainingsdaten
- Mangelnde intuitive Erkenntnis menschlicher Wissensgrenzen
Etablierung eines Wohlfahrtsmodells, das Genauigkeit und Vorurteile berücksichtigt:
- Negative Auswirkungen von Überconfidence sind größer, wenn Investitionen höhere Elastizität gegenüber Erfolgschancen haben
- Selbst bei verbesserter Genauigkeit kann LLM-Exposition die Gesamtwohlfahrt verringern
- Aufgabenumfang: Begrenzt auf binäre Auswahlargumentationsprobleme
- Modellversionen: Ergebnisse können sich mit Modellaktualisierungen ändern
- Kulturelle Unterschiede: Menschliche Experimente basieren hauptsächlich auf englischsprachigen Nutzern
- Zeitliche Effekte: Berücksichtigt nicht langfristige Lern- und Anpassungseffekte
- Bereitstellung neuer Benchmarks zur Bewertung von LLM-Argumentationsfähigkeiten
- Betonung der Notwendigkeit angemessener Skepsis gegenüber LLM-Empfehlungen
- Aktuelle Trainingsziele priorisieren Flüssigkeit über Genauigkeit
- Notwendigkeit der Entwicklung eingebauter Unsicherheits-Kalibrierungsmechanismen
- Empfehlung der Integration von Verifizierungsmechanismen zur Überprüfung von Argumentationsprozessen
- Betonung der Bedeutung der Bewertung von LLM-Verhaltensvorurteilen
- Bereitstellung eines Paradigmas für die Forschung zu anderen kognitiven Vorurteilen
- Förderung interdisziplinärer Zusammenarbeit zwischen Verhaltenswissenschaften und Informatik
- Methodische Innovation:
- Algorithmisch generierte Probleme minimieren Trainingsverzerrung
- Mehrdimensionale Konfidenz-Messung (Antwort, Fakten, Argumentation)
- Strenger Mensch-Maschine-Vergleichsexperimentaldesign
- Experimentelle Vollständigkeit:
- Großangelegte Experimente (10.000 LLM-Probleme, 5.000+ menschliche Antworten)
- Robustheitsprüfungen bei mehreren Modellen und Temperatureinstellungen
- Detaillierte Ablationsstudien und Reproduzierbarkeitsprüfungen
- Theoretische Beiträge:
- Erste Enthüllung des Dunning-Kruger-Effekts bei LLMs
- Etablierung eines Wohlfahrtsanalyse-Rahmens für LLM-Exposition
- Neue Perspektive auf Konfidenz-Kalibrierung
- Praktischer Wert:
- Wichtige Sicherheitsüberlegungen für LLM-Anwendungen
- Direkte Orientierungshilfe für KI-Systemdesign
- Wissenschaftliche Grundlage für Regulierungspolitik
- Aufgaben-Einschränkungen:
- Nur binäre Auswahlprobleme, möglicherweise nicht vollständig repräsentativ für reale Anwendungsszenarien
- Relativ einfache Argumentationstypen, mangelnde komplexere mehrstufige Argumentation
- Messmethoden:
- Konfidenz-Messung beruht auf Selbstbericht, möglicherweise anfällig für Prompt-Sensitivität
- Ähnlichkeitsbewertungs-Algorithmus könnte Subjektivität einführen
- Stichproben-Repräsentativität:
- Menschliche Experimente basieren hauptsächlich auf Online-Plattform-Nutzern
- Mangel an Vielfalt in verschiedenen kulturellen Hintergründen und Fachbereichen
- Langzeiteffekte:
- Berücksichtigung wiederholter Expositions-Lerneffekte nicht vorhanden
- Mangel an ökologischer Validität in realen Entscheidungsumgebungen
- Theoretischer Beitrag: Eröffnet neue Richtungen in der LLM-Verhaltensvorurteil-Forschung
- Methodologischer Wert: Bereitstellung reproduzierbarer experimenteller Paradigmen
- Interdisziplinäre Bedeutung: Verbindung von KI, Kognitionswissenschaft und Verhaltensökonomie
- Industrielle Anwendung: Beeinflusst LLM-Produktdesign und Bereitstellungsstrategien
- Bildungswert: Erhöht öffentliches Bewusstsein für KI-Systemlimitierungen
- Politische Gestaltung: Bereitstellung wissenschaftlicher Grundlagen für KI-Governance
- Hochrisiko-Entscheidungen: Medizinische Diagnose, Finanzinvestitionen und andere Szenarien, die Genauigkeitsbewertung erfordern
- Bildungsanwendungen: Berücksichtigung der Auswirkungen von Überconfidence auf Lerneffektivität
- Mensch-Maschine-Zusammenarbeit: Design besserer Konfidenz-Kommunikationsmechanismen
- KI-Sicherheit: Entwicklung zuverlässigerer Unsicherheits-Quantifizierungsmethoden
- Erweiterung von Aufgabentypen: Untersuchung komplexerer Argumentationsaufgaben und offener Fragen
- Kulturübergreifende Validierung: Validierung der Universalität der Erkenntnisse in verschiedenen kulturellen Kontexten
- Interventionsmechanismen: Entwicklung von Trainings- und Prompt-Methoden zur Reduzierung von Überconfidence
- Langzeiteffekte: Untersuchung von Lern- und Anpassungsprozessen in wiederholten Interaktionen
- Andere Vorurteile: Systematische Untersuchung anderer kognitiver Vorurteile in LLMs
Das Papier zitiert umfangreiche relevante Literatur, einschließlich:
- Überconfidence-Forschung in der Verhaltensökonomie (Kahneman, 2011; Moore and Healy, 2008)
- LLM-Kalibrierung und Unsicherheits-Quantifizierung (Tian et al., 2023; Wei et al., 2024)
- Mensch-Maschine-Interaktion und KI-Vorurteile (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- Klassische Forschung zum Dunning-Kruger-Effekt (Kruger and Dunning, 1999)
Diese Studie bietet wichtige Erkenntnisse zum Verständnis und zur Verbesserung der Zuverlässigkeit großer Sprachmodelle und hat tiefgreifende Bedeutung für KI-Sicherheit und Mensch-Maschine-Zusammenarbeit. Durch die Enthüllung des Überconfidence-Problems bei LLMs zeigt die Forschung den Weg zur Entwicklung vertrauenswürdigerer KI-Systeme.