2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.
Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
academic

Los Modelos de Lenguaje Grande son excesivamente confiados y amplifican el sesgo humano

Información Básica

  • ID del Artículo: 2505.02151
  • Título: Large Language Models are overconfident and amplify human bias
  • Autores: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
  • Clasificación: cs.SE (Ingeniería de Software), cs.CY (Computadoras y Sociedad)
  • Fecha de Publicación: Mayo de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2505.02151v2

Resumen

Los modelos de lenguaje grande (LLMs) están transformando radicalmente diversos aspectos de la sociedad, siendo cada vez más utilizados para sustituir la evaluación humana y tareas de resolución de problemas que requieren razonamiento. Dado que los LLMs se entrenan con contenido redactado por humanos, están expuestos a sesgos humanos. Este estudio evalúa si los LLMs heredan uno de los sesgos humanos más prevalentes: la excesiva confianza. Los investigadores construyeron algorítmicamente problemas de razonamiento con respuestas verdaderas conocidas, solicitaron a los LLMs que respondieran estas preguntas y evaluaron el nivel de confianza de sus respuestas. El estudio encontró que los cinco LLMs estudiados exhiben excesiva confianza: sobrestiman la probabilidad de que sus respuestas sean correctas entre un 20% y un 60%. Aunque la precisión humana es similar a la de los LLMs más avanzados, el grado de excesiva confianza es significativamente menor. Cuando los LLMs tienen menos certeza sobre sus respuestas, su sesgo aumenta drásticamente en comparación con los humanos. El estudio también demuestra que la información de los LLMs tiene un efecto complejo en la toma de decisiones humana: aunque mejora la precisión, más que duplica el grado de excesiva confianza.

Contexto e Motivación de la Investigación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿heredan y amplifican los modelos de lenguaje grande el sesgo de excesiva confianza humana? Esta pregunta es significativa porque:

  1. Escenarios de Aplicación Generalizada: Los LLMs se utilizan cada vez más en tareas de resolución de problemas que requieren razonamiento cuidadoso y evaluación
  2. Sesgo en Datos de Entrenamiento: Los LLMs se entrenan con contenido redactado por humanos, estando naturalmente expuestos a sesgos humanos
  3. Impacto en Decisiones: Se ha demostrado que la excesiva confianza afecta múltiples dominios de decisiones profesionales y cotidianas

Importancia de la Investigación

La excesiva confianza es uno de los sesgos más prevalentes en el juicio humano, habiendo producido efectos negativos en múltiples campos:

  • Ámbito Profesional: Los gerentes excesivamente confiados tienen mayor probabilidad de realizar fusiones y adquisiciones no rentables
  • Comportamiento Cotidiano: Afecta hábitos de ejercicio, elecciones dietéticas y decisiones de inversión financiera
  • Capacidad de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprender de la retroalimentación

Limitaciones de la Investigación Existente

La investigación existente sobre calibración de LLMs presenta principalmente los siguientes problemas:

  1. Depende principalmente de conjuntos de datos estándar de preguntas y respuestas, que los LLMs probablemente han visto durante el entrenamiento
  2. Carece de investigación sobre confianza en problemas que requieren capacidad de razonamiento
  3. No ha explorado suficientemente el impacto de la confianza de los LLMs en la toma de decisiones humana

Contribuciones Principales

  1. Primera Evaluación Sistemática: Evaluación integral del sesgo de excesiva confianza en cinco LLMs principales
  2. Diseño Experimental Innovador: Construcción de 10,000 problemas de razonamiento generados algorítmicamente, asegurando contaminación mínima del entrenamiento
  3. Análisis Comparativo Humano-Máquina: Proporciona comparación directa entre LLMs y humanos en la misma tarea
  4. Descubrimiento del Gradiente de Confianza: Revela el "efecto Dunning-Kruger" donde el sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza
  5. Investigación del Impacto en Decisiones Humanas: Cuantifica el efecto dual de la información de LLMs en la precisión y sesgo humanos
  6. Análisis del Efecto de Bienestar: Establece un modelo teórico para analizar el impacto en el bienestar de la exposición a LLMs

Explicación Detallada de Métodos

Definición de Tareas

El estudio diseñó tres experimentos interconectados:

  1. Evaluación de Excesiva Confianza en LLMs: Medir la precisión y confianza de los LLMs en tareas de razonamiento
  2. Prueba de Referencia Humana: Evaluar el desempeño humano en las mismas tareas
  3. Experimento de Exposición a LLMs: Probar el impacto de la información de LLMs en la toma de decisiones humana

Método de Generación de Problemas

Extracción de Tripletas

Extracción de tripletas estructuradas (sujeto, predicado, objeto) de Wikidata, cubriendo diez categorías populares.

Reglas de Razonamiento Lógico

Implementación de cinco tipos de razonamiento:

  1. Razonamiento de Negación: Derivar la validez de la negación de hechos conocidos
  2. Razonamiento Simétrico: Intercambiar sujeto y objeto en relaciones simétricas
  3. Razonamiento Inverso: Conectar sujeto y objeto a través de relaciones inversas
  4. Razonamiento Transitivo: Razonamiento en cadena para generar nuevas tripletas
  5. Razonamiento Compuesto: Combinar múltiples reglas de razonamiento básicas

Validación de Problemas

Utilizar el motor de razonamiento Prolog para razonamiento automático, validación manual de componentes de predicados, reteniendo finalmente 476 predicados y sus tripletas correspondientes.

Medición de Confianza

Utilizar indicaciones especialmente diseñadas para obtener simultáneamente:

  • Confianza en la corrección de la respuesta
  • Confianza en la corrección del conocimiento fáctico
  • Confianza en la corrección del proceso de razonamiento

Evaluación de Similitud

Desarrollar algoritmos para calcular la similitud entre respuestas de LLMs y respuestas estándar:

  • Similitud Fáctica: Basada en coincidencia de sujeto y similitud de objeto
  • Similitud de Razonamiento: Evaluar el grado de coincidencia de predicado y objeto

Configuración Experimental

Conjunto de Datos

  • Escala: 10,000 problemas de razonamiento equilibrados
  • Distribución: 5 tipos de razonamiento × 10 dominios de conocimiento, 200 problemas por combinación
  • Referencia Humana: Seleccionar 2,000 problemas de este conjunto para experimentos humanos

Selección de Modelos

Se probaron cinco LLMs representativos:

  • Modelos de Código Cerrado: GPT-3.5, GPT-4o, GPT-o1
  • Modelos de Código Abierto: Llama 3.1 8B, Llama 3.2 3B

Métricas de Evaluación

  • Precisión: Proporción de respuestas correctas
  • Confianza: Probabilidad de corrección autoinformada por el modelo
  • Sesgo: Diferencia entre confianza y precisión
  • Gradiente de Confianza: Tasa de cambio de precisión relativa a confianza

Diseño del Experimento Humano

  • Plataforma: Plataforma de experimentos en línea Prolific
  • Mecanismo de Incentivos: Seguir el mecanismo de incentivos verdaderos de Danz et al. (2022)
  • Muestra: 588 participantes en experimento de referencia, 1,161 en experimento de exposición

Resultados Experimentales

Desempeño de Excesiva Confianza en LLMs

Hallazgos Principales

Los cinco LLMs exhiben excesiva confianza significativa:

  • GPT-3.5: Precisión 35%, Confianza 94%, Sesgo 59%
  • GPT-4o: Precisión 63%, Confianza 94%, Sesgo 30%
  • GPT-o1: Precisión 73%, Confianza 95%, Sesgo 22%
  • Llama 3.1: Precisión 63%, Confianza 86%, Sesgo 23%
  • Llama 3.2: Precisión 61%, Confianza 94%, Sesgo 33%

Análisis del Gradiente de Confianza

Los modelos más avanzados muestran gradientes de confianza más fuertes:

  • GPT-4o y GPT-o1: Disminución del 10% en confianza corresponde a aproximadamente 25% de disminución en precisión
  • Llama 3.1: Disminución del 10% en confianza corresponde a aproximadamente 13% de disminución en precisión

Resultados de Comparación Humano-Máquina

Comparación de Desempeño

  • Precisión Humana: 66% (comparable a GPT-4o y Llama 3.1)
  • Confianza Humana: 70% (solo 4% de excesiva confianza)
  • Diferencia Clave: Los humanos muestran sesgo reducido cuando tienen incertidumbre, mientras que los LLMs muestran lo opuesto

Efecto Dunning-Kruger

Los LLMs exhiben un efecto Dunning-Kruger más fuerte que los humanos:

  • Cuando están completamente seguros, los LLMs tienen precisión de 79-85% (aún con 15-21% de sesgo)
  • Los humanos cuando tienen incertidumbre finalmente muestran una ligera subestimación (precisión 54% vs 50% esperado)

Impacto de la Exposición a LLMs en Humanos

Mejora en Precisión

  • Grupo de Respuestas de LLM: Mejora de precisión de 5.6 puntos porcentuales
  • Grupo de Respuestas de LLM + Confianza: Mejora de precisión de 7.0 puntos porcentuales

Amplificación del Sesgo

  • Grupo de Respuestas de LLM: Aumento de sesgo de 4.2 puntos porcentuales (duplicado)
  • Grupo de Respuestas de LLM + Confianza: Aumento de sesgo de 7.6 puntos porcentuales (casi triplicado)

Efectos Heterogéneos

Los participantes con confianza de referencia baja se benefician más:

  • Mejora de precisión de 8.6-11.9 puntos porcentuales
  • Pero el sesgo también aumenta 7.0-14.1 puntos porcentuales

Trabajo Relacionado

Investigación sobre Calibración de LLMs

La investigación existente adopta principalmente tres métodos para medir confianza de LLMs:

  1. Estimación Basada en Logits: Requiere acceso a parámetros internos del modelo
  2. Inducción Directa de Confianza: Preguntar directamente a través de indicaciones
  3. Método de Modelo Auxiliar: De predicción de modelo único a integración de múltiples fuentes

La innovación de esta investigación radica en utilizar problemas generados algorítmicamente para asegurar contaminación mínima del entrenamiento.

Investigación sobre Excesiva Confianza

El impacto de la excesiva confianza en múltiples campos:

  • Decisiones Empresariales: Afecta opciones de financiamiento y decisiones de fusiones y adquisiciones
  • Comportamiento Individual: Afecta elecciones de salud e inversión
  • Proceso de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprendizaje adaptativo

Interacción Humano-Máquina

La investigación emergente explora cómo los individuos responden a información de IA (potencialmente sesgada), y este estudio proporciona una contribución importante a este campo.

Conclusiones y Discusión

Conclusiones Principales

  1. Excesiva Confianza Universal: Todos los LLMs probados exhiben excesiva confianza significativa, mucho mayor que la humana
  2. Efecto Dunning-Kruger: El sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza, careciendo de conciencia sobre los límites de su conocimiento
  3. Efecto Dual: Aunque la información de LLMs mejora la precisión humana, aumenta significativamente la excesiva confianza
  4. Complejidad del Bienestar: En entornos que requieren decisiones de inversión, el aumento del sesgo puede compensar las ganancias en precisión

Perspectivas Teóricas

Mecanismo del Efecto Dunning-Kruger

Los LLMs están "atrapados" en su modelo predictivo:

  • No pueden percibir conocimiento que no existe en los datos de entrenamiento
  • Forman estimaciones de precisión basadas en datos de entrenamiento
  • Carecen de la intuición humana sobre los límites del conocimiento

Modelo Teórico de Bienestar

Se establece un modelo de bienestar que considera precisión y sesgo:

  • Cuando la inversión tiene mayor elasticidad respecto a la probabilidad de éxito, el impacto negativo de la excesiva confianza es mayor
  • Incluso con mayor precisión, la exposición a LLMs puede reducir el bienestar general

Limitaciones

  1. Alcance de Tareas: Limitado a problemas de razonamiento con opciones binarias
  2. Versiones de Modelos: Los resultados pueden cambiar con actualizaciones de modelos
  3. Diferencias Culturales: Experimentos humanos principalmente basados en hablantes de inglés
  4. Efectos Temporales: No considera efectos de aprendizaje y adaptación a largo plazo

Implicaciones Prácticas

Orientación para Usuarios

  • Proporciona nuevos puntos de referencia para evaluar capacidades de razonamiento de LLMs
  • Enfatiza la necesidad de mantener escepticismo apropiado sobre recomendaciones de LLMs

Recomendaciones para Desarrolladores

  • Los objetivos de entrenamiento actuales priorizan fluidez sobre precisión
  • Se necesita desarrollar mecanismos integrados de corrección de incertidumbre
  • Se recomienda integrar mecanismos de verificación para examinar procesos de razonamiento

Inspiración para Investigación

  • Enfatiza la importancia de evaluar sesgos de comportamiento en LLMs
  • Proporciona un paradigma para investigación de otros sesgos cognitivos
  • Promueve colaboración interdisciplinaria entre ciencias del comportamiento e informática

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica:
    • Generación algorítmica de problemas minimiza contaminación de entrenamiento
    • Medición multidimensional de confianza (respuesta, hecho, razonamiento)
    • Diseño experimental riguroso de comparación humano-máquina
  2. Suficiencia Experimental:
    • Experimento a gran escala (10,000 problemas de LLM, 5,000+ respuestas humanas)
    • Verificación de robustez con múltiples modelos y configuraciones de temperatura
    • Experimentos de ablación detallados y verificación de reproducibilidad
  3. Contribución Teórica:
    • Primera revelación del efecto Dunning-Kruger en LLMs
    • Establecimiento de marco de análisis de bienestar para exposición a LLMs
    • Proporciona nueva perspectiva sobre calibración de confianza
  4. Valor Práctico:
    • Proporciona consideraciones de seguridad importantes para aplicaciones de LLMs
    • Tiene implicaciones directas para diseño de sistemas de IA
    • Proporciona base científica para formulación de políticas regulatorias

Insuficiencias

  1. Limitaciones de Tareas:
    • Solo considera problemas de opciones binarias, puede no representar completamente escenarios de aplicación real
    • Tipos de razonamiento relativamente simples, carecen de razonamiento multietapa más complejo
  2. Método de Medición:
    • Medición de confianza depende de autoinformes, puede tener sensibilidad a indicaciones
    • El algoritmo de evaluación de similitud puede introducir subjetividad
  3. Representatividad de Muestra:
    • Experimentos humanos principalmente basados en usuarios de plataformas en línea
    • Carece de diversidad en diferentes contextos culturales y dominios profesionales
  4. Efectos a Largo Plazo:
    • No considera efectos de aprendizaje de exposición repetida
    • Carece de validación de validez ecológica en entornos de decisión real

Evaluación de Impacto

Impacto Académico

  • Contribución Teórica: Abre nuevas direcciones en investigación de sesgos de comportamiento de LLMs
  • Valor Metodológico: Proporciona paradigma experimental reproducible
  • Significado Interdisciplinario: Conecta IA, ciencias cognitivas y economía del comportamiento

Impacto Práctico

  • Aplicación Industrial: Influye en estrategias de diseño y despliegue de productos LLM
  • Valor Educativo: Aumenta conciencia pública sobre limitaciones de sistemas de IA
  • Formulación de Políticas: Proporciona base científica para gobernanza de IA

Escenarios Aplicables

  1. Decisiones de Alto Riesgo: Diagnóstico médico, inversión financiera y otros escenarios que requieren evaluación de precisión
  2. Aplicaciones Educativas: Necesidad de considerar impacto de excesiva confianza en efectividad de aprendizaje
  3. Colaboración Humano-Máquina: Diseñar mecanismos mejores de transmisión de confianza
  4. Seguridad de IA: Desarrollar métodos más confiables de cuantificación de incertidumbre

Direcciones de Investigación Futura

  1. Extensión de Tipos de Tareas: Investigar tareas de razonamiento más complejas y problemas abiertos
  2. Validación Transcultural: Verificar la universalidad de hallazgos en diferentes contextos culturales
  3. Mecanismos de Intervención: Desarrollar métodos de entrenamiento e indicaciones para reducir excesiva confianza
  4. Efectos a Largo Plazo: Investigar procesos de aprendizaje y adaptación en interacciones repetidas
  5. Otros Sesgos: Investigación sistemática de otros sesgos cognitivos en LLMs

Referencias

El artículo cita literatura abundante y relevante, incluyendo:

  • Investigación sobre excesiva confianza en economía del comportamiento (Kahneman, 2011; Moore and Healy, 2008)
  • Calibración de LLMs y cuantificación de incertidumbre (Tian et al., 2023; Wei et al., 2024)
  • Interacción humano-máquina y sesgos de IA (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
  • Investigación clásica del efecto Dunning-Kruger (Kruger and Dunning, 1999)

Esta investigación proporciona perspectivas importantes para entender y mejorar la confiabilidad de los modelos de lenguaje grande, con implicaciones profundas para la seguridad de IA y la colaboración humano-máquina. Al revelar el problema de excesiva confianza en LLMs, la investigación señala la dirección para desarrollar sistemas de IA más dignos de confianza.