2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

Los Modelos de Lenguaje Grande son excesivamente confiados y amplifican el sesgo humano

Información Básica

ID del Artículo: 2505.02151
Título: Large Language Models are overconfident and amplify human bias
Autores: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
Clasificación: cs.SE (Ingeniería de Software), cs.CY (Computadoras y Sociedad)
Fecha de Publicación: Mayo de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2505.02151v2

Resumen

Los modelos de lenguaje grande (LLMs) están transformando radicalmente diversos aspectos de la sociedad, siendo cada vez más utilizados para sustituir la evaluación humana y tareas de resolución de problemas que requieren razonamiento. Dado que los LLMs se entrenan con contenido redactado por humanos, están expuestos a sesgos humanos. Este estudio evalúa si los LLMs heredan uno de los sesgos humanos más prevalentes: la excesiva confianza. Los investigadores construyeron algorítmicamente problemas de razonamiento con respuestas verdaderas conocidas, solicitaron a los LLMs que respondieran estas preguntas y evaluaron el nivel de confianza de sus respuestas. El estudio encontró que los cinco LLMs estudiados exhiben excesiva confianza: sobrestiman la probabilidad de que sus respuestas sean correctas entre un 20% y un 60%. Aunque la precisión humana es similar a la de los LLMs más avanzados, el grado de excesiva confianza es significativamente menor. Cuando los LLMs tienen menos certeza sobre sus respuestas, su sesgo aumenta drásticamente en comparación con los humanos. El estudio también demuestra que la información de los LLMs tiene un efecto complejo en la toma de decisiones humana: aunque mejora la precisión, más que duplica el grado de excesiva confianza.

Contexto e Motivación de la Investigación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿heredan y amplifican los modelos de lenguaje grande el sesgo de excesiva confianza humana? Esta pregunta es significativa porque:

Escenarios de Aplicación Generalizada: Los LLMs se utilizan cada vez más en tareas de resolución de problemas que requieren razonamiento cuidadoso y evaluación
Sesgo en Datos de Entrenamiento: Los LLMs se entrenan con contenido redactado por humanos, estando naturalmente expuestos a sesgos humanos
Impacto en Decisiones: Se ha demostrado que la excesiva confianza afecta múltiples dominios de decisiones profesionales y cotidianas

Importancia de la Investigación

La excesiva confianza es uno de los sesgos más prevalentes en el juicio humano, habiendo producido efectos negativos en múltiples campos:

Ámbito Profesional: Los gerentes excesivamente confiados tienen mayor probabilidad de realizar fusiones y adquisiciones no rentables
Comportamiento Cotidiano: Afecta hábitos de ejercicio, elecciones dietéticas y decisiones de inversión financiera
Capacidad de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprender de la retroalimentación

Limitaciones de la Investigación Existente

La investigación existente sobre calibración de LLMs presenta principalmente los siguientes problemas:

Depende principalmente de conjuntos de datos estándar de preguntas y respuestas, que los LLMs probablemente han visto durante el entrenamiento
Carece de investigación sobre confianza en problemas que requieren capacidad de razonamiento
No ha explorado suficientemente el impacto de la confianza de los LLMs en la toma de decisiones humana

Contribuciones Principales

Primera Evaluación Sistemática: Evaluación integral del sesgo de excesiva confianza en cinco LLMs principales
Diseño Experimental Innovador: Construcción de 10,000 problemas de razonamiento generados algorítmicamente, asegurando contaminación mínima del entrenamiento
Análisis Comparativo Humano-Máquina: Proporciona comparación directa entre LLMs y humanos en la misma tarea
Descubrimiento del Gradiente de Confianza: Revela el "efecto Dunning-Kruger" donde el sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza
Investigación del Impacto en Decisiones Humanas: Cuantifica el efecto dual de la información de LLMs en la precisión y sesgo humanos
Análisis del Efecto de Bienestar: Establece un modelo teórico para analizar el impacto en el bienestar de la exposición a LLMs

Explicación Detallada de Métodos

Definición de Tareas

El estudio diseñó tres experimentos interconectados:

Evaluación de Excesiva Confianza en LLMs: Medir la precisión y confianza de los LLMs en tareas de razonamiento
Prueba de Referencia Humana: Evaluar el desempeño humano en las mismas tareas
Experimento de Exposición a LLMs: Probar el impacto de la información de LLMs en la toma de decisiones humana

Método de Generación de Problemas

Extracción de Tripletas

Extracción de tripletas estructuradas (sujeto, predicado, objeto) de Wikidata, cubriendo diez categorías populares.

Reglas de Razonamiento Lógico

Implementación de cinco tipos de razonamiento:

Razonamiento de Negación: Derivar la validez de la negación de hechos conocidos
Razonamiento Simétrico: Intercambiar sujeto y objeto en relaciones simétricas
Razonamiento Inverso: Conectar sujeto y objeto a través de relaciones inversas
Razonamiento Transitivo: Razonamiento en cadena para generar nuevas tripletas
Razonamiento Compuesto: Combinar múltiples reglas de razonamiento básicas

Validación de Problemas

Utilizar el motor de razonamiento Prolog para razonamiento automático, validación manual de componentes de predicados, reteniendo finalmente 476 predicados y sus tripletas correspondientes.

Medición de Confianza

Utilizar indicaciones especialmente diseñadas para obtener simultáneamente:

Confianza en la corrección de la respuesta
Confianza en la corrección del conocimiento fáctico
Confianza en la corrección del proceso de razonamiento

Evaluación de Similitud

Desarrollar algoritmos para calcular la similitud entre respuestas de LLMs y respuestas estándar:

Similitud Fáctica: Basada en coincidencia de sujeto y similitud de objeto
Similitud de Razonamiento: Evaluar el grado de coincidencia de predicado y objeto

Configuración Experimental

Conjunto de Datos

Escala: 10,000 problemas de razonamiento equilibrados
Distribución: 5 tipos de razonamiento × 10 dominios de conocimiento, 200 problemas por combinación
Referencia Humana: Seleccionar 2,000 problemas de este conjunto para experimentos humanos

Selección de Modelos

Se probaron cinco LLMs representativos:

Modelos de Código Cerrado: GPT-3.5, GPT-4o, GPT-o1
Modelos de Código Abierto: Llama 3.1 8B, Llama 3.2 3B

Métricas de Evaluación

Precisión: Proporción de respuestas correctas
Confianza: Probabilidad de corrección autoinformada por el modelo
Sesgo: Diferencia entre confianza y precisión
Gradiente de Confianza: Tasa de cambio de precisión relativa a confianza

Diseño del Experimento Humano

Plataforma: Plataforma de experimentos en línea Prolific
Mecanismo de Incentivos: Seguir el mecanismo de incentivos verdaderos de Danz et al. (2022)
Muestra: 588 participantes en experimento de referencia, 1,161 en experimento de exposición

Resultados Experimentales

Desempeño de Excesiva Confianza en LLMs

Hallazgos Principales

Los cinco LLMs exhiben excesiva confianza significativa:

GPT-3.5: Precisión 35%, Confianza 94%, Sesgo 59%
GPT-4o: Precisión 63%, Confianza 94%, Sesgo 30%
GPT-o1: Precisión 73%, Confianza 95%, Sesgo 22%
Llama 3.1: Precisión 63%, Confianza 86%, Sesgo 23%
Llama 3.2: Precisión 61%, Confianza 94%, Sesgo 33%

Análisis del Gradiente de Confianza

Los modelos más avanzados muestran gradientes de confianza más fuertes:

GPT-4o y GPT-o1: Disminución del 10% en confianza corresponde a aproximadamente 25% de disminución en precisión
Llama 3.1: Disminución del 10% en confianza corresponde a aproximadamente 13% de disminución en precisión

Resultados de Comparación Humano-Máquina

Comparación de Desempeño

Precisión Humana: 66% (comparable a GPT-4o y Llama 3.1)
Confianza Humana: 70% (solo 4% de excesiva confianza)
Diferencia Clave: Los humanos muestran sesgo reducido cuando tienen incertidumbre, mientras que los LLMs muestran lo opuesto

Efecto Dunning-Kruger

Los LLMs exhiben un efecto Dunning-Kruger más fuerte que los humanos:

Cuando están completamente seguros, los LLMs tienen precisión de 79-85% (aún con 15-21% de sesgo)
Los humanos cuando tienen incertidumbre finalmente muestran una ligera subestimación (precisión 54% vs 50% esperado)

Impacto de la Exposición a LLMs en Humanos

Mejora en Precisión

Grupo de Respuestas de LLM: Mejora de precisión de 5.6 puntos porcentuales
Grupo de Respuestas de LLM + Confianza: Mejora de precisión de 7.0 puntos porcentuales

Amplificación del Sesgo

Grupo de Respuestas de LLM: Aumento de sesgo de 4.2 puntos porcentuales (duplicado)
Grupo de Respuestas de LLM + Confianza: Aumento de sesgo de 7.6 puntos porcentuales (casi triplicado)

Efectos Heterogéneos

Los participantes con confianza de referencia baja se benefician más:

Mejora de precisión de 8.6-11.9 puntos porcentuales
Pero el sesgo también aumenta 7.0-14.1 puntos porcentuales

Trabajo Relacionado

Investigación sobre Calibración de LLMs

La investigación existente adopta principalmente tres métodos para medir confianza de LLMs:

Estimación Basada en Logits: Requiere acceso a parámetros internos del modelo
Inducción Directa de Confianza: Preguntar directamente a través de indicaciones
Método de Modelo Auxiliar: De predicción de modelo único a integración de múltiples fuentes

La innovación de esta investigación radica en utilizar problemas generados algorítmicamente para asegurar contaminación mínima del entrenamiento.

Investigación sobre Excesiva Confianza

El impacto de la excesiva confianza en múltiples campos:

Decisiones Empresariales: Afecta opciones de financiamiento y decisiones de fusiones y adquisiciones
Comportamiento Individual: Afecta elecciones de salud e inversión
Proceso de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprendizaje adaptativo

Interacción Humano-Máquina

La investigación emergente explora cómo los individuos responden a información de IA (potencialmente sesgada), y este estudio proporciona una contribución importante a este campo.

Conclusiones y Discusión

Conclusiones Principales

Excesiva Confianza Universal: Todos los LLMs probados exhiben excesiva confianza significativa, mucho mayor que la humana
Efecto Dunning-Kruger: El sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza, careciendo de conciencia sobre los límites de su conocimiento
Efecto Dual: Aunque la información de LLMs mejora la precisión humana, aumenta significativamente la excesiva confianza
Complejidad del Bienestar: En entornos que requieren decisiones de inversión, el aumento del sesgo puede compensar las ganancias en precisión

Perspectivas Teóricas

Mecanismo del Efecto Dunning-Kruger

Los LLMs están "atrapados" en su modelo predictivo:

No pueden percibir conocimiento que no existe en los datos de entrenamiento
Forman estimaciones de precisión basadas en datos de entrenamiento
Carecen de la intuición humana sobre los límites del conocimiento

Modelo Teórico de Bienestar

Se establece un modelo de bienestar que considera precisión y sesgo:

Cuando la inversión tiene mayor elasticidad respecto a la probabilidad de éxito, el impacto negativo de la excesiva confianza es mayor
Incluso con mayor precisión, la exposición a LLMs puede reducir el bienestar general

Limitaciones

Alcance de Tareas: Limitado a problemas de razonamiento con opciones binarias
Versiones de Modelos: Los resultados pueden cambiar con actualizaciones de modelos
Diferencias Culturales: Experimentos humanos principalmente basados en hablantes de inglés
Efectos Temporales: No considera efectos de aprendizaje y adaptación a largo plazo

Implicaciones Prácticas

Orientación para Usuarios

Proporciona nuevos puntos de referencia para evaluar capacidades de razonamiento de LLMs
Enfatiza la necesidad de mantener escepticismo apropiado sobre recomendaciones de LLMs

Recomendaciones para Desarrolladores

Los objetivos de entrenamiento actuales priorizan fluidez sobre precisión
Se necesita desarrollar mecanismos integrados de corrección de incertidumbre
Se recomienda integrar mecanismos de verificación para examinar procesos de razonamiento

Inspiración para Investigación

Enfatiza la importancia de evaluar sesgos de comportamiento en LLMs
Proporciona un paradigma para investigación de otros sesgos cognitivos
Promueve colaboración interdisciplinaria entre ciencias del comportamiento e informática

Evaluación Profunda

Fortalezas

Innovación Metodológica:
- Generación algorítmica de problemas minimiza contaminación de entrenamiento
- Medición multidimensional de confianza (respuesta, hecho, razonamiento)
- Diseño experimental riguroso de comparación humano-máquina
Suficiencia Experimental:
- Experimento a gran escala (10,000 problemas de LLM, 5,000+ respuestas humanas)
- Verificación de robustez con múltiples modelos y configuraciones de temperatura
- Experimentos de ablación detallados y verificación de reproducibilidad
Contribución Teórica:
- Primera revelación del efecto Dunning-Kruger en LLMs
- Establecimiento de marco de análisis de bienestar para exposición a LLMs
- Proporciona nueva perspectiva sobre calibración de confianza
Valor Práctico:
- Proporciona consideraciones de seguridad importantes para aplicaciones de LLMs
- Tiene implicaciones directas para diseño de sistemas de IA
- Proporciona base científica para formulación de políticas regulatorias

Insuficiencias

Limitaciones de Tareas:
- Solo considera problemas de opciones binarias, puede no representar completamente escenarios de aplicación real
- Tipos de razonamiento relativamente simples, carecen de razonamiento multietapa más complejo
Método de Medición:
- Medición de confianza depende de autoinformes, puede tener sensibilidad a indicaciones
- El algoritmo de evaluación de similitud puede introducir subjetividad
Representatividad de Muestra:
- Experimentos humanos principalmente basados en usuarios de plataformas en línea
- Carece de diversidad en diferentes contextos culturales y dominios profesionales
Efectos a Largo Plazo:
- No considera efectos de aprendizaje de exposición repetida
- Carece de validación de validez ecológica en entornos de decisión real

Evaluación de Impacto

Impacto Académico

Contribución Teórica: Abre nuevas direcciones en investigación de sesgos de comportamiento de LLMs
Valor Metodológico: Proporciona paradigma experimental reproducible
Significado Interdisciplinario: Conecta IA, ciencias cognitivas y economía del comportamiento

Impacto Práctico

Aplicación Industrial: Influye en estrategias de diseño y despliegue de productos LLM
Valor Educativo: Aumenta conciencia pública sobre limitaciones de sistemas de IA
Formulación de Políticas: Proporciona base científica para gobernanza de IA

Escenarios Aplicables

Decisiones de Alto Riesgo: Diagnóstico médico, inversión financiera y otros escenarios que requieren evaluación de precisión
Aplicaciones Educativas: Necesidad de considerar impacto de excesiva confianza en efectividad de aprendizaje
Colaboración Humano-Máquina: Diseñar mecanismos mejores de transmisión de confianza
Seguridad de IA: Desarrollar métodos más confiables de cuantificación de incertidumbre

Direcciones de Investigación Futura

Extensión de Tipos de Tareas: Investigar tareas de razonamiento más complejas y problemas abiertos
Validación Transcultural: Verificar la universalidad de hallazgos en diferentes contextos culturales
Mecanismos de Intervención: Desarrollar métodos de entrenamiento e indicaciones para reducir excesiva confianza
Efectos a Largo Plazo: Investigar procesos de aprendizaje y adaptación en interacciones repetidas
Otros Sesgos: Investigación sistemática de otros sesgos cognitivos en LLMs

Referencias

El artículo cita literatura abundante y relevante, incluyendo:

Investigación sobre excesiva confianza en economía del comportamiento (Kahneman, 2011; Moore and Healy, 2008)
Calibración de LLMs y cuantificación de incertidumbre (Tian et al., 2023; Wei et al., 2024)
Interacción humano-máquina y sesgos de IA (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
Investigación clásica del efecto Dunning-Kruger (Kruger and Dunning, 1999)

Esta investigación proporciona perspectivas importantes para entender y mejorar la confiabilidad de los modelos de lenguaje grande, con implicaciones profundas para la seguridad de IA y la colaboración humano-máquina. Al revelar el problema de excesiva confianza en LLMs, la investigación señala la dirección para desarrollar sistemas de IA más dignos de confianza.