Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
Los Modelos de Lenguaje Grande son excesivamente confiados y amplifican el sesgo humano
- ID del Artículo: 2505.02151
- Título: Large Language Models are overconfident and amplify human bias
- Autores: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- Clasificación: cs.SE (Ingeniería de Software), cs.CY (Computadoras y Sociedad)
- Fecha de Publicación: Mayo de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2505.02151v2
Los modelos de lenguaje grande (LLMs) están transformando radicalmente diversos aspectos de la sociedad, siendo cada vez más utilizados para sustituir la evaluación humana y tareas de resolución de problemas que requieren razonamiento. Dado que los LLMs se entrenan con contenido redactado por humanos, están expuestos a sesgos humanos. Este estudio evalúa si los LLMs heredan uno de los sesgos humanos más prevalentes: la excesiva confianza. Los investigadores construyeron algorítmicamente problemas de razonamiento con respuestas verdaderas conocidas, solicitaron a los LLMs que respondieran estas preguntas y evaluaron el nivel de confianza de sus respuestas. El estudio encontró que los cinco LLMs estudiados exhiben excesiva confianza: sobrestiman la probabilidad de que sus respuestas sean correctas entre un 20% y un 60%. Aunque la precisión humana es similar a la de los LLMs más avanzados, el grado de excesiva confianza es significativamente menor. Cuando los LLMs tienen menos certeza sobre sus respuestas, su sesgo aumenta drásticamente en comparación con los humanos. El estudio también demuestra que la información de los LLMs tiene un efecto complejo en la toma de decisiones humana: aunque mejora la precisión, más que duplica el grado de excesiva confianza.
La pregunta central que aborda esta investigación es: ¿heredan y amplifican los modelos de lenguaje grande el sesgo de excesiva confianza humana? Esta pregunta es significativa porque:
- Escenarios de Aplicación Generalizada: Los LLMs se utilizan cada vez más en tareas de resolución de problemas que requieren razonamiento cuidadoso y evaluación
- Sesgo en Datos de Entrenamiento: Los LLMs se entrenan con contenido redactado por humanos, estando naturalmente expuestos a sesgos humanos
- Impacto en Decisiones: Se ha demostrado que la excesiva confianza afecta múltiples dominios de decisiones profesionales y cotidianas
La excesiva confianza es uno de los sesgos más prevalentes en el juicio humano, habiendo producido efectos negativos en múltiples campos:
- Ámbito Profesional: Los gerentes excesivamente confiados tienen mayor probabilidad de realizar fusiones y adquisiciones no rentables
- Comportamiento Cotidiano: Afecta hábitos de ejercicio, elecciones dietéticas y decisiones de inversión financiera
- Capacidad de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprender de la retroalimentación
La investigación existente sobre calibración de LLMs presenta principalmente los siguientes problemas:
- Depende principalmente de conjuntos de datos estándar de preguntas y respuestas, que los LLMs probablemente han visto durante el entrenamiento
- Carece de investigación sobre confianza en problemas que requieren capacidad de razonamiento
- No ha explorado suficientemente el impacto de la confianza de los LLMs en la toma de decisiones humana
- Primera Evaluación Sistemática: Evaluación integral del sesgo de excesiva confianza en cinco LLMs principales
- Diseño Experimental Innovador: Construcción de 10,000 problemas de razonamiento generados algorítmicamente, asegurando contaminación mínima del entrenamiento
- Análisis Comparativo Humano-Máquina: Proporciona comparación directa entre LLMs y humanos en la misma tarea
- Descubrimiento del Gradiente de Confianza: Revela el "efecto Dunning-Kruger" donde el sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza
- Investigación del Impacto en Decisiones Humanas: Cuantifica el efecto dual de la información de LLMs en la precisión y sesgo humanos
- Análisis del Efecto de Bienestar: Establece un modelo teórico para analizar el impacto en el bienestar de la exposición a LLMs
El estudio diseñó tres experimentos interconectados:
- Evaluación de Excesiva Confianza en LLMs: Medir la precisión y confianza de los LLMs en tareas de razonamiento
- Prueba de Referencia Humana: Evaluar el desempeño humano en las mismas tareas
- Experimento de Exposición a LLMs: Probar el impacto de la información de LLMs en la toma de decisiones humana
Extracción de tripletas estructuradas (sujeto, predicado, objeto) de Wikidata, cubriendo diez categorías populares.
Implementación de cinco tipos de razonamiento:
- Razonamiento de Negación: Derivar la validez de la negación de hechos conocidos
- Razonamiento Simétrico: Intercambiar sujeto y objeto en relaciones simétricas
- Razonamiento Inverso: Conectar sujeto y objeto a través de relaciones inversas
- Razonamiento Transitivo: Razonamiento en cadena para generar nuevas tripletas
- Razonamiento Compuesto: Combinar múltiples reglas de razonamiento básicas
Utilizar el motor de razonamiento Prolog para razonamiento automático, validación manual de componentes de predicados, reteniendo finalmente 476 predicados y sus tripletas correspondientes.
Utilizar indicaciones especialmente diseñadas para obtener simultáneamente:
- Confianza en la corrección de la respuesta
- Confianza en la corrección del conocimiento fáctico
- Confianza en la corrección del proceso de razonamiento
Desarrollar algoritmos para calcular la similitud entre respuestas de LLMs y respuestas estándar:
- Similitud Fáctica: Basada en coincidencia de sujeto y similitud de objeto
- Similitud de Razonamiento: Evaluar el grado de coincidencia de predicado y objeto
- Escala: 10,000 problemas de razonamiento equilibrados
- Distribución: 5 tipos de razonamiento × 10 dominios de conocimiento, 200 problemas por combinación
- Referencia Humana: Seleccionar 2,000 problemas de este conjunto para experimentos humanos
Se probaron cinco LLMs representativos:
- Modelos de Código Cerrado: GPT-3.5, GPT-4o, GPT-o1
- Modelos de Código Abierto: Llama 3.1 8B, Llama 3.2 3B
- Precisión: Proporción de respuestas correctas
- Confianza: Probabilidad de corrección autoinformada por el modelo
- Sesgo: Diferencia entre confianza y precisión
- Gradiente de Confianza: Tasa de cambio de precisión relativa a confianza
- Plataforma: Plataforma de experimentos en línea Prolific
- Mecanismo de Incentivos: Seguir el mecanismo de incentivos verdaderos de Danz et al. (2022)
- Muestra: 588 participantes en experimento de referencia, 1,161 en experimento de exposición
Los cinco LLMs exhiben excesiva confianza significativa:
- GPT-3.5: Precisión 35%, Confianza 94%, Sesgo 59%
- GPT-4o: Precisión 63%, Confianza 94%, Sesgo 30%
- GPT-o1: Precisión 73%, Confianza 95%, Sesgo 22%
- Llama 3.1: Precisión 63%, Confianza 86%, Sesgo 23%
- Llama 3.2: Precisión 61%, Confianza 94%, Sesgo 33%
Los modelos más avanzados muestran gradientes de confianza más fuertes:
- GPT-4o y GPT-o1: Disminución del 10% en confianza corresponde a aproximadamente 25% de disminución en precisión
- Llama 3.1: Disminución del 10% en confianza corresponde a aproximadamente 13% de disminución en precisión
- Precisión Humana: 66% (comparable a GPT-4o y Llama 3.1)
- Confianza Humana: 70% (solo 4% de excesiva confianza)
- Diferencia Clave: Los humanos muestran sesgo reducido cuando tienen incertidumbre, mientras que los LLMs muestran lo opuesto
Los LLMs exhiben un efecto Dunning-Kruger más fuerte que los humanos:
- Cuando están completamente seguros, los LLMs tienen precisión de 79-85% (aún con 15-21% de sesgo)
- Los humanos cuando tienen incertidumbre finalmente muestran una ligera subestimación (precisión 54% vs 50% esperado)
- Grupo de Respuestas de LLM: Mejora de precisión de 5.6 puntos porcentuales
- Grupo de Respuestas de LLM + Confianza: Mejora de precisión de 7.0 puntos porcentuales
- Grupo de Respuestas de LLM: Aumento de sesgo de 4.2 puntos porcentuales (duplicado)
- Grupo de Respuestas de LLM + Confianza: Aumento de sesgo de 7.6 puntos porcentuales (casi triplicado)
Los participantes con confianza de referencia baja se benefician más:
- Mejora de precisión de 8.6-11.9 puntos porcentuales
- Pero el sesgo también aumenta 7.0-14.1 puntos porcentuales
La investigación existente adopta principalmente tres métodos para medir confianza de LLMs:
- Estimación Basada en Logits: Requiere acceso a parámetros internos del modelo
- Inducción Directa de Confianza: Preguntar directamente a través de indicaciones
- Método de Modelo Auxiliar: De predicción de modelo único a integración de múltiples fuentes
La innovación de esta investigación radica en utilizar problemas generados algorítmicamente para asegurar contaminación mínima del entrenamiento.
El impacto de la excesiva confianza en múltiples campos:
- Decisiones Empresariales: Afecta opciones de financiamiento y decisiones de fusiones y adquisiciones
- Comportamiento Individual: Afecta elecciones de salud e inversión
- Proceso de Aprendizaje: Puede conducir a sesgos persistentes en lugar de aprendizaje adaptativo
La investigación emergente explora cómo los individuos responden a información de IA (potencialmente sesgada), y este estudio proporciona una contribución importante a este campo.
- Excesiva Confianza Universal: Todos los LLMs probados exhiben excesiva confianza significativa, mucho mayor que la humana
- Efecto Dunning-Kruger: El sesgo de los LLMs aumenta drásticamente cuando tienen menos certeza, careciendo de conciencia sobre los límites de su conocimiento
- Efecto Dual: Aunque la información de LLMs mejora la precisión humana, aumenta significativamente la excesiva confianza
- Complejidad del Bienestar: En entornos que requieren decisiones de inversión, el aumento del sesgo puede compensar las ganancias en precisión
Los LLMs están "atrapados" en su modelo predictivo:
- No pueden percibir conocimiento que no existe en los datos de entrenamiento
- Forman estimaciones de precisión basadas en datos de entrenamiento
- Carecen de la intuición humana sobre los límites del conocimiento
Se establece un modelo de bienestar que considera precisión y sesgo:
- Cuando la inversión tiene mayor elasticidad respecto a la probabilidad de éxito, el impacto negativo de la excesiva confianza es mayor
- Incluso con mayor precisión, la exposición a LLMs puede reducir el bienestar general
- Alcance de Tareas: Limitado a problemas de razonamiento con opciones binarias
- Versiones de Modelos: Los resultados pueden cambiar con actualizaciones de modelos
- Diferencias Culturales: Experimentos humanos principalmente basados en hablantes de inglés
- Efectos Temporales: No considera efectos de aprendizaje y adaptación a largo plazo
- Proporciona nuevos puntos de referencia para evaluar capacidades de razonamiento de LLMs
- Enfatiza la necesidad de mantener escepticismo apropiado sobre recomendaciones de LLMs
- Los objetivos de entrenamiento actuales priorizan fluidez sobre precisión
- Se necesita desarrollar mecanismos integrados de corrección de incertidumbre
- Se recomienda integrar mecanismos de verificación para examinar procesos de razonamiento
- Enfatiza la importancia de evaluar sesgos de comportamiento en LLMs
- Proporciona un paradigma para investigación de otros sesgos cognitivos
- Promueve colaboración interdisciplinaria entre ciencias del comportamiento e informática
- Innovación Metodológica:
- Generación algorítmica de problemas minimiza contaminación de entrenamiento
- Medición multidimensional de confianza (respuesta, hecho, razonamiento)
- Diseño experimental riguroso de comparación humano-máquina
- Suficiencia Experimental:
- Experimento a gran escala (10,000 problemas de LLM, 5,000+ respuestas humanas)
- Verificación de robustez con múltiples modelos y configuraciones de temperatura
- Experimentos de ablación detallados y verificación de reproducibilidad
- Contribución Teórica:
- Primera revelación del efecto Dunning-Kruger en LLMs
- Establecimiento de marco de análisis de bienestar para exposición a LLMs
- Proporciona nueva perspectiva sobre calibración de confianza
- Valor Práctico:
- Proporciona consideraciones de seguridad importantes para aplicaciones de LLMs
- Tiene implicaciones directas para diseño de sistemas de IA
- Proporciona base científica para formulación de políticas regulatorias
- Limitaciones de Tareas:
- Solo considera problemas de opciones binarias, puede no representar completamente escenarios de aplicación real
- Tipos de razonamiento relativamente simples, carecen de razonamiento multietapa más complejo
- Método de Medición:
- Medición de confianza depende de autoinformes, puede tener sensibilidad a indicaciones
- El algoritmo de evaluación de similitud puede introducir subjetividad
- Representatividad de Muestra:
- Experimentos humanos principalmente basados en usuarios de plataformas en línea
- Carece de diversidad en diferentes contextos culturales y dominios profesionales
- Efectos a Largo Plazo:
- No considera efectos de aprendizaje de exposición repetida
- Carece de validación de validez ecológica en entornos de decisión real
- Contribución Teórica: Abre nuevas direcciones en investigación de sesgos de comportamiento de LLMs
- Valor Metodológico: Proporciona paradigma experimental reproducible
- Significado Interdisciplinario: Conecta IA, ciencias cognitivas y economía del comportamiento
- Aplicación Industrial: Influye en estrategias de diseño y despliegue de productos LLM
- Valor Educativo: Aumenta conciencia pública sobre limitaciones de sistemas de IA
- Formulación de Políticas: Proporciona base científica para gobernanza de IA
- Decisiones de Alto Riesgo: Diagnóstico médico, inversión financiera y otros escenarios que requieren evaluación de precisión
- Aplicaciones Educativas: Necesidad de considerar impacto de excesiva confianza en efectividad de aprendizaje
- Colaboración Humano-Máquina: Diseñar mecanismos mejores de transmisión de confianza
- Seguridad de IA: Desarrollar métodos más confiables de cuantificación de incertidumbre
- Extensión de Tipos de Tareas: Investigar tareas de razonamiento más complejas y problemas abiertos
- Validación Transcultural: Verificar la universalidad de hallazgos en diferentes contextos culturales
- Mecanismos de Intervención: Desarrollar métodos de entrenamiento e indicaciones para reducir excesiva confianza
- Efectos a Largo Plazo: Investigar procesos de aprendizaje y adaptación en interacciones repetidas
- Otros Sesgos: Investigación sistemática de otros sesgos cognitivos en LLMs
El artículo cita literatura abundante y relevante, incluyendo:
- Investigación sobre excesiva confianza en economía del comportamiento (Kahneman, 2011; Moore and Healy, 2008)
- Calibración de LLMs y cuantificación de incertidumbre (Tian et al., 2023; Wei et al., 2024)
- Interacción humano-máquina y sesgos de IA (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- Investigación clásica del efecto Dunning-Kruger (Kruger and Dunning, 1999)
Esta investigación proporciona perspectivas importantes para entender y mejorar la confiabilidad de los modelos de lenguaje grande, con implicaciones profundas para la seguridad de IA y la colaboración humano-máquina. Al revelar el problema de excesiva confianza en LLMs, la investigación señala la dirección para desarrollar sistemas de IA más dignos de confianza.