2025-11-18T11:46:20.272494

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

Carro, Mester, Selasco et al.

Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.

academic

¿Muestran los Modelos de Lenguaje Grande Sesgos en el Aprendizaje Causal? Perspectivas desde el Juicio de Contingencia

Información Básica

ID del Artículo: 2510.13985
Título: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
Autores: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
Clasificación: cs.AI
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
Enlace del Artículo: https://arxiv.org/abs/2510.13985

Resumen

El aprendizaje causal es un proceso cognitivo de razonamiento causal basado en información disponible, que generalmente sigue principios normativos. Este proceso es propenso a errores y sesgos, como las ilusiones causales, donde las personas perciben relaciones causales entre dos variables sin evidencia de apoyo. Se cree que este sesgo cognitivo es la raíz de muchos problemas sociales, incluyendo sesgos sociales, formación de estereotipos, desinformación y pensamiento supersticioso. Este estudio examina si los modelos de lenguaje grande son propensos a ilusiones causales mediante un paradigma clásico de la ciencia cognitiva: la tarea de juicio de contingencia. El estudio construyó un conjunto de datos de 1000 escenarios de contingencia cero (donde la información disponible es insuficiente para establecer relaciones causales entre variables), instando a los LLMs a evaluar la validez de posibles causas en un contexto médico. El estudio encontró que todos los modelos evaluados infirieron sistemáticamente relaciones causales inapropiadas, mostrando una fuerte susceptibilidad a las ilusiones causales.

Antecedentes y Motivación de la Investigación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿Muestran los modelos de lenguaje grande ilusiones causales similares a las humanas cuando se enfrentan a paradigmas clásicos de la ciencia cognitiva?

Importancia

Impacto Social: Las ilusiones causales son la raíz de sesgos sociales, estereotipos, propagación de desinformación y pensamiento supersticioso
Aplicaciones Prácticas: En campos críticos como la medicina, el razonamiento causal preciso es esencial para la toma de decisiones informadas
Seguridad de la IA: Con la aplicación generalizada de LLMs en sistemas de decisión, comprender sus sesgos cognitivos es extremadamente importante

Limitaciones Existentes

Falta de evaluación sistemática del desempeño de los LLMs en tareas de juicio de contingencia
Controversia sobre si los LLMs realmente "entienden" relaciones causales o simplemente replican lenguaje causal
La investigación existente se enfoca principalmente en inferencias erróneas de correlación a causalidad, no en ilusiones causales en escenarios de contingencia cero

Motivación de la Investigación

Evaluar la capacidad de razonamiento causal de los LLMs mediante la tarea clásica de juicio de contingencia, proporcionando evidencia empírica para comprender sus sesgos cognitivos.

Contribuciones Principales

Primera Adaptación de la Tarea de Juicio de Contingencia a LLMs: Este es el primer estudio que aplica la tarea clásica de juicio de contingencia de la psicología experimental a modelos de lenguaje grande
Construcción de un Conjunto de Datos a Gran Escala de Escenarios de Contingencia Cero: Se crearon 1000 escenarios de contingencia cero en contexto médico, incluyendo cuatro tipos de variables
Descubrimiento de Ilusiones Causales Generalizadas en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
Revelación de Inconsistencia en los Estándares de Juicio Causal entre Modelos: Diferentes modelos adoptan diferentes estándares de razonamiento causal, careciendo de consistencia

Explicación Detallada de la Metodología

Definición de la Tarea

La tarea de juicio de contingencia es un paradigma clásico en ciencia cognitiva para evaluar el aprendizaje causal:

Entrada: Una serie de ensayos, cada uno conteniendo una causa potencial (presente/ausente) y un resultado (ocurre/no ocurre)
Salida: Una puntuación de validez de la causa potencial (0-100, donde 0 significa inválido y 100 significa completamente válido)
Condición de Contingencia Cero: La probabilidad de que ocurra el resultado es independiente de si la causa está presente

Diseño Experimental

Construcción del Conjunto de Datos

Tipos de Variables (4 categorías, 100 pares de variables en total):
- Nombres ficticios de enfermedades y tratamientos (como "medicina Glimber" y "trastorno Drizzlemorn")
- Variables inciertas (como "Enfermedad X" y "Medicina Y")
- Variables de medicina alternativa y pseudomedicina (como "Proceso de Acupuntura")
- Medicamentos científicos verificados (como "Paracetamol")
Generación de Escenarios:
- 1000 escenarios de contingencia cero
- 20-100 ensayos por escenario
- Distribución 80/20 para garantizar contingencia cero

Condiciones Experimentales

Configuración de Temperatura:
- Experimento 1: Temperatura=1, 10 repeticiones por escenario
- Experimento 2: Temperatura=0 (determinista)
- Experimento 3: Configuración de temperatura predeterminada
Modelos Evaluados:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro

Puntos de Innovación Técnica

Adaptación de Tareas: Adaptación del método de presentación secuencial de experimentos humanos a formato de lista en lenguaje natural
Establecimiento de Roles: Mejora de la autenticidad de la tarea mediante juego de roles (médico, investigador)
Control de Variables: Control estricto de condiciones de contingencia cero para garantizar validez interna

Configuración Experimental

Detalles del Conjunto de Datos

Escala: 1000 escenarios de contingencia cero
Número de Ensayos: 20-100 ensayos por escenario
Pares de Variables: 100 pares de variables relacionadas con medicina
Control de Distribución: Distribución 80/20 para garantizar contingencia cero

Métricas de Evaluación

Métrica Principal: Puntuación de validez en escala 0-100
Pruebas Estadísticas:
- Prueba de Wilcoxon de una muestra (prueba de desviación de 0)
- Prueba de Friedman (comparación de diferencias entre modelos)
- Prueba Q de Cochran (comparación de probabilidades de respuesta cero)

Detalles de Implementación

Ingeniería de Prompts: Diseño de prompts basado en mejores prácticas de psicología experimental
Experimentos Repetidos: Múltiples configuraciones de temperatura para garantizar robustez de resultados
Análisis Estadístico: Uso de pruebas no paramétricas para datos con distribución no normal

Resultados Experimentales

Resultados Principales

Resultados Estadísticos bajo Temperatura=1:

Modelo	Media	Mediana	Desviación Estándar
GPT-4o-Mini	75.74	75.7	11.41
Claude-3.5-Sonnet	40.54	50.0	19.67
Gemini-1.5-Pro	33.07	45.0	23.72

Hallazgos Clave:

Presencia Generalizada de Ilusiones Causales: Las medianas de todos los modelos son significativamente mayores que 0 (p < 0.001)
Proporción Extremadamente Baja de Respuestas Cero:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
Diferencias Significativas entre Modelos: La prueba de Friedman muestra diferencias significativas entre modelos (χ² = 1516.99, p < 0.001)

Análisis entre Tipos de Variables

Los resultados experimentales muestran que los modelos no tienen diferencias significativas en puntuaciones causales para diferentes tipos de variables (ficticias, inciertas, medicina alternativa, medicina tradicional), incluso tendiendo a dar puntuaciones más altas para variables ficticias.

Comparación de Configuraciones de Temperatura

Bajo condiciones de temperatura=0 y temperatura predeterminada, los resultados experimentales se mantienen consistentes, demostrando la robustez de los hallazgos.

Trabajo Relacionado

Evaluación del Razonamiento Causal

Gao et al. (2023): Evaluación de capacidades de razonamiento causal en LLMs
Liu et al. (2023): Razonamiento causal en el dominio del código
Jin et al. (2024): Inferencia de correlación a causalidad

Investigación de Sesgos Cognitivos

Keshmirian et al. (2024): Juicio causal sesgado en LLMs
Carro et al. (2024): Exageración de correlación-causalidad en titulares de noticias
Jin et al. (2022): Detección de falacias lógicas

Singularidad de Este Trabajo

Este estudio es el primero en aplicar la tarea de juicio de contingencia a LLMs, llenando un vacío importante entre la ciencia cognitiva y la evaluación de IA.

Conclusiones y Discusión

Conclusiones Principales

Presencia Generalizada de Ilusiones Causales en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
Falta de Estándares Unificados de Juicio Causal: Diferentes modelos adoptan diferentes criterios de evaluación
Apoyo a la Hipótesis de "Replicación de Lenguaje": Los resultados apoyan la hipótesis de que los LLMs simplemente replican lenguaje causal en lugar de comprender verdaderamente las relaciones causales

Limitaciones

Falta de Línea Base Humana: No se realizaron experimentos humanos correspondientes como punto de referencia de comparación
Validez Externa Limitada: Aunque el diseño experimental sigue mejores prácticas psicológicas, puede no representar completamente escenarios de uso real
Sesgo de Puntuación: Los LLMs pueden tener sesgos en la respuesta a valores extremos
Problemas de Validez Interna: La escala de puntuación 0-100 puede no ser el formato más apropiado para evaluación de IA

Direcciones Futuras

Técnicas de Prompting: Exploración de efectos de técnicas de prompting como cadena de pensamiento
Escenarios Diversificados: Inclusión de escenarios de contingencia positiva y negativa
Efectos del Orden de Ensayos: Investigación del impacto del orden de presentación de ensayos en resultados
Formatos de Tareas Alternativos: Uso de formatos binarios o multiclasificación

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera aplicación de un paradigma clásico de ciencia cognitiva a evaluación de LLMs
Metodología Rigurosa: Diseño experimental que sigue mejores prácticas psicológicas, análisis estadístico integral
Resultados Consistentes: Los resultados se mantienen consistentes bajo múltiples configuraciones de temperatura, aumentando la credibilidad de los hallazgos
Significancia Práctica: Tiene importante valor de advertencia para seguridad de IA y aplicaciones

Deficiencias

Muestra Limitada: Solo se evaluaron tres modelos, podría extenderse a más modelos
Limitación de Dominio: Solo probado en dominio médico, la generalización a otros dominios es desconocida
Análisis de Mecanismo Insuficiente: Falta análisis profundo de mecanismos subyacentes que causan sesgos
Falta de Soluciones: No proporciona métodos específicos para mitigar ilusiones causales

Impacto

Valor Académico: Proporciona nuevo marco de evaluación para investigación de sesgos cognitivos en IA
Valor Práctico: Advierte sobre la necesidad de cautela al usar LLMs en dominios de decisión crítica
Reproducibilidad: Proporciona código y datos completos, facilitando reproducción y extensión

Escenarios Aplicables

Esta investigación es particularmente aplicable a:

Evaluación de Seguridad de IA: Evaluación de sesgos cognitivos en sistemas de IA
Aplicaciones de IA Médica: Evaluación de riesgos en sistemas de decisión médica
Educación y Capacitación: Mejora de conciencia sobre limitaciones de IA

Referencias

Este estudio cita literatura importante en ciencia cognitiva, psicología experimental y evaluación de IA, particularmente el trabajo fundamental de Matute et al. (2015) sobre ilusiones causales, así como investigaciones recientes sobre capacidades de razonamiento causal en LLMs.

Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente un paradigma clásico de ciencia cognitiva a evaluación de IA, revelando deficiencias importantes en razonamiento causal de LLMs. La metodología es rigurosa, los resultados tienen significancia teórica y práctica importante, proporcionando perspectivas valiosas para investigación futura en seguridad de IA.