Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
¿Muestran los Modelos de Lenguaje Grande Sesgos en el Aprendizaje Causal? Perspectivas desde el Juicio de Contingencia
- ID del Artículo: 2510.13985
- Título: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- Autores: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- Clasificación: cs.AI
- Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
- Enlace del Artículo: https://arxiv.org/abs/2510.13985
El aprendizaje causal es un proceso cognitivo de razonamiento causal basado en información disponible, que generalmente sigue principios normativos. Este proceso es propenso a errores y sesgos, como las ilusiones causales, donde las personas perciben relaciones causales entre dos variables sin evidencia de apoyo. Se cree que este sesgo cognitivo es la raíz de muchos problemas sociales, incluyendo sesgos sociales, formación de estereotipos, desinformación y pensamiento supersticioso. Este estudio examina si los modelos de lenguaje grande son propensos a ilusiones causales mediante un paradigma clásico de la ciencia cognitiva: la tarea de juicio de contingencia. El estudio construyó un conjunto de datos de 1000 escenarios de contingencia cero (donde la información disponible es insuficiente para establecer relaciones causales entre variables), instando a los LLMs a evaluar la validez de posibles causas en un contexto médico. El estudio encontró que todos los modelos evaluados infirieron sistemáticamente relaciones causales inapropiadas, mostrando una fuerte susceptibilidad a las ilusiones causales.
La pregunta central que aborda esta investigación es: ¿Muestran los modelos de lenguaje grande ilusiones causales similares a las humanas cuando se enfrentan a paradigmas clásicos de la ciencia cognitiva?
- Impacto Social: Las ilusiones causales son la raíz de sesgos sociales, estereotipos, propagación de desinformación y pensamiento supersticioso
- Aplicaciones Prácticas: En campos críticos como la medicina, el razonamiento causal preciso es esencial para la toma de decisiones informadas
- Seguridad de la IA: Con la aplicación generalizada de LLMs en sistemas de decisión, comprender sus sesgos cognitivos es extremadamente importante
- Falta de evaluación sistemática del desempeño de los LLMs en tareas de juicio de contingencia
- Controversia sobre si los LLMs realmente "entienden" relaciones causales o simplemente replican lenguaje causal
- La investigación existente se enfoca principalmente en inferencias erróneas de correlación a causalidad, no en ilusiones causales en escenarios de contingencia cero
Evaluar la capacidad de razonamiento causal de los LLMs mediante la tarea clásica de juicio de contingencia, proporcionando evidencia empírica para comprender sus sesgos cognitivos.
- Primera Adaptación de la Tarea de Juicio de Contingencia a LLMs: Este es el primer estudio que aplica la tarea clásica de juicio de contingencia de la psicología experimental a modelos de lenguaje grande
- Construcción de un Conjunto de Datos a Gran Escala de Escenarios de Contingencia Cero: Se crearon 1000 escenarios de contingencia cero en contexto médico, incluyendo cuatro tipos de variables
- Descubrimiento de Ilusiones Causales Generalizadas en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
- Revelación de Inconsistencia en los Estándares de Juicio Causal entre Modelos: Diferentes modelos adoptan diferentes estándares de razonamiento causal, careciendo de consistencia
La tarea de juicio de contingencia es un paradigma clásico en ciencia cognitiva para evaluar el aprendizaje causal:
- Entrada: Una serie de ensayos, cada uno conteniendo una causa potencial (presente/ausente) y un resultado (ocurre/no ocurre)
- Salida: Una puntuación de validez de la causa potencial (0-100, donde 0 significa inválido y 100 significa completamente válido)
- Condición de Contingencia Cero: La probabilidad de que ocurra el resultado es independiente de si la causa está presente
- Tipos de Variables (4 categorías, 100 pares de variables en total):
- Nombres ficticios de enfermedades y tratamientos (como "medicina Glimber" y "trastorno Drizzlemorn")
- Variables inciertas (como "Enfermedad X" y "Medicina Y")
- Variables de medicina alternativa y pseudomedicina (como "Proceso de Acupuntura")
- Medicamentos científicos verificados (como "Paracetamol")
- Generación de Escenarios:
- 1000 escenarios de contingencia cero
- 20-100 ensayos por escenario
- Distribución 80/20 para garantizar contingencia cero
- Configuración de Temperatura:
- Experimento 1: Temperatura=1, 10 repeticiones por escenario
- Experimento 2: Temperatura=0 (determinista)
- Experimento 3: Configuración de temperatura predeterminada
- Modelos Evaluados:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- Adaptación de Tareas: Adaptación del método de presentación secuencial de experimentos humanos a formato de lista en lenguaje natural
- Establecimiento de Roles: Mejora de la autenticidad de la tarea mediante juego de roles (médico, investigador)
- Control de Variables: Control estricto de condiciones de contingencia cero para garantizar validez interna
- Escala: 1000 escenarios de contingencia cero
- Número de Ensayos: 20-100 ensayos por escenario
- Pares de Variables: 100 pares de variables relacionadas con medicina
- Control de Distribución: Distribución 80/20 para garantizar contingencia cero
- Métrica Principal: Puntuación de validez en escala 0-100
- Pruebas Estadísticas:
- Prueba de Wilcoxon de una muestra (prueba de desviación de 0)
- Prueba de Friedman (comparación de diferencias entre modelos)
- Prueba Q de Cochran (comparación de probabilidades de respuesta cero)
- Ingeniería de Prompts: Diseño de prompts basado en mejores prácticas de psicología experimental
- Experimentos Repetidos: Múltiples configuraciones de temperatura para garantizar robustez de resultados
- Análisis Estadístico: Uso de pruebas no paramétricas para datos con distribución no normal
| Modelo | Media | Mediana | Desviación Estándar |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- Presencia Generalizada de Ilusiones Causales: Las medianas de todos los modelos son significativamente mayores que 0 (p < 0.001)
- Proporción Extremadamente Baja de Respuestas Cero:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
- Diferencias Significativas entre Modelos: La prueba de Friedman muestra diferencias significativas entre modelos (χ² = 1516.99, p < 0.001)
Los resultados experimentales muestran que los modelos no tienen diferencias significativas en puntuaciones causales para diferentes tipos de variables (ficticias, inciertas, medicina alternativa, medicina tradicional), incluso tendiendo a dar puntuaciones más altas para variables ficticias.
Bajo condiciones de temperatura=0 y temperatura predeterminada, los resultados experimentales se mantienen consistentes, demostrando la robustez de los hallazgos.
- Gao et al. (2023): Evaluación de capacidades de razonamiento causal en LLMs
- Liu et al. (2023): Razonamiento causal en el dominio del código
- Jin et al. (2024): Inferencia de correlación a causalidad
- Keshmirian et al. (2024): Juicio causal sesgado en LLMs
- Carro et al. (2024): Exageración de correlación-causalidad en titulares de noticias
- Jin et al. (2022): Detección de falacias lógicas
Este estudio es el primero en aplicar la tarea de juicio de contingencia a LLMs, llenando un vacío importante entre la ciencia cognitiva y la evaluación de IA.
- Presencia Generalizada de Ilusiones Causales en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
- Falta de Estándares Unificados de Juicio Causal: Diferentes modelos adoptan diferentes criterios de evaluación
- Apoyo a la Hipótesis de "Replicación de Lenguaje": Los resultados apoyan la hipótesis de que los LLMs simplemente replican lenguaje causal en lugar de comprender verdaderamente las relaciones causales
- Falta de Línea Base Humana: No se realizaron experimentos humanos correspondientes como punto de referencia de comparación
- Validez Externa Limitada: Aunque el diseño experimental sigue mejores prácticas psicológicas, puede no representar completamente escenarios de uso real
- Sesgo de Puntuación: Los LLMs pueden tener sesgos en la respuesta a valores extremos
- Problemas de Validez Interna: La escala de puntuación 0-100 puede no ser el formato más apropiado para evaluación de IA
- Técnicas de Prompting: Exploración de efectos de técnicas de prompting como cadena de pensamiento
- Escenarios Diversificados: Inclusión de escenarios de contingencia positiva y negativa
- Efectos del Orden de Ensayos: Investigación del impacto del orden de presentación de ensayos en resultados
- Formatos de Tareas Alternativos: Uso de formatos binarios o multiclasificación
- Fuerte Innovación: Primera aplicación de un paradigma clásico de ciencia cognitiva a evaluación de LLMs
- Metodología Rigurosa: Diseño experimental que sigue mejores prácticas psicológicas, análisis estadístico integral
- Resultados Consistentes: Los resultados se mantienen consistentes bajo múltiples configuraciones de temperatura, aumentando la credibilidad de los hallazgos
- Significancia Práctica: Tiene importante valor de advertencia para seguridad de IA y aplicaciones
- Muestra Limitada: Solo se evaluaron tres modelos, podría extenderse a más modelos
- Limitación de Dominio: Solo probado en dominio médico, la generalización a otros dominios es desconocida
- Análisis de Mecanismo Insuficiente: Falta análisis profundo de mecanismos subyacentes que causan sesgos
- Falta de Soluciones: No proporciona métodos específicos para mitigar ilusiones causales
- Valor Académico: Proporciona nuevo marco de evaluación para investigación de sesgos cognitivos en IA
- Valor Práctico: Advierte sobre la necesidad de cautela al usar LLMs en dominios de decisión crítica
- Reproducibilidad: Proporciona código y datos completos, facilitando reproducción y extensión
Esta investigación es particularmente aplicable a:
- Evaluación de Seguridad de IA: Evaluación de sesgos cognitivos en sistemas de IA
- Aplicaciones de IA Médica: Evaluación de riesgos en sistemas de decisión médica
- Educación y Capacitación: Mejora de conciencia sobre limitaciones de IA
Este estudio cita literatura importante en ciencia cognitiva, psicología experimental y evaluación de IA, particularmente el trabajo fundamental de Matute et al. (2015) sobre ilusiones causales, así como investigaciones recientes sobre capacidades de razonamiento causal en LLMs.
Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente un paradigma clásico de ciencia cognitiva a evaluación de IA, revelando deficiencias importantes en razonamiento causal de LLMs. La metodología es rigurosa, los resultados tienen significancia teórica y práctica importante, proporcionando perspectivas valiosas para investigación futura en seguridad de IA.