2025-11-18T11:46:20.272494

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

Carro, Mester, Selasco et al.
Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
academic

¿Muestran los Modelos de Lenguaje Grande Sesgos en el Aprendizaje Causal? Perspectivas desde el Juicio de Contingencia

Información Básica

  • ID del Artículo: 2510.13985
  • Título: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
  • Autores: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
  • Clasificación: cs.AI
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
  • Enlace del Artículo: https://arxiv.org/abs/2510.13985

Resumen

El aprendizaje causal es un proceso cognitivo de razonamiento causal basado en información disponible, que generalmente sigue principios normativos. Este proceso es propenso a errores y sesgos, como las ilusiones causales, donde las personas perciben relaciones causales entre dos variables sin evidencia de apoyo. Se cree que este sesgo cognitivo es la raíz de muchos problemas sociales, incluyendo sesgos sociales, formación de estereotipos, desinformación y pensamiento supersticioso. Este estudio examina si los modelos de lenguaje grande son propensos a ilusiones causales mediante un paradigma clásico de la ciencia cognitiva: la tarea de juicio de contingencia. El estudio construyó un conjunto de datos de 1000 escenarios de contingencia cero (donde la información disponible es insuficiente para establecer relaciones causales entre variables), instando a los LLMs a evaluar la validez de posibles causas en un contexto médico. El estudio encontró que todos los modelos evaluados infirieron sistemáticamente relaciones causales inapropiadas, mostrando una fuerte susceptibilidad a las ilusiones causales.

Antecedentes y Motivación de la Investigación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿Muestran los modelos de lenguaje grande ilusiones causales similares a las humanas cuando se enfrentan a paradigmas clásicos de la ciencia cognitiva?

Importancia

  1. Impacto Social: Las ilusiones causales son la raíz de sesgos sociales, estereotipos, propagación de desinformación y pensamiento supersticioso
  2. Aplicaciones Prácticas: En campos críticos como la medicina, el razonamiento causal preciso es esencial para la toma de decisiones informadas
  3. Seguridad de la IA: Con la aplicación generalizada de LLMs en sistemas de decisión, comprender sus sesgos cognitivos es extremadamente importante

Limitaciones Existentes

  1. Falta de evaluación sistemática del desempeño de los LLMs en tareas de juicio de contingencia
  2. Controversia sobre si los LLMs realmente "entienden" relaciones causales o simplemente replican lenguaje causal
  3. La investigación existente se enfoca principalmente en inferencias erróneas de correlación a causalidad, no en ilusiones causales en escenarios de contingencia cero

Motivación de la Investigación

Evaluar la capacidad de razonamiento causal de los LLMs mediante la tarea clásica de juicio de contingencia, proporcionando evidencia empírica para comprender sus sesgos cognitivos.

Contribuciones Principales

  1. Primera Adaptación de la Tarea de Juicio de Contingencia a LLMs: Este es el primer estudio que aplica la tarea clásica de juicio de contingencia de la psicología experimental a modelos de lenguaje grande
  2. Construcción de un Conjunto de Datos a Gran Escala de Escenarios de Contingencia Cero: Se crearon 1000 escenarios de contingencia cero en contexto médico, incluyendo cuatro tipos de variables
  3. Descubrimiento de Ilusiones Causales Generalizadas en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
  4. Revelación de Inconsistencia en los Estándares de Juicio Causal entre Modelos: Diferentes modelos adoptan diferentes estándares de razonamiento causal, careciendo de consistencia

Explicación Detallada de la Metodología

Definición de la Tarea

La tarea de juicio de contingencia es un paradigma clásico en ciencia cognitiva para evaluar el aprendizaje causal:

  • Entrada: Una serie de ensayos, cada uno conteniendo una causa potencial (presente/ausente) y un resultado (ocurre/no ocurre)
  • Salida: Una puntuación de validez de la causa potencial (0-100, donde 0 significa inválido y 100 significa completamente válido)
  • Condición de Contingencia Cero: La probabilidad de que ocurra el resultado es independiente de si la causa está presente

Diseño Experimental

Construcción del Conjunto de Datos

  1. Tipos de Variables (4 categorías, 100 pares de variables en total):
    • Nombres ficticios de enfermedades y tratamientos (como "medicina Glimber" y "trastorno Drizzlemorn")
    • Variables inciertas (como "Enfermedad X" y "Medicina Y")
    • Variables de medicina alternativa y pseudomedicina (como "Proceso de Acupuntura")
    • Medicamentos científicos verificados (como "Paracetamol")
  2. Generación de Escenarios:
    • 1000 escenarios de contingencia cero
    • 20-100 ensayos por escenario
    • Distribución 80/20 para garantizar contingencia cero

Condiciones Experimentales

  1. Configuración de Temperatura:
    • Experimento 1: Temperatura=1, 10 repeticiones por escenario
    • Experimento 2: Temperatura=0 (determinista)
    • Experimento 3: Configuración de temperatura predeterminada
  2. Modelos Evaluados:
    • GPT-4o-Mini
    • Claude-3.5-Sonnet
    • Gemini-1.5-Pro

Puntos de Innovación Técnica

  1. Adaptación de Tareas: Adaptación del método de presentación secuencial de experimentos humanos a formato de lista en lenguaje natural
  2. Establecimiento de Roles: Mejora de la autenticidad de la tarea mediante juego de roles (médico, investigador)
  3. Control de Variables: Control estricto de condiciones de contingencia cero para garantizar validez interna

Configuración Experimental

Detalles del Conjunto de Datos

  • Escala: 1000 escenarios de contingencia cero
  • Número de Ensayos: 20-100 ensayos por escenario
  • Pares de Variables: 100 pares de variables relacionadas con medicina
  • Control de Distribución: Distribución 80/20 para garantizar contingencia cero

Métricas de Evaluación

  • Métrica Principal: Puntuación de validez en escala 0-100
  • Pruebas Estadísticas:
    • Prueba de Wilcoxon de una muestra (prueba de desviación de 0)
    • Prueba de Friedman (comparación de diferencias entre modelos)
    • Prueba Q de Cochran (comparación de probabilidades de respuesta cero)

Detalles de Implementación

  • Ingeniería de Prompts: Diseño de prompts basado en mejores prácticas de psicología experimental
  • Experimentos Repetidos: Múltiples configuraciones de temperatura para garantizar robustez de resultados
  • Análisis Estadístico: Uso de pruebas no paramétricas para datos con distribución no normal

Resultados Experimentales

Resultados Principales

Resultados Estadísticos bajo Temperatura=1:

ModeloMediaMedianaDesviación Estándar
GPT-4o-Mini75.7475.711.41
Claude-3.5-Sonnet40.5450.019.67
Gemini-1.5-Pro33.0745.023.72

Hallazgos Clave:

  1. Presencia Generalizada de Ilusiones Causales: Las medianas de todos los modelos son significativamente mayores que 0 (p < 0.001)
  2. Proporción Extremadamente Baja de Respuestas Cero:
    • GPT-4o-Mini: 0%
    • Claude-3.5-Sonnet: 4.6%
    • Gemini-1.5-Pro: 20.5%
  3. Diferencias Significativas entre Modelos: La prueba de Friedman muestra diferencias significativas entre modelos (χ² = 1516.99, p < 0.001)

Análisis entre Tipos de Variables

Los resultados experimentales muestran que los modelos no tienen diferencias significativas en puntuaciones causales para diferentes tipos de variables (ficticias, inciertas, medicina alternativa, medicina tradicional), incluso tendiendo a dar puntuaciones más altas para variables ficticias.

Comparación de Configuraciones de Temperatura

Bajo condiciones de temperatura=0 y temperatura predeterminada, los resultados experimentales se mantienen consistentes, demostrando la robustez de los hallazgos.

Trabajo Relacionado

Evaluación del Razonamiento Causal

  • Gao et al. (2023): Evaluación de capacidades de razonamiento causal en LLMs
  • Liu et al. (2023): Razonamiento causal en el dominio del código
  • Jin et al. (2024): Inferencia de correlación a causalidad

Investigación de Sesgos Cognitivos

  • Keshmirian et al. (2024): Juicio causal sesgado en LLMs
  • Carro et al. (2024): Exageración de correlación-causalidad en titulares de noticias
  • Jin et al. (2022): Detección de falacias lógicas

Singularidad de Este Trabajo

Este estudio es el primero en aplicar la tarea de juicio de contingencia a LLMs, llenando un vacío importante entre la ciencia cognitiva y la evaluación de IA.

Conclusiones y Discusión

Conclusiones Principales

  1. Presencia Generalizada de Ilusiones Causales en LLMs: Todos los modelos evaluados infirieron sistemáticamente relaciones causales en escenarios de contingencia cero
  2. Falta de Estándares Unificados de Juicio Causal: Diferentes modelos adoptan diferentes criterios de evaluación
  3. Apoyo a la Hipótesis de "Replicación de Lenguaje": Los resultados apoyan la hipótesis de que los LLMs simplemente replican lenguaje causal en lugar de comprender verdaderamente las relaciones causales

Limitaciones

  1. Falta de Línea Base Humana: No se realizaron experimentos humanos correspondientes como punto de referencia de comparación
  2. Validez Externa Limitada: Aunque el diseño experimental sigue mejores prácticas psicológicas, puede no representar completamente escenarios de uso real
  3. Sesgo de Puntuación: Los LLMs pueden tener sesgos en la respuesta a valores extremos
  4. Problemas de Validez Interna: La escala de puntuación 0-100 puede no ser el formato más apropiado para evaluación de IA

Direcciones Futuras

  1. Técnicas de Prompting: Exploración de efectos de técnicas de prompting como cadena de pensamiento
  2. Escenarios Diversificados: Inclusión de escenarios de contingencia positiva y negativa
  3. Efectos del Orden de Ensayos: Investigación del impacto del orden de presentación de ensayos en resultados
  4. Formatos de Tareas Alternativos: Uso de formatos binarios o multiclasificación

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera aplicación de un paradigma clásico de ciencia cognitiva a evaluación de LLMs
  2. Metodología Rigurosa: Diseño experimental que sigue mejores prácticas psicológicas, análisis estadístico integral
  3. Resultados Consistentes: Los resultados se mantienen consistentes bajo múltiples configuraciones de temperatura, aumentando la credibilidad de los hallazgos
  4. Significancia Práctica: Tiene importante valor de advertencia para seguridad de IA y aplicaciones

Deficiencias

  1. Muestra Limitada: Solo se evaluaron tres modelos, podría extenderse a más modelos
  2. Limitación de Dominio: Solo probado en dominio médico, la generalización a otros dominios es desconocida
  3. Análisis de Mecanismo Insuficiente: Falta análisis profundo de mecanismos subyacentes que causan sesgos
  4. Falta de Soluciones: No proporciona métodos específicos para mitigar ilusiones causales

Impacto

  1. Valor Académico: Proporciona nuevo marco de evaluación para investigación de sesgos cognitivos en IA
  2. Valor Práctico: Advierte sobre la necesidad de cautela al usar LLMs en dominios de decisión crítica
  3. Reproducibilidad: Proporciona código y datos completos, facilitando reproducción y extensión

Escenarios Aplicables

Esta investigación es particularmente aplicable a:

  1. Evaluación de Seguridad de IA: Evaluación de sesgos cognitivos en sistemas de IA
  2. Aplicaciones de IA Médica: Evaluación de riesgos en sistemas de decisión médica
  3. Educación y Capacitación: Mejora de conciencia sobre limitaciones de IA

Referencias

Este estudio cita literatura importante en ciencia cognitiva, psicología experimental y evaluación de IA, particularmente el trabajo fundamental de Matute et al. (2015) sobre ilusiones causales, así como investigaciones recientes sobre capacidades de razonamiento causal en LLMs.


Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente un paradigma clásico de ciencia cognitiva a evaluación de IA, revelando deficiencias importantes en razonamiento causal de LLMs. La metodología es rigurosa, los resultados tienen significancia teórica y práctica importante, proporcionando perspectivas valiosas para investigación futura en seguridad de IA.