2025-11-18T11:46:20.272494

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

Carro, Mester, Selasco et al.

Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.

academic

Проявляют ли большие языковые модели предвзятость в причинном обучении? Выводы из оценки контингентности

Основная информация

ID статьи: 2510.13985
Название: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
Авторы: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
Классификация: cs.AI
Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025) Семинар: Первый семинар по CogInterp
Ссылка на статью: https://arxiv.org/abs/2510.13985

Аннотация

Причинное обучение — это когнитивный процесс причинного вывода на основе доступной информации, обычно следующий нормативным принципам. Этот процесс подвержен ошибкам и предвзятости, таким как причинные иллюзии, когда люди воспринимают причинную связь между двумя переменными при отсутствии подтверждающих доказательств. Эта когнитивная предвзятость считается источником многих социальных проблем, включая социальные предубеждения, формирование стереотипов, дезинформацию и суеверное мышление. В данном исследовании проверяется, подвержены ли большие языковые модели причинным иллюзиям, используя классическую парадигму когнитивной науки — задачу оценки контингентности. Исследование построено на наборе данных из 1000 сценариев нулевой контингентности (где доступной информации недостаточно для установления причинной связи между переменными), побуждая LLMs оценивать валидность потенциальных причин в медицинском контексте. Исследование показало, что все оцениваемые модели систематически выводили неправомерные причинные связи, демонстрируя высокую восприимчивость к причинным иллюзиям.

Предпосылки и мотивация исследования

Определение проблемы

Основной вопрос, который решает данное исследование: проявляют ли большие языковые модели причинные иллюзии, аналогичные человеческим, при столкновении с классическими парадигмами когнитивной науки?

Значимость

Социальное воздействие: причинные иллюзии являются источником социальных предубеждений, стереотипов, распространения дезинформации и суеверного мышления
Практическое применение: в критических областях, таких как здравоохранение, точное причинное рассуждение имеет решающее значение для обоснованного принятия решений
Безопасность ИИ: с широким применением LLMs в системах принятия решений понимание их когнитивных предвзятостей становится критически важным

Существующие ограничения

Отсутствие систематической оценки производительности LLMs в задачах оценки контингентности
Дискуссия о том, действительно ли LLMs "понимают" причинные связи или просто воспроизводят причинный язык
Существующие исследования сосредоточены в основном на ошибочных выводах от корреляции к причинности, а не на причинных иллюзиях в сценариях нулевой контингентности

Мотивация исследования

Оценить способность LLMs к причинному рассуждению через классическую задачу оценки контингентности, предоставляя эмпирические доказательства для понимания их когнитивных предвзятостей.

Основные вклады

Первое применение задачи оценки контингентности к LLMs: это первое исследование, применяющее классическую задачу оценки контингентности из экспериментальной психологии к большим языковым моделям
Создание крупномасштабного набора данных сценариев нулевой контингентности: разработан набор из 1000 сценариев нулевой контингентности в медицинском контексте с четырьмя типами переменных
Обнаружение универсальных причинных иллюзий в LLMs: все оцениваемые модели систематически выводили причинные связи в сценариях нулевой контингентности
Выявление несогласованности стандартов причинного суждения между моделями: различные модели применяют различные стандарты причинного рассуждения, демонстрируя отсутствие согласованности

Подробное описание методологии

Определение задачи

Задача оценки контингентности — классическая парадигма в когнитивной науке для оценки причинного обучения:

Входные данные: серия испытаний, каждое содержит потенциальную причину (присутствует/отсутствует) и результат (произошел/не произошел)
Выходные данные: оценка валидности потенциальной причины (0-100 баллов, где 0 означает неэффективность, 100 означает полную эффективность)
Условие нулевой контингентности: вероятность результата не зависит от наличия причины

Экспериментальный дизайн

Построение набора данных

Типы переменных (4 категории, всего 100 пар переменных):
- Вымышленные названия болезней и лечения (например, "Glimber medicine" и "Drizzlemorn disorder")
- Неопределенные переменные (например, "Disease X" и "Medicine Y")
- Альтернативная и псевдомедицинская переменная (например, "Acupuncture Process")
- Проверенные научные препараты (например, "Paracetamol")
Генерация сценариев:
- 1000 сценариев нулевой контингентности
- 20-100 испытаний на сценарий
- Распределение 80/20 для обеспечения нулевой контингентности

Экспериментальные условия

Параметры температуры:
- Эксперимент 1: температура=1, 10 повторений на сценарий
- Эксперимент 2: температура=0 (детерминированный режим)
- Эксперимент 3: параметры температуры по умолчанию
Оцениваемые модели:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro

Технические инновации

Адаптация задачи: преобразование последовательного представления человеческих когнитивных экспериментов в формат списка на естественном языке
Установка ролей: использование ролевого моделирования (врач, исследователь) для повышения реалистичности задачи
Контроль переменных: строгий контроль условия нулевой контингентности для обеспечения внутренней валидности эксперимента

Экспериментальная установка

Детали набора данных

Масштаб: 1000 сценариев нулевой контингентности
Количество испытаний: 20-100 испытаний на сценарий
Пары переменных: 100 пар медицинских переменных
Контроль распределения: распределение 80/20 для обеспечения нулевой контингентности

Метрики оценки

Основная метрика: оценка валидности по шкале 0-100 баллов
Статистические тесты:
- Одновыборочный тест Уилкоксона (проверка отклонения от 0)
- Тест Фридмана (сравнение различий между моделями)
- Тест Кохрана Q (сравнение вероятности нулевых ответов)

Детали реализации

Инженерия подсказок: разработка подсказок на основе лучших практик экспериментальной психологии
Повторные эксперименты: использование различных параметров температуры для обеспечения надежности результатов
Статистический анализ: применение непараметрических тестов для обработки ненормально распределенных данных

Результаты экспериментов

Основные результаты

Статистические результаты при температуре=1:

Модель	Среднее	Медиана	Стандартное отклонение
GPT-4o-Mini	75.74	75.7	11.41
Claude-3.5-Sonnet	40.54	50.0	19.67
Gemini-1.5-Pro	33.07	45.0	23.72

Ключевые выводы:

Универсальное наличие причинных иллюзий: медиана всех моделей значительно превышает 0 (p < 0.001)
Крайне низкая доля нулевых ответов:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
Значительные различия между моделями: тест Фридмана показал значительные различия между моделями (χ² = 1516.99, p < 0.001)

Анализ по типам переменных

Результаты эксперимента показали, что модели не проявляют значительных различий в оценке причинности для различных типов переменных (вымышленные, неопределенные, альтернативная медицина, традиционная медицина), и даже склонны давать более высокие оценки для вымышленных переменных.

Сравнение параметров температуры

При температуре=0 и параметрах температуры по умолчанию результаты эксперимента остаются последовательными, что свидетельствует о надежности выводов.

Связанные работы

Оценка причинного рассуждения

Gao et al. (2023): оценка способности LLMs к причинному рассуждению
Liu et al. (2023): причинное рассуждение в области кода
Jin et al. (2024): вывод от корреляции к причинности

Исследования когнитивных предвзятостей

Keshmirian et al. (2024): предвзятое причинное суждение в LLMs
Carro et al. (2024): преувеличение корреляции-причинности в новостных заголовках
Jin et al. (2022): обнаружение логических ошибок

Уникальность данной работы

Данное исследование является первым применением задачи оценки контингентности к LLMs, заполняя важный пробел между когнитивной наукой и оценкой ИИ.

Выводы и обсуждение

Основные выводы

Универсальное наличие причинных иллюзий в LLMs: все оцениваемые модели систематически выводили причинные связи в сценариях нулевой контингентности
Отсутствие единого стандарта причинного суждения: различные модели применяют различные критерии оценки
Поддержка гипотезы "языкового воспроизведения": результаты подтверждают гипотезу о том, что LLMs воспроизводят причинный язык, а не действительно понимают причинные связи

Ограничения

Отсутствие человеческого базового уровня: не проводились соответствующие эксперименты с людьми для сравнения
Ограниченная внешняя валидность: хотя экспериментальный дизайн следует лучшим практикам психологии, он может не полностью представлять реальные сценарии использования
Предвзятость оценки: LLMs могут проявлять предвзятость в отношении экстремальных значений
Проблемы внутренней валидности: шкала оценки 0-100 может быть не оптимальным форматом для оценки ИИ

Будущие направления

Техники подсказок: исследование эффективности техник, таких как цепочка мышления
Разнообразные сценарии: включение сценариев с положительной и отрицательной контингентностью
Эффекты порядка испытаний: исследование влияния порядка представления испытаний на результаты
Альтернативные форматы задач: использование бинарных или мультиклассовых форматов

Глубокая оценка

Преимущества

Высокая инновационность: первое применение классической парадигмы когнитивной науки к оценке LLMs
Строгая методология: экспериментальный дизайн следует лучшим практикам психологии, статистический анализ всеобъемлющ
Согласованность результатов: результаты остаются последовательными при различных параметрах температуры, повышая достоверность выводов
Практическое значение: имеет важное предостерегающее значение для безопасности ИИ и приложений

Недостатки

Ограниченный размер выборки: оценены только три модели, возможно расширение на большее количество моделей
Ограничение по области: тестирование только в медицинской области, неизвестна обобщаемость на другие области
Недостаточный анализ механизмов: отсутствует анализ глубинных механизмов, вызывающих предвзятость
Отсутствие решений: не предложены конкретные методы для снижения причинных иллюзий

Влияние

Академическая ценность: предоставляет новую оценочную базу для исследования когнитивных предвзятостей ИИ
Практическая ценность: предупреждает о необходимости осторожности при использовании LLMs в критических областях принятия решений
Воспроизводимость: предоставляет полный код и данные для облегчения воспроизведения и расширения

Применимые сценарии

Данное исследование особенно применимо к:

Оценке безопасности ИИ: оценка когнитивных предвзятостей систем ИИ
Приложениям медицинского ИИ: оценка рисков в системах поддержки медицинских решений
Образованию и обучению: повышение осведомленности об ограничениях ИИ

Библиография

Данное исследование ссылается на важные работы в области когнитивной науки, экспериментальной психологии и оценки ИИ, в частности на основополагающую работу Matute et al. (2015) о причинных иллюзиях и недавние исследования способности LLMs к причинному рассуждению.

Общая оценка: это высококачественная междисциплинарная исследовательская работа, успешно применившая классическую парадигму когнитивной науки к оценке ИИ, выявив важные недостатки LLMs в причинном рассуждении. Методология исследования строга, результаты имеют важное теоретическое и практическое значение, предоставляя ценные выводы для будущих исследований безопасности ИИ.