Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
- ID статьи: 2510.13985
- Название: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- Авторы: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- Классификация: cs.AI
- Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025) Семинар: Первый семинар по CogInterp
- Ссылка на статью: https://arxiv.org/abs/2510.13985
Причинное обучение — это когнитивный процесс причинного вывода на основе доступной информации, обычно следующий нормативным принципам. Этот процесс подвержен ошибкам и предвзятости, таким как причинные иллюзии, когда люди воспринимают причинную связь между двумя переменными при отсутствии подтверждающих доказательств. Эта когнитивная предвзятость считается источником многих социальных проблем, включая социальные предубеждения, формирование стереотипов, дезинформацию и суеверное мышление. В данном исследовании проверяется, подвержены ли большие языковые модели причинным иллюзиям, используя классическую парадигму когнитивной науки — задачу оценки контингентности. Исследование построено на наборе данных из 1000 сценариев нулевой контингентности (где доступной информации недостаточно для установления причинной связи между переменными), побуждая LLMs оценивать валидность потенциальных причин в медицинском контексте. Исследование показало, что все оцениваемые модели систематически выводили неправомерные причинные связи, демонстрируя высокую восприимчивость к причинным иллюзиям.
Основной вопрос, который решает данное исследование: проявляют ли большие языковые модели причинные иллюзии, аналогичные человеческим, при столкновении с классическими парадигмами когнитивной науки?
- Социальное воздействие: причинные иллюзии являются источником социальных предубеждений, стереотипов, распространения дезинформации и суеверного мышления
- Практическое применение: в критических областях, таких как здравоохранение, точное причинное рассуждение имеет решающее значение для обоснованного принятия решений
- Безопасность ИИ: с широким применением LLMs в системах принятия решений понимание их когнитивных предвзятостей становится критически важным
- Отсутствие систематической оценки производительности LLMs в задачах оценки контингентности
- Дискуссия о том, действительно ли LLMs "понимают" причинные связи или просто воспроизводят причинный язык
- Существующие исследования сосредоточены в основном на ошибочных выводах от корреляции к причинности, а не на причинных иллюзиях в сценариях нулевой контингентности
Оценить способность LLMs к причинному рассуждению через классическую задачу оценки контингентности, предоставляя эмпирические доказательства для понимания их когнитивных предвзятостей.
- Первое применение задачи оценки контингентности к LLMs: это первое исследование, применяющее классическую задачу оценки контингентности из экспериментальной психологии к большим языковым моделям
- Создание крупномасштабного набора данных сценариев нулевой контингентности: разработан набор из 1000 сценариев нулевой контингентности в медицинском контексте с четырьмя типами переменных
- Обнаружение универсальных причинных иллюзий в LLMs: все оцениваемые модели систематически выводили причинные связи в сценариях нулевой контингентности
- Выявление несогласованности стандартов причинного суждения между моделями: различные модели применяют различные стандарты причинного рассуждения, демонстрируя отсутствие согласованности
Задача оценки контингентности — классическая парадигма в когнитивной науке для оценки причинного обучения:
- Входные данные: серия испытаний, каждое содержит потенциальную причину (присутствует/отсутствует) и результат (произошел/не произошел)
- Выходные данные: оценка валидности потенциальной причины (0-100 баллов, где 0 означает неэффективность, 100 означает полную эффективность)
- Условие нулевой контингентности: вероятность результата не зависит от наличия причины
- Типы переменных (4 категории, всего 100 пар переменных):
- Вымышленные названия болезней и лечения (например, "Glimber medicine" и "Drizzlemorn disorder")
- Неопределенные переменные (например, "Disease X" и "Medicine Y")
- Альтернативная и псевдомедицинская переменная (например, "Acupuncture Process")
- Проверенные научные препараты (например, "Paracetamol")
- Генерация сценариев:
- 1000 сценариев нулевой контингентности
- 20-100 испытаний на сценарий
- Распределение 80/20 для обеспечения нулевой контингентности
- Параметры температуры:
- Эксперимент 1: температура=1, 10 повторений на сценарий
- Эксперимент 2: температура=0 (детерминированный режим)
- Эксперимент 3: параметры температуры по умолчанию
- Оцениваемые модели:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- Адаптация задачи: преобразование последовательного представления человеческих когнитивных экспериментов в формат списка на естественном языке
- Установка ролей: использование ролевого моделирования (врач, исследователь) для повышения реалистичности задачи
- Контроль переменных: строгий контроль условия нулевой контингентности для обеспечения внутренней валидности эксперимента
- Масштаб: 1000 сценариев нулевой контингентности
- Количество испытаний: 20-100 испытаний на сценарий
- Пары переменных: 100 пар медицинских переменных
- Контроль распределения: распределение 80/20 для обеспечения нулевой контингентности
- Основная метрика: оценка валидности по шкале 0-100 баллов
- Статистические тесты:
- Одновыборочный тест Уилкоксона (проверка отклонения от 0)
- Тест Фридмана (сравнение различий между моделями)
- Тест Кохрана Q (сравнение вероятности нулевых ответов)
- Инженерия подсказок: разработка подсказок на основе лучших практик экспериментальной психологии
- Повторные эксперименты: использование различных параметров температуры для обеспечения надежности результатов
- Статистический анализ: применение непараметрических тестов для обработки ненормально распределенных данных
| Модель | Среднее | Медиана | Стандартное отклонение |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- Универсальное наличие причинных иллюзий: медиана всех моделей значительно превышает 0 (p < 0.001)
- Крайне низкая доля нулевых ответов:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
- Значительные различия между моделями: тест Фридмана показал значительные различия между моделями (χ² = 1516.99, p < 0.001)
Результаты эксперимента показали, что модели не проявляют значительных различий в оценке причинности для различных типов переменных (вымышленные, неопределенные, альтернативная медицина, традиционная медицина), и даже склонны давать более высокие оценки для вымышленных переменных.
При температуре=0 и параметрах температуры по умолчанию результаты эксперимента остаются последовательными, что свидетельствует о надежности выводов.
- Gao et al. (2023): оценка способности LLMs к причинному рассуждению
- Liu et al. (2023): причинное рассуждение в области кода
- Jin et al. (2024): вывод от корреляции к причинности
- Keshmirian et al. (2024): предвзятое причинное суждение в LLMs
- Carro et al. (2024): преувеличение корреляции-причинности в новостных заголовках
- Jin et al. (2022): обнаружение логических ошибок
Данное исследование является первым применением задачи оценки контингентности к LLMs, заполняя важный пробел между когнитивной наукой и оценкой ИИ.
- Универсальное наличие причинных иллюзий в LLMs: все оцениваемые модели систематически выводили причинные связи в сценариях нулевой контингентности
- Отсутствие единого стандарта причинного суждения: различные модели применяют различные критерии оценки
- Поддержка гипотезы "языкового воспроизведения": результаты подтверждают гипотезу о том, что LLMs воспроизводят причинный язык, а не действительно понимают причинные связи
- Отсутствие человеческого базового уровня: не проводились соответствующие эксперименты с людьми для сравнения
- Ограниченная внешняя валидность: хотя экспериментальный дизайн следует лучшим практикам психологии, он может не полностью представлять реальные сценарии использования
- Предвзятость оценки: LLMs могут проявлять предвзятость в отношении экстремальных значений
- Проблемы внутренней валидности: шкала оценки 0-100 может быть не оптимальным форматом для оценки ИИ
- Техники подсказок: исследование эффективности техник, таких как цепочка мышления
- Разнообразные сценарии: включение сценариев с положительной и отрицательной контингентностью
- Эффекты порядка испытаний: исследование влияния порядка представления испытаний на результаты
- Альтернативные форматы задач: использование бинарных или мультиклассовых форматов
- Высокая инновационность: первое применение классической парадигмы когнитивной науки к оценке LLMs
- Строгая методология: экспериментальный дизайн следует лучшим практикам психологии, статистический анализ всеобъемлющ
- Согласованность результатов: результаты остаются последовательными при различных параметрах температуры, повышая достоверность выводов
- Практическое значение: имеет важное предостерегающее значение для безопасности ИИ и приложений
- Ограниченный размер выборки: оценены только три модели, возможно расширение на большее количество моделей
- Ограничение по области: тестирование только в медицинской области, неизвестна обобщаемость на другие области
- Недостаточный анализ механизмов: отсутствует анализ глубинных механизмов, вызывающих предвзятость
- Отсутствие решений: не предложены конкретные методы для снижения причинных иллюзий
- Академическая ценность: предоставляет новую оценочную базу для исследования когнитивных предвзятостей ИИ
- Практическая ценность: предупреждает о необходимости осторожности при использовании LLMs в критических областях принятия решений
- Воспроизводимость: предоставляет полный код и данные для облегчения воспроизведения и расширения
Данное исследование особенно применимо к:
- Оценке безопасности ИИ: оценка когнитивных предвзятостей систем ИИ
- Приложениям медицинского ИИ: оценка рисков в системах поддержки медицинских решений
- Образованию и обучению: повышение осведомленности об ограничениях ИИ
Данное исследование ссылается на важные работы в области когнитивной науки, экспериментальной психологии и оценки ИИ, в частности на основополагающую работу Matute et al. (2015) о причинных иллюзиях и недавние исследования способности LLMs к причинному рассуждению.
Общая оценка: это высококачественная междисциплинарная исследовательская работа, успешно применившая классическую парадигму когнитивной науки к оценке ИИ, выявив важные недостатки LLMs в причинном рассуждении. Методология исследования строга, результаты имеют важное теоретическое и практическое значение, предоставляя ценные выводы для будущих исследований безопасности ИИ.