Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.
- ID статьи: 2506.15732
- Название: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
- Авторы: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
- Классификация: cs.AI cs.LG
- Дата публикации/конференция: ICLR 2026
- Ссылка на статью: https://arxiv.org/abs/2506.15732v2
Большие языковые модели (LLMs) содержат богатые мировые знания в своих параметрах и демонстрируют отличные результаты на многих задачах, требующих знаний. Однако при развертывании в новых окружениях LLMs часто сталкиваются с необходимостью объединения параметризованного знания с новой или незнакомой информацией. Данное исследование изучает, способны ли LLMs объединять контекстное знание с параметризованным знанием через призму контрфактического рассуждения. На основе синтетических и реальных экспериментов с многошаговыми задачами рассуждения исследование показывает, что LLMs испытывают повсеместные трудности с контрфактическим рассуждением, часто полагаясь исключительно на параметризованное знание. Кроме того, простая постфактум дообучение с трудом внедряет способность к контрфактическому рассуждению и часто приводит к деградации сохраненного параметризованного знания. В конечном итоге, данная работа выявляет важные ограничения современных LLMs в переиспользовании параметризованного знания в новых условиях.
Основной вопрос, который решает данное исследование: способны ли современные LLMs избирательно объединять параметризованное знание с контрфактическими предпосылками в контексте для правильного ответа на многошаговые вопросы?
- Практические требования приложений: Многие сценарии реального мира требуют от LLMs объединения предварительно обученного знания с новой или гипотетической информацией, предоставляемой во время вывода
- Вызовы конфликтов знаний: Генерация с увеличением поиска (RAG) сталкивается с трудностями, когда внешние документы конфликтуют с внутренним знанием
- Приложения, критичные по безопасности: Точное условное рассуждение имеет решающее значение в интерактивных системах, конвейерах увеличения поиска и приложениях, критичных по безопасности
- Существующие многошаговые бенчмарки QA в основном оценивают способность модели вспоминать сохраненные факты или комбинировать цепочки параметризованного знания, не проверяя двойное требование
- Исследование конфликтов знаний не содержит систематического изучения контрфактического многошагового рассуждения
- Методы RAG, хотя и могут объединять внешнюю информацию, не могут обработать уникальные вызовы контрфактического рассуждения
Через конкретную задачу контрфактического рассуждения систематически изучить производительность LLMs при столкновении с конфликтами знаний, особенно требующих одновременно контекстного переопределения (Contextual Override) и избирательного поиска (Selective Retrieval).
- Бенчмарк контрфактических вопросов: Введение задач на основе синтетических графов и сценариев причинного рассуждения реального мира, разделяющих (i) усиление, (ii) добавление, (iii) противоречие и (iv) нерелевантные контекстные случаи относительно предварительно обученного графа знаний
- Эмпирический анализ: Через эксперименты с GPT-4o и другими моделями SOTA выявление двух основных режимов отказа: (a) игнорирование контекста (модель по умолчанию использует сохраненные факты) и (b) переобучение контексту (модель слепо следует подсказке)
- Анализ ловушек дообучения: Доказательство того, что простое постфактум дообучение часто приносит только маргинальные выгоды на контрфактических примерах и может снизить производительность на стандартных бенчмарках фактов путем индуцирования непредвиденных эвристик
- Практическое значение: Обсуждение последствий выводов исследования для интерактивных систем, конвейеров увеличения поиска и приложений, критичных по безопасности
Исследование определяет задачу контрфактического многошагового рассуждения, требующую от модели:
- Контекстное переопределение: Временное подавление стандартных фактов, принятие гипотетических предпосылок
- Избирательный поиск: Поиск и использование релевантных ассоциаций, сохраненных в весах, даже если некоторая информация была изменена
Пример: "Если Париж находится в Италии, в какой стране будет Эйфелева башня?"
- Требуется переопределить параметризованное знание "Париж находится во Франции"
- Требуется сохранить ассоциацию "Эйфелева башня находится в Париже"
Контекстная информация разделена на 4 сценария:
- Сценарий 1 (усиление предыдущего знания): Предоставление отношений, уже существующих в параметризованном графе знаний
- Сценарий 2 (добавление новой информации): Предоставление информации, необходимой для ответа на запрос, но отсутствующей в параметризованном графе знаний
- Сценарий 3 (противоречие предыдущему знанию): Предоставление информации, которая сильно конфликтует с существующим параметризованным знанием
- Сценарий 4 (нерелевантная информация): Предоставление информации, не связанной с запросом
В контролируемой синтетической среде графа знаний:
- Случайное создание ориентированного графа G, где вершины представляют сущности, ребра представляют отношения
- Различие между атомарными фактами (одиночные ребра) и выводимыми фактами (двухшаговые комбинации)
- Тестирование трех типов контрфактических сценариев:
- Релевантные для первого шага: контрфактические предпосылки изменяют первый шаг выводимого факта
- Релевантные для второго шага: контрфактические предпосылки изменяют связь между промежуточной сущностью и финальным ответом
- Нерелевантные контрфактические: контрфактические предпосылки полностью не связаны с многошаговым запросом
Сравнение трех стратегий:
- Стандартная: Прямой причинный запрос
- CoT: Подсказка цепочки мышления
- FT: Дообучение на контрфактических примерах с объяснениями CoT
- Эксперименты реального мира: Задачи бинарной классификации на основе причинных отношений, случайный базовый уровень 50%
- Синтетические эксперименты: Случайно сгенерированные графы знаний, содержащие атомарные и выводимые факты
- Точность (Accuracy)
- Производительность на задачах одношагового и двухшагового рассуждения
- GPT-4o (стандартная, CoT, дообученная версии)
- GPT-5 (Thinking)
- Llama 3.1 8B
- Дообучение GPT: 38,754 токена обучения, 3 эпохи, размер пакета 1, множитель скорости обучения 2
- Дообучение Llama: 5 эпох, LoRA rank 8, скорость обучения 0.0001
- Синтетические эксперименты: Использование 4 GPU NVIDIA A6000, всего 72 GPU-часа
- Сценарий 1 (усиление предыдущего): Все модели показывают отличные результаты, точность 90%-100%
- Сценарий 2 (добавление информации): Недообученные модели достигают точности 60-75%, после дообучения повышается до ~90%
- Сценарий 3 (конфликт предыдущего): Производительность падает до уровня ~50% базовой линии, дообучение приносит только маргинальные улучшения
- Сценарий 4 (нерелевантная информация): Сильная производительность, GPT-5 достигает почти идеальной точности
- Дообучение индуцирует ярлыки: Модели быстро учатся повторять сущности, показанные в контрфактических предпосылках, вместо проведения истинного рассуждения
- Трудности избирательного переопределения: Модели не могут научиться различать, когда контрфактические предпосылки релевантны
- Включение контрфактических данных во время предварительного обучения: Может улучшить производительность контрфактического рассуждения, но может повредить производительность фактических задач
Контролируемые эксперименты доказывают, что деградация производительности не вызвана изменениями формата:
- Построение задач CoT, не требующих контекстного переопределения
- Дообучение быстро адаптируется к такой задаче (100% точность на тесте)
- Указывает на то, что отказ в контрфактическом рассуждении происходит из-за сложности самой задачи, а не из-за общей катастрофической забывчивости
- Два основных режима отказа:
- Игнорирование контекста: модель по умолчанию использует сохраненные факты
- Переобучение контексту: модель слепо следует подсказке, но забывает релевантные связи
- Влияние выравнивания: Современные производственные LLMs прошли обучение выравниванию по фактичности и безопасности, что предрасполагает их полагаться на предварительно обученное параметризованное знание
- Ограничения дообучения: Простое постфактум дообучение с трудом внедряет надежную способность к контрфактическому рассуждению
- Бенчмарки, такие как HotpotQA, тестируют способность многошагового рассуждения
- Существующие работы в основном сосредоточены на многошаговом рассуждении, включающем только параметризованное знание
- Данная работа уникально изучает случаи, требующие объединения параметризованного и контекстного знания
- Методы RAG пытаются объединить параметризованную память с полученной информацией
- Существующие методы обычно не подходят для уникальных вызовов контрфактического рассуждения
- Требуется избирательное сохранение и интеграция параметризованного знания, а не полное отклонение
- Способность LLMs к причинному рассуждению является активной областью исследования
- Существующие бенчмарки (CLadder, CounterBench и др.) выявляют ограничения LLM в формальном контрфактическом рассуждении
- Данная работа заполняет пробел в понимании того, как LLMs интегрируют параметризованное знание и контрфактические предпосылки в многошаговом рассуждении
- Фундаментальные ограничения: Современные LLMs не имеют надежных механизмов для динамического изменения или расширения внутреннего графа знаний в ответ на конфликтующую или новую информацию
- Универсальность режимов отказа: Проблемы игнорирования контекста и переобучения контексту сохраняются в различных стратегиях подсказок и методах дообучения
- Ограниченная эффективность дообучения: Простые методы дообучения не могут эффективно решить проблему контрфактического рассуждения и могут повредить исходное знание
- Упрощенная установка: В синтетической среде контрфактические предпосылки выражены как статические редактирования одиночных ребер графа знаний, запросы ограничены двухшаговыми цепочками
- Недостаточная сложность: Сценарии реального мира включают взаимодействия многих предикатов, нечеткие или вероятностные отношения, многоисточниковые зашумленные доказательства
- Ограничение глубины: Не расширено на более глубокие и более зашумленные многошаговые отношения
- Новые парадигмы моделирования: Необходимо разработать новые парадигмы моделирования и обучения, которые могут динамически интегрировать сохраненное и контекстное знание без ущерба для любого из них
- Исследование механизмов: Углубленное изучение механизмов реализации избирательного переопределения знания
- Расширение сложности: Расширение анализа на более глубокие, более сложные многошаговые отношения и сценарии реального мира
- Важность проблемы: Выявление и систематическое изучение критических ограничений LLMs в сценариях конфликтов знаний
- Строгий дизайн экспериментов: Сочетание реальных и синтетических окружений обеспечивает всестороннюю аналитическую перспективу
- Проницательные выводы: Выявление двух четких режимов отказа обеспечивает важное понимание поведения LLMs
- Методологический вклад: Предложение эффективной структуры для оценки способности контрфактического рассуждения
- Отсутствие решений: В основном выявляет проблемы, но не предлагает эффективные решения
- Ограниченный диапазон моделей: Главным образом тестирует несколько моделей, не хватает более широкой оценки моделей
- Сложность задачи: Текущая установка задачи относительно проста, существует разрыв с реальными приложениями
- Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение механизмов отказа
- Академическая ценность: Предоставление важной основы для исследования интеграции знаний LLMs, потенциально вдохновляющей направления будущих исследований
- Практическое значение: Важное руководство для систем RAG и приложений, требующих динамической интеграции знаний
- Предупреждающее действие: Напоминание исследователям и практикам об ограничениях LLMs в сценариях конфликтов знаний
- Системы с увеличением поиска: Руководство по проектированию систем RAG при обработке конфликтующей информации
- Интерактивный AI: Справочная информация для диалоговых систем, требующих обработки гипотетических сценариев
- Приложения, критичные по безопасности: Требуется особая осторожность при применении в областях, требующих точного условного рассуждения
Статья цитирует важные работы в соответствующих областях, включая:
- Бенчмарки многошаговых вопросов и ответов (HotpotQA, NaturalQuestions)
- Методы обработки конфликтов знаний (RAG, REALM, DPR)
- Оценку причинного рассуждения (CLadder, CounterBench)
- Анализ механизмов LLMs (Grokking transformers и др.)
Общая оценка: Это высококачественная исследовательская статья, которая систематически выявляет и анализирует важные ограничения LLMs в контрфактическом рассуждении. Хотя она не предоставляет полные решения, она закладывает важную основу для понимания и улучшения способности LLMs к интеграции знаний, оказывая значительное содействие развитию этой области.