2025-11-14T13:10:11.333946

Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts

Marconato, Bortolotti, van Krieken et al.

Neuro-symbolic (NeSy) AI aims to develop deep neural networks whose predictions comply with prior knowledge encoding, e.g. safety or structural constraints. As such, it represents one of the most promising avenues for reliable and trustworthy AI. The core idea behind NeSy AI is to combine neural and symbolic steps: neural networks are typically responsible for mapping low-level inputs into high-level symbolic concepts, while symbolic reasoning infers predictions compatible with the extracted concepts and the prior knowledge. Despite their promise, it was recently shown that - whenever the concepts are not supervised directly - NeSy models can be affected by Reasoning Shortcuts (RSs). That is, they can achieve high label accuracy by grounding the concepts incorrectly. RSs can compromise the interpretability of the model's explanations, performance in out-of-distribution scenarios, and therefore reliability. At the same time, RSs are difficult to detect and prevent unless concept supervision is available, which is typically not the case. However, the literature on RSs is scattered, making it difficult for researchers and practitioners to understand and tackle this challenging problem. This overview addresses this issue by providing a gentle introduction to RSs, discussing their causes and consequences in intuitive terms. It also reviews and elucidates existing theoretical characterizations of this phenomenon. Finally, it details methods for dealing with RSs, including mitigation and awareness strategies, and maps their benefits and limitations. By reformulating advanced material in a digestible form, this overview aims to provide a unifying perspective on RSs to lower the bar to entry for tackling them. Ultimately, we hope this overview contributes to the development of reliable NeSy and trustworthy AI models.

academic

Символическое обоснование в нейро-символическом ИИ: Мягкое введение в ярлыки рассуждений

Основная информация

ID статьи: 2510.14538
Название: Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts
Авторы: Emanuele Marconato, Samuele Bortolotti, Emile van Krieken, Paolo Morettin, Elena Umili, Antonio Vergari, Efthymia Tsamoura, Andrea Passerini, Stefano Teso
Классификация: cs.AI cs.LG
Дата публикации: 17 октября 2025 г. (препринт)
Ссылка на статью: https://arxiv.org/abs/2510.14538

Аннотация

Нейро-символический (NeSy) ИИ направлен на разработку глубоких нейронных сетей, предсказания которых соответствуют априорным знаниям (таким как ограничения безопасности или структурные ограничения), что представляет один из наиболее перспективных путей развития надежного и доверительного ИИ. Основная идея NeSy ИИ заключается в объединении нейронных и символических этапов: нейронные сети отвечают за отображение низкоуровневых входных данных в высокоуровневые символические концепции, тогда как символическое рассуждение выводит предсказания, совместимые с концепциями и априорными знаниями. Несмотря на многообещающие перспективы, недавние исследования показали, что когда концепции не имеют прямого контроля, модели NeSy могут страдать от ярлыков рассуждений (Reasoning Shortcuts, RS). То есть они могут достичь высокой точности метки посредством неправильного обоснования концепций. RS могут нарушить интерпретируемость объяснений модели и производительность в сценариях вне распределения, тем самым влияя на надежность. Одновременно RS трудно обнаружить и предотвратить, если нет контроля концепций (который обычно недоступен).

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает это исследование, — это отказ символического обоснования (Symbol Grounding) в нейро-символическом ИИ, конкретно проявляющийся в феномене ярлыков рассуждений (Reasoning Shortcuts).

Важность проблемы

Кризис интерпретируемости: Хотя модели NeSy обещают обеспечить интерпретируемый процесс принятия решений, RS приводят к несоответствию между изученными концепциями и ожидаемой семантикой, серьезно влияя на достоверность объяснений
Ограниченная способность к обобщению: Неправильное обоснование концепций приводит к плохой производительности модели в сценариях вне распределения, ограничивая практическую ценность
Скрытые угрозы безопасности: В высокорисковых приложениях (таких как автономное вождение) RS могут привести к катастрофическим последствиям

Ограничения существующих методов

Разрозненная литература: Исследования RS разбросаны по различным статьям, отсутствует единая теоретическая база
Трудность обнаружения: RS не влияют на точность метки на обучающем наборе, традиционные методы оценки трудно их обнаружить
Ограниченные стратегии смягчения: Существующие методы либо требуют большого количества аннотаций концепций, либо лишены теоретических гарантий

Исследовательская мотивация

Статья направлена на предоставление единого взгляда на проблему RS, снижение барьера входа в эту область и содействие разработке надежных моделей NeSy ИИ.

Основные вклады

Единая теоретическая база: Впервые систематически интегрирована разрозненная литература по RS, предоставлена единая теоретическая перспектива
Математическая формализация: Строгое математическое описание RS с точек зрения идентифицируемости (identifiability) и статистического обучения
Комплексная классификация: Систематическая классификация и сравнительный анализ существующих стратегий смягчения и восприятия RS
Расширенное обсуждение: Исследование проявления и вызовов RS в новых областях, таких как обучение с подкреплением и базовые модели
Практическое руководство: Предоставление практических методов и инструментов для диагностики, профилактики и обработки RS

Подробное описание методов

Определение задачи

Нейро-символические предсказатели (NeSy Predictors): Учитывая пространство входных данных X, пространство концепций C, пространство меток Y и априорные знания K, предсказатель NeSy изучает отображение, которое обеспечивает как точность предсказаний, так и соответствие ограничениям знаний.

Основная архитектура

Предсказатель NeSy состоит из двух основных компонентов:

Экстрактор концепций: Нейронная сеть f: X → ΔC, отображающая входные данные в распределение концепций
Слой рассуждений: Символическое рассуждение β: ΔC → ΔY, выводящее метки на основе концепций и знаний K

Четыре основные архитектуры

1. Вероятностные нейро-символические предсказатели (PNSPs)

p(y|x;K) = (1/Zx) ∑c 1{(c,y) |= K} p(c|x)

Реализация рассуждений через вероятностную логику, обеспечивающая соответствие предсказаний ограничениям знаний.

2. Семантическая потеря (Semantic Loss)

SL(pθ, (x,y), K) = -log ∑c 1{(c,y) |= K} pθ(c|x)

Преобразование знаний в дифференцируемые штрафные члены, обеспечивающие согласованность во время обучения.

3. Логические тензорные сети (LTN)

Использование нечеткой логики для преобразования булевых знаний в вещественнозначные функции:

L(p,D,K) = 1 - (1/|D|) ∑(x,y)∈D TK(p(C|x), 1{Y=y})

4. Абдуктивное обучение (ABL)

Генерация псевдометок через логическую абдукцию:

ĉ = argmin d(c̄, c') s.t. (c',y) |= K

Формальное определение ярлыков рассуждений

Распределение переотображения концепций:

αf(g) := Ex∼p*(X|g)[f(x)]

Описывает, как истинные концепции отображаются в изученные концепции.

Ярлыки рассуждений: Когда предсказатель NeSy достигает оптимального правдоподобия, но отображение концепций αf ≠ id (тождественное отображение), существуют ярлыки рассуждений.

Теоретический анализ

Перспектива идентифицируемости

Теорема 4.4: Предсказатель NeSy достигает максимального правдоподобия тогда и только тогда, когда:

(β ∘ f)(X) = (β* ∘ f*)(X)

Следствие 4.5 (Неидентифицируемость): Когда слой рассуждений β* не является инъективным, существуют множественные экстракторы концепций f ≠ f*, которые также достигают оптимального правдоподобия.

Теорема 4.10 (Подсчет детерминированных RS): Количество детерминированных ярлыков рассуждений равно:

∑α∈Vert(AF) 1{∧g∈supp(G)(β* ∘ α)(g) = β*(g)} - 1

Перспектива статистического обучения

Сложность знаний:

KC(K; p*) := Ey∼p*(Y)[∑c∈C 1{(c,y) ≠|= K}]

Теорема 4.15 (Неограниченный риск RS): Когда KC(K; p*) < |C|-1, существуют экстракторы концепций, при которых риск метки равен нулю, но риск концепции стремится к бесконечности.

Анализ стратегий смягчения

Контролируемые стратегии

Контроль концепций: Прямое предоставление аннотаций концепций, наиболее эффективно, но дорого
Многозадачное обучение: Совместное обучение нескольких задач NeSy для усиления ограничений знаний

Неконтролируемые стратегии

Обучение реконструкции: Предотвращение коллапса концепций через потери реконструкции
Контрастивное обучение: Поощрение одинаковых концепций для похожих входных данных
Максимизация энтропии: Содействие равномерности распределения концепций
Развязывание архитектуры: Независимая обработка концепций различных объектов

Стратегии восприятия

BEARS: Построение моделей, чувствительных к RS, через ансамблевое обучение
NeSyDM: Использование диффузионных моделей для преодоления предположения независимости

Экспериментальная проверка

Эталонные наборы данных

MNIST-Add: Задача сложения цифр
BDD-OIA: Сценарии автономного вождения
Kandinsky: Абстрактное визуальное рассуждение

Основные выводы

Повсеместность RS: Феномен RS наблюдается на нескольких эталонных наборах данных
Различия в эффективности смягчения: Контроль концепций наиболее эффективен, неконтролируемые методы имеют ограниченную эффективность
Независимость от архитектуры: Различные архитектуры NeSy подвержены влиянию RS

Инструменты диагностики

Инструмент countrss: Оценка количества RS через подсчет моделей
Метрика коллапса концепций: Количественная оценка деградации качества концепций

Расширенные приложения

RS в обучении с подкреплением

В нейро-символическом обучении с подкреплением RS проявляются как переименование концепций, не влияя на производительность одной задачи, но нарушая способность к обобщению на несколько задач.

RS в базовых моделях

Большие языковые модели могут демонстрировать феномен "символических галлюцинаций", аналогичный RS в NeSy, но требующий расширения существующей теоретической базы.

Совместные RS в моделях концептуальных узких мест

Когда слой рассуждений также требует обучения, возникают совместные ярлыки рассуждений (Joint RS), усложняя проблему.

Заключение и обсуждение

Основные выводы

RS — это фундаментальная проблема в NeSy ИИ, вытекающая из проблемы символического обоснования
Теоретический анализ показывает, что RS в общем случае неизбежны
Существующие стратегии смягчения имеют свои преимущества и недостатки, требуя выбора в зависимости от сценария применения

Ограничения

Теоретические предположения: Некоторые теоретические результаты основаны на более строгих условиях предположений
Разрыв практичности: Существует разрыв между теоретическими гарантиями и практическим применением
Вычислительная сложность: Обнаружение и смягчение RS имеют высокие вычислительные затраты

Будущие направления

Более сильные стратегии смягчения: Разработка методов, сочетающих теоретические гарантии и практичность
Автоматическое построение задач: Автоматическое создание многозадачных установок обучения, помогающих устранить RS
Крупномасштабные эталоны: Построение более сложных эталонов NeSy на основе реальных данных

Глубокая оценка

Преимущества

Теоретическая глубина: Предоставляет строгое математическое описание и теоретический анализ проблемы RS
Комплексность: Систематически интегрирует разрозненные исследования, формируя единую базу
Практическая ценность: Предоставляет конкретные инструменты диагностики и стратегии смягчения
Перспективность: Обсуждает перспективы применения в новых технологиях ИИ

Недостатки

Ограниченные эксперименты: Сосредоточены в основном на относительно простых эталонных наборах данных
Инновация методов: В большей степени обзорная работа, ограниченный вклад оригинальных методов
Практичность: Преобразование теоретических результатов в практическое применение требует дальнейших исследований

Влияние

Академическая ценность: Предоставляет важную теоретическую базу для исследований NeSy ИИ
Практическое значение: Имеет руководящую ценность для построения надежных систем ИИ
Продвижение области: Способствует развитию символического обоснования и объяснимого ИИ

Применимые сценарии

Это исследование особенно применимо к:

Приложениям ИИ, требующим высокой интерпретируемости
Развертыванию ИИ в системах, критичных по безопасности
Сценариям, объединяющим символическое рассуждение и нейронные сети
Задачам обучения концепциям и интеграции знаний

Библиография

Статья цитирует большое количество связанных работ, включая:

Фундаментальные теоретические исследования нейро-символического ИИ
Модели концептуальных узких мест и объяснимый ИИ
Причинное представление обучения и теория идентифицируемости
Исследования символического обоснования в когнитивной науке

Эта статья предоставляет комплексный и глубокий анализ проблемы символического обоснования в нейро-символическом ИИ, имеющий важное значение для понимания и решения проблем надежности моделей NeSy. Хотя это в основном обзорная работа, ее теоретический вклад и практическое руководство весьма значительны.