Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts
Marconato, Bortolotti, van Krieken et al.
Neuro-symbolic (NeSy) AI aims to develop deep neural networks whose predictions comply with prior knowledge encoding, e.g. safety or structural constraints. As such, it represents one of the most promising avenues for reliable and trustworthy AI. The core idea behind NeSy AI is to combine neural and symbolic steps: neural networks are typically responsible for mapping low-level inputs into high-level symbolic concepts, while symbolic reasoning infers predictions compatible with the extracted concepts and the prior knowledge. Despite their promise, it was recently shown that - whenever the concepts are not supervised directly - NeSy models can be affected by Reasoning Shortcuts (RSs). That is, they can achieve high label accuracy by grounding the concepts incorrectly. RSs can compromise the interpretability of the model's explanations, performance in out-of-distribution scenarios, and therefore reliability. At the same time, RSs are difficult to detect and prevent unless concept supervision is available, which is typically not the case. However, the literature on RSs is scattered, making it difficult for researchers and practitioners to understand and tackle this challenging problem. This overview addresses this issue by providing a gentle introduction to RSs, discussing their causes and consequences in intuitive terms. It also reviews and elucidates existing theoretical characterizations of this phenomenon. Finally, it details methods for dealing with RSs, including mitigation and awareness strategies, and maps their benefits and limitations. By reformulating advanced material in a digestible form, this overview aims to provide a unifying perspective on RSs to lower the bar to entry for tackling them. Ultimately, we hope this overview contributes to the development of reliable NeSy and trustworthy AI models.
academic
L'Ancrage Symbolique dans l'IA Neuro-Symbolique : Une Introduction Douce aux Raccourcis de Raisonnement
Titre : Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts
Auteurs : Emanuele Marconato, Samuele Bortolotti, Emile van Krieken, Paolo Morettin, Elena Umili, Antonio Vergari, Efthymia Tsamoura, Andrea Passerini, Stefano Teso
Classification : cs.AI cs.LG
Date de publication : 17 octobre 2025 (prépublication)
L'IA neuro-symbolique (NeSy) vise à développer des réseaux de neurones profonds dont les prédictions sont conformes aux connaissances préalables codifiées (telles que les contraintes de sécurité ou structurelles), représentant l'une des voies les plus prometteuses vers une IA fiable et digne de confiance. L'idée centrale de l'IA NeSy est de combiner les étapes neurales et symboliques : les réseaux de neurones sont responsables de la cartographie des entrées de bas niveau vers les concepts symboliques de haut niveau, tandis que le raisonnement symbolique déduit et extrait les prédictions compatibles avec les concepts et les connaissances préalables. Malgré ses perspectives prometteuses, des recherches récentes montrent que lorsque les concepts ne disposent pas d'une supervision directe, les modèles NeSy peuvent être affectés par des raccourcis de raisonnement (Reasoning Shortcuts, RSs). C'est-à-dire qu'ils peuvent atteindre une haute précision d'étiquetage en fondant incorrectement les concepts. Les RSs peuvent compromettre l'interprétabilité des explications du modèle, les performances dans les scénarios hors distribution, affectant ainsi la fiabilité. Simultanément, à moins qu'il n'y ait une supervision conceptuelle (généralement indisponible), les RSs sont difficiles à détecter et à prévenir.
Le problème fondamental que cette recherche vise à résoudre est l'échec de l'ancrage symbolique (Symbol Grounding) dans l'IA neuro-symbolique, se manifestant spécifiquement par le phénomène des raccourcis de raisonnement (Reasoning Shortcuts).
Crise d'interprétabilité : Bien que les modèles NeSy promettent des processus de décision interprétables, les RSs font que les concepts appris ne correspondent pas à la sémantique attendue, compromettant gravement la crédibilité des explications
Capacité de généralisation limitée : Une fondation conceptuelle incorrecte entraîne une mauvaise performance du modèle dans les scénarios hors distribution, limitant la valeur pratique
Risques de sécurité : Dans les applications à haut risque (comme la conduite autonome), les RSs peuvent entraîner des conséquences catastrophiques
Littérature fragmentée : La recherche sur les RSs est dispersée dans différents articles, manquant d'un cadre théorique unifié
Difficultés de détection : Les RSs n'affectent pas la précision des étiquettes sur l'ensemble d'entraînement, les méthodes d'évaluation traditionnelles ne peuvent pas les découvrir
Stratégies d'atténuation limitées : Les méthodes d'atténuation existantes nécessitent soit une annotation conceptuelle importante, soit manquent de garanties théoriques
L'article vise à fournir une perspective unifiée du problème des RSs, à réduire les barrières à l'entrée dans ce domaine et à promouvoir le développement de modèles NeSy fiables.
Cadre théorique unifié : Intégration systématique pour la première fois de la littérature dispersée liée aux RSs, fournissant une perspective théorique unifiée
Formalisation mathématique : Caractérisation mathématique rigoureuse des RSs sous les angles de l'identifiabilité et de l'apprentissage statistique
Taxonomie complète : Classification et analyse comparative systématiques des stratégies existantes d'atténuation et de perception des RSs
Discussion étendue : Exploration de la manifestation et des défis des RSs dans les domaines émergents tels que l'apprentissage par renforcement et les modèles fondamentaux
Orientation pratique : Fourniture de méthodes et d'outils pratiques pour le diagnostic, la prévention et la gestion des RSs
Prédicteurs Neuro-Symboliques (NeSy Predictors) : Étant donné l'espace d'entrée X, l'espace conceptuel C, l'espace d'étiquettes Y et les connaissances préalables K, un prédicteur NeSy apprend une cartographie garantissant que les résultats de prédiction sont à la fois précis et conformes aux contraintes de connaissance.
Décrivant comment les concepts de vérité terrain sont cartographiés vers les concepts appris.
Raccourci de Raisonnement : Lorsqu'un prédicteur NeSy atteint la vraisemblance maximale mais que le remappage conceptuel αf ≠ id (cartographie identité), il existe un raccourci de raisonnement.
Théorème 4.4 : Un prédicteur NeSy atteint la vraisemblance maximale si et seulement si :
(β ∘ f)(X) = (β* ∘ f*)(X)
Corollaire 4.5 (Non-identifiabilité) : Lorsque la couche de raisonnement β* n'est pas injective, il existe plusieurs extracteurs de concepts f ≠ f* atteignant également la vraisemblance optimale.
Théorème 4.10 (Comptage des RSs Déterministes) : Le nombre de raccourcis de raisonnement déterministes est :
Théorème 4.15 (Risque RSs Non-borné) : Lorsque KC(K; p*) < |C|-1, il existe un extracteur de concepts tel que le risque d'étiquette soit 0 mais le risque conceptuel tend vers l'infini.
Dans l'apprentissage par renforcement neuro-symbolique, les RSs se manifestent par un renommage conceptuel, n'affectant pas les performances de tâche unique mais compromettant la généralisation multitâche.
Les grands modèles de langage peuvent présenter des phénomènes d'« hallucination symbolique » similaires aux RSs dans NeSy, nécessitant une extension du cadre théorique existant.
Lorsque la couche de raisonnement doit également être apprise, des raccourcis de raisonnement conjoints (Joint RSs) apparaissent, rendant le problème plus complexe.
Les RSs constituent un défi fondamental dans l'IA NeSy, découlant du problème d'ancrage symbolique
L'analyse théorique indique que les RSs sont généralement inévitables
Les stratégies d'atténuation existantes présentent chacune des avantages et des inconvénients, nécessitant une sélection adaptée au contexte d'application
L'article cite un grand nombre de travaux connexes, incluant principalement :
Recherche théorique fondamentale en IA neuro-symbolique
Modèles de goulot d'étranglement conceptuel et IA interprétable
Apprentissage de représentation causale et théorie d'identifiabilité
Recherche en sciences cognitives sur le problème d'ancrage symbolique
Cet article fournit une analyse complète et approfondie du problème d'ancrage symbolique dans l'IA neuro-symbolique, possédant une valeur importante pour la compréhension et la résolution des problèmes de fiabilité des modèles NeSy. Bien qu'il s'agisse principalement d'un travail de synthèse, ses contributions théoriques et sa signification directrice pratique sont remarquables.