2025-11-14T13:10:11.333946

Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts

Marconato, Bortolotti, van Krieken et al.

Neuro-symbolic (NeSy) AI aims to develop deep neural networks whose predictions comply with prior knowledge encoding, e.g. safety or structural constraints. As such, it represents one of the most promising avenues for reliable and trustworthy AI. The core idea behind NeSy AI is to combine neural and symbolic steps: neural networks are typically responsible for mapping low-level inputs into high-level symbolic concepts, while symbolic reasoning infers predictions compatible with the extracted concepts and the prior knowledge. Despite their promise, it was recently shown that - whenever the concepts are not supervised directly - NeSy models can be affected by Reasoning Shortcuts (RSs). That is, they can achieve high label accuracy by grounding the concepts incorrectly. RSs can compromise the interpretability of the model's explanations, performance in out-of-distribution scenarios, and therefore reliability. At the same time, RSs are difficult to detect and prevent unless concept supervision is available, which is typically not the case. However, the literature on RSs is scattered, making it difficult for researchers and practitioners to understand and tackle this challenging problem. This overview addresses this issue by providing a gentle introduction to RSs, discussing their causes and consequences in intuitive terms. It also reviews and elucidates existing theoretical characterizations of this phenomenon. Finally, it details methods for dealing with RSs, including mitigation and awareness strategies, and maps their benefits and limitations. By reformulating advanced material in a digestible form, this overview aims to provide a unifying perspective on RSs to lower the bar to entry for tackling them. Ultimately, we hope this overview contributes to the development of reliable NeSy and trustworthy AI models.

academic

Symbolgründung in Neuro-Symbolischer KI: Eine sanfte Einführung in Reasoning Shortcuts

Grundlegende Informationen

Papier-ID: 2510.14538
Titel: Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts
Autoren: Emanuele Marconato, Samuele Bortolotti, Emile van Krieken, Paolo Morettin, Elena Umili, Antonio Vergari, Efthymia Tsamoura, Andrea Passerini, Stefano Teso
Klassifizierung: cs.AI cs.LG
Veröffentlichungsdatum: 17. Oktober 2025 (Preprint)
Papierlink: https://arxiv.org/abs/2510.14538

Zusammenfassung

Neuro-Symbolische (NeSy) KI zielt darauf ab, tiefe neuronale Netze zu entwickeln, deren Vorhersageergebnisse mit kodiertem Vorwissen (wie Sicherheits- oder Strukturbeschränkungen) übereinstimmen und stellt einen der vielversprechendsten Wege zu zuverlässiger und vertrauenswürdiger KI dar. Die Kernidee der NeSy-KI besteht darin, neuronale und symbolische Schritte zu kombinieren: Neuronale Netze sind für die Abbildung von Eingaben auf niedriger Ebene auf hochwertige symbolische Konzepte verantwortlich, während symbolisches Schlussfolgern Vorhersagen ableitet und extrahiert, die mit Konzepten und Vorwissen kompatibel sind. Trotz großer Aussichten zeigen neuere Forschungen, dass NeSy-Modelle durch Reasoning Shortcuts (RSs) beeinträchtigt werden können, wenn Konzepte nicht direkt überwacht werden. Das heißt, sie können hohe Labelgenauigkeit durch fehlerhafte Konzeptgründung erreichen. RSs können die Interpretierbarkeit von Modellerklärungen schädigen, die Leistung in außerverteilten Szenarien beeinträchtigen und damit die Zuverlässigkeit gefährden. Gleichzeitig sind RSs schwer zu erkennen und zu verhindern, es sei denn, es gibt Konzeptüberwachung (die normalerweise nicht verfügbar ist).

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Versagen der Symbolgründung (Symbol Grounding) in der neuro-symbolischen KI, konkret manifestiert als das Phänomen der Reasoning Shortcuts (RSs).

Bedeutung des Problems

Interpretierungskrise: Obwohl NeSy-Modelle interpretierbare Entscheidungsprozesse versprechen, führen RSs dazu, dass gelernte Konzepte nicht mit erwarteter Semantik übereinstimmen, was die Glaubwürdigkeit von Erklärungen ernsthaft beeinträchtigt
Begrenzte Verallgemeinerungsfähigkeit: Fehlerhafte Konzeptgründung führt zu schlechter Modellleistung in außerverteilten Szenarien und begrenzt den praktischen Anwendungswert
Sicherheitsrisiken: In hochriskanten Anwendungsszenarien (wie autonomes Fahren) können RSs zu katastrophalen Folgen führen

Einschränkungen bestehender Methoden

Verstreute Literatur: Forschung zu RSs ist über verschiedene Arbeiten verteilt, es fehlt ein einheitlicher theoretischer Rahmen
Erkennungsschwierigkeiten: RSs beeinflussen die Labelgenauigkeit im Trainingssatz nicht, traditionelle Bewertungsmethoden können sie schwer entdecken
Begrenzte Abschwächungsstrategien: Bestehende Abschwächungsmethoden erfordern entweder umfangreiche Konzeptannotationen oder ermangeln theoretischer Garantien

Forschungsmotivation

Das Papier zielt darauf ab, eine einheitliche Perspektive auf das RS-Problem zu bieten, die Einstiegshürde in diesem Bereich zu senken und die Entwicklung zuverlässiger NeSy-KI-Modelle zu fördern.

Kernbeiträge

Einheitlicher theoretischer Rahmen: Systematische Integration der verstreuten Literatur zu RSs mit einheitlicher theoretischer Perspektive
Mathematische Formalisierung: Strenge mathematische Charakterisierung von RSs aus den Perspektiven Identifizierbarkeit und statistisches Lernen
Umfassende Taxonomie: Systematische Klassifizierung und vergleichende Analyse bestehender RS-Abschwächungs- und Wahrnehmungsstrategien
Erweiterte Diskussion: Untersuchung der Manifestation und Herausforderungen von RSs in aufstrebenden Bereichen wie Reinforcement Learning und Grundmodellen
Praktische Anleitung: Bereitstellung praktischer Methoden und Werkzeuge zur RS-Diagnose, -Prävention und -Behandlung

Methodische Details

Aufgabendefinition

Neuro-Symbolische Prädiktoren (NeSy Predictors): Gegeben ein Eingaberaum X, Konzeptraum C, Labelraum Y und Vorwissen K, lernt ein NeSy-Prädiktor eine Abbildung, die Vorhersageergebnisse sowohl genau als auch konform mit Wissensbeschränkungen macht.

Kernarchitektur

NeSy-Prädiktoren bestehen aus zwei Hauptkomponenten:

Konzeptextraktor: Neuronales Netz f: X → ΔC, das Eingaben auf Konzeptverteilungen abbildet
Inferenzschicht: Symbolisches Schlussfolgern β: ΔC → ΔY, das Labels basierend auf Konzepten und Wissen K ableitet

Vier Hauptarchitekturen

1. Probabilistische Neuro-Symbolische Prädiktoren (PNSPs)

p(y|x;K) = (1/Zx) ∑c 1{(c,y) |= K} p(c|x)

Implementiert Schlussfolgern durch probabilistische Logik und stellt sicher, dass Vorhersagen Wissensbeschränkungen erfüllen.

2. Semantischer Verlust (Semantic Loss)

SL(pθ, (x,y), K) = -log ∑c 1{(c,y) |= K} pθ(c|x)

Konvertiert Wissen in differenzierbare Strafterme und erzwingt während des Trainings Konsistenz.

3. Logische Tensornetzwerke (LTN)

Verwendet Fuzzy-Logik zur Konvertierung von booleschen Wissen in reellwertige Funktionen:

L(p,D,K) = 1 - (1/|D|) ∑(x,y)∈D TK(p(C|x), 1{Y=y})

4. Abduktives Lernen (ABL)

Generiert Pseudo-Labels durch logische Abduktion:

ĉ = argmin d(c̄, c') s.t. (c',y) |= K

Formale Definition von Reasoning Shortcuts

Konzept-Remapping-Verteilung:

αf(g) := Ex∼p*(X|g)[f(x)]

Beschreibt, wie Grund-Wahrheits-Konzepte auf gelernte Konzepte abgebildet werden.

Reasoning Shortcut: Wenn ein NeSy-Prädiktor optimale Wahrscheinlichkeit erreicht, aber die Konzeptabbildung αf ≠ id (Identitätsabbildung), existiert ein Reasoning Shortcut.

Theoretische Analyse

Identifizierungsperspektive

Satz 4.4: Ein NeSy-Prädiktor erreicht maximale Wahrscheinlichkeit dann und nur dann, wenn:

(β ∘ f)(X) = (β* ∘ f*)(X)

Korollar 4.5 (Nicht-Identifizierbarkeit): Wenn die Inferenzschicht β* nicht injektiv ist, existieren mehrere Konzepttextraktoren f ≠ f*, die gleichermaßen optimale Wahrscheinlichkeit erreichen.

Satz 4.10 (Zählung deterministischer RSs): Die Anzahl deterministischer Reasoning Shortcuts ist:

∑α∈Vert(AF) 1{∧g∈supp(G)(β* ∘ α)(g) = β*(g)} - 1

Statistisches Lernperspektive

Wissenskomplexität:

KC(K; p*) := Ey∼p*(Y)[∑c∈C 1{(c,y) ≠|= K}]

Satz 4.15 (Unbegrenztes RS-Risiko): Wenn KC(K; p*) < |C|-1, existiert ein Konzeptextraktor mit Labelrisiko 0, aber Konzeptrisiko tendiert zu unendlich.

Analyse von Abschwächungsstrategien

Überwachte Strategien

Konzeptüberwachung: Direkte Bereitstellung von Konzeptannotationen mit bester Wirkung, aber hohen Kosten
Multi-Task-Lernen: Verstärkt Wissensbeschränkungen durch gemeinsames Training mehrerer NeSy-Aufgaben

Unüberwachte Strategien

Rekonstruktionslernen: Verhindert Konzeptverfall durch Rekonstruktionsverlust
Kontrastives Lernen: Fördert identische Konzepte für ähnliche Eingaben
Entropie-Maximierung: Fördert Gleichmäßigkeit der Konzeptverteilung
Architektur-Entkopplung: Unabhängige Verarbeitung von Konzepten verschiedener Objekte

Wahrnehmungsstrategien

BEARS: Konstruiert RS-bewusste Modelle durch Ensemble-Lernen
NeSyDM: Nutzt Diffusionsmodelle zur Überwindung von Unabhängigkeitsannahmen

Experimentelle Validierung

Benchmark-Datensätze

MNIST-Add: Digitale Additionsaufgabe
BDD-OIA: Szenen des autonomen Fahrens
Kandinsky: Abstrakte visuelle Schlussfolgerung

Hauptergebnisse

Universelle Existenz von RSs: RSs-Phänomene werden auf mehreren Benchmark-Datensätzen beobachtet
Unterschiedliche Abschwächungseffekte: Konzeptüberwachung ist am wirksamsten, unüberwachte Methoden zeigen begrenzte Wirkung
Architektur-Unabhängigkeit: Verschiedene NeSy-Architekturen sind alle von RSs betroffen

Diagnosewerkzeuge

countrss-Werkzeug: Schätzt RS-Anzahl durch Modellzählung
Konzeptverfall-Metriken: Quantifiziert Konzeptqualitätsverschlechterung

Erweiterte Anwendungen

RSs im Reinforcement Learning

In neuro-symbolischem Reinforcement Learning manifestieren sich RSs als Konzept-Umbenennung, beeinträchtigen zwar nicht die Einzelaufgaben-Leistung, schädigen aber die Multi-Task-Verallgemeinerung.

RSs in Grundmodellen

Große Sprachmodelle können "Symbol-Halluzinationen" zeigen, ähnlich RSs in NeSy, erfordern aber Erweiterung bestehender theoretischer Rahmen.

Gemeinsame RSs in Konzeptflaschenhalsen

Wenn die Inferenzschicht ebenfalls gelernt werden muss, entstehen gemeinsame Reasoning Shortcuts (Joint RSs), was das Problem komplexer macht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RSs sind eine grundlegende Herausforderung in der NeSy-KI, die aus Symbolgründungsproblemen stammt
Theoretische Analysen zeigen, dass RSs in allgemeinen Fällen unvermeidbar sind
Bestehende Abschwächungsstrategien haben jeweils Vor- und Nachteile und müssen je nach Anwendungsszenario ausgewählt werden

Einschränkungen

Theoretische Annahmen: Einige theoretische Ergebnisse basieren auf relativ starken Annahmebedingungen
Praktische Lücke: Unterschied zwischen theoretischen Garantien und praktischer Anwendung
Rechenkomplexität: Hohe Rechenkosten für RS-Erkennung und -Abschwächung

Zukünftige Richtungen

Stärkere Abschwächungsstrategien: Entwicklung von Methoden mit theoretischen Garantien und praktischer Anwendbarkeit
Automatische Aufgabenkonstruktion: Automatische Generierung von Multi-Task-Learning-Einstellungen zur Beseitigung von RSs
Großflächige Benchmarks: Konstruktion anspruchsvollerer realer NeSy-Datensätze

Tiefgreifende Bewertung

Stärken

Theoretische Tiefe: Bietet strenge mathematische Charakterisierung und theoretische Analyse des RS-Problems
Umfassendheit: Systematische Integration verstreuter verwandter Forschung in einen einheitlichen Rahmen
Praktischer Wert: Bereitstellung konkreter Diagnosewerkzeuge und Abschwächungsstrategien
Zukunftsorientierung: Diskussion von Anwendungsaussichten in aufstrebenden KI-Technologien

Mängel

Begrenzte Experimente: Konzentriert sich hauptsächlich auf relativ einfache Benchmark-Datensätze
Methodische Innovation: Mehr Übersichtsarbeit, begrenzte Originalmethodenbeiträge
Praktische Anwendbarkeit: Umwandlung theoretischer Ergebnisse in praktische Anwendung erfordert weitere Forschung

Einflussfähigkeit

Akademischer Wert: Bietet wichtige theoretische Grundlagen für NeSy-KI-Forschung
Praktische Bedeutung: Bietet Orientierung für den Aufbau zuverlässiger KI-Systeme
Feldförderung: Wahrscheinlich zur Förderung der Entwicklung von Symbolgründung und erklärbarer KI

Anwendbare Szenarien

Diese Forschung ist besonders geeignet für:

KI-Anwendungen, die hohe Interpretierbarkeit erfordern
KI-Einsatz in sicherheitskritischen Systemen
Szenarien, die symbolisches Schlussfolgern und neuronale Netze kombinieren
Konzeptlern- und Wissensintegrationaufgaben

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Grundlagenforschung zur neuro-symbolischen KI-Theorie
Konzeptflaschenhalse und erklärbare KI
Kausale Repräsentationslernens und Identifizierbarkeitstheorie
Kognitionswissenschaftliche Forschung zum Symbolgründungsproblem

Dieses Papier bietet eine umfassende und tiefgreifende Analyse des Symbolgründungsproblems in der neuro-symbolischen KI und hat wichtigen Wert für das Verständnis und die Lösung von Zuverlässigkeitsproblemen in NeSy-Modellen. Obwohl es sich hauptsächlich um eine Übersichtsarbeit handelt, sind seine theoretischen Beiträge und praktischen Orientierungswerte erheblich.