2025-11-14T13:10:11.333946

Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts

Marconato, Bortolotti, van Krieken et al.
Neuro-symbolic (NeSy) AI aims to develop deep neural networks whose predictions comply with prior knowledge encoding, e.g. safety or structural constraints. As such, it represents one of the most promising avenues for reliable and trustworthy AI. The core idea behind NeSy AI is to combine neural and symbolic steps: neural networks are typically responsible for mapping low-level inputs into high-level symbolic concepts, while symbolic reasoning infers predictions compatible with the extracted concepts and the prior knowledge. Despite their promise, it was recently shown that - whenever the concepts are not supervised directly - NeSy models can be affected by Reasoning Shortcuts (RSs). That is, they can achieve high label accuracy by grounding the concepts incorrectly. RSs can compromise the interpretability of the model's explanations, performance in out-of-distribution scenarios, and therefore reliability. At the same time, RSs are difficult to detect and prevent unless concept supervision is available, which is typically not the case. However, the literature on RSs is scattered, making it difficult for researchers and practitioners to understand and tackle this challenging problem. This overview addresses this issue by providing a gentle introduction to RSs, discussing their causes and consequences in intuitive terms. It also reviews and elucidates existing theoretical characterizations of this phenomenon. Finally, it details methods for dealing with RSs, including mitigation and awareness strategies, and maps their benefits and limitations. By reformulating advanced material in a digestible form, this overview aims to provide a unifying perspective on RSs to lower the bar to entry for tackling them. Ultimately, we hope this overview contributes to the development of reliable NeSy and trustworthy AI models.
academic

Symbolgründung in Neuro-Symbolischer KI: Eine sanfte Einführung in Reasoning Shortcuts

Grundlegende Informationen

  • Papier-ID: 2510.14538
  • Titel: Symbol Grounding in Neuro-Symbolic AI: A Gentle Introduction to Reasoning Shortcuts
  • Autoren: Emanuele Marconato, Samuele Bortolotti, Emile van Krieken, Paolo Morettin, Elena Umili, Antonio Vergari, Efthymia Tsamoura, Andrea Passerini, Stefano Teso
  • Klassifizierung: cs.AI cs.LG
  • Veröffentlichungsdatum: 17. Oktober 2025 (Preprint)
  • Papierlink: https://arxiv.org/abs/2510.14538

Zusammenfassung

Neuro-Symbolische (NeSy) KI zielt darauf ab, tiefe neuronale Netze zu entwickeln, deren Vorhersageergebnisse mit kodiertem Vorwissen (wie Sicherheits- oder Strukturbeschränkungen) übereinstimmen und stellt einen der vielversprechendsten Wege zu zuverlässiger und vertrauenswürdiger KI dar. Die Kernidee der NeSy-KI besteht darin, neuronale und symbolische Schritte zu kombinieren: Neuronale Netze sind für die Abbildung von Eingaben auf niedriger Ebene auf hochwertige symbolische Konzepte verantwortlich, während symbolisches Schlussfolgern Vorhersagen ableitet und extrahiert, die mit Konzepten und Vorwissen kompatibel sind. Trotz großer Aussichten zeigen neuere Forschungen, dass NeSy-Modelle durch Reasoning Shortcuts (RSs) beeinträchtigt werden können, wenn Konzepte nicht direkt überwacht werden. Das heißt, sie können hohe Labelgenauigkeit durch fehlerhafte Konzeptgründung erreichen. RSs können die Interpretierbarkeit von Modellerklärungen schädigen, die Leistung in außerverteilten Szenarien beeinträchtigen und damit die Zuverlässigkeit gefährden. Gleichzeitig sind RSs schwer zu erkennen und zu verhindern, es sei denn, es gibt Konzeptüberwachung (die normalerweise nicht verfügbar ist).

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Versagen der Symbolgründung (Symbol Grounding) in der neuro-symbolischen KI, konkret manifestiert als das Phänomen der Reasoning Shortcuts (RSs).

Bedeutung des Problems

  1. Interpretierungskrise: Obwohl NeSy-Modelle interpretierbare Entscheidungsprozesse versprechen, führen RSs dazu, dass gelernte Konzepte nicht mit erwarteter Semantik übereinstimmen, was die Glaubwürdigkeit von Erklärungen ernsthaft beeinträchtigt
  2. Begrenzte Verallgemeinerungsfähigkeit: Fehlerhafte Konzeptgründung führt zu schlechter Modellleistung in außerverteilten Szenarien und begrenzt den praktischen Anwendungswert
  3. Sicherheitsrisiken: In hochriskanten Anwendungsszenarien (wie autonomes Fahren) können RSs zu katastrophalen Folgen führen

Einschränkungen bestehender Methoden

  1. Verstreute Literatur: Forschung zu RSs ist über verschiedene Arbeiten verteilt, es fehlt ein einheitlicher theoretischer Rahmen
  2. Erkennungsschwierigkeiten: RSs beeinflussen die Labelgenauigkeit im Trainingssatz nicht, traditionelle Bewertungsmethoden können sie schwer entdecken
  3. Begrenzte Abschwächungsstrategien: Bestehende Abschwächungsmethoden erfordern entweder umfangreiche Konzeptannotationen oder ermangeln theoretischer Garantien

Forschungsmotivation

Das Papier zielt darauf ab, eine einheitliche Perspektive auf das RS-Problem zu bieten, die Einstiegshürde in diesem Bereich zu senken und die Entwicklung zuverlässiger NeSy-KI-Modelle zu fördern.

Kernbeiträge

  1. Einheitlicher theoretischer Rahmen: Systematische Integration der verstreuten Literatur zu RSs mit einheitlicher theoretischer Perspektive
  2. Mathematische Formalisierung: Strenge mathematische Charakterisierung von RSs aus den Perspektiven Identifizierbarkeit und statistisches Lernen
  3. Umfassende Taxonomie: Systematische Klassifizierung und vergleichende Analyse bestehender RS-Abschwächungs- und Wahrnehmungsstrategien
  4. Erweiterte Diskussion: Untersuchung der Manifestation und Herausforderungen von RSs in aufstrebenden Bereichen wie Reinforcement Learning und Grundmodellen
  5. Praktische Anleitung: Bereitstellung praktischer Methoden und Werkzeuge zur RS-Diagnose, -Prävention und -Behandlung

Methodische Details

Aufgabendefinition

Neuro-Symbolische Prädiktoren (NeSy Predictors): Gegeben ein Eingaberaum X, Konzeptraum C, Labelraum Y und Vorwissen K, lernt ein NeSy-Prädiktor eine Abbildung, die Vorhersageergebnisse sowohl genau als auch konform mit Wissensbeschränkungen macht.

Kernarchitektur

NeSy-Prädiktoren bestehen aus zwei Hauptkomponenten:

  1. Konzeptextraktor: Neuronales Netz f: X → ΔC, das Eingaben auf Konzeptverteilungen abbildet
  2. Inferenzschicht: Symbolisches Schlussfolgern β: ΔC → ΔY, das Labels basierend auf Konzepten und Wissen K ableitet

Vier Hauptarchitekturen

1. Probabilistische Neuro-Symbolische Prädiktoren (PNSPs)

p(y|x;K) = (1/Zx) ∑c 1{(c,y) |= K} p(c|x)

Implementiert Schlussfolgern durch probabilistische Logik und stellt sicher, dass Vorhersagen Wissensbeschränkungen erfüllen.

2. Semantischer Verlust (Semantic Loss)

SL(pθ, (x,y), K) = -log ∑c 1{(c,y) |= K} pθ(c|x)

Konvertiert Wissen in differenzierbare Strafterme und erzwingt während des Trainings Konsistenz.

3. Logische Tensornetzwerke (LTN)

Verwendet Fuzzy-Logik zur Konvertierung von booleschen Wissen in reellwertige Funktionen:

L(p,D,K) = 1 - (1/|D|) ∑(x,y)∈D TK(p(C|x), 1{Y=y})

4. Abduktives Lernen (ABL)

Generiert Pseudo-Labels durch logische Abduktion:

ĉ = argmin d(c̄, c') s.t. (c',y) |= K

Formale Definition von Reasoning Shortcuts

Konzept-Remapping-Verteilung:

αf(g) := Ex∼p*(X|g)[f(x)]

Beschreibt, wie Grund-Wahrheits-Konzepte auf gelernte Konzepte abgebildet werden.

Reasoning Shortcut: Wenn ein NeSy-Prädiktor optimale Wahrscheinlichkeit erreicht, aber die Konzeptabbildung αf ≠ id (Identitätsabbildung), existiert ein Reasoning Shortcut.

Theoretische Analyse

Identifizierungsperspektive

Satz 4.4: Ein NeSy-Prädiktor erreicht maximale Wahrscheinlichkeit dann und nur dann, wenn:

(β ∘ f)(X) = (β* ∘ f*)(X)

Korollar 4.5 (Nicht-Identifizierbarkeit): Wenn die Inferenzschicht β* nicht injektiv ist, existieren mehrere Konzepttextraktoren f ≠ f*, die gleichermaßen optimale Wahrscheinlichkeit erreichen.

Satz 4.10 (Zählung deterministischer RSs): Die Anzahl deterministischer Reasoning Shortcuts ist:

∑α∈Vert(AF) 1{∧g∈supp(G)(β* ∘ α)(g) = β*(g)} - 1

Statistisches Lernperspektive

Wissenskomplexität:

KC(K; p*) := Ey∼p*(Y)[∑c∈C 1{(c,y) ≠|= K}]

Satz 4.15 (Unbegrenztes RS-Risiko): Wenn KC(K; p*) < |C|-1, existiert ein Konzeptextraktor mit Labelrisiko 0, aber Konzeptrisiko tendiert zu unendlich.

Analyse von Abschwächungsstrategien

Überwachte Strategien

  1. Konzeptüberwachung: Direkte Bereitstellung von Konzeptannotationen mit bester Wirkung, aber hohen Kosten
  2. Multi-Task-Lernen: Verstärkt Wissensbeschränkungen durch gemeinsames Training mehrerer NeSy-Aufgaben

Unüberwachte Strategien

  1. Rekonstruktionslernen: Verhindert Konzeptverfall durch Rekonstruktionsverlust
  2. Kontrastives Lernen: Fördert identische Konzepte für ähnliche Eingaben
  3. Entropie-Maximierung: Fördert Gleichmäßigkeit der Konzeptverteilung
  4. Architektur-Entkopplung: Unabhängige Verarbeitung von Konzepten verschiedener Objekte

Wahrnehmungsstrategien

  1. BEARS: Konstruiert RS-bewusste Modelle durch Ensemble-Lernen
  2. NeSyDM: Nutzt Diffusionsmodelle zur Überwindung von Unabhängigkeitsannahmen

Experimentelle Validierung

Benchmark-Datensätze

  • MNIST-Add: Digitale Additionsaufgabe
  • BDD-OIA: Szenen des autonomen Fahrens
  • Kandinsky: Abstrakte visuelle Schlussfolgerung

Hauptergebnisse

  1. Universelle Existenz von RSs: RSs-Phänomene werden auf mehreren Benchmark-Datensätzen beobachtet
  2. Unterschiedliche Abschwächungseffekte: Konzeptüberwachung ist am wirksamsten, unüberwachte Methoden zeigen begrenzte Wirkung
  3. Architektur-Unabhängigkeit: Verschiedene NeSy-Architekturen sind alle von RSs betroffen

Diagnosewerkzeuge

  • countrss-Werkzeug: Schätzt RS-Anzahl durch Modellzählung
  • Konzeptverfall-Metriken: Quantifiziert Konzeptqualitätsverschlechterung

Erweiterte Anwendungen

RSs im Reinforcement Learning

In neuro-symbolischem Reinforcement Learning manifestieren sich RSs als Konzept-Umbenennung, beeinträchtigen zwar nicht die Einzelaufgaben-Leistung, schädigen aber die Multi-Task-Verallgemeinerung.

RSs in Grundmodellen

Große Sprachmodelle können "Symbol-Halluzinationen" zeigen, ähnlich RSs in NeSy, erfordern aber Erweiterung bestehender theoretischer Rahmen.

Gemeinsame RSs in Konzeptflaschenhalsen

Wenn die Inferenzschicht ebenfalls gelernt werden muss, entstehen gemeinsame Reasoning Shortcuts (Joint RSs), was das Problem komplexer macht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RSs sind eine grundlegende Herausforderung in der NeSy-KI, die aus Symbolgründungsproblemen stammt
  2. Theoretische Analysen zeigen, dass RSs in allgemeinen Fällen unvermeidbar sind
  3. Bestehende Abschwächungsstrategien haben jeweils Vor- und Nachteile und müssen je nach Anwendungsszenario ausgewählt werden

Einschränkungen

  1. Theoretische Annahmen: Einige theoretische Ergebnisse basieren auf relativ starken Annahmebedingungen
  2. Praktische Lücke: Unterschied zwischen theoretischen Garantien und praktischer Anwendung
  3. Rechenkomplexität: Hohe Rechenkosten für RS-Erkennung und -Abschwächung

Zukünftige Richtungen

  1. Stärkere Abschwächungsstrategien: Entwicklung von Methoden mit theoretischen Garantien und praktischer Anwendbarkeit
  2. Automatische Aufgabenkonstruktion: Automatische Generierung von Multi-Task-Learning-Einstellungen zur Beseitigung von RSs
  3. Großflächige Benchmarks: Konstruktion anspruchsvollerer realer NeSy-Datensätze

Tiefgreifende Bewertung

Stärken

  1. Theoretische Tiefe: Bietet strenge mathematische Charakterisierung und theoretische Analyse des RS-Problems
  2. Umfassendheit: Systematische Integration verstreuter verwandter Forschung in einen einheitlichen Rahmen
  3. Praktischer Wert: Bereitstellung konkreter Diagnosewerkzeuge und Abschwächungsstrategien
  4. Zukunftsorientierung: Diskussion von Anwendungsaussichten in aufstrebenden KI-Technologien

Mängel

  1. Begrenzte Experimente: Konzentriert sich hauptsächlich auf relativ einfache Benchmark-Datensätze
  2. Methodische Innovation: Mehr Übersichtsarbeit, begrenzte Originalmethodenbeiträge
  3. Praktische Anwendbarkeit: Umwandlung theoretischer Ergebnisse in praktische Anwendung erfordert weitere Forschung

Einflussfähigkeit

  1. Akademischer Wert: Bietet wichtige theoretische Grundlagen für NeSy-KI-Forschung
  2. Praktische Bedeutung: Bietet Orientierung für den Aufbau zuverlässiger KI-Systeme
  3. Feldförderung: Wahrscheinlich zur Förderung der Entwicklung von Symbolgründung und erklärbarer KI

Anwendbare Szenarien

Diese Forschung ist besonders geeignet für:

  • KI-Anwendungen, die hohe Interpretierbarkeit erfordern
  • KI-Einsatz in sicherheitskritischen Systemen
  • Szenarien, die symbolisches Schlussfolgern und neuronale Netze kombinieren
  • Konzeptlern- und Wissensintegrationaufgaben

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Grundlagenforschung zur neuro-symbolischen KI-Theorie
  • Konzeptflaschenhalse und erklärbare KI
  • Kausale Repräsentationslernens und Identifizierbarkeitstheorie
  • Kognitionswissenschaftliche Forschung zum Symbolgründungsproblem

Dieses Papier bietet eine umfassende und tiefgreifende Analyse des Symbolgründungsproblems in der neuro-symbolischen KI und hat wichtigen Wert für das Verständnis und die Lösung von Zuverlässigkeitsproblemen in NeSy-Modellen. Obwohl es sich hauptsächlich um eine Übersichtsarbeit handelt, sind seine theoretischen Beiträge und praktischen Orientierungswerte erheblich.