2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic

Wann können Sie Ihren Erklärungen vertrauen? Eine Robustheitsanalyse von Feature-Wichtigkeiten

Grundinformationen

  • Paper-ID: 2406.14349
  • Titel: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
  • Autoren: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Klassifizierung: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: Juni 2024 (arXiv-Preprint, aktualisiert April 2025)
  • Paper-Link: https://arxiv.org/abs/2406.14349

Zusammenfassung

Mit der fortschreitenden Entwicklung von KI-Vorschriften wächst der Bedarf an erklärbarer künstlicher Intelligenz (XAI) kontinuierlich. Jedoch bleibt das Fehlen standardisierter Validierungskriterien für Erklärungsmethoden ein Haupthindernis für die Entwicklung vertrauenswürdiger Systeme. Dieses Papier befasst sich mit der in der XAI häufig übersehenen, aber kritischen Frage der Robustheit von Erklärungen und schlägt eine neuartige Analysemethode vor, um die Robustheit von Erklärungen neuronaler Netze gegenüber nicht-adversarialen Störungen zu bewerten. Die Methode nutzt die Mannigfaltigkeitsannahme zur Generierung von Störungsdatenpunkten, die der Verteilung der beobachteten Daten entsprechen, und schlägt eine Ensemble-Methode vor, um mehrere Erklärungen zu aggregieren und zeigt die Vorteile der Zusammenführung von Erklärungen für das Verständnis von Modellentscheidungen und die Bewertung der Robustheit.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Regulatorische Anforderungen: Die EU-KI-Verordnung und die GDPR betonen die Bedeutung von Transparenz und Erklärbarkeit von KI-Systemen
  2. Black-Box-Dilemma: Moderne KI-Systeme weisen aufgrund ihrer zahlreichen Parameter einen Black-Box-Charakter auf und mangeln an Transparenz
  3. Instabilität von Erklärungsmethoden: Bestehende XAI-Methoden wie LIME und SHAP weisen inhärente Stabilitätsprobleme auf
  4. Fehlende Standardisierung: Es fehlen standardisierte Kriterien zur Validierung von Erklärungsmethoden

Forschungsmotivation

  • Robustheitsbeurteilung: Die Robustheit von Erklärungen ist ein Kernelement zur Gewährleistung der Vertrauenswürdigkeit von Systemen und Erklärungen
  • Praktische Anforderungen: Bereitstellung eines praktischen Rahmens für Praktiker zur Bewertung der Vertrauenswürdigkeit von Modellerklärungen
  • Erklärungsdiskrepanzen: Lösung des Problems widersprüchlicher Ergebnisse bei Anwendung mehrerer Erklärungsmethoden auf denselben Datenpunkt

Kernbeiträge

  1. Robustheitsschätzer: Vorschlag einer Reihe idealer Eigenschaften, die ein Robustheitsschätzer erfüllen sollte, mit Nachweis, dass die vorgeschlagene Methode alle diese Eigenschaften erfüllt
  2. Erklärungsensemble-Methode: Zur Bewältigung von Diskrepanzen bei Erklärungen neuronaler Netze wird eine auf Feature-Ranking basierende Ensemble-Methode für Erklärungen vorgeschlagen
  3. Nicht-adversariales Störungsframework: Einführung eines Frameworks zur Prüfung der Robustheit von Erklärungen gegenüber nicht-adversarialen Störungen und Bewertung ihrer Vertrauenswürdigkeit in praktischen Anwendungen
  4. Validierungsbewertungsmethode: Vorschlag einer neuartigen Validierungsbewertungsmethode für Robustheitsschätzer, die das Problem fehlender echter Standards adressiert

Methodische Details

Aufgabendefinition

Gegeben ein tabellarischer Datensatz D = (X,y) mit N Datenpunkten und m Features ist die Aufgabe, die Robustheit einer auf ein neuronales Netz f angewendeten Erklärungsmethode e zu bewerten, wobei Erklärungen in Form von Feature-Wichtigkeitsvektoren dargestellt werden.

Robustheitsschätzer

Kerndefiniton

Robustheit wird definiert als die Fähigkeit einer Erklärungsmethode, konsistente Erklärungen zu liefern, wenn die Eingabe modifiziert wird:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

Sechs Kernmerkmale

Das Papier schlägt sechs Schlüsseleigenschaften vor, die ein Robustheitsschätzer erfüllen sollte:

  1. Eigenschaft 1: Robustheit ist der Erwartungswert der individuellen Robustheit
  2. Eigenschaft 2: Robustheitsscores benachbarter Punkte sind ähnlich
  3. Eigenschaft 3: Die Schätzung enthält Unsicherheit
  4. Eigenschaft 4: Störungen auf der Mannigfaltigkeit weisen höhere Robustheit auf als Störungen außerhalb der Mannigfaltigkeit
  5. Eigenschaft 5: Die Robustheit aggregierter Erklärer ist begrenzt
  6. Eigenschaft 6: Erklärungen äquivalenter Modelle weisen ähnliche Robustheit auf

Robustheitsberechnung

Verwendung des Spearman-Rangkorrelationskoeffizienten zur Berechnung der Robustheit:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

Nachbarschaftsgenerierungsmechanismus

Zufällige Nachbarschaft (NR)

  • Numerische Variablen: Addition von Gaußschem Weißrauschen
  • Kategorische Variablen: Zufälliges Umschalten

Mittelpunktbasierte Nachbarschaft (NM)

Ein verfeinerterer Mechanismus, der die Mannigfaltigkeitsannahme nutzt:

  1. k-Mittelpunkt-Clustering auf dem Validierungssatz durchführen
  2. Für jedes Clusterzentrum die kM nächsten Nachbarzentren finden
  3. Beta-Verteilung für Interpolationsstörungen verwenden

Ensemble-Methode

Vorschlag eines gewichteten Durchschnitts-Ensembles basierend auf Feature-Ranking:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

wobei ein Strafterm für Vorzeicheninkonsistenzen enthalten ist und das Gewichtungsschema die relative Größe der Feature-Wichtigkeiten berücksichtigt.

Vertrauenswürdigkeitsbewertungsframework

Verwendung eines k-Nearest-Neighbor-Regressors zur Vorhersage der lokalen Robustheit, Klassifizierung von Datenpunkten in drei Kategorien:

  1. Robuste Punkte: R̂(xi) ≥ rth und Rknn(xi) ≥ rth
  2. Unsichere Punkte: R̂(xi) ≥ rth aber Rknn(xi) < rth
  3. Nicht-robuste Punkte: R̂(xi) < rth

Experimentelles Setup

Datensätze

Verwendung von 8 öffentlichen tabellarischen Datensätzen:

  • Spielzeugdatensätze: beans, cancer, mushroom, white wine
  • Praktische Datensätze: adult, bank marketing, heloc, ocean

XAI-Methoden

Fokus auf neuronale Netz-spezifische Methoden:

  • DeepLIFT: Berechnung der Feature-Wichtigkeit basierend auf Referenzpunktdifferenzen
  • Integrated Gradients: Integration von Gradienten entlang des Pfads von der Baseline zur Eingabe
  • Layer-wise Relevance Propagation (LRP): Auf Backpropagation basierende Relevanzpropagation

Validierungsstrategie

Verwendung von drei neuronalen Netzen mit ähnlicher Genauigkeit aber unterschiedlicher Architektur zur Validierung, Bewertung der Effektivität der Robustheitsschätzung durch ROC/AUC-Analyse.

Experimentelle Ergebnisse

Hauptergebnisse

Nachbarschaftsgenerierungseffekte

  • Mittelpunktbasierte Nachbarschaft (NM) erzeugt höhere Robustheitsscores als zufällige Nachbarschaft (NR)
  • Die von NM-Methode generierte Störung entspricht besser der Datenmannigfaltigkeit, was Eigenschaft 4 validiert

Vorteile der Ensemble-Methode

  • Die Robustheit von Ensemble-Erklärungen dient als konservative Schätzung der Robustheit einzelner Methoden
  • Kann sowohl die Robustheit einzelner Methoden als auch die Feature-Level-Konsistenz berücksichtigen
  • Bietet zuverlässigere Erklärungen im Vergleich zu einfachen Durchschnittsmethoden

Vertrauenswürdigkeitsklassifizierungsergebnisse

Bei einem Schwellenwert von rth = 0,80:

  • In den meisten Datensätzen dominieren robuste Punkte
  • Der Anteil unsicherer und nicht-robuster Punkte ist nicht zu vernachlässigen
  • Der Pilz-Datensatz zeigt einen Sonderfall, da alle drei Modelle eine Genauigkeit von 100% erreichen

Validierungsanalyse

Die ROC/AUC-Analyse zeigt:

  • Die Ensemble-Methode in Kombination mit mittelpunktbasierter Nachbarschaft zeigt auf den meisten Datensätzen die beste Leistung
  • Der Anteil der Modellvorhersage-Inkonsistenzen in nicht-robusten Punkten ist durchgehend höher als in robusten Punkten
  • Unterstützt die Annahme, Modellvorhersage-Konsistenz als Validierungsindikator für Robustheit zu verwenden

Verwandte Arbeiten

Einschränkungen von XAI-Methoden

  • LIME: Aufgrund der Zufälligkeit der Nachbarschaftsgenerierung inhärent instabil
  • SHAP: Beeinflusst durch Feature-Korrelation, Stichprobenvariabilität und Datenverteilungsversatz
  • Gradient-Methoden: Obwohl robuster als Störungsmethoden, weisen sie immer noch Instabilität auf

Robustheitsbeurteilungsmethoden

  • Adversariale Angriffe: Fokus auf böswillige Manipulation von Erklärungen
  • Zufällige Störungen: Bewertung inhärenter Schwächen
  • Modellmanipulation: Beeinflussung von Erklärungen durch Modifikation von Verlustfunktionen usw.

Bestehende Messmethoden

Einschließlich Rangkorrelation, Top-k-Schnittmenge, Regelabgleich usw., aber es fehlt ein einheitliches begrenztes Messstandardverfahren.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der vorgeschlagene Robustheitsschätzer erfüllt alle theoretischen Eigenschaften und bietet ein begrenztes Maß im Bereich 0,1
  2. Die auf Mannigfaltigkeit basierende Nachbarschaftsgenerierung ist besser geeignet zur Bewertung echter Robustheit als zufällige Störungen
  3. Die Ensemble-Methode kann Erklärungsdiskrepanzen effektiv handhaben und zuverlässigere Erklärungen liefern
  4. Das Framework kann Datenpunkte in unsicheren Bereichen identifizieren und die Vertrauenswürdigkeit praktischer Anwendungen verbessern

Einschränkungen

  1. Rechenkomplexität: Erfordert Netzwerk-Durchläufe für jeden Datenpunkt, jede Störung und jede Methode
  2. Parameterempfindlichkeit: Die Nachbarschaftsgenerierung und Schwellenwertauswahl erfordern sorgfältige Abstimmung
  3. Validierungsannahmen: Abhängigkeit von der Annahme der Modellvorhersage-Konsistenz als Proxy-Indikator für Robustheit, die möglicherweise nicht immer zutrifft

Zukünftige Richtungen

  1. Modellverallgemeinerung: Erweiterung auf andere Machine-Learning-Modelle wie baumbasierte Modelle
  2. Adversariale Robustheit: Untersuchung der Beziehung zu adversarialen Angriffen und Abwehrfähigkeiten
  3. Klassifizierer-Robustheit: Erkundung, wie Erklärungen zur Verbesserung der Klassifizierer-Robustheit genutzt werden können

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vorschlag eines umfassenden theoretischen Rahmens für Robustheitsschätzer mit sechs klar definierten Eigenschaften
  2. Methodische Innovation: Die auf Mannigfaltigkeitsannahme basierende Nachbarschaftsgenerierung und die Ensemble-Methode mit Berücksichtigung von Vorzeichenkonsistenz sind neuartig
  3. Praktischer Wert: Bereitstellung eines vollständigen Vertrauenswürdigkeitsbewertungsprozesses mit Orientierungswert für praktische Anwendungen
  4. Umfassende Experimente: Ausreichende Experimente auf mehreren Datensätzen, einschließlich Ablationsstudien und Validierungsanalyse

Mängel

  1. Rechenlast: Die Rechenkomplexität der Methode ist relativ hoch und kann großflächige Anwendungen einschränken
  2. Parameterabhängigkeit: Mehrere Hyperparameter erfordern Abstimmung, was die Komplexität der Methode erhöht
  3. Validierungsbeschränkungen: Die Validierungsmethode ohne echte Standards hat noch Verbesserungspotenzial
  4. Anwendungsbereich: Hauptsächlich auf tabellarische Daten und neuronale Netze ausgerichtet, die Verallgemeinerbarkeit muss noch überprüft werden

Auswirkungen

  1. Akademischer Beitrag: Bietet einen systematischen theoretischen und methodischen Rahmen für die Robustheitsbeurteilung von XAI
  2. Praktische Orientierung: Bietet Praktikern konkrete Werkzeuge zur Bewertung der Vertrauenswürdigkeit von Erklärungen
  3. Standardisierungsförderung: Trägt zur Etablierung standardisierter Kriterien für die Bewertung von XAI-Methoden bei

Anwendungsszenarien

  • Erklärungsvalidierung in hochriskanten KI-Anwendungsszenarien
  • Situationen, in denen mehrere XAI-Methoden verglichen und ausgewählt werden müssen
  • Regulatorische Umgebungen mit strengeren Anforderungen an die Vertrauenswürdigkeit von Erklärungen
  • Analyse von Erklärungen neuronaler Netze für tabellarische Daten

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im XAI-Bereich, einschließlich klassischer Methoden wie LIME und SHAP sowie neuester Forschungen zur Robustheit von Erklärungen und adversarialen Angriffen, die eine solide theoretische Grundlage für diese Forschung bieten.