When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
Wann können Sie Ihren Erklärungen vertrauen? Eine Robustheitsanalyse von Feature-Wichtigkeiten
Mit der fortschreitenden Entwicklung von KI-Vorschriften wächst der Bedarf an erklärbarer künstlicher Intelligenz (XAI) kontinuierlich. Jedoch bleibt das Fehlen standardisierter Validierungskriterien für Erklärungsmethoden ein Haupthindernis für die Entwicklung vertrauenswürdiger Systeme. Dieses Papier befasst sich mit der in der XAI häufig übersehenen, aber kritischen Frage der Robustheit von Erklärungen und schlägt eine neuartige Analysemethode vor, um die Robustheit von Erklärungen neuronaler Netze gegenüber nicht-adversarialen Störungen zu bewerten. Die Methode nutzt die Mannigfaltigkeitsannahme zur Generierung von Störungsdatenpunkten, die der Verteilung der beobachteten Daten entsprechen, und schlägt eine Ensemble-Methode vor, um mehrere Erklärungen zu aggregieren und zeigt die Vorteile der Zusammenführung von Erklärungen für das Verständnis von Modellentscheidungen und die Bewertung der Robustheit.
Robustheitsschätzer: Vorschlag einer Reihe idealer Eigenschaften, die ein Robustheitsschätzer erfüllen sollte, mit Nachweis, dass die vorgeschlagene Methode alle diese Eigenschaften erfüllt
Erklärungsensemble-Methode: Zur Bewältigung von Diskrepanzen bei Erklärungen neuronaler Netze wird eine auf Feature-Ranking basierende Ensemble-Methode für Erklärungen vorgeschlagen
Nicht-adversariales Störungsframework: Einführung eines Frameworks zur Prüfung der Robustheit von Erklärungen gegenüber nicht-adversarialen Störungen und Bewertung ihrer Vertrauenswürdigkeit in praktischen Anwendungen
Validierungsbewertungsmethode: Vorschlag einer neuartigen Validierungsbewertungsmethode für Robustheitsschätzer, die das Problem fehlender echter Standards adressiert
Gegeben ein tabellarischer Datensatz D = (X,y) mit N Datenpunkten und m Features ist die Aufgabe, die Robustheit einer auf ein neuronales Netz f angewendeten Erklärungsmethode e zu bewerten, wobei Erklärungen in Form von Feature-Wichtigkeitsvektoren dargestellt werden.
Verwendung von drei neuronalen Netzen mit ähnlicher Genauigkeit aber unterschiedlicher Architektur zur Validierung, Bewertung der Effektivität der Robustheitsschätzung durch ROC/AUC-Analyse.
Rechenkomplexität: Erfordert Netzwerk-Durchläufe für jeden Datenpunkt, jede Störung und jede Methode
Parameterempfindlichkeit: Die Nachbarschaftsgenerierung und Schwellenwertauswahl erfordern sorgfältige Abstimmung
Validierungsannahmen: Abhängigkeit von der Annahme der Modellvorhersage-Konsistenz als Proxy-Indikator für Robustheit, die möglicherweise nicht immer zutrifft
Theoretische Strenge: Vorschlag eines umfassenden theoretischen Rahmens für Robustheitsschätzer mit sechs klar definierten Eigenschaften
Methodische Innovation: Die auf Mannigfaltigkeitsannahme basierende Nachbarschaftsgenerierung und die Ensemble-Methode mit Berücksichtigung von Vorzeichenkonsistenz sind neuartig
Praktischer Wert: Bereitstellung eines vollständigen Vertrauenswürdigkeitsbewertungsprozesses mit Orientierungswert für praktische Anwendungen
Umfassende Experimente: Ausreichende Experimente auf mehreren Datensätzen, einschließlich Ablationsstudien und Validierungsanalyse
Das Papier zitiert wichtige Arbeiten im XAI-Bereich, einschließlich klassischer Methoden wie LIME und SHAP sowie neuester Forschungen zur Robustheit von Erklärungen und adversarialen Angriffen, die eine solide theoretische Grundlage für diese Forschung bieten.