Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic
Jenseits von Single-Model-XAI: Aggregation von Multi-Modell-Erklärungen für erhöhte Vertrauenswürdigkeit
Mit der weit verbreiteten Verwendung von KI-Modellen in realen hochriskanten Anwendungen hat die Vertrauenswürdigkeit und ethische Nutzung von beiden technischen und legislativen Perspektiven zunehmend Aufmerksamkeit erhalten. Das Gebiet der erklärbaren künstlichen Intelligenz (XAI) begegnet dieser Herausforderung durch die Bereitstellung von Erklärungen, die den Entscheidungsprozess komplexer Black-Box-Modelle offenlegen. Obwohl Robustheit eine wichtige Eigenschaft ist, wird sie während der Entwicklung häufig übersehen: Nur robuste Erklärungsmethoden können das Vertrauen in das gesamte System erhöhen. Dieses Papier untersucht die Rolle der Robustheit durch die Verwendung von Merkmalswichtigkeit, die aus mehreren Modellen (k-Nearest Neighbors, Random Forest und neuronale Netze) aggregiert wird. Vorläufige Ergebnisse zeigen das Potenzial zur Verbesserung der Anwendungsvertrauenswürdigkeit bei gleichzeitiger Nutzung der Vorhersagekraft mehrerer Modelle.
Die Kernprobleme, die diese Forschung adressiert, sind zwei kritische Mängel bestehender XAI-Methoden:
Unzureichende Erklärungsrobustheit: Populäre Erklärungsmethoden wie LIME und SHAP wurden in mehreren Studien als nicht robust erwiesen, werden aber dennoch häufig in hochriskanten Szenarien angewendet
Erklärungsdiskrepanzen: Wenn mehrere Erklärungsmethoden auf dieselbe Instanz angewendet werden, entstehen widersprüchliche Erklärungen; aufgrund fehlender Grundwahrheit für Erklärungen kann die optimale Methode nicht ausgewählt werden
Mit legislativen Anforderungen wie der GDPR und dem AI Act, die Modelltransparenz fordern, wird die Glaubwürdigkeit von Erklärungen entscheidend. Nur durch Vertrauen in Erklärungen kann Vertrauen in das Modell selbst aufgebaut werden, was in hochriskanten Anwendungen besonders wichtig ist.
Basierend auf früheren Arbeiten zur Erklärungsaggregation in neuronalen Netzwerk-Ensembles schlägt dieses Papier vor, die Methode auf verschiedene Modellkategorien zu erweitern, mit dem Ziel, die Gesamtvertrauenswürdigkeit des Systems durch Aggregation von Erklärungen unterschiedlicher Entscheidungsprozesse zu verbessern.
Dieses Papier konzentriert sich auf binäre Klassifizierungsaufgaben mit Tabellendaten, mit dem Ziel, für jede Vorhersageinstanz glaubwürdige Merkmalswichtigkeitserklärungen zu generieren. Die Eingabe besteht aus Tabellendateninstanzen, die Ausgabe ist ein normalisierter Merkmalszuordnungsvektor.
Verwendung von merkmalsstufigem arithmetischem Mittel:
a_agg = (1/L) × Σ(l=1 bis L) a_l
Wobei L=3 die Anzahl der Modelle ist. Wenn Modellvorhersagen inkonsistent sind, werden die Erklärungen von abweichenden Modellen negiert, um sicherzustellen, dass Erklärungen auf dieselbe Klasse hinweisen.
Alle Modelle erreichen eine Genauigkeit von über 80% auf allen Datensätzen (k-NN auf HELOC ausgenommen mit 75,51%). Neuronale Netze zeigen die beste Leistung auf komplexen Datensätzen, Random Forests auf einfachen Datensätzen.
Die Beziehung zwischen Modellvorhersagekonsistenz und Nachbarschaftsgröße validiert die Hypothese: Wenn alle drei Modelle konsistent vorhersagen, wird typischerweise eine größere Nachbarschaftsgröße erreicht, was darauf hindeutet, dass diese Region bessere Erklärungsrobustheit aufweist.
Die Ergebnisse im Anhang zeigen, dass die Robustheitsscore von LIME und SHAP weit unter der 0,5-Schwelle liegen, was die Befunde in der Literatur über die Instabilität dieser Methoden validiert und die Entscheidung, sie auszuschließen, unterstützt.
Das Papier zitiert wichtige Literatur im XAI-Gebiet, einschließlich:
Originalarbeiten zu LIME und SHAP sowie Kritik ihrer Robustheit
Neuronale-Netz-Erklärungsmethoden wie DeepLIFT, Integrated Gradients
Verwandte Robustheitsbewertungs- und Erklärungsaggregationsstudien
Legislative Dokumente wie GDPR und EU AI Act
Gesamtbewertung: Dies ist ein Papier mit bedeutenden Beiträgen zur Forschungsrichtung der XAI-Robustheit. Obwohl die Methoden relativ einfach sind, adressieren sie praktisch wichtige Probleme und bieten wertvolle Werkzeuge für die Entwicklung vertrauenswürdiger KI. Der Hauptwert des Papiers liegt in der Eröffnung der Forschungsrichtung der Erklärungsaggregation über Modelltypen hinweg und der Bereitstellung eines systematischen Bewertungsrahmens. Die Richtungen zukünftiger Arbeiten sind klar definiert und legen eine Grundlage für weitere Entwicklungen in diesem Gebiet.