2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

Jenseits von Single-Model-XAI: Aggregation von Multi-Modell-Erklärungen für erhöhte Vertrauenswürdigkeit

Grundinformationen

  • Paper-ID: 2510.11164
  • Titel: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • Autoren: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungszeit/Konferenz: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • Paper-Link: https://arxiv.org/abs/2510.11164

Zusammenfassung

Mit der weit verbreiteten Verwendung von KI-Modellen in realen hochriskanten Anwendungen hat die Vertrauenswürdigkeit und ethische Nutzung von beiden technischen und legislativen Perspektiven zunehmend Aufmerksamkeit erhalten. Das Gebiet der erklärbaren künstlichen Intelligenz (XAI) begegnet dieser Herausforderung durch die Bereitstellung von Erklärungen, die den Entscheidungsprozess komplexer Black-Box-Modelle offenlegen. Obwohl Robustheit eine wichtige Eigenschaft ist, wird sie während der Entwicklung häufig übersehen: Nur robuste Erklärungsmethoden können das Vertrauen in das gesamte System erhöhen. Dieses Papier untersucht die Rolle der Robustheit durch die Verwendung von Merkmalswichtigkeit, die aus mehreren Modellen (k-Nearest Neighbors, Random Forest und neuronale Netze) aggregiert wird. Vorläufige Ergebnisse zeigen das Potenzial zur Verbesserung der Anwendungsvertrauenswürdigkeit bei gleichzeitiger Nutzung der Vorhersagekraft mehrerer Modelle.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, die diese Forschung adressiert, sind zwei kritische Mängel bestehender XAI-Methoden:

  1. Unzureichende Erklärungsrobustheit: Populäre Erklärungsmethoden wie LIME und SHAP wurden in mehreren Studien als nicht robust erwiesen, werden aber dennoch häufig in hochriskanten Szenarien angewendet
  2. Erklärungsdiskrepanzen: Wenn mehrere Erklärungsmethoden auf dieselbe Instanz angewendet werden, entstehen widersprüchliche Erklärungen; aufgrund fehlender Grundwahrheit für Erklärungen kann die optimale Methode nicht ausgewählt werden

Bedeutsamkeit

Mit legislativen Anforderungen wie der GDPR und dem AI Act, die Modelltransparenz fordern, wird die Glaubwürdigkeit von Erklärungen entscheidend. Nur durch Vertrauen in Erklärungen kann Vertrauen in das Modell selbst aufgebaut werden, was in hochriskanten Anwendungen besonders wichtig ist.

Einschränkungen bestehender Methoden

  • Mainstream-Methoden wie LIME und SHAP weisen Robustheitsprobleme auf und erzeugen inkonsistente Erklärungen bei ähnlichen Eingaben
  • Single-Modell-Erklärungsmethoden können die Vorhersagekraft mehrerer Modelle nicht vollständig nutzen
  • Es fehlen effektive Aggregationsstrategien für Erklärungen, um Erklärungsdiskrepanzen zwischen verschiedenen Modellen zu behandeln

Forschungsmotivation

Basierend auf früheren Arbeiten zur Erklärungsaggregation in neuronalen Netzwerk-Ensembles schlägt dieses Papier vor, die Methode auf verschiedene Modellkategorien zu erweitern, mit dem Ziel, die Gesamtvertrauenswürdigkeit des Systems durch Aggregation von Erklärungen unterschiedlicher Entscheidungsprozesse zu verbessern.

Kernbeiträge

  1. Zwei neue Merkmalszuordnungsmethoden vorgeschlagen:
    • Distanzbasierte Merkmalswichtigkeitsmethode für k-Nearest-Neighbors-Modelle
    • Auf Knoten-Unreinheit basierende Merkmalszuordnungsmethode für Random Forests
  2. Multi-Modell-Erklärungsaggregationsrahmen entwickelt:
    • Integration von Erklärungen aus k-NN, Random Forest und neuronalen Netzen
    • Aggregation der Merkmalswichtigkeit durch arithmetisches Mittel
  3. Robustheitsbewertungsmechanismus eingeführt:
    • Verwendung von zentroidbasierter Nachbarschaftsgenerierungsmethode
    • Quantifizierung der Erklärungsrobustheit durch Spearman-Rangkorrelationskoeffizient
  4. Beziehung zwischen Modellkonsistenz und Erklärungsrobustheit validiert:
    • Nachweis, dass Multi-Modell-Vorhersagekonsistenz als Indikator für Erklärungsglaubwürdigkeit dienen kann

Methodische Details

Aufgabendefinition

Dieses Papier konzentriert sich auf binäre Klassifizierungsaufgaben mit Tabellendaten, mit dem Ziel, für jede Vorhersageinstanz glaubwürdige Merkmalswichtigkeitserklärungen zu generieren. Die Eingabe besteht aus Tabellendateninstanzen, die Ausgabe ist ein normalisierter Merkmalszuordnungsvektor.

Modellarchitektur

k-Nearest-Neighbors-Erklärungsmethode

Der Algorithmus basiert auf dem Distanzinferenzmechanismus von k-NN:

  1. Für einen Vorhersagepunkt x werden k' nächste Nachbarn separat aus der Vorhersageklasse c und der gegensätzlichen Klasse ¬c ausgewählt
  2. Berechnung der durchschnittlichen Merkmalsdistanzen D_c und D_¬c zu jeder Nachbargruppe
  3. Merkmalswichtigkeit definiert als: e = D_¬c - D_c
  4. Normalisierung zu einem Einheitsvektor zur Gewährleistung der Vergleichbarkeit

Random-Forest-Erklärungsmethode

Basierend auf Knoten-Unreinheit in Entscheidungspfaden:

  1. Für jeden Baum im Wald wird der Entscheidungspfad des Datenpunkts verfolgt
  2. Je nachdem, ob die Einzelbaum-Vorhersage mit der Wald-Vorhersage übereinstimmt, wird die Knoten-Unreinheit zu e_c oder e_¬c akkumuliert
  3. Die endgültige Erklärung ist: e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. Wobei p_c und p_¬c Vorhersagewahrscheinlichkeiten sind, ε=0.01 vermeidet Nullwerte

Aggregationsstrategie

Verwendung von merkmalsstufigem arithmetischem Mittel:

a_agg = (1/L) × Σ(l=1 bis L) a_l

Wobei L=3 die Anzahl der Modelle ist. Wenn Modellvorhersagen inkonsistent sind, werden die Erklärungen von abweichenden Modellen negiert, um sicherzustellen, dass Erklärungen auf dieselbe Klasse hinweisen.

Robustheitsbewertung

Nachbarschaftsgenerierung

Verwendung einer zentroidbasierten Methode:

  1. Durchführung von k-Medoid-Clustering auf dem Validierungssatz
  2. Für jeden Datenpunkt werden das entsprechende Cluster-Zentrum und seine k_M nächsten Zentren gefunden
  3. Generierung von Störungen, die der Datenmannigfaltigkeit entsprechen, durch Beta-Verteilung und probabilistische Ersetzung

Robustheitberechnung

Verwendung des Spearman-Rangkorrelationskoeffizients:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Wobei N die Menge der Nachbarschaftspunkte ist, die konsistente Vorhersagen beibehalten.

Experimentelle Einrichtung

Datensätze

Fünf öffentliche Tabellendatensätze für binäre Klassifizierungsaufgaben werden verwendet:

  • Adult: 36.177/8.045/1.000 (Training/Validierung/Test), 5 numerische Merkmale, 7 kategorische Merkmale
  • Bank: 36.168/8.043/1.000, 5 numerische Merkmale, 9 kategorische Merkmale
  • HELOC: 8.367/1.592/500, 14 numerische Merkmale, 2 kategorische Merkmale
  • Cancer: 397/121/50, 15 numerische Merkmale, 0 kategorische Merkmale
  • White Wine: 3.918/780/200, 9 numerische Merkmale, 0 kategorische Merkmale

Bewertungsmetriken

  • Robustheitsscore: Durchschnittswert basierend auf Spearman-Rangkorrelationskoeffizient
  • Nachbarschaftsgröße: Anteil der gefilterten Störungspunkte
  • AUC-Wert: Fläche unter der ROC-Kurve basierend auf Modellkonsistenz

Vergleichsmethoden

  • Benutzerdefinierte Erklärungsmethode für k-NN
  • Benutzerdefinierte Erklärungsmethode für Random Forest
  • DeepLIFT-Methode für neuronale Netze
  • Aggregierte Ergebnisse aller drei Methoden
  • Vergleich mit LIME und SHAP im Anhang

Implementierungsdetails

  • k-NN: k=15 (Adult, Bank), k=5 (andere)
  • Random Forest: 25 Basis-Lernende
  • Neuronales Netz: Standard-Mehrschicht-Perzeptron
  • Nachbarschaftsgenerierung: k_M=5, α=0.05, α_cat=0.05
  • Zielquote für Nachbarschaftserhalt: ≥95%

Experimentelle Ergebnisse

Hauptergebnisse

Modellleistung

Alle Modelle erreichen eine Genauigkeit von über 80% auf allen Datensätzen (k-NN auf HELOC ausgenommen mit 75,51%). Neuronale Netze zeigen die beste Leistung auf komplexen Datensätzen, Random Forests auf einfachen Datensätzen.

Robustheitsvergleich

Durchschnittliche Robustheitsscore (%):

Datensatzk-NNRFNNAggregiert
Adult61,1288,6785,0374,58
Bank52,2773,5278,7465,75
HELOC71,0180,5684,2377,92
Cancer83,3181,0798,4084,93
Wine69,5566,6092,9666,74

Die Ergebnisse zeigen:

  • k-NN-Methode hat die niedrigste Robustheit, konsistent mit ihrer Abhängigkeit von fernen Nachbarn
  • Neuronale-Netz-Methode hat die höchste Robustheit
  • Die aggregierte Methode hat eine Robustheit zwischen den einzelnen Komponentenmethoden, wie theoretisch erwartet

Modellkonsistenzanalyse

Die Beziehung zwischen Modellvorhersagekonsistenz und Nachbarschaftsgröße validiert die Hypothese: Wenn alle drei Modelle konsistent vorhersagen, wird typischerweise eine größere Nachbarschaftsgröße erreicht, was darauf hindeutet, dass diese Region bessere Erklärungsrobustheit aufweist.

Validierungsbewertung

Durch ROC-Analyse wird die Beziehung zwischen Modellkonsistenz und Erklärungsrobustheit validiert:

AUC-Wertvergleich:

Datensatzk-NNRFNNAggregiert
Adult0,44800,54170,69700,5901
Bank0,41280,62570,38610,6097
HELOC0,65730,60490,67480,6095
Cancer0,83970,92120,71200,9212
Wine0,50880,46980,04690,4951

Die aggregierte Methode zeigt in den meisten Fällen gute Leistung, aber die k-NN-Methode zeigt in einigen Szenarien schlechte Ergebnisse.

Vergleich mit LIME/SHAP

Die Ergebnisse im Anhang zeigen, dass die Robustheitsscore von LIME und SHAP weit unter der 0,5-Schwelle liegen, was die Befunde in der Literatur über die Instabilität dieser Methoden validiert und die Entscheidung, sie auszuschließen, unterstützt.

Verwandte Arbeiten

Entwicklung des XAI-Gebiets

  • Lokale Erklärungsmethoden: Modellunabhängige Methoden wie LIME und SHAP
  • Neuronale-Netz-spezifische Methoden: DeepLIFT, Integrated Gradients, LRP und andere
  • Robustheitsstudien: Bewertung und Verbesserung der Stabilität von Erklärungsmethoden

Erklärungsaggregationsforschung

  • Frühere Arbeiten konzentrierten sich hauptsächlich auf mehrere Instanzen eines einzelnen Modelltyps
  • Dieses Papier erweitert die Erklärungsaggregation auf verschiedene Modelltypen

Legislativ getriebene Anforderungen

  • GDPR-Anforderung des "Rechts auf Erklärung"
  • EU-AI-Gesetz-Anforderungen an Transparenz für hochriskante Anwendungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeit der Multi-Modell-Aggregation: Nachweis, dass Erklärungen verschiedener Modelltypen effektiv aggregiert werden können
  2. Beziehung zwischen Robustheit und Konsistenz: Validierung, dass Modellvorhersagekonsistenz als Indikator für Erklärungsglaubwürdigkeit dienen kann
  3. Konservative Erklärungsstrategie: Die Aggregationsmethode bietet eine konservative aber glaubwürdige Erklärungsstrategie

Einschränkungen

  1. Einfache Aggregationsmethode: Derzeit wird arithmetisches Mittel verwendet, kann komplexe Diskrepanzmuster nicht behandeln
  2. k-NN-Methodenabhängigkeit: Empfindlich gegenüber Hyperparameter k', hohe Variabilität
  3. Bewertungsvollständigkeit: Bedarf umfassenderer Validierung in realen Anwendungsszenarien
  4. Modelltyp-Beschränkung: Nur drei Modelltypen getestet

Zukünftige Richtungen

Die Autoren skizzieren vier explizite Verbesserungsrichtungen:

  1. Entwicklung komplexerer Aggregationsstrategien für extreme Diskrepanzfälle
  2. Verbesserung der k-NN-Erklärungsmethode zur Reduktion der Hyperparameter-Abhängigkeit
  3. Umfassendere Validierungsbewertung in realen Anwendungsfällen
  4. Erweiterung auf andere Modelltypen und XAI-Methoden

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Adressiert kritische Probleme im XAI-Gebiet—Erklärungsrobustheit und Glaubwürdigkeit
  2. Methodische Innovation:
    • Erste Erklärungsaggregation über Modelltypen hinweg
    • Neuartige k-NN- und RF-Merkmalszuordnungsmethoden
    • Systematischer Robustheitsbewertungsrahmen
  3. Experimentelle Vollständigkeit:
    • Validierung über mehrere Datensätze
    • Vollständige Ablationsstudien
    • Vergleich mit Mainstream-Methoden
  4. Theoretische Grundlagen: Etabliert theoretische Verbindung zwischen Modellkonsistenz und Erklärungsrobustheit

Schwächen

  1. Methodische Einschränkungen:
    • Aggregationsstrategie zu simpel, könnte wichtige Informationen verlieren
    • Theoretische Grundlagen der k-NN-Methode relativ schwach
    • Nur auf binäre Klassifizierung anwendbar
  2. Experimentelle Einrichtung:
    • Datensatzgröße relativ klein
    • Fehlende Validierung in echten hochriskanten Anwendungsszenarien
    • Unzureichende Analyse der Rechenkosten
  3. Analysentiefe:
    • Unzureichende Analyse von Fehlerfällen der Aggregationsmethode
    • Fehlende quantitative Analyse der Beitragsgradation verschiedener Modelltypen

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Perspektiven für XAI-Robustheitsstudien, besonders in der Multi-Modell-Aggregationsrichtung
  2. Praktischer Wert: Bietet praktischen Rahmen für vertrauenswürdige KI in hochriskanten Anwendungen
  3. Reproduzierbarkeit: Klare Methodenbeschreibung, relativ einfache Algorithmusimplementierung

Anwendungsszenarien

  • Hochriskante Entscheidungsszenarien: Finanz-, Gesundheitswesen und andere Bereiche, die erklärbare und vertrauenswürdige KI erfordern
  • Regulatorische Compliance: Anwendungen, die GDPR und andere Vorschriften erfüllen müssen
  • Modellaudit: Szenarien, die die Vertrauenswürdigkeit von KI-Systemen bewerten müssen
  • Forschungsplattform: Bietet grundlegende Rahmen für XAI-Robustheitsstudien

Literaturverzeichnis

Das Papier zitiert wichtige Literatur im XAI-Gebiet, einschließlich:

  • Originalarbeiten zu LIME und SHAP sowie Kritik ihrer Robustheit
  • Neuronale-Netz-Erklärungsmethoden wie DeepLIFT, Integrated Gradients
  • Verwandte Robustheitsbewertungs- und Erklärungsaggregationsstudien
  • Legislative Dokumente wie GDPR und EU AI Act

Gesamtbewertung: Dies ist ein Papier mit bedeutenden Beiträgen zur Forschungsrichtung der XAI-Robustheit. Obwohl die Methoden relativ einfach sind, adressieren sie praktisch wichtige Probleme und bieten wertvolle Werkzeuge für die Entwicklung vertrauenswürdiger KI. Der Hauptwert des Papiers liegt in der Eröffnung der Forschungsrichtung der Erklärungsaggregation über Modelltypen hinweg und der Bereitstellung eines systematischen Bewertungsrahmens. Die Richtungen zukünftiger Arbeiten sind klar definiert und legen eine Grundlage für weitere Entwicklungen in diesem Gebiet.