The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
- Papier-ID: 2507.09545
- Titel: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
- Autoren: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
- Klassifizierung: cs.LG (Maschinelles Lernen)
- Veröffentlichungszeit/Konferenz: Late-breaking work, 3. Weltkonferenz über erklärbare künstliche Intelligenz (9.–11. Juli 2025, Istanbul, Türkei)
- Papierlink: https://arxiv.org/abs/2507.09545
Die Verwendung von Methoden der erklärbaren künstlichen Intelligenz (XAI) ist in praktischen Anwendungen aufgrund der zunehmenden Bereitstellung von KI-Modellen und der in den letzten Jahren vorgeschlagenen Legislativanforderungen von entscheidender Bedeutung geworden. Die Robustheit von Erklärungen ist ein grundlegender, aber häufig unterschätzter Aspekt und eine Schlüsseleigenschaft, die Erklärungen erfüllen müssen, um vertrauenswürdig zu sein. Diese Forschung bietet erste Erkenntnisse zur Bewertung der Zuverlässigkeit von Erklärungen im speziellen Fall unausgeglichener Datensätze. Unausgeglichene Datensätze sind in hochriskanten Anwendungsfällen sehr häufig, stellen aber gleichzeitig erhebliche Herausforderungen für KI-Modelle und XAI-Methoden dar. Wir schlagen eine einfache Bewertungsmethode vor, die sich auf die Minderheitsklasse (d. h. die Klasse mit niedrigerer Häufigkeit) konzentriert und die Nachbargenerierung auf Mannigfaltigkeiten, Erklärungsaggregation und Metriken zur Prüfung der Erklärungskonsistenz nutzt. Wir demonstrieren dies anhand eines Tabellendatensatzes mit numerischen Merkmalen, wobei das Auftreten von Frostwetterereignissen als Anwendungsfall dient.
Das Kernproblem, das diese Forschung lösen soll, ist: Wie kann die Zuverlässigkeit von XAI-Erklärungen in unausgeglichenen Datensätzen bewertet werden? Konkret können traditionelle Erklärungsmethoden möglicherweise unzuverlässige Ergebnisse liefern, wenn der Datensatz sehr wenige Minderheitsklassen-Stichproben enthält.
- Legislativanforderungen: Vorschriften wie die DSGVO und das AI Act stellen Anforderungen an die Transparenz hochriskanter Anwendungen
- Praktische Anforderungen: Hochriskante Bereiche wie Medizin, Klima und Betrugserkennung sind häufig mit Problemen unausgeglichener Daten konfrontiert
- Vertrauenskrise: Bei unausgeglichenen Datensätzen kann ein Modell mit 99 % Genauigkeit möglicherweise nur einfach die Mehrheitsklasse vorhersagen
- LIME und SHAP und ähnliche Methoden zeigen schlechte Robustheit bei unausgeglichenen Datensätzen
- Mangel an gezielter Bewertung: Bestehende Methoden konzentrieren sich hauptsächlich auf die Gesamtleistung und ignorieren die Besonderheiten der Minderheitsklasse
- Erklärungsinstabilität: Ähnliche Eingaben können zu völlig unterschiedlichen Erklärungen führen
Die Autoren sind der Ansicht, dass die Bewertung der Zuverlässigkeit von Erklärungen für die Minderheitsklasse in unausgeglichenen Datensätzen besonders wichtig ist, da:
- Die genaue Vorhersage seltener Ereignisse in hochriskanten Anwendungen entscheidend ist
- Die Mehrheitsklasse leicht vorherzusagen ist, ihre Erklärungen sind möglicherweise nicht vertrauenswürdig
- Spezielle Methoden zur Bewertung der Robustheit von Minderheitsklassen-Erklärungen erforderlich sind
- Vorschlag eines Rahmens zur Bewertung der Zuverlässigkeit von Erklärungen für unausgeglichene Datensätze, mit Fokus auf Minderheitsklassen-Stichproben
- Entwurf einer Nachbargenerierungsmethode basierend auf Mannigfaltigkeiten, um sicherzustellen, dass gestörte Stichproben auf der Datenmmannigfaltigkeit liegen
- Einführung einer Konsistenzmetrik, die die Zuverlässigkeit durch Vergleich der ursprünglichen Erklärung mit der lokal gewichteten durchschnittlichen Erklärung bewertet
- Validierung der Methodeneffektivität bei einer echten Frostwettervorhersageaufgabe, die hochgradig unausgeglichen ist (99:1)
Gegeben ein unausgeglichener Datensatz D=(X,y), wobei P(y=0)≫P(y=1) (0 ist die Mehrheitsklasse, 1 ist die Minderheitsklasse), trainieren wir ein neuronales Netzwerk f(⋅). Das Ziel ist es, die Zuverlässigkeit der Erklärungsmethode e bei Minderheitsklassen-Stichproben zu bewerten.
Verwendung der Nachbargenerierung auf Mannigfaltigkeiten basierend auf k-medoids-Clustering:
Schritte:
- Anwendung von k-medoids-Clustering auf den Validierungssatz, um kmedoids Cluster zu erhalten
- Durchschnittliche Clustergröße nk=10
- Extraktion des Medoids jedes Clusters als Repräsentationspunkt
- Für Teststichproben wird das entsprechende Medoid und seine knn=5 nächsten Nachbarn gefunden
Störungsformel:
x~j=(1−λˉ)⋅xj+λˉ⋅xMj
wobei λˉ∼Beta(λ⋅100,(1−λ)⋅100)
Berechnung der gewichteten durchschnittlichen Erklärung für Minderheitsklassen-Stichproben:
eˉ(x)=∑x~∈Nπ(x,x~)∑x~∈Ne(x~)⋅π(x,x~)
wobei die Gewichtung π(x,x~)=dist(x,x~)1
Definition von zwei Bewertungsmetriken:
Lokale Robustheit:
R^(x)=∣N∣1∑x~∈Nρ(e(x),e(x~))
Konsistenz:
C^(x)=ρ(e(x),eˉ(x))
wobei ρ der Spearman-Rangkorrelationskoeffizient ist
- Mannigfaltigkeits-bewusste Nachbargenerierung: Im Vergleich zu zufälligem Gaußschen Rauschen kann die auf Medoids basierende Methode Nachbarn generieren, die besser der Datenverteilung entsprechen
- Spezialisierte Bewertung für Minderheitsklassen: Fokus auf die kritischsten, aber fragilsten Minderheitsklassen-Stichproben
- Einführung von Konsistenzmetriken: Bewertung der lokalen Konsistenz durch Vergleich der ursprünglichen Erklärung mit der aggregierten Erklärung
- Distanzgewichtete Erklärungsaggregation: Gewichtung von Erklärungen basierend auf Abständen zwischen Stichproben
Frostwettervorhersage-Datensatz:
- Quelle: ERA5-Reanalysedaten (ECMWF) + proprietäre Versicherungsdaten
- Zeitspanne: 2009–2024 (15 Jahre)
- Geografischer Umfang: Gesamtes Gebiet Polens
- Merkmale: 8 numerische atmosphärische Variablen (standardisiert)
- Ziel: Binärklassifizierung (Auftreten von Frostwetter oder nicht)
- Unausgeglichenheitsgrad: 99 % vs. 1 % (hochgradig unausgeglichen)
- Datenteilung: Trainingssatz 75 %, Validierungssatz 15 %, Testsatz 10 % (nach Regionen geschichtet)
- Modellleistung: F1-Score (geeignet für unausgeglichene Datensätze)
- Zuverlässigkeit von Erklärungen: Lokale Robustheit R^(x) und Konsistenz C^(x)
- Korrelationsmaß: Spearman-Rangkorrelationskoeffizient
Erklärungsmethoden:
- Integrated Gradients: Attributionsmethode basierend auf Gradientenintegration
- DeepLIFT: Methode basierend auf Aktivierungsdifferenzausbreitung
- Layer-wise Relevance Propagation (LRP): Schichtweise Relevanzausbreitung
- Ensemble-Methode: Gewichtete Kombination der obigen drei Methoden
Nachbargenerierungs-Vergleich:
- Zufällige Gaußsche Rauschgenerierung vs. Mannigfaltigkeits-basierte Medoid-Generierung
- Modellarchitektur: 5-schichtiges vollständig verbundenes neuronales Netzwerk, ReLU-Aktivierung, Sigmoid-Ausgabe
- Verlustfunktion: Focal Loss (γ=2.5,α=0.75)
- Optimierer: RAdam, Lernrate 0,0001
- Trainingseinstellungen: 100 Epochen, Batch-Größe 256
- Nachbarparameter: knn=5,λ=0.05, Nachbargröße n=100
| Datensatz | Mehrheitsklasse F1 | Minderheitsklasse F1 | Minderheitsklassen-Stichproben |
|---|
| Trainingssatz | 1,00 | 0,66 | ~2.500 |
| Validierungssatz | 1,00 | 0,50 | ~450 |
| Testsatz | 1,00 | 0,51 | ~300 |
| Methode | Robustheit R^(x) | Konsistenz C^(x) |
|---|
| Integrated Gradients | 89,34 % (±8,35 %) | 97,56 % (±3,58 %) |
| DeepLIFT | 97,69 % (±2,26 %) | 99,40 % (±1,51 %) |
| LRP | 76,77 % (±15,70 %) | 89,86 % (±19,95 %) |
| Ensemble | 79,03 % (±12,56 %) | 89,20 % (±13,73 %) |
- Bedeutung der Nachbargenerierungsmethode: Die auf Medoids basierende Methode zeigt bei Minderheitsklassen eine deutlich bessere Leistung als zufälliges Rauschen
- DeepLIFT zeigt optimale Leistung: Erreicht die höchsten Werte und niedrigsten Standardabweichungen bei beiden Metriken Robustheit und Konsistenz
- Instabilität von LRP: Aufgrund von Gradientenschwund zeigt LRP die instabilste Leistung
- Fragilität der Minderheitsklasse: Erklärungen der Minderheitsklasse sind leichter von der Wahl der Nachbargenerierungsmethode beeinflusst als Erklärungen der Mehrheitsklasse
Durch Vergleich der zufälligen Nachbargenerierung und der auf Medoids basierenden Nachbargenerierung wird nachgewiesen, dass:
- Die zufällige Methode bei Minderheitsklassen zu größeren Verteilungsverschiebungen führt
- Die auf Medoids basierende Methode die Datenmmannigfaltigkeitsstruktur besser bewahrt
- Minderheitsklassen empfindlicher auf die Wahl der Nachbargenerierungsmethode reagieren
- Einschränkungen von LIME und SHAP: Bisherige Forschungen zeigen, dass diese Methoden unter adversarialen Angriffen schlecht abschneiden
- Erklärungsstabilität: Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Erklärungsstabilität im allgemeinen Fall und fehlen spezialisierte Studien zu unausgeglichenen Daten
- Traditionelle Methoden: Resampling, kostenempfindliches Lernen usw.
- Deep-Learning-Methoden: Focal Loss und andere spezialisierte Verlustfunktionen zur Behandlung unausgeglichener Daten
- Bewertungsherausforderungen: Traditionelle Bewertungsmetriken versagen bei extrem unausgeglichenen Daten
Im Vergleich zu bestehenden Arbeiten untersucht dieses Papier erstmals systematisch das Problem der Zuverlässigkeit von XAI-Methoden in unausgeglichenen Datensätzen und schlägt einen speziellen Bewertungsrahmen vor.
- Die Zuverlässigkeit von Erklärungen in unausgeglichenen Datensätzen ist ein wichtiges, aber übersehenes Problem
- Erklärungen der Minderheitsklasse erfordern spezielle Bewertungsmethoden, traditionelle Methoden können zu irreführenden Ergebnissen führen
- Die auf Mannigfaltigkeiten basierende Nachbargenerierung kann die Zuverlässigkeit der Bewertung erheblich verbessern
- DeepLIFT zeigt die beste Leistung bei der Frostwettervorhersageaufgabe mit hoher Robustheit und Konsistenz
- Die Methode befindet sich noch in einem frühen Stadium: Validierung auf mehr Datensätzen und Szenarien erforderlich
- Nur Tabellendaten berücksichtigt: Keine Abdeckung anderer Datentypen wie Bilder und Text
- Einschränkungen der Bewertungsmetriken: Aktuelle Metriken erfassen möglicherweise nicht vollständig die Erklärungsqualität
- Rechenaufwand: Die Generierung großer Mengen von Nachbarn für jede Stichprobe erhöht die Rechenkosten
- Erweiterung auf verschiedene Unausgeglichenheitsgrade: Untersuchung der Methodenleistung bei unterschiedlichen Unausgeglichenheitsgraden
- Multimodale Daten: Erweiterung der Methode auf Bilder, Text und andere Datentypen
- Unsicherheitsanalyse: Kombination mit Unsicherheitsquantifizierung zur Verbesserung der Minderheitsklassen-Bewertung
- Raumzeitliche Daten: Berücksichtigung der Besonderheiten raumzeitlicher Dimensionen
- Problemwichtigkeit: Konzentriert sich auf ein wichtiges, aber übersehenes Problem im XAI-Bereich
- Methodische Innovation: Schlägt einen gezielten Bewertungsrahmen mit theoretischer Grundlage vor
- Experimentelle Vollständigkeit: Validierung in echten Szenarien mit praktischem Anwendungswert
- Schreibklarheit: Klare Papierstruktur und detaillierte Methodenbeschreibung
- Begrenzte Experimentskala: Validierung nur auf einem Datensatz, mangelnde Universalität
- Unzureichende theoretische Analyse: Mangel an tiefgehender Analyse der theoretischen Eigenschaften der Methode
- Einschränkungen der Baseline-Methoden: Keine Vergleiche mit anderen speziellen XAI-Methoden für unausgeglichene Daten
- Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von Korrelationsmetriken, möglicherweise keine umfassende Widerspiegelung der Erklärungsqualität
- Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung von XAI bei unausgeglichenen Daten
- Praktischer Wert: Bietet Orientierung für die Bereitstellung von XAI in hochriskanten Anwendungen
- Reproduzierbarkeit: Code ist Open-Source, erleichtert Reproduktion und Erweiterung
- Hochriskante Anwendungen: Medizinische Diagnose, Finanzkontrolle, Wetterwarnung usw.
- Extrem unausgeglichene Daten: Betrugserkennung, Anomalieerkennung, Vorhersage seltener Ereignisse
- Streng regulierte Bereiche: Branchen, die erklärbare KI benötigen
Das Papier zitiert wichtige Arbeiten im XAI-Bereich, darunter:
- Klassische Methoden wie LIME 3 und SHAP 4
- Erklärungsmethoden für neuronale Netze wie Integrated Gradients 11, DeepLIFT 12, LRP 13
- Techniken zum unausgeglichenen Lernen wie Focal Loss 7
- Verwandte Robustheitanalysarbeiten 5, 9, 10
Gesamtbewertung: Dies ist eine vorläufige Forschungsarbeit, die sich auf ein wichtiges praktisches Problem konzentriert. Obwohl es Raum für Verbesserungen in der Experimentskala und theoretischen Tiefe gibt, eröffnet es neue Forschungsrichtungen für die Bewertung der Zuverlässigkeit von XAI bei unausgeglichenen Datensätzen und hat gute Anwendungsaussichten.