2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.

The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.

academic

Bewertung der Zuverlässigkeit von Erklärungen in unausgeglichenen Datensätzen: ein Anwendungsfall zum Auftreten von Frostwetterereignissen

Grundlegende Informationen

Papier-ID: 2507.09545
Titel: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
Autoren: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungszeit/Konferenz: Late-breaking work, 3. Weltkonferenz über erklärbare künstliche Intelligenz (9.–11. Juli 2025, Istanbul, Türkei)
Papierlink: https://arxiv.org/abs/2507.09545

Zusammenfassung

Die Verwendung von Methoden der erklärbaren künstlichen Intelligenz (XAI) ist in praktischen Anwendungen aufgrund der zunehmenden Bereitstellung von KI-Modellen und der in den letzten Jahren vorgeschlagenen Legislativanforderungen von entscheidender Bedeutung geworden. Die Robustheit von Erklärungen ist ein grundlegender, aber häufig unterschätzter Aspekt und eine Schlüsseleigenschaft, die Erklärungen erfüllen müssen, um vertrauenswürdig zu sein. Diese Forschung bietet erste Erkenntnisse zur Bewertung der Zuverlässigkeit von Erklärungen im speziellen Fall unausgeglichener Datensätze. Unausgeglichene Datensätze sind in hochriskanten Anwendungsfällen sehr häufig, stellen aber gleichzeitig erhebliche Herausforderungen für KI-Modelle und XAI-Methoden dar. Wir schlagen eine einfache Bewertungsmethode vor, die sich auf die Minderheitsklasse (d. h. die Klasse mit niedrigerer Häufigkeit) konzentriert und die Nachbargenerierung auf Mannigfaltigkeiten, Erklärungsaggregation und Metriken zur Prüfung der Erklärungskonsistenz nutzt. Wir demonstrieren dies anhand eines Tabellendatensatzes mit numerischen Merkmalen, wobei das Auftreten von Frostwetterereignissen als Anwendungsfall dient.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das diese Forschung lösen soll, ist: Wie kann die Zuverlässigkeit von XAI-Erklärungen in unausgeglichenen Datensätzen bewertet werden? Konkret können traditionelle Erklärungsmethoden möglicherweise unzuverlässige Ergebnisse liefern, wenn der Datensatz sehr wenige Minderheitsklassen-Stichproben enthält.

Wichtigkeitsanalyse

Legislativanforderungen: Vorschriften wie die DSGVO und das AI Act stellen Anforderungen an die Transparenz hochriskanter Anwendungen
Praktische Anforderungen: Hochriskante Bereiche wie Medizin, Klima und Betrugserkennung sind häufig mit Problemen unausgeglichener Daten konfrontiert
Vertrauenskrise: Bei unausgeglichenen Datensätzen kann ein Modell mit 99 % Genauigkeit möglicherweise nur einfach die Mehrheitsklasse vorhersagen

Einschränkungen bestehender Methoden

LIME und SHAP und ähnliche Methoden zeigen schlechte Robustheit bei unausgeglichenen Datensätzen
Mangel an gezielter Bewertung: Bestehende Methoden konzentrieren sich hauptsächlich auf die Gesamtleistung und ignorieren die Besonderheiten der Minderheitsklasse
Erklärungsinstabilität: Ähnliche Eingaben können zu völlig unterschiedlichen Erklärungen führen

Forschungsmotivation

Die Autoren sind der Ansicht, dass die Bewertung der Zuverlässigkeit von Erklärungen für die Minderheitsklasse in unausgeglichenen Datensätzen besonders wichtig ist, da:

Die genaue Vorhersage seltener Ereignisse in hochriskanten Anwendungen entscheidend ist
Die Mehrheitsklasse leicht vorherzusagen ist, ihre Erklärungen sind möglicherweise nicht vertrauenswürdig
Spezielle Methoden zur Bewertung der Robustheit von Minderheitsklassen-Erklärungen erforderlich sind

Kernbeiträge

Vorschlag eines Rahmens zur Bewertung der Zuverlässigkeit von Erklärungen für unausgeglichene Datensätze, mit Fokus auf Minderheitsklassen-Stichproben
Entwurf einer Nachbargenerierungsmethode basierend auf Mannigfaltigkeiten, um sicherzustellen, dass gestörte Stichproben auf der Datenmmannigfaltigkeit liegen
Einführung einer Konsistenzmetrik, die die Zuverlässigkeit durch Vergleich der ursprünglichen Erklärung mit der lokal gewichteten durchschnittlichen Erklärung bewertet
Validierung der Methodeneffektivität bei einer echten Frostwettervorhersageaufgabe, die hochgradig unausgeglichen ist (99:1)

Methodische Details

Aufgabendefinition

Gegeben ein unausgeglichener Datensatz $\mathcal{D} = (X,y)$ , wobei $P(y=0) \gg P(y=1)$ (0 ist die Mehrheitsklasse, 1 ist die Minderheitsklasse), trainieren wir ein neuronales Netzwerk $f(\cdot)$ . Das Ziel ist es, die Zuverlässigkeit der Erklärungsmethode $e$ bei Minderheitsklassen-Stichproben zu bewerten.

Modellarchitektur

1. Nachbargenerierung (Neighbourhood Generation)

Verwendung der Nachbargenerierung auf Mannigfaltigkeiten basierend auf k-medoids-Clustering:

Schritte:

Anwendung von k-medoids-Clustering auf den Validierungssatz, um $k_{medoids}$ Cluster zu erhalten
Durchschnittliche Clustergröße $n_k = 10$
Extraktion des Medoids jedes Clusters als Repräsentationspunkt
Für Teststichproben wird das entsprechende Medoid und seine $k_{nn}=5$ nächsten Nachbarn gefunden

Störungsformel: $\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j}$ wobei $\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)$

2. Lokale Mittelung (Local Averaging)

Berechnung der gewichteten durchschnittlichen Erklärung für Minderheitsklassen-Stichproben: $\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})}$ wobei die Gewichtung $\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}$

3. Zuverlässigkeitsbewertung

Definition von zwei Bewertungsmetriken:

Lokale Robustheit: $\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))$

Konsistenz: $\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x))$ wobei $\rho$ der Spearman-Rangkorrelationskoeffizient ist

Technische Innovationspunkte

Mannigfaltigkeits-bewusste Nachbargenerierung: Im Vergleich zu zufälligem Gaußschen Rauschen kann die auf Medoids basierende Methode Nachbarn generieren, die besser der Datenverteilung entsprechen
Spezialisierte Bewertung für Minderheitsklassen: Fokus auf die kritischsten, aber fragilsten Minderheitsklassen-Stichproben
Einführung von Konsistenzmetriken: Bewertung der lokalen Konsistenz durch Vergleich der ursprünglichen Erklärung mit der aggregierten Erklärung
Distanzgewichtete Erklärungsaggregation: Gewichtung von Erklärungen basierend auf Abständen zwischen Stichproben

Experimentelle Einrichtung

Datensatz

Frostwettervorhersage-Datensatz:

Quelle: ERA5-Reanalysedaten (ECMWF) + proprietäre Versicherungsdaten
Zeitspanne: 2009–2024 (15 Jahre)
Geografischer Umfang: Gesamtes Gebiet Polens
Merkmale: 8 numerische atmosphärische Variablen (standardisiert)
Ziel: Binärklassifizierung (Auftreten von Frostwetter oder nicht)
Unausgeglichenheitsgrad: 99 % vs. 1 % (hochgradig unausgeglichen)
Datenteilung: Trainingssatz 75 %, Validierungssatz 15 %, Testsatz 10 % (nach Regionen geschichtet)

Bewertungsmetriken

Modellleistung: F1-Score (geeignet für unausgeglichene Datensätze)
Zuverlässigkeit von Erklärungen: Lokale Robustheit $\hat{\mathcal{R}}(x)$ und Konsistenz $\hat{\mathcal{C}}(x)$
Korrelationsmaß: Spearman-Rangkorrelationskoeffizient

Vergleichsmethoden

Erklärungsmethoden:

Integrated Gradients: Attributionsmethode basierend auf Gradientenintegration
DeepLIFT: Methode basierend auf Aktivierungsdifferenzausbreitung
Layer-wise Relevance Propagation (LRP): Schichtweise Relevanzausbreitung
Ensemble-Methode: Gewichtete Kombination der obigen drei Methoden

Nachbargenerierungs-Vergleich:

Zufällige Gaußsche Rauschgenerierung vs. Mannigfaltigkeits-basierte Medoid-Generierung

Implementierungsdetails

Modellarchitektur: 5-schichtiges vollständig verbundenes neuronales Netzwerk, ReLU-Aktivierung, Sigmoid-Ausgabe
Verlustfunktion: Focal Loss ( $\gamma=2.5, \alpha=0.75$ )
Optimierer: RAdam, Lernrate 0,0001
Trainingseinstellungen: 100 Epochen, Batch-Größe 256
Nachbarparameter: $k_{nn}=5, \lambda=0.05$ , Nachbargröße $n=100$

Experimentelle Ergebnisse

Hauptergebnisse

Modellleistung

Datensatz	Mehrheitsklasse F1	Minderheitsklasse F1	Minderheitsklassen-Stichproben
Trainingssatz	1,00	0,66	~2.500
Validierungssatz	1,00	0,50	~450
Testsatz	1,00	0,51	~300

Vergleich der Erklärungsmethodenleistung

Methode	Robustheit $\hat{\mathcal{R}}(x)$	Konsistenz $\hat{\mathcal{C}}(x)$
Integrated Gradients	89,34 % (±8,35 %)	97,56 % (±3,58 %)
DeepLIFT	97,69 % (±2,26 %)	99,40 % (±1,51 %)
LRP	76,77 % (±15,70 %)	89,86 % (±19,95 %)
Ensemble	79,03 % (±12,56 %)	89,20 % (±13,73 %)

Wichtigste Erkenntnisse

Bedeutung der Nachbargenerierungsmethode: Die auf Medoids basierende Methode zeigt bei Minderheitsklassen eine deutlich bessere Leistung als zufälliges Rauschen
DeepLIFT zeigt optimale Leistung: Erreicht die höchsten Werte und niedrigsten Standardabweichungen bei beiden Metriken Robustheit und Konsistenz
Instabilität von LRP: Aufgrund von Gradientenschwund zeigt LRP die instabilste Leistung
Fragilität der Minderheitsklasse: Erklärungen der Minderheitsklasse sind leichter von der Wahl der Nachbargenerierungsmethode beeinflusst als Erklärungen der Mehrheitsklasse

Ablationsstudien

Durch Vergleich der zufälligen Nachbargenerierung und der auf Medoids basierenden Nachbargenerierung wird nachgewiesen, dass:

Die zufällige Methode bei Minderheitsklassen zu größeren Verteilungsverschiebungen führt
Die auf Medoids basierende Methode die Datenmmannigfaltigkeitsstruktur besser bewahrt
Minderheitsklassen empfindlicher auf die Wahl der Nachbargenerierungsmethode reagieren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die Zuverlässigkeit von Erklärungen in unausgeglichenen Datensätzen ist ein wichtiges, aber übersehenes Problem
Erklärungen der Minderheitsklasse erfordern spezielle Bewertungsmethoden, traditionelle Methoden können zu irreführenden Ergebnissen führen
Die auf Mannigfaltigkeiten basierende Nachbargenerierung kann die Zuverlässigkeit der Bewertung erheblich verbessern
DeepLIFT zeigt die beste Leistung bei der Frostwettervorhersageaufgabe mit hoher Robustheit und Konsistenz

Einschränkungen

Die Methode befindet sich noch in einem frühen Stadium: Validierung auf mehr Datensätzen und Szenarien erforderlich
Nur Tabellendaten berücksichtigt: Keine Abdeckung anderer Datentypen wie Bilder und Text
Einschränkungen der Bewertungsmetriken: Aktuelle Metriken erfassen möglicherweise nicht vollständig die Erklärungsqualität
Rechenaufwand: Die Generierung großer Mengen von Nachbarn für jede Stichprobe erhöht die Rechenkosten

Zukünftige Richtungen

Erweiterung auf verschiedene Unausgeglichenheitsgrade: Untersuchung der Methodenleistung bei unterschiedlichen Unausgeglichenheitsgraden
Multimodale Daten: Erweiterung der Methode auf Bilder, Text und andere Datentypen
Unsicherheitsanalyse: Kombination mit Unsicherheitsquantifizierung zur Verbesserung der Minderheitsklassen-Bewertung
Raumzeitliche Daten: Berücksichtigung der Besonderheiten raumzeitlicher Dimensionen

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Konzentriert sich auf ein wichtiges, aber übersehenes Problem im XAI-Bereich
Methodische Innovation: Schlägt einen gezielten Bewertungsrahmen mit theoretischer Grundlage vor
Experimentelle Vollständigkeit: Validierung in echten Szenarien mit praktischem Anwendungswert
Schreibklarheit: Klare Papierstruktur und detaillierte Methodenbeschreibung

Mängel

Begrenzte Experimentskala: Validierung nur auf einem Datensatz, mangelnde Universalität
Unzureichende theoretische Analyse: Mangel an tiefgehender Analyse der theoretischen Eigenschaften der Methode
Einschränkungen der Baseline-Methoden: Keine Vergleiche mit anderen speziellen XAI-Methoden für unausgeglichene Daten
Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von Korrelationsmetriken, möglicherweise keine umfassende Widerspiegelung der Erklärungsqualität

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung von XAI bei unausgeglichenen Daten
Praktischer Wert: Bietet Orientierung für die Bereitstellung von XAI in hochriskanten Anwendungen
Reproduzierbarkeit: Code ist Open-Source, erleichtert Reproduktion und Erweiterung

Anwendbare Szenarien

Hochriskante Anwendungen: Medizinische Diagnose, Finanzkontrolle, Wetterwarnung usw.
Extrem unausgeglichene Daten: Betrugserkennung, Anomalieerkennung, Vorhersage seltener Ereignisse
Streng regulierte Bereiche: Branchen, die erklärbare KI benötigen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im XAI-Bereich, darunter:

Klassische Methoden wie LIME 3 und SHAP 4
Erklärungsmethoden für neuronale Netze wie Integrated Gradients 11, DeepLIFT 12, LRP 13
Techniken zum unausgeglichenen Lernen wie Focal Loss 7
Verwandte Robustheitanalysarbeiten 5, 9, 10

Gesamtbewertung: Dies ist eine vorläufige Forschungsarbeit, die sich auf ein wichtiges praktisches Problem konzentriert. Obwohl es Raum für Verbesserungen in der Experimentskala und theoretischen Tiefe gibt, eröffnet es neue Forschungsrichtungen für die Bewertung der Zuverlässigkeit von XAI bei unausgeglichenen Datensätzen und hat gute Anwendungsaussichten.