2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.
The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
academic

Bewertung der Zuverlässigkeit von Erklärungen in unausgeglichenen Datensätzen: ein Anwendungsfall zum Auftreten von Frostwetterereignissen

Grundlegende Informationen

  • Papier-ID: 2507.09545
  • Titel: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
  • Autoren: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungszeit/Konferenz: Late-breaking work, 3. Weltkonferenz über erklärbare künstliche Intelligenz (9.–11. Juli 2025, Istanbul, Türkei)
  • Papierlink: https://arxiv.org/abs/2507.09545

Zusammenfassung

Die Verwendung von Methoden der erklärbaren künstlichen Intelligenz (XAI) ist in praktischen Anwendungen aufgrund der zunehmenden Bereitstellung von KI-Modellen und der in den letzten Jahren vorgeschlagenen Legislativanforderungen von entscheidender Bedeutung geworden. Die Robustheit von Erklärungen ist ein grundlegender, aber häufig unterschätzter Aspekt und eine Schlüsseleigenschaft, die Erklärungen erfüllen müssen, um vertrauenswürdig zu sein. Diese Forschung bietet erste Erkenntnisse zur Bewertung der Zuverlässigkeit von Erklärungen im speziellen Fall unausgeglichener Datensätze. Unausgeglichene Datensätze sind in hochriskanten Anwendungsfällen sehr häufig, stellen aber gleichzeitig erhebliche Herausforderungen für KI-Modelle und XAI-Methoden dar. Wir schlagen eine einfache Bewertungsmethode vor, die sich auf die Minderheitsklasse (d. h. die Klasse mit niedrigerer Häufigkeit) konzentriert und die Nachbargenerierung auf Mannigfaltigkeiten, Erklärungsaggregation und Metriken zur Prüfung der Erklärungskonsistenz nutzt. Wir demonstrieren dies anhand eines Tabellendatensatzes mit numerischen Merkmalen, wobei das Auftreten von Frostwetterereignissen als Anwendungsfall dient.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das diese Forschung lösen soll, ist: Wie kann die Zuverlässigkeit von XAI-Erklärungen in unausgeglichenen Datensätzen bewertet werden? Konkret können traditionelle Erklärungsmethoden möglicherweise unzuverlässige Ergebnisse liefern, wenn der Datensatz sehr wenige Minderheitsklassen-Stichproben enthält.

Wichtigkeitsanalyse

  1. Legislativanforderungen: Vorschriften wie die DSGVO und das AI Act stellen Anforderungen an die Transparenz hochriskanter Anwendungen
  2. Praktische Anforderungen: Hochriskante Bereiche wie Medizin, Klima und Betrugserkennung sind häufig mit Problemen unausgeglichener Daten konfrontiert
  3. Vertrauenskrise: Bei unausgeglichenen Datensätzen kann ein Modell mit 99 % Genauigkeit möglicherweise nur einfach die Mehrheitsklasse vorhersagen

Einschränkungen bestehender Methoden

  1. LIME und SHAP und ähnliche Methoden zeigen schlechte Robustheit bei unausgeglichenen Datensätzen
  2. Mangel an gezielter Bewertung: Bestehende Methoden konzentrieren sich hauptsächlich auf die Gesamtleistung und ignorieren die Besonderheiten der Minderheitsklasse
  3. Erklärungsinstabilität: Ähnliche Eingaben können zu völlig unterschiedlichen Erklärungen führen

Forschungsmotivation

Die Autoren sind der Ansicht, dass die Bewertung der Zuverlässigkeit von Erklärungen für die Minderheitsklasse in unausgeglichenen Datensätzen besonders wichtig ist, da:

  • Die genaue Vorhersage seltener Ereignisse in hochriskanten Anwendungen entscheidend ist
  • Die Mehrheitsklasse leicht vorherzusagen ist, ihre Erklärungen sind möglicherweise nicht vertrauenswürdig
  • Spezielle Methoden zur Bewertung der Robustheit von Minderheitsklassen-Erklärungen erforderlich sind

Kernbeiträge

  1. Vorschlag eines Rahmens zur Bewertung der Zuverlässigkeit von Erklärungen für unausgeglichene Datensätze, mit Fokus auf Minderheitsklassen-Stichproben
  2. Entwurf einer Nachbargenerierungsmethode basierend auf Mannigfaltigkeiten, um sicherzustellen, dass gestörte Stichproben auf der Datenmmannigfaltigkeit liegen
  3. Einführung einer Konsistenzmetrik, die die Zuverlässigkeit durch Vergleich der ursprünglichen Erklärung mit der lokal gewichteten durchschnittlichen Erklärung bewertet
  4. Validierung der Methodeneffektivität bei einer echten Frostwettervorhersageaufgabe, die hochgradig unausgeglichen ist (99:1)

Methodische Details

Aufgabendefinition

Gegeben ein unausgeglichener Datensatz D=(X,y)\mathcal{D} = (X,y), wobei P(y=0)P(y=1)P(y=0) \gg P(y=1) (0 ist die Mehrheitsklasse, 1 ist die Minderheitsklasse), trainieren wir ein neuronales Netzwerk f()f(\cdot). Das Ziel ist es, die Zuverlässigkeit der Erklärungsmethode ee bei Minderheitsklassen-Stichproben zu bewerten.

Modellarchitektur

1. Nachbargenerierung (Neighbourhood Generation)

Verwendung der Nachbargenerierung auf Mannigfaltigkeiten basierend auf k-medoids-Clustering:

Schritte:

  • Anwendung von k-medoids-Clustering auf den Validierungssatz, um kmedoidsk_{medoids} Cluster zu erhalten
  • Durchschnittliche Clustergröße nk=10n_k = 10
  • Extraktion des Medoids jedes Clusters als Repräsentationspunkt
  • Für Teststichproben wird das entsprechende Medoid und seine knn=5k_{nn}=5 nächsten Nachbarn gefunden

Störungsformel: x~j=(1λˉ)xj+λˉxMj\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j} wobei λˉBeta(λ100,(1λ)100)\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)

2. Lokale Mittelung (Local Averaging)

Berechnung der gewichteten durchschnittlichen Erklärung für Minderheitsklassen-Stichproben: eˉ(x)=x~Ne(x~)π(x,x~)x~Nπ(x,x~)\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})} wobei die Gewichtung π(x,x~)=1dist(x,x~)\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}

3. Zuverlässigkeitsbewertung

Definition von zwei Bewertungsmetriken:

Lokale Robustheit: R^(x)=1Nx~Nρ(e(x),e(x~))\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))

Konsistenz: C^(x)=ρ(e(x),eˉ(x))\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x)) wobei ρ\rho der Spearman-Rangkorrelationskoeffizient ist

Technische Innovationspunkte

  1. Mannigfaltigkeits-bewusste Nachbargenerierung: Im Vergleich zu zufälligem Gaußschen Rauschen kann die auf Medoids basierende Methode Nachbarn generieren, die besser der Datenverteilung entsprechen
  2. Spezialisierte Bewertung für Minderheitsklassen: Fokus auf die kritischsten, aber fragilsten Minderheitsklassen-Stichproben
  3. Einführung von Konsistenzmetriken: Bewertung der lokalen Konsistenz durch Vergleich der ursprünglichen Erklärung mit der aggregierten Erklärung
  4. Distanzgewichtete Erklärungsaggregation: Gewichtung von Erklärungen basierend auf Abständen zwischen Stichproben

Experimentelle Einrichtung

Datensatz

Frostwettervorhersage-Datensatz:

  • Quelle: ERA5-Reanalysedaten (ECMWF) + proprietäre Versicherungsdaten
  • Zeitspanne: 2009–2024 (15 Jahre)
  • Geografischer Umfang: Gesamtes Gebiet Polens
  • Merkmale: 8 numerische atmosphärische Variablen (standardisiert)
  • Ziel: Binärklassifizierung (Auftreten von Frostwetter oder nicht)
  • Unausgeglichenheitsgrad: 99 % vs. 1 % (hochgradig unausgeglichen)
  • Datenteilung: Trainingssatz 75 %, Validierungssatz 15 %, Testsatz 10 % (nach Regionen geschichtet)

Bewertungsmetriken

  • Modellleistung: F1-Score (geeignet für unausgeglichene Datensätze)
  • Zuverlässigkeit von Erklärungen: Lokale Robustheit R^(x)\hat{\mathcal{R}}(x) und Konsistenz C^(x)\hat{\mathcal{C}}(x)
  • Korrelationsmaß: Spearman-Rangkorrelationskoeffizient

Vergleichsmethoden

Erklärungsmethoden:

  1. Integrated Gradients: Attributionsmethode basierend auf Gradientenintegration
  2. DeepLIFT: Methode basierend auf Aktivierungsdifferenzausbreitung
  3. Layer-wise Relevance Propagation (LRP): Schichtweise Relevanzausbreitung
  4. Ensemble-Methode: Gewichtete Kombination der obigen drei Methoden

Nachbargenerierungs-Vergleich:

  • Zufällige Gaußsche Rauschgenerierung vs. Mannigfaltigkeits-basierte Medoid-Generierung

Implementierungsdetails

  • Modellarchitektur: 5-schichtiges vollständig verbundenes neuronales Netzwerk, ReLU-Aktivierung, Sigmoid-Ausgabe
  • Verlustfunktion: Focal Loss (γ=2.5,α=0.75\gamma=2.5, \alpha=0.75)
  • Optimierer: RAdam, Lernrate 0,0001
  • Trainingseinstellungen: 100 Epochen, Batch-Größe 256
  • Nachbarparameter: knn=5,λ=0.05k_{nn}=5, \lambda=0.05, Nachbargröße n=100n=100

Experimentelle Ergebnisse

Hauptergebnisse

Modellleistung

DatensatzMehrheitsklasse F1Minderheitsklasse F1Minderheitsklassen-Stichproben
Trainingssatz1,000,66~2.500
Validierungssatz1,000,50~450
Testsatz1,000,51~300

Vergleich der Erklärungsmethodenleistung

MethodeRobustheit R^(x)\hat{\mathcal{R}}(x)Konsistenz C^(x)\hat{\mathcal{C}}(x)
Integrated Gradients89,34 % (±8,35 %)97,56 % (±3,58 %)
DeepLIFT97,69 % (±2,26 %)99,40 % (±1,51 %)
LRP76,77 % (±15,70 %)89,86 % (±19,95 %)
Ensemble79,03 % (±12,56 %)89,20 % (±13,73 %)

Wichtigste Erkenntnisse

  1. Bedeutung der Nachbargenerierungsmethode: Die auf Medoids basierende Methode zeigt bei Minderheitsklassen eine deutlich bessere Leistung als zufälliges Rauschen
  2. DeepLIFT zeigt optimale Leistung: Erreicht die höchsten Werte und niedrigsten Standardabweichungen bei beiden Metriken Robustheit und Konsistenz
  3. Instabilität von LRP: Aufgrund von Gradientenschwund zeigt LRP die instabilste Leistung
  4. Fragilität der Minderheitsklasse: Erklärungen der Minderheitsklasse sind leichter von der Wahl der Nachbargenerierungsmethode beeinflusst als Erklärungen der Mehrheitsklasse

Ablationsstudien

Durch Vergleich der zufälligen Nachbargenerierung und der auf Medoids basierenden Nachbargenerierung wird nachgewiesen, dass:

  • Die zufällige Methode bei Minderheitsklassen zu größeren Verteilungsverschiebungen führt
  • Die auf Medoids basierende Methode die Datenmmannigfaltigkeitsstruktur besser bewahrt
  • Minderheitsklassen empfindlicher auf die Wahl der Nachbargenerierungsmethode reagieren

Verwandte Arbeiten

XAI-Robustheitsstudien

  • Einschränkungen von LIME und SHAP: Bisherige Forschungen zeigen, dass diese Methoden unter adversarialen Angriffen schlecht abschneiden
  • Erklärungsstabilität: Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Erklärungsstabilität im allgemeinen Fall und fehlen spezialisierte Studien zu unausgeglichenen Daten

Unausgeglichenes Lernen

  • Traditionelle Methoden: Resampling, kostenempfindliches Lernen usw.
  • Deep-Learning-Methoden: Focal Loss und andere spezialisierte Verlustfunktionen zur Behandlung unausgeglichener Daten
  • Bewertungsherausforderungen: Traditionelle Bewertungsmetriken versagen bei extrem unausgeglichenen Daten

Beitrag dieses Papiers

Im Vergleich zu bestehenden Arbeiten untersucht dieses Papier erstmals systematisch das Problem der Zuverlässigkeit von XAI-Methoden in unausgeglichenen Datensätzen und schlägt einen speziellen Bewertungsrahmen vor.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die Zuverlässigkeit von Erklärungen in unausgeglichenen Datensätzen ist ein wichtiges, aber übersehenes Problem
  2. Erklärungen der Minderheitsklasse erfordern spezielle Bewertungsmethoden, traditionelle Methoden können zu irreführenden Ergebnissen führen
  3. Die auf Mannigfaltigkeiten basierende Nachbargenerierung kann die Zuverlässigkeit der Bewertung erheblich verbessern
  4. DeepLIFT zeigt die beste Leistung bei der Frostwettervorhersageaufgabe mit hoher Robustheit und Konsistenz

Einschränkungen

  1. Die Methode befindet sich noch in einem frühen Stadium: Validierung auf mehr Datensätzen und Szenarien erforderlich
  2. Nur Tabellendaten berücksichtigt: Keine Abdeckung anderer Datentypen wie Bilder und Text
  3. Einschränkungen der Bewertungsmetriken: Aktuelle Metriken erfassen möglicherweise nicht vollständig die Erklärungsqualität
  4. Rechenaufwand: Die Generierung großer Mengen von Nachbarn für jede Stichprobe erhöht die Rechenkosten

Zukünftige Richtungen

  1. Erweiterung auf verschiedene Unausgeglichenheitsgrade: Untersuchung der Methodenleistung bei unterschiedlichen Unausgeglichenheitsgraden
  2. Multimodale Daten: Erweiterung der Methode auf Bilder, Text und andere Datentypen
  3. Unsicherheitsanalyse: Kombination mit Unsicherheitsquantifizierung zur Verbesserung der Minderheitsklassen-Bewertung
  4. Raumzeitliche Daten: Berücksichtigung der Besonderheiten raumzeitlicher Dimensionen

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Konzentriert sich auf ein wichtiges, aber übersehenes Problem im XAI-Bereich
  2. Methodische Innovation: Schlägt einen gezielten Bewertungsrahmen mit theoretischer Grundlage vor
  3. Experimentelle Vollständigkeit: Validierung in echten Szenarien mit praktischem Anwendungswert
  4. Schreibklarheit: Klare Papierstruktur und detaillierte Methodenbeschreibung

Mängel

  1. Begrenzte Experimentskala: Validierung nur auf einem Datensatz, mangelnde Universalität
  2. Unzureichende theoretische Analyse: Mangel an tiefgehender Analyse der theoretischen Eigenschaften der Methode
  3. Einschränkungen der Baseline-Methoden: Keine Vergleiche mit anderen speziellen XAI-Methoden für unausgeglichene Daten
  4. Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von Korrelationsmetriken, möglicherweise keine umfassende Widerspiegelung der Erklärungsqualität

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung von XAI bei unausgeglichenen Daten
  2. Praktischer Wert: Bietet Orientierung für die Bereitstellung von XAI in hochriskanten Anwendungen
  3. Reproduzierbarkeit: Code ist Open-Source, erleichtert Reproduktion und Erweiterung

Anwendbare Szenarien

  • Hochriskante Anwendungen: Medizinische Diagnose, Finanzkontrolle, Wetterwarnung usw.
  • Extrem unausgeglichene Daten: Betrugserkennung, Anomalieerkennung, Vorhersage seltener Ereignisse
  • Streng regulierte Bereiche: Branchen, die erklärbare KI benötigen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im XAI-Bereich, darunter:

  • Klassische Methoden wie LIME 3 und SHAP 4
  • Erklärungsmethoden für neuronale Netze wie Integrated Gradients 11, DeepLIFT 12, LRP 13
  • Techniken zum unausgeglichenen Lernen wie Focal Loss 7
  • Verwandte Robustheitanalysarbeiten 5, 9, 10

Gesamtbewertung: Dies ist eine vorläufige Forschungsarbeit, die sich auf ein wichtiges praktisches Problem konzentriert. Obwohl es Raum für Verbesserungen in der Experimentskala und theoretischen Tiefe gibt, eröffnet es neue Forschungsrichtungen für die Bewertung der Zuverlässigkeit von XAI bei unausgeglichenen Datensätzen und hat gute Anwendungsaussichten.