2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.

The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.

academic

불균형 데이터셋에서 설명의 신뢰성 평가: 서리 현상 발생 사례 연구

기본 정보

논문 ID: 2507.09545
제목: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
저자: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
분류: cs.LG (머신러닝)
발표 시간/학회: 후기 발표, 제3회 설명 가능한 인공지능 세계 학회 (2025년 7월 09-11일, 터키 이스탄불)
논문 링크: https://arxiv.org/abs/2507.09545

초록

설명 가능한 인공지능(XAI) 방법의 사용은 인공지능 모델의 점진적 배포와 최근 제시된 입법 요구사항 덕분에 실제 응용에서 매우 중요해졌습니다. 설명의 견고성은 기본적이지만 종종 과소평가되는 측면으로, 설명을 신뢰하기 위해 충족해야 할 핵심 속성입니다. 본 연구는 불균형 데이터셋의 특정 상황에서 설명 신뢰성 평가에 대한 초기 통찰력을 제공합니다. 불균형 데이터셋은 고위험 사용 사례에서 매우 흔하지만, 동시에 AI 모델과 XAI 방법 모두에 상당한 도전을 제시합니다. 우리는 소수 클래스(즉, 빈도가 낮은 클래스)에 초점을 맞춘 간단한 평가 방법을 제안하며, 이는 다양체 상의 이웃 생성, 설명 집계 및 설명 일관성 테스트 메트릭을 활용합니다. 우리는 수치 특성의 표 형식 데이터셋을 기반으로 서리 현상 발생을 사용 사례로 하여 이를 시연했습니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 불균형 데이터셋에서 XAI 설명의 신뢰성을 어떻게 평가할 것인가입니다. 구체적으로, 데이터셋에서 소수 클래스 샘플이 극히 적을 때, 전통적인 설명 방법은 신뢰할 수 없는 결과를 생성할 수 있습니다.

중요성 분석

입법 요구사항: GDPR 및 AI Act 등의 규정이 고위험 응용에 대한 투명성을 요구
실제 필요성: 의료, 기후, 사기 탐지 등 고위험 분야에서 불균형 데이터 문제에 자주 직면
신뢰 위기: 불균형 데이터셋에서 모델이 99% 정확도를 달성해도 단순히 다수 클래스를 예측하는 것일 수 있음

기존 방법의 한계

LIME 및 SHAP 등의 방법이 불균형 데이터셋에서 낮은 견고성을 보임
대상화된 평가 부재: 기존 방법은 주로 전체 성능에 초점을 맞추고 소수 클래스의 특수성을 무시
설명 불안정성: 유사한 입력이 완전히 다른 설명을 생성할 수 있음

연구 동기

저자들은 불균형 데이터셋에서 소수 클래스의 설명 신뢰성 평가가 특히 중요하다고 생각합니다. 이유는:

희귀 사건의 정확한 예측이 고위험 응용에서 매우 중요
다수 클래스는 예측하기 쉬우므로 그 설명이 반드시 신뢰할 수 있는 것은 아님
소수 클래스 설명의 견고성을 평가하기 위한 전문화된 방법이 필요

핵심 기여

불균형 데이터셋에 대한 설명 신뢰성 평가 프레임워크 제안, 소수 클래스 샘플에 초점
다양체 기반 이웃 생성 방법 설계, 교란 샘플이 데이터 다양체 위에 있도록 보장
일관성 메트릭 도입, 원본 설명과 국소 가중 평균 설명을 비교하여 신뢰성 평가
실제 서리 예측 작업에서 방법의 효과성 검증, 고도로 불균형한 특성(99:1)

방법 상세 설명

작업 정의

불균형 데이터셋 $\mathcal{D} = (X,y)$ 가 주어졌을 때, 여기서 $P(y=0) \gg P(y=1)$ (0은 다수 클래스, 1은 소수 클래스), 신경망 $f(\cdot)$ 을 훈련하고, 목표는 소수 클래스 샘플에서 설명 방법 $e$ 의 신뢰성을 평가하는 것입니다.

모델 아키텍처

1. 이웃 생성 (Neighbourhood Generation)

k-medoids 클러스터링 기반의 다양체 상 이웃 생성:

단계:

검증 집합에 k-medoids 클러스터링 적용, $k_{medoids}$ 개 클러스터 획득
각 클러스터 평균 크기 $n_k = 10$
각 클러스터의 medoid를 대표점으로 추출
테스트 샘플에 대해 해당 medoid 및 $k_{nn}=5$ 개 최근접 이웃 찾기

교란 공식: $\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j}$ 여기서 $\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)$

2. 국소 평균화 (Local Averaging)

소수 클래스 샘플에 대한 가중 평균 설명 계산: $\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})}$ 여기서 가중치 $\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}$

3. 신뢰성 평가

두 가지 평가 지표 정의:

국소 견고성: $\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))$

일관성: $\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x))$ 여기서 $\rho$ 는 Spearman 순위 상관계수

기술 혁신점

다양체 인식 이웃 생성: 무작위 가우시안 노이즈와 비교하여 medoid 기반 방법은 데이터 분포에 더 부합하는 이웃을 생성
소수 클래스 전문화 평가: 가장 중요하지만 가장 취약한 소수 클래스 샘플에 초점
일관성 메트릭 도입: 원본 설명과 집계 설명을 비교하여 국소 일관성 평가
거리 가중 설명 집계: 샘플 간 거리에 따라 설명을 가중 평균

실험 설정

데이터셋

서리 예측 데이터셋:

출처: ERA5 재분석 데이터(ECMWF) + 보험사 독점 데이터
시간 범위: 2009-2024년(15년)
지리적 범위: 폴란드 전역
특성: 8개 수치화된 대기 변수(표준화 처리)
목표: 이진 분류(서리 발생 여부)
불균형 정도: 99% vs 1%(고도로 불균형)
데이터 분할: 훈련 집합 75%, 검증 집합 15%, 테스트 집합 10%(지역별 계층화)

평가 지표

모델 성능: F1-점수(불균형 데이터셋에 적합)
설명 신뢰성: 국소 견고성 $\hat{\mathcal{R}}(x)$ 및 일관성 $\hat{\mathcal{C}}(x)$
상관성 메트릭: Spearman 순위 상관계수

비교 방법

설명 방법:

Integrated Gradients: 그래디언트 적분 기반 귀인 방법
DeepLIFT: 활성화 차이 전파 기반 방법
Layer-wise Relevance Propagation (LRP): 계층별 관련성 전파
앙상블 방법: 위 세 가지 방법의 가중 조합

이웃 생성 비교:

무작위 가우시안 노이즈 생성 vs medoid 기반 다양체 생성

구현 세부사항

모델 아키텍처: 5층 완전 연결 신경망, ReLU 활성화, sigmoid 출력
손실 함수: Focal Loss ( $\gamma=2.5, \alpha=0.75$ )
최적화기: RAdam, 학습률 0.0001
훈련 설정: 100 에포크, 배치 크기 256
이웃 매개변수: $k_{nn}=5, \lambda=0.05$ , 이웃 크기 $n=100$

실험 결과

주요 결과

모델 성능

데이터셋	다수 클래스 F1	소수 클래스 F1	소수 클래스 샘플 수
훈련 집합	1.00	0.66	~2,500
검증 집합	1.00	0.50	~450
테스트 집합	1.00	0.51	~300

설명 방법 성능 비교

방법	견고성 $\hat{\mathcal{R}}(x)$	일관성 $\hat{\mathcal{C}}(x)$
Integrated Gradients	89.34% (±8.35%)	97.56% (±3.58%)
DeepLIFT	97.69% (±2.26%)	99.40% (±1.51%)
LRP	76.77% (±15.70%)	89.86% (±19.95%)
앙상블	79.03% (±12.56%)	89.20% (±13.73%)