2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

academic

설명을 언제 신뢰할 수 있는가? 특성 중요도에 대한 견고성 분석

기본 정보

논문 ID: 2406.14349
제목: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
저자: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
분류: cs.LG (기계학습)
발표 시간: 2024년 6월 (arXiv 사전인쇄본, 2025년 4월 업데이트)
논문 링크: https://arxiv.org/abs/2406.14349

초록

인공지능 규제가 계속 발전함에 따라 설명 가능한 인공지능(XAI)에 대한 필요성이 증가하고 있습니다. 그러나 표준화된 설명 방법 검증 기준의 부재는 신뢰할 수 있는 시스템 개발의 주요 장애물로 남아 있습니다. 본 논문은 XAI에서 자주 간과되지만 매우 중요한 설명 견고성 문제를 다루며, 신경망 설명이 비대적 교란에 대한 견고성을 평가하기 위한 새로운 분석 방법을 제안합니다. 이 방법은 다양체 가정을 활용하여 관찰된 데이터 분포를 따르는 교란 데이터 포인트를 생성하며, 여러 설명을 집계하기 위한 앙상블 방법을 제안하여 병합된 설명이 모델 결정 이해 및 견고성 평가에 미치는 이점을 보여줍니다.

연구 배경 및 동기

문제 배경

규제 요구사항: EU AI 법안 및 GDPR 등의 규제는 AI 시스템의 투명성과 설명 가능성의 중요성을 강조합니다
블랙박스 딜레마: 현대 AI 시스템은 많은 매개변수로 인해 블랙박스 특성을 띠고 있으며 투명성이 부족합니다
설명 방법의 불안정성: LIME 및 SHAP과 같은 기존 XAI 방법은 고유한 불안정성 문제를 가지고 있습니다
표준화 부재: 설명 방법을 검증하기 위한 표준화된 기준이 부족합니다

연구 동기

견고성 평가: 설명의 견고성은 시스템 및 설명의 신뢰성을 보장하는 핵심 요소입니다
실용성 요구: 실무자에게 모델 설명의 신뢰성을 평가하기 위한 실용적인 프레임워크를 제공합니다
설명 불일치 문제: 동일한 데이터 포인트에 여러 설명 방법을 적용할 때 발생하는 상충하는 결과 문제를 해결합니다

핵심 기여

견고성 추정기: 이상적인 견고성 추정기가 만족해야 할 성질들의 집합을 제안하고, 제안된 방법이 모든 성질을 만족함을 증명합니다
설명 앙상블 방법: 신경망 설명의 불일치 문제를 해결하기 위해 특성 순위 기반 설명 앙상블 방법을 제안합니다
비대적 교란 프레임워크: 설명이 비대적 교란에 대한 견고성을 테스트하기 위한 프레임워크를 도입하고 실제 응용에서의 신뢰성을 평가합니다
검증 평가 방법: 실제 표준의 부재 문제를 해결하는 새로운 견고성 추정 검증 평가 방법을 제안합니다

방법론 상세 설명

작업 정의

표 형식 데이터셋 D = (X,y)가 주어졌을 때, N개의 데이터 포인트와 m개의 특성을 포함하며, 작업은 신경망 f에 적용된 설명 방법 e의 견고성을 평가하는 것입니다. 여기서 설명은 특성 중요도 벡터 형태로 표현됩니다.

견고성 추정기

핵심 정의

견고성은 입력이 수정될 때 설명 방법이 일관된 설명을 제공하는 능력으로 정의됩니다:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

여섯 가지 성질

논문은 견고성 추정기가 만족해야 할 여섯 가지 핵심 성질을 제안합니다:

성질 1: 견고성은 개별 견고성의 기댓값입니다
성질 2: 인접한 포인트의 견고성 점수는 유사합니다
성질 3: 추정에 불확실성이 포함됩니다
성질 4: 다양체 위의 교란이 다양체 밖의 교란보다 더 높은 견고성을 가집니다
성질 5: 집계 설명기의 견고성이 제한됩니다
성질 6: 동등한 모델의 설명은 유사한 견고성을 가집니다

견고성 계산

Spearman 순위 상관계수를 사용하여 견고성을 계산합니다:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

이웃 생성 메커니즘

무작위 이웃(NR)

수치 변수: 가우시안 백색 잡음 추가
범주형 변수: 무작위 뒤집기

중심점 기반 이웃(NM)

다양체 가정을 활용한 더 정교한 메커니즘:

검증 집합에 대해 k-중심점 클러스터링 수행
각 클러스터 중심에 대해 kM개의 가장 가까운 중심 찾기
베타 분포를 사용한 보간 교란

앙상블 방법

특성 순위 기반 가중 평균 앙상블을 제안합니다:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

여기서 부호 불일치에 대한 페널티 항이 포함되며, 가중치 방식은 특성 중요도의 상대적 크기를 고려합니다.

신뢰도 평가 프레임워크

k-최근접 이웃 회귀기를 사용하여 국소 견고성을 예측하고, 데이터 포인트를 세 가지 범주로 분류합니다:

견고한 포인트: R̂(xi) ≥ rth 및 Rknn(xi) ≥ rth
불확실한 포인트: R̂(xi) ≥ rth 하지만 Rknn(xi) < rth
견고하지 않은 포인트: R̂(xi) < rth

실험 설정

데이터셋

8개의 공개 표 형식 데이터셋을 사용합니다:

장난감 데이터셋: beans, cancer, mushroom, white wine
실제 데이터셋: adult, bank marketing, heloc, ocean

XAI 방법

신경망 특정 방법에 중점을 둡니다:

DeepLIFT: 참조점 차이를 기반으로 특성 중요도 계산
Integrated Gradients: 기준선에서 입력까지의 경로를 따라 기울기 적분
계층별 관련성 전파(LRP): 역전파 기반 관련성 전파

검증 전략

유사한 정확도를 가지지만 다른 아키텍처의 세 개 신경망을 사용하여 검증하고, ROC/AUC 분석을 통해 견고성 추정의 효과성을 평가합니다.

실험 결과

주요 발견

이웃 생성 효과

중심점 기반 이웃(NM)은 무작위 이웃(NR)보다 더 높은 견고성 점수를 생성합니다
NM 방법이 생성한 교란은 데이터 다양체에 더 부합하며, 성질 4를 검증합니다

앙상블 방법의 장점

집계된 설명의 견고성은 개별 방법 견고성의 보수적 추정치로 작용합니다
개별 방법의 견고성과 특성 수준 일관성을 고려할 수 있습니다
단순 평균 방법과 비교하여 더 신뢰할 수 있는 설명을 제공합니다

신뢰도 분류 결과

rth = 0.80 임계값에서:

대부분의 데이터셋에서 견고한 포인트가 다수를 차지합니다
불확실한 포인트와 견고하지 않은 포인트의 비율은 무시할 수 없습니다
mushroom 데이터셋은 세 모델 모두 100% 정확도에 도달하여 특수한 경우를 나타냅니다

검증 분석

ROC/AUC 분석은 다음을 보여줍니다:

중심점 기반 이웃과 결합된 앙상블 방법이 대부분의 데이터셋에서 최고의 성능을 발휘합니다
견고하지 않은 포인트에서 모델 예측 불일치의 비율이 견고한 포인트보다 일반적으로 높습니다
모델 예측 일관성을 견고성 검증 지표로 사용하는 가정을 지원합니다

결론 및 논의

주요 결론

제안된 견고성 추정기는 모든 이론적 성질을 만족하며 0,1 범위의 제한된 측정을 제공합니다
다양체 기반 이웃 생성은 무작위 교란보다 실제 견고성 평가에 더 적합합니다
앙상블 방법은 설명 불일치 문제를 효과적으로 처리하고 더 신뢰할 수 있는 설명을 제공합니다
프레임워크는 불확실한 영역의 데이터 포인트를 식별하여 실제 응용의 신뢰성을 향상시킵니다

한계

계산 복잡도: 각 데이터 포인트, 각 교란, 각 방법에 대해 네트워크 전달이 필요합니다
매개변수 민감도: 이웃 생성 및 임계값 선택에는 신중한 조정이 필요합니다
검증 가정: 모델 예측 일관성을 견고성 대리 지표로 사용하는 가정이 항상 성립하지 않을 수 있습니다

향후 방향

모델 일반화: 트리 기반 모델 등 다른 기계학습 모델로 확장합니다
대적 견고성: 대적 공격과의 관계 및 방어 능력을 연구합니다
분류기 견고성: 설명을 활용하여 분류기 견고성을 향상시키는 방법을 탐색합니다

심층 평가

장점

이론적 엄밀성: 여섯 가지 명확하게 정의된 성질을 포함한 완전한 견고성 추정기 이론 프레임워크를 제안합니다
방법론 혁신: 다양체 가정 기반 이웃 생성 및 부호 일관성을 고려한 앙상블 방법은 새로운 특징을 가집니다
실용적 가치: 완전한 신뢰도 평가 프로세스를 제공하며 실제 응용에 지도적 의미를 가집니다
포괄적 실험: 여러 데이터셋에서 충분한 실험을 수행하며 소거 연구 및 검증 분석을 포함합니다

부족한 점

계산 오버헤드: 방법의 계산 복잡도가 높아 대규모 응용을 제한할 수 있습니다
매개변수 의존성: 여러 초매개변수가 조정이 필요하여 방법의 복잡성을 증가시킵니다
검증 한계: 실제 표준 부재의 검증 방법은 여전히 개선 여지가 있습니다
적용 범위: 주로 표 형식 데이터 및 신경망을 대상으로 하며 일반화 가능성은 검증이 필요합니다

영향력

학술 기여: XAI 견고성 평가를 위한 체계적인 이론 및 방법론 프레임워크를 제공합니다
실무 지도: 실무자에게 설명 신뢰성을 평가하기 위한 구체적인 도구를 제공합니다
표준화 추진: XAI 방법 평가의 표준화 기준 수립에 기여합니다

적용 시나리오

고위험 AI 응용 시나리오의 설명 검증
여러 XAI 방법 비교 및 선택이 필요한 경우
설명 신뢰성에 대한 엄격한 요구사항이 있는 규제 환경
표 형식 데이터의 신경망 설명 분석

참고문헌

논문은 LIME, SHAP 등의 고전적 방법을 포함한 XAI 분야의 중요한 연구와 최근 설명 견고성, 대적 공격 등 분야의 최첨단 연구를 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.