2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

단일 모델 XAI를 넘어: 향상된 신뢰성을 위한 다중 모델 설명 집계

기본 정보

논문 ID: 2510.11164
제목: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
저자: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
분류: cs.LG (머신러닝)
발표 시간/학회: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
논문 링크: https://arxiv.org/abs/2510.11164

초록

인공지능 모델이 현실 세계의 고위험 응용 분야에서 광범위하게 사용됨에 따라, 그 신뢰성과 윤리적 사용 문제는 기술적, 입법적 관점 모두에서 점점 더 많은 주목을 받고 있습니다. 설명 가능한 인공지능(XAI) 분야는 복잡한 블랙박스 모델의 의사결정 과정을 밝히는 설명을 제공함으로써 이러한 과제에 대응하고 있습니다. 견고성이 중요한 속성임에도 불구하고, 개발 과정에서 종종 간과됩니다: 견고한 설명 방법만이 전체 시스템에 대한 신뢰를 증가시킬 수 있습니다. 본 논문은 여러 모델(k-최근접 이웃, 랜덤 포레스트, 신경망)에서 집계된 특성 중요도를 사용하여 견고성의 역할을 조사합니다. 초기 결과는 여러 모델의 예측 능력을 활용하면서 동시에 응용 신뢰도를 향상시킬 수 있는 잠재력을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 기존 XAI 방법의 두 가지 주요 결함입니다:

설명 견고성 부족: LIME과 SHAP 같은 인기 있는 설명 방법들이 여러 연구에서 견고성이 부족함이 증명되었음에도 불구하고 고위험 시나리오에서 광범위하게 적용되고 있음
설명 불일치 문제: 동일한 인스턴스에 여러 설명 방법을 적용할 때 상충하는 설명이 생성되며, 설명의 참값 기준이 없어 최적의 방법을 선택할 수 없음

중요성

GDPR과 AI 법안 등의 입법이 모델 투명성을 요구함에 따라, 설명의 신뢰성이 매우 중요해졌습니다. 설명에 대한 신뢰를 통해서만 모델 자체에 대한 신뢰를 구축할 수 있으며, 이는 고위험 응용 분야에서 특히 중요합니다.

기존 방법의 한계

LIME과 SHAP 등의 주류 방법들은 견고성 문제가 있어 유사한 입력에서 불일치하는 설명을 생성함
단일 모델 설명 방법은 여러 모델의 예측 능력을 충분히 활용하지 못함
서로 다른 모델 간의 설명 불일치를 처리하기 위한 효과적인 설명 집계 전략이 부족함

연구 동기

신경망 앙상블 설명에 대한 이전 작업을 바탕으로, 본 논문은 방법을 다양한 범주의 모델로 확장하여 서로 다른 의사결정 과정의 설명을 집계함으로써 시스템의 전반적인 신뢰도를 향상시키는 것을 목표로 합니다.

핵심 기여

두 가지 새로운 특성 귀속 방법 제안:
- k-최근접 이웃 모델을 위한 거리 기반 특성 중요도 방법
- 랜덤 포레스트를 위한 노드 불순도 기반 특성 귀속 방법
다중 모델 설명 집계 프레임워크 개발:
- k-NN, 랜덤 포레스트, 신경망의 설명 통합
- 산술 평균을 통한 특성 중요도 집계
견고성 평가 메커니즘 도입:
- 중심점 기반 이웃 생성 방법 사용
- Spearman 상관계수를 통한 설명 견고성 정량화
모델 일관성과 설명 견고성의 관계 검증:
- 다중 모델 예측 일관성이 설명 신뢰도의 지표로 작용할 수 있음을 증명

방법 상세 설명

작업 정의

본 논문은 표 형식 데이터의 이진 분류 작업에 중점을 두며, 각 예측 인스턴스에 대해 신뢰할 수 있는 특성 중요도 설명을 생성하는 것을 목표로 합니다. 입력은 표 형식 데이터 인스턴스이고, 출력은 정규화된 특성 귀속 벡터입니다.

모델 아키텍처

k-최근접 이웃 설명 방법

알고리즘은 k-NN의 거리 추론 메커니즘을 기반으로 합니다:

예측 지점 x에 대해 예측 클래스 c와 대립 클래스 ¬c에서 각각 k'개의 최근접 이웃 선택
각 이웃 그룹까지의 평균 특성 거리 D_c와 D_¬c 계산
특성 중요도 정의: e = D_¬c - D_c
단위 벡터로 정규화하여 비교 가능성 보장

랜덤 포레스트 설명 방법

의사결정 경로의 노드 불순도를 기반으로 합니다:

포레스트의 각 트리에 대해 데이터 포인트의 의사결정 경로 추적
단일 트리 예측이 포레스트 예측과 일치하는지 여부에 따라 노드 불순도를 e_c 또는 e_¬c에 누적
최종 설명: e = (p_¬c + ε) × e_c - p_c × e_¬c
여기서 p_c와 p_¬c는 예측 확률이고, ε=0.01은 영값 회피

집계 전략

특성 수준 산술 평균 사용:

a_agg = (1/L) × Σ(l=1 to L) a_l

여기서 L=3은 모델 수입니다. 모델 예측이 불일치할 때, 불일치 모델의 설명에 음수 부호를 취하여 설명이 동일한 클래스를 가리키도록 보장합니다.

견고성 평가

이웃 생성

중심점 기반 방법을 채택합니다:

검증 집합에 대해 k-medoid 클러스터링 수행
각 데이터 포인트에 대해 대응하는 클러스터 중심 및 그 k_M개의 최근접 중심점 찾기
베타 분포와 확률 대체를 통해 데이터 매니폴드를 따르는 교란 생성

견고성 계산

Spearman 순위 상관계수 사용:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

여기서 N은 예측 일관성을 유지하는 이웃 포인트 집합입니다.

실험 설정

데이터셋

이진 분류 작업을 위해 5개의 공개 표 형식 데이터셋 사용:

Adult: 36,177/8,045/1,000 (훈련/검증/테스트), 5개 수치 특성, 7개 범주형 특성
Bank: 36,168/8,043/1,000, 5개 수치 특성, 9개 범주형 특성
HELOC: 8,367/1,592/500, 14개 수치 특성, 2개 범주형 특성
Cancer: 397/121/50, 15개 수치 특성, 0개 범주형 특성
White Wine: 3,918/780/200, 9개 수치 특성, 0개 범주형 특성

평가 지표

견고성 점수: Spearman 상관계수 기반 평균값
이웃 크기: 필터링 후 유지되는 교란 포인트의 비율
AUC 값: 모델 일관성 기반 ROC 곡선 아래 면적

비교 방법

k-NN 맞춤형 설명 방법
랜덤 포레스트 맞춤형 설명 방법
신경망의 DeepLIFT 방법
세 가지 방법의 집계 결과
부록의 LIME, SHAP과의 비교

구현 세부사항

k-NN: k=15(adult, bank), k=5(기타)
랜덤 포레스트: 25개 기본 학습기
신경망: 표준 다층 퍼셉트론
이웃 생성: k_M=5, α=0.05, α_cat=0.05
목표 이웃 유지율: ≥95%

실험 결과

주요 결과

모델 성능

모든 모델이 각 데이터셋에서 80% 이상의 정확도 달성(HELOC의 k-NN 제외, 75.51%). 신경망은 복잡한 데이터셋에서 최고 성능을 보이고, 랜덤 포레스트는 단순 데이터셋에서 최고 성능을 보입니다.

견고성 비교

평균 견고성 점수(%):

데이터셋	k-NN	RF	NN	집계
Adult	61.12	88.67	85.03	74.58
Bank	52.27	73.52	78.74	65.75
HELOC	71.01	80.56	84.23	77.92
Cancer	83.31	81.07	98.40	84.93
Wine	69.55	66.60	92.96	66.74

결과는 다음을 보여줍니다:

k-NN 방법의 견고성이 가장 낮으며, 이는 원거리 이웃에 대한 의존성과 일치합니다
신경망 방법의 견고성이 가장 높습니다
집계 방법의 견고성은 각 구성 방법 사이에 있으며, 이론적 예상과 일치합니다

모델 일관성 분석

모델 예측 일관성과 이웃 크기의 관계가 가설을 검증합니다: 세 모델의 예측이 일치할 때, 일반적으로 더 큰 이웃 규모를 얻을 수 있으며, 이는 해당 영역이 더 나은 설명 견고성을 가지고 있음을 나타냅니다.

검증 평가

ROC 분석을 통해 모델 일관성과 설명 견고성의 관계 검증:

AUC 값 비교:

데이터셋	k-NN	RF	NN	집계
Adult	0.4480	0.5417	0.6970	0.5901
Bank	0.4128	0.6257	0.3861	0.6097
HELOC	0.6573	0.6049	0.6748	0.6095
Cancer	0.8397	0.9212	0.7120	0.9212
Wine	0.5088	0.4698	0.0469	0.4951

집계 방법은 대부분의 경우 양호한 성능을 보이지만, k-NN 방법은 일부 시나리오에서 성능이 좋지 않습니다.

LIME/SHAP과의 비교

부록 결과는 LIME과 SHAP의 견고성 점수가 0.5 임계값보다 훨씬 낮음을 보여주며, 이는 문헌의 이러한 방법의 불안정성에 관한 발견을 검증하고 이들을 제외한 결정을 지지합니다.

결론 및 논의

주요 결론

다중 모델 집계의 가능성: 서로 다른 유형의 모델의 설명을 효과적으로 집계할 수 있음을 증명
견고성과 일관성의 관계: 모델 예측 일관성이 설명 신뢰도의 지표로 작용할 수 있음을 검증
보수적 설명 전략: 집계 방법은 보수적이지만 신뢰할 수 있는 설명 전략을 제공

한계

집계 방법의 단순성: 현재 산술 평균을 사용하며, 복잡한 불일치 패턴을 처리할 수 없음
k-NN 방법의 의존성: 초매개변수 k'에 민감하며 변동성이 큼
평가의 완전성: 실제 응용 시나리오에서 더 포괄적인 검증 평가 필요
모델 유형 제한: 세 가지 모델 유형만 테스트됨

향후 방향

저자는 네 가지 개선 방향을 명확히 제시합니다:

극단적 불일치 상황을 처리하기 위한 더 복잡한 집계 전략 개발
k-NN 설명 방법 개선으로 초매개변수 의존성 감소
실제 사용 사례에서 더 포괄적인 검증 평가 수행
다른 모델 유형 및 XAI 방법으로 확장

심층 평가

장점

문제의 중요성: XAI 분야의 핵심 문제인 설명 견고성과 신뢰도 해결
방법의 혁신성:
- 모델 유형 간 설명 집계를 처음 제안
- 새로운 k-NN 및 RF 특성 귀속 방법
- 체계적인 견고성 평가 프레임워크
실험의 충분성:
- 여러 데이터셋 검증
- 완전한 제거 분석
- 주류 방법과의 비교
이론적 기초: 모델 일관성과 설명 견고성 간의 이론적 연결 구축

부족한 점

방법의 한계:
- 집계 전략이 너무 단순하여 중요한 정보 손실 가능
- k-NN 방법의 이론적 기초가 상대적으로 약함
- 이진 분류 작업에만 적용 가능
실험 설정:
- 데이터셋 규모가 상대적으로 작음
- 실제 고위험 응용 시나리오의 검증 부족
- 계산 비용에 대한 분석 부족
분석의 깊이:
- 집계 방법 실패 사례에 대한 분석 부족
- 서로 다른 모델 유형의 기여도에 대한 정량적 분석 부족

영향력

학술적 기여: XAI 견고성 연구, 특히 다중 모델 집계 방향에 새로운 관점 제공
실용적 가치: 고위험 응용에서 신뢰할 수 있는 AI를 위한 실용적 프레임워크 제공
재현성: 방법 설명이 명확하고 알고리즘 구현이 상대적으로 간단함

적용 시나리오

고위험 의사결정 시나리오: 금융, 의료 등 설명 가능하고 신뢰할 수 있는 AI가 필요한 분야
규제 준수: GDPR 등의 규정을 충족해야 하는 응용
모델 감사: AI 시스템의 신뢰도를 평가해야 하는 시나리오
연구 플랫폼: XAI 견고성 연구를 위한 기초 프레임워크 제공

참고문헌

논문은 XAI 분야의 중요 문헌을 인용하고 있으며, 다음을 포함합니다:

LIME과 SHAP의 원본 논문 및 견고성 비판
DeepLIFT, Integrated Gradients 등 신경망 설명 방법
관련 견고성 평가 및 설명 집계 연구
GDPR 및 EU AI 법안 같은 입법 문서

종합 평가: 이것은 XAI 견고성 연구 방향에서 중요한 기여를 한 논문입니다. 방법이 상대적으로 단순하지만, 실제로 중요한 문제를 해결하며 신뢰할 수 있는 AI의 발전을 위해 가치 있는 도구를 제공합니다. 논문의 주요 가치는 모델 유형 간 설명 집계 연구 방향을 개척하고 체계적인 평가 프레임워크를 제공한다는 점에 있습니다. 향후 작업의 방향이 명확하며, 이 분야의 추가 발전을 위한 기초를 마련했습니다.