2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

단일 모델 XAI를 넘어: 향상된 신뢰성을 위한 다중 모델 설명 집계

기본 정보

  • 논문 ID: 2510.11164
  • 제목: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • 저자: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • 분류: cs.LG (머신러닝)
  • 발표 시간/학회: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • 논문 링크: https://arxiv.org/abs/2510.11164

초록

인공지능 모델이 현실 세계의 고위험 응용 분야에서 광범위하게 사용됨에 따라, 그 신뢰성과 윤리적 사용 문제는 기술적, 입법적 관점 모두에서 점점 더 많은 주목을 받고 있습니다. 설명 가능한 인공지능(XAI) 분야는 복잡한 블랙박스 모델의 의사결정 과정을 밝히는 설명을 제공함으로써 이러한 과제에 대응하고 있습니다. 견고성이 중요한 속성임에도 불구하고, 개발 과정에서 종종 간과됩니다: 견고한 설명 방법만이 전체 시스템에 대한 신뢰를 증가시킬 수 있습니다. 본 논문은 여러 모델(k-최근접 이웃, 랜덤 포레스트, 신경망)에서 집계된 특성 중요도를 사용하여 견고성의 역할을 조사합니다. 초기 결과는 여러 모델의 예측 능력을 활용하면서 동시에 응용 신뢰도를 향상시킬 수 있는 잠재력을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 기존 XAI 방법의 두 가지 주요 결함입니다:

  1. 설명 견고성 부족: LIME과 SHAP 같은 인기 있는 설명 방법들이 여러 연구에서 견고성이 부족함이 증명되었음에도 불구하고 고위험 시나리오에서 광범위하게 적용되고 있음
  2. 설명 불일치 문제: 동일한 인스턴스에 여러 설명 방법을 적용할 때 상충하는 설명이 생성되며, 설명의 참값 기준이 없어 최적의 방법을 선택할 수 없음

중요성

GDPR과 AI 법안 등의 입법이 모델 투명성을 요구함에 따라, 설명의 신뢰성이 매우 중요해졌습니다. 설명에 대한 신뢰를 통해서만 모델 자체에 대한 신뢰를 구축할 수 있으며, 이는 고위험 응용 분야에서 특히 중요합니다.

기존 방법의 한계

  • LIME과 SHAP 등의 주류 방법들은 견고성 문제가 있어 유사한 입력에서 불일치하는 설명을 생성함
  • 단일 모델 설명 방법은 여러 모델의 예측 능력을 충분히 활용하지 못함
  • 서로 다른 모델 간의 설명 불일치를 처리하기 위한 효과적인 설명 집계 전략이 부족함

연구 동기

신경망 앙상블 설명에 대한 이전 작업을 바탕으로, 본 논문은 방법을 다양한 범주의 모델로 확장하여 서로 다른 의사결정 과정의 설명을 집계함으로써 시스템의 전반적인 신뢰도를 향상시키는 것을 목표로 합니다.

핵심 기여

  1. 두 가지 새로운 특성 귀속 방법 제안:
    • k-최근접 이웃 모델을 위한 거리 기반 특성 중요도 방법
    • 랜덤 포레스트를 위한 노드 불순도 기반 특성 귀속 방법
  2. 다중 모델 설명 집계 프레임워크 개발:
    • k-NN, 랜덤 포레스트, 신경망의 설명 통합
    • 산술 평균을 통한 특성 중요도 집계
  3. 견고성 평가 메커니즘 도입:
    • 중심점 기반 이웃 생성 방법 사용
    • Spearman 상관계수를 통한 설명 견고성 정량화
  4. 모델 일관성과 설명 견고성의 관계 검증:
    • 다중 모델 예측 일관성이 설명 신뢰도의 지표로 작용할 수 있음을 증명

방법 상세 설명

작업 정의

본 논문은 표 형식 데이터의 이진 분류 작업에 중점을 두며, 각 예측 인스턴스에 대해 신뢰할 수 있는 특성 중요도 설명을 생성하는 것을 목표로 합니다. 입력은 표 형식 데이터 인스턴스이고, 출력은 정규화된 특성 귀속 벡터입니다.

모델 아키텍처

k-최근접 이웃 설명 방법

알고리즘은 k-NN의 거리 추론 메커니즘을 기반으로 합니다:

  1. 예측 지점 x에 대해 예측 클래스 c와 대립 클래스 ¬c에서 각각 k'개의 최근접 이웃 선택
  2. 각 이웃 그룹까지의 평균 특성 거리 D_c와 D_¬c 계산
  3. 특성 중요도 정의: e = D_¬c - D_c
  4. 단위 벡터로 정규화하여 비교 가능성 보장

랜덤 포레스트 설명 방법

의사결정 경로의 노드 불순도를 기반으로 합니다:

  1. 포레스트의 각 트리에 대해 데이터 포인트의 의사결정 경로 추적
  2. 단일 트리 예측이 포레스트 예측과 일치하는지 여부에 따라 노드 불순도를 e_c 또는 e_¬c에 누적
  3. 최종 설명: e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. 여기서 p_c와 p_¬c는 예측 확률이고, ε=0.01은 영값 회피

집계 전략

특성 수준 산술 평균 사용:

a_agg = (1/L) × Σ(l=1 to L) a_l

여기서 L=3은 모델 수입니다. 모델 예측이 불일치할 때, 불일치 모델의 설명에 음수 부호를 취하여 설명이 동일한 클래스를 가리키도록 보장합니다.

견고성 평가

이웃 생성

중심점 기반 방법을 채택합니다:

  1. 검증 집합에 대해 k-medoid 클러스터링 수행
  2. 각 데이터 포인트에 대해 대응하는 클러스터 중심 및 그 k_M개의 최근접 중심점 찾기
  3. 베타 분포와 확률 대체를 통해 데이터 매니폴드를 따르는 교란 생성

견고성 계산

Spearman 순위 상관계수 사용:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

여기서 N은 예측 일관성을 유지하는 이웃 포인트 집합입니다.

실험 설정

데이터셋

이진 분류 작업을 위해 5개의 공개 표 형식 데이터셋 사용:

  • Adult: 36,177/8,045/1,000 (훈련/검증/테스트), 5개 수치 특성, 7개 범주형 특성
  • Bank: 36,168/8,043/1,000, 5개 수치 특성, 9개 범주형 특성
  • HELOC: 8,367/1,592/500, 14개 수치 특성, 2개 범주형 특성
  • Cancer: 397/121/50, 15개 수치 특성, 0개 범주형 특성
  • White Wine: 3,918/780/200, 9개 수치 특성, 0개 범주형 특성

평가 지표

  • 견고성 점수: Spearman 상관계수 기반 평균값
  • 이웃 크기: 필터링 후 유지되는 교란 포인트의 비율
  • AUC 값: 모델 일관성 기반 ROC 곡선 아래 면적

비교 방법

  • k-NN 맞춤형 설명 방법
  • 랜덤 포레스트 맞춤형 설명 방법
  • 신경망의 DeepLIFT 방법
  • 세 가지 방법의 집계 결과
  • 부록의 LIME, SHAP과의 비교

구현 세부사항

  • k-NN: k=15(adult, bank), k=5(기타)
  • 랜덤 포레스트: 25개 기본 학습기
  • 신경망: 표준 다층 퍼셉트론
  • 이웃 생성: k_M=5, α=0.05, α_cat=0.05
  • 목표 이웃 유지율: ≥95%

실험 결과

주요 결과

모델 성능

모든 모델이 각 데이터셋에서 80% 이상의 정확도 달성(HELOC의 k-NN 제외, 75.51%). 신경망은 복잡한 데이터셋에서 최고 성능을 보이고, 랜덤 포레스트는 단순 데이터셋에서 최고 성능을 보입니다.

견고성 비교

평균 견고성 점수(%):

데이터셋k-NNRFNN집계
Adult61.1288.6785.0374.58
Bank52.2773.5278.7465.75
HELOC71.0180.5684.2377.92
Cancer83.3181.0798.4084.93
Wine69.5566.6092.9666.74

결과는 다음을 보여줍니다:

  • k-NN 방법의 견고성이 가장 낮으며, 이는 원거리 이웃에 대한 의존성과 일치합니다
  • 신경망 방법의 견고성이 가장 높습니다
  • 집계 방법의 견고성은 각 구성 방법 사이에 있으며, 이론적 예상과 일치합니다

모델 일관성 분석

모델 예측 일관성과 이웃 크기의 관계가 가설을 검증합니다: 세 모델의 예측이 일치할 때, 일반적으로 더 큰 이웃 규모를 얻을 수 있으며, 이는 해당 영역이 더 나은 설명 견고성을 가지고 있음을 나타냅니다.

검증 평가

ROC 분석을 통해 모델 일관성과 설명 견고성의 관계 검증:

AUC 값 비교:

데이터셋k-NNRFNN집계
Adult0.44800.54170.69700.5901
Bank0.41280.62570.38610.6097
HELOC0.65730.60490.67480.6095
Cancer0.83970.92120.71200.9212
Wine0.50880.46980.04690.4951

집계 방법은 대부분의 경우 양호한 성능을 보이지만, k-NN 방법은 일부 시나리오에서 성능이 좋지 않습니다.

LIME/SHAP과의 비교

부록 결과는 LIME과 SHAP의 견고성 점수가 0.5 임계값보다 훨씬 낮음을 보여주며, 이는 문헌의 이러한 방법의 불안정성에 관한 발견을 검증하고 이들을 제외한 결정을 지지합니다.

관련 연구

XAI 분야 발전

  • 국소 설명 방법: LIME, SHAP 등 모델 무관 방법
  • 신경망 특정 방법: DeepLIFT, Integrated Gradients, LRP 등
  • 견고성 연구: 설명 방법의 안정성에 대한 평가 및 개선

설명 집계 연구

  • 이전 작업은 주로 단일 모델 유형의 여러 인스턴스에 집중
  • 본 논문은 서로 다른 모델 유형의 설명 집계로 확장

입법 주도 요구사항

  • GDPR의 "설명 권리" 요구사항
  • EU AI 법안의 고위험 응용에 대한 투명성 요구사항

결론 및 논의

주요 결론

  1. 다중 모델 집계의 가능성: 서로 다른 유형의 모델의 설명을 효과적으로 집계할 수 있음을 증명
  2. 견고성과 일관성의 관계: 모델 예측 일관성이 설명 신뢰도의 지표로 작용할 수 있음을 검증
  3. 보수적 설명 전략: 집계 방법은 보수적이지만 신뢰할 수 있는 설명 전략을 제공

한계

  1. 집계 방법의 단순성: 현재 산술 평균을 사용하며, 복잡한 불일치 패턴을 처리할 수 없음
  2. k-NN 방법의 의존성: 초매개변수 k'에 민감하며 변동성이 큼
  3. 평가의 완전성: 실제 응용 시나리오에서 더 포괄적인 검증 평가 필요
  4. 모델 유형 제한: 세 가지 모델 유형만 테스트됨

향후 방향

저자는 네 가지 개선 방향을 명확히 제시합니다:

  1. 극단적 불일치 상황을 처리하기 위한 더 복잡한 집계 전략 개발
  2. k-NN 설명 방법 개선으로 초매개변수 의존성 감소
  3. 실제 사용 사례에서 더 포괄적인 검증 평가 수행
  4. 다른 모델 유형 및 XAI 방법으로 확장

심층 평가

장점

  1. 문제의 중요성: XAI 분야의 핵심 문제인 설명 견고성과 신뢰도 해결
  2. 방법의 혁신성:
    • 모델 유형 간 설명 집계를 처음 제안
    • 새로운 k-NN 및 RF 특성 귀속 방법
    • 체계적인 견고성 평가 프레임워크
  3. 실험의 충분성:
    • 여러 데이터셋 검증
    • 완전한 제거 분석
    • 주류 방법과의 비교
  4. 이론적 기초: 모델 일관성과 설명 견고성 간의 이론적 연결 구축

부족한 점

  1. 방법의 한계:
    • 집계 전략이 너무 단순하여 중요한 정보 손실 가능
    • k-NN 방법의 이론적 기초가 상대적으로 약함
    • 이진 분류 작업에만 적용 가능
  2. 실험 설정:
    • 데이터셋 규모가 상대적으로 작음
    • 실제 고위험 응용 시나리오의 검증 부족
    • 계산 비용에 대한 분석 부족
  3. 분석의 깊이:
    • 집계 방법 실패 사례에 대한 분석 부족
    • 서로 다른 모델 유형의 기여도에 대한 정량적 분석 부족

영향력

  1. 학술적 기여: XAI 견고성 연구, 특히 다중 모델 집계 방향에 새로운 관점 제공
  2. 실용적 가치: 고위험 응용에서 신뢰할 수 있는 AI를 위한 실용적 프레임워크 제공
  3. 재현성: 방법 설명이 명확하고 알고리즘 구현이 상대적으로 간단함

적용 시나리오

  • 고위험 의사결정 시나리오: 금융, 의료 등 설명 가능하고 신뢰할 수 있는 AI가 필요한 분야
  • 규제 준수: GDPR 등의 규정을 충족해야 하는 응용
  • 모델 감사: AI 시스템의 신뢰도를 평가해야 하는 시나리오
  • 연구 플랫폼: XAI 견고성 연구를 위한 기초 프레임워크 제공

참고문헌

논문은 XAI 분야의 중요 문헌을 인용하고 있으며, 다음을 포함합니다:

  • LIME과 SHAP의 원본 논문 및 견고성 비판
  • DeepLIFT, Integrated Gradients 등 신경망 설명 방법
  • 관련 견고성 평가 및 설명 집계 연구
  • GDPR 및 EU AI 법안 같은 입법 문서

종합 평가: 이것은 XAI 견고성 연구 방향에서 중요한 기여를 한 논문입니다. 방법이 상대적으로 단순하지만, 실제로 중요한 문제를 해결하며 신뢰할 수 있는 AI의 발전을 위해 가치 있는 도구를 제공합니다. 논문의 주요 가치는 모델 유형 간 설명 집계 연구 방향을 개척하고 체계적인 평가 프레임워크를 제공한다는 점에 있습니다. 향후 작업의 방향이 명확하며, 이 분야의 추가 발전을 위한 기초를 마련했습니다.