Formal XAI is an emerging field that focuses on providing explanations with mathematical guarantees for the decisions made by machine learning models. A significant amount of work in this area is centered on the computation of "sufficient reasons". Given a model $M$ and an input instance $\vec{x}$, a sufficient reason for the decision $M(\vec{x})$ is a subset $S$ of the features of $\vec{x}$ such that for any instance $\vec{z}$ that has the same values as $\vec{x}$ for every feature in $S$, it holds that $M(\vec{x}) = M(\vec{z})$. Intuitively, this means that the features in $S$ are sufficient to fully justify the classification of $\vec{x}$ by $M$. For sufficient reasons to be useful in practice, they should be as small as possible, and a natural way to reduce the size of sufficient reasons is to consider a probabilistic relaxation; the probability of $M(\vec{x}) = M(\vec{z})$ must be at least some value $δ\in (0,1]$, for a random instance $\vec{z}$ that coincides with $\vec{x}$ on the features in $S$. Computing small $δ$-sufficient reasons ($δ$-SRs) is known to be a theoretically hard problem; even over decision trees--traditionally deemed simple and interpretable models--strong inapproximability results make the efficient computation of small $δ$-SRs unlikely. We propose the notion of $(δ, ε)$-SR, a simple relaxation of $δ$-SRs, and show that this kind of explanation can be computed efficiently over linear models.
저자: Bernardo Subercaseaux (Carnegie Mellon University), Marcelo Arenas (PUC Chile, IMFD Chile, RelationalAI), Kuldeep S. Meel (Georgia Institute of Technology, University of Toronto)
본 논문은 형식적 해석 가능 AI(Formal XAI)에서 "충분한 이유" 계산 문제를 연구한다. 모델 M과 입력 인스턴스 x가 주어졌을 때, 충분한 이유는 x의 특성 부분집합 S로서, S에서 x와 동일한 모든 인스턴스 z에 대해 M(x)=M(z)를 만족한다. 충분한 이유의 크기를 줄이기 위해 저자들은 확률적 완화를 고려한다: 무작위 인스턴스 z가 특성 집합에서 x와 일치할 때, M(x)=M(z)의 확률이 최소 δ∈(0,1]이어야 한다. 작은 δ-충분한 이유(δ-SRs)를 계산하는 것은 이론적으로 어려우며, 의사결정 트리와 같은 "해석 가능한" 모델에서도 강한 근사 불가능 결과가 존재한다. 본 논문은 (δ,ε)-SR 개념을 제안하는데, 이는 δ-SRs의 간단한 완화이며, 이러한 설명이 선형 모델에서 효율적으로 계산될 수 있음을 증명한다.
입력: 선형 모델 L, 인스턴스 x, 매개변수 δ, ε, β
1. δ* ← [δ-ε, δ+ε]에서 균등 샘플링
2. 모든 특성 평가 s_i 계산
3. 부분 인스턴스 수열 y^(0), ..., y^(n) 구성
4. 샘플 수 설정 m = (log 2n)/(2ε²δ²) log(2log n/β)
5. 이분 탐색을 사용하여 추정 확률 ≥ δ*인 최소 k 찾기
6. (δ*, y^(k*)) 반환
Darwiche, A. and Hirth, A. (2020). On the Reasons Behind Decisions. ECAI 2020.
Barceló, P., Monet, M., Pérez, J., and Subercaseaux, B. (2020). Model interpretability through the lens of computational complexity. NeurIPS 2020.
Wäldchen, S., MacDonald, J., Hauch, S., and Kutyniok, G. (2021). The computational complexity of understanding binary classifier decisions. JAIR.
Arenas, M., Barceló, P., Romero Orth, M., and Subercaseaux, B. (2022). On computing probabilistic explanations for decision trees. NeurIPS 2022.
Kozachinskiy, A. (2023). Inapproximability of sufficient reasons for decision trees. arXiv:2304.02781.
본 논문은 형식적 해석 가능 AI 분야에서 중요한 이론적 기여를 하였으며, 확률적 설명이 선형 모델에서 처리 가능함을 최초로 증명하여 해당 분야에 드문 긍정적 결과를 제공한다. 실용성 측면에서 개선의 여지가 있지만, 이론적 가치와 방법론적 혁신성으로 인해 해당 분야의 중요한 연구가 되었다.