Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
- 논문 ID: 2510.07088
- 제목: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
- 저자: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
- 분류: stat.ML cs.LG
- 발표 시간: 2025년 10월 10일 (arXiv v2)
- 논문 링크: https://arxiv.org/abs/2510.07088
본 논문은 확률적 입력을 가진 예측 모델의 해석성 문제를 부분 모델 분해를 통해 연구한다. 불확실성 정량화 분야의 최근 진전을 바탕으로, 입력 변수가 다변량 베르누이 분포를 따르는 경우에 대해 일반화된 Hoeffding 분해의 완전한 설명을 제공한다. 연구 결과, 이 경우 기저 L² 부분공간이 일차원이며 함수 분해가 명시적임을 보여주며, 이는 완전한 해석성 프레임워크의 기초를 마련한다. 논문은 또한 입력이 출력 예측에 미치는 영향의 명시적 지표(예: Sobol 지수 및 Shapley 효과)를 도출하고, 수치 실험을 통해 의사결정 지원 문제에서의 방법의 유효성을 검증한다.
- 핵심 문제: 상관된 이진 입력 변수를 가진 복잡한 예측 모델의 행동을 어떻게 설명할 것인가
- 현실적 필요성: 기계학습 및 불확실성 정량화에서 입력 변수는 종종 독립적이지 않으며, 전통적인 Hoeffding 분해는 독립성을 가정하므로 실제 응용에서 지나치게 제한적이다
- 응용 분야: 이진 결정 그래프, 부울 네트워크, 이진 신경망, 분자 구조 표현, 확률 부울 네트워크 등
전통적인 Hoeffding 분해(HD)는 입력 변수의 상호 독립성을 요구하는데, 이는 많은 실제 응용에서 현실적이지 않다. 일반화된 Hoeffding 분해(GHD)의 이론적 프레임워크가 존재하지만, 특정 분포에 대한 명시적 구성 방법이 부족하다. 다변량 베르누이 분포는 많은 분야에서 광범위하게 응용되는 중요한 특수한 경우이다.
- 독립성 가정: 고전적 HD는 입력 변수의 독립성을 요구하여 응용 범위를 제한한다
- 계산 복잡성: 기존 GHD 방법은 명시적 구성이 부족하여 실제 계산이 어렵다
- 해석성 부족: 이진 입력에 대한 완전한 해석성 프레임워크가 부족하다
- 이론적 기여: 다변량 베르누이 경우에서 GHD의 L² 부분공간이 일차원임을 증명하고 명시적인 함수 분해 표현을 제공한다
- 구성적 방법: Fourier-Walsh-Hadamard 기저 변환을 기반으로 분해 계수의 명시적 계산 방법을 제시한다
- 해석성 프레임워크: 일반화된 Sobol 지수 및 Shapley 효과의 명시적 표현식을 도출한다
- 알고리즘 구현: 고차원 경우의 절단 근사 방법 및 통계적 추정 보장을 제공한다
- 응용 검증: 합성 데이터 및 실제 데이터셋에서 방법의 유효성을 검증한다
d차원 다변량 베르누이 확률 벡터 X = (X₁, ..., Xd)와 제곱 적분 가능한 함수 G: {0,1}^d → ℝ이 주어질 때, 목표는 다음의 유일한 함수 분해를 찾는 것이다:
G(X) = ∑_{A∈P_D} G_A(X_A)
여기서 P_D는 {1,...,d}의 멱집합이며, 분해는 계층적 직교성 조건을 만족한다.
논문의 핵심 이론 결과는 정리 2.2로, 명시적인 분해 표현을 수립한다:
정리 2.2: G: {0,1}^d → ℝ이 주어질 때, 다음을 정의한다:
- g(X) := (e_A(X_A)G(X)){A∈P_D}, 여기서 e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
- Γ = (Γ_{A,B}){A,B∈P_D}를 Gram 행렬로, Γ{A,B} := Ee_A(X_A)e_B(X_B)
- μ를 g(X)의 평균
그러면 GHD는 다음 식으로 주어진다:
G(X) = ∑_{A∈P_D} β_A e_A(X_A)
여기서 계수 β는 선형 시스템을 만족한다: Γβ = μ
논문은 또한 기하학적 관점의 이해를 제공한다(추론 2.3):
G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)
여기서 e*_A(X)는 e_A(X_A)의 사선 쌍대 벡터이다.
- 일차원 부분공간 성질: 다변량 베르누이 경우에서 각 Hoeffding 분해 공간 V_A가 일차원임을 증명한다
- 명시적 기저 구성: 변환된 Fourier-Walsh-Hadamard 기저 {e_A(X_A)}_{A∈P_D}가 계층적 직교 기저를 형성한다
- 선형 시스템 풀이: 분해 문제를 2^d 차원 선형 시스템 Γβ = μ 풀이로 변환한다
- 배제 성질: 특정 변수가 예측에 인과적 영향을 미치지 않으면 해당 β 계수는 반드시 0임을 증명한다
논문은 일반화된 Sobol 지수의 명시적 표현식을 도출한다:
S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)
이들 지수는 정규화 조건 ∑_{A∈P_D} S_A = 1을 만족하지만, 강한 음의 상관이 존재할 때 음수 값을 가질 수 있다.
Harsanyi 배당금을 기반으로 한 Shapley 효과 정의:
Sh_i = ∑_{A⊆D: i∈A} S_A/|A|
다변량 베르누이 경우에서 명시적 표현식을 가진다.
- 선형 임계값 함수: 10차원 이진 분류기 G(X) = sign(W^T X + b)를 설계한다
- 상관성 제어: 다변량 가우스 분포의 임계값을 통해 다양한 상관 수준의 이진 벡터를 생성한다
- 세 가지 의존성 수준: 높은 의존성(ρ=0.9), 중간 의존성(ρ=0.5), 약한 의존성(ρ=0.1)
- 2차원 매개변수화 연구: Farlie-Gumbel-Morgenstern copula를 사용하여 의존성 구조를 제어한다
- 버섯 분류 데이터셋: UCI 기계학습 저장소의 Agaricus-Lepiota 데이터셋, 8124개 샘플, 22개 분류 속성
- 분산 분해 오류: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
- 상대 오류: 실제 값에 대한 정규화된 오류
- 분류 성능: 정확도, 재현율, F1 점수
실험은 입력 의존성을 무시하면 상당한 근사 오류가 발생함을 보여준다:
- 높은 의존성 경우, 상대 분산 오류는 87%에 달한다
- Sobol 행렬의 상대 오류는 높은 의존성 시 75%이다
- 상관성이 감소함에 따라 오류는 현저히 감소한다
- 2차원 경우: 이론적 연접 규칙 X₁X₂를 성공적으로 복구한다
- 버섯 분류: 5개의 핵심 이진 규칙을 식별하며, 이 중 냄새 규칙이 총 분산의 78.2%를 차지한다
- 특성 중요도 계층: X₁(냄새) ≫ X₂(줄기 근부) > {X₃,X₄,X₅}(기타 특성)
논문은 추정기에 대한 이론적 보장을 제공한다:
- 강한 일관성: Ĝₙ(x) →^{a.s.} G(x)
- 점근 정규성: 중심극한정리
- 비점근 집중 부등식: Bernstein 유형 부등식
완전한 분해는 2^d 차원 선형 시스템을 풀어야 하므로 고차원 경우에는 불가능하다.
낮은 차수 항을 유지하는 절단 방법을 제안한다:
G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)
복잡도는 O(2^d)에서 O(d^c)로 감소하며, 실제로는 일반적으로 c ∈ {1,2,3}을 선택한다.
총 오류는 편향과 분산 두 부분으로 분해된다:
E(G(x) - Ĝₙ,c(x))² = 편향² + 분산
- 고전적 HD(Hoeffding 1948): 독립 입력 가정
- 일반화된 HD(Chastaing et al. 2012): 상관 입력의 이론적 프레임워크
- 최신 진전(Il Idrissi et al. 2025): 사선 투영 이론
- Sobol 지수: 분산 분해 방법
- Shapley 값: 협력 게임 이론 방법
- 커널 방법: 의존성 구조 처리의 대체 방법
- SHAP: Shapley 값 기반 설명 방법
- LIME: 국소 해석성 방법
- 주의 메커니즘: 심층학습의 해석성
- 다변량 베르누이 분포 하의 GHD는 명시적인 일차원 부분공간 구조를 가진다
- 완전한 구성적 분해 방법 및 계산 프레임워크를 제공한다
- 일반화된 민감도 지표는 명시적으로 계산 가능하며 좋은 이론적 성질을 가진다
- 방법은 의사결정 지원 및 모델 설명에서 실용적 가치를 가진다
- 완전 지지 가정: 모든 2^d 개 구성이 양의 확률을 가져야 하며, 고차원 경우에는 지나치게 엄격할 수 있다
- 계산 복잡성: 완전 분해의 지수 복잡도는 고차원 응용을 제한한다
- 절단 편향: 고차원 근사가 도입하는 편향은 추가 연구가 필요하다
- 이론적 확장: 완전 지지 가정을 완화하고 유한 가산 입력으로 확장한다
- 알고리즘 최적화: 더 효율적인 고차원 계산 방법을 개발한다
- 응용 확대: 심층학습 및 기타 기계학습 모델에서의 응용을 탐색한다
- 이론적 엄밀성: 완전한 수학적 이론 프레임워크 및 증명을 제공한다
- 방법론적 혁신성: 다변량 베르누이 경우에서 처음으로 명시적 분해를 제시한다
- 실용적 가치: 이진 입력 모델 설명에서 직접적인 응용 가치를 가진다
- 완전성: 이론에서 알고리즘에서 응용까지 완전한 체인을 형성한다
- 적용 범위 제한: 이진 입력에만 적용되며 완전 지지 가정이 필요하다
- 고차원 도전: 지수 복잡도는 대규모 응용을 제한한다
- 실험 검증 제한: 주로 저차원 및 특정 시나리오에서 검증된다
- 이론적 기여: 함수 분해 이론에 중요한 특수한 경우를 제공한다
- 방법론적 가치: 상관된 이진 입력의 모델 설명 처리를 위한 새로운 도구를 제공한다
- 응용 잠재력: 부울 함수, 결정 트리 등 분야에서 광범위한 응용 전망을 가진다
- 이진 의사결정 시스템: 의료 진단, 신용 평가 등
- 부울 네트워크 분석: 유전자 조절 네트워크, 논리 회로 등
- 결정 트리 설명: 랜덤 포레스트, 그래디언트 부스팅 트리 등 앙상블 방법
- 이진 신경망: 양자화 신경망의 해석성 분석
논문은 Hoeffding 분해 이론, 민감도 분석, 기계학습 해석성 등 여러 분야의 중요한 작업을 포함하는 50편의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 이론적으로 엄밀하고 방법론적으로 혁신적인 고품질 논문으로, 다변량 베르누이 분포의 함수 분해 이론에서 중요한 기여를 한다. 고차원 응용에서 도전 과제가 있지만, 이진 입력 모델의 해석성 분석을 위한 강력한 이론적 도구를 제공한다.