2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

숨겨진 교란 하에서의 예측 사후분포

기본 정보

  • 논문 ID: 2507.05170
  • 제목: 숨겨진 교란 하에서의 예측 사후분포
  • 저자: Carlos García Meixide, David Ríos Insua
  • 분류: stat.ME
  • 발표 시간: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • 논문 링크: https://arxiv.org/abs/2507.05170v2

초록

외부 도메인에서 결과를 예측하는 것은 숨겨진 교란 인자가 예측 변수와 결과 변수에 동시에 영향을 미칠 수 있기 때문에 어렵습니다. 기존 방법들은 일반적으로 엄격한 가정, 도메인 간 분포 편이에 대한 명시적 지식, 또는 일반화 능력을 향상시키기 위한 편향을 도입하는 정규화 방안에 의존합니다. 숨겨진 교란 하에서의 점 예측 방법이 이러한 부족함을 완화하려고 시도하지만, 일반적으로 원칙적인 불확실성 정량화를 제공하지 못합니다. 본 논문은 외부 도메인에서 잘 보정된 예측 분포를 생성하고, 효과적인 모델 추론을 지원하며, 관측 데이터셋 수의 증가에 따라 개선되는 사후 축소율을 달성할 수 있는 베이지안 프레임워크를 소개합니다. 시뮬레이션 실험과 의학 응용은 저차원에서 중간 차원 설정으로의 전환에서 거의 변하지 않는 이 방법의 현저한 경험적 커버리지를 강조합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 숨겨진 교란 인자가 존재하는 상황에서 분포 편이가 있는 외부 도메인에서 신뢰할 수 있는 확률 예측을 수행하고 보정된 불확실성 정량화를 제공하는 방법입니다.

문제의 중요성

  1. 분포 편이의 보편성: 기계학습 응용에서 훈련 도메인과 테스트 도메인의 분포 불일치가 자주 발생하며, 이는 표준 iid 가정에 도전합니다
  2. 숨겨진 교란의 영향: 관측되지 않은 교란 변수가 예측 변수 X와 결과 변수 Y에 동시에 영향을 미쳐 기존 방법을 무효화합니다
  3. 불확실성 정량화의 필요성: 기존 방법은 주로 점 예측에 초점을 맞추며 원칙적인 불확실성 정량화 메커니즘이 부족합니다

기존 방법의 한계

  1. 분포 견고 최적화: 미니맥스 최적화를 채택하지만 견고성 강화를 위해 편향을 도입해야 합니다
  2. 인과 불변성 방법: 앵커 회귀와 같은 방법은 엄격한 불변성 가정에 의존하며 숨겨진 교란이 존재할 때 쉽게 위반됩니다
  3. 공형 예측: 예측 구간을 제공할 수 있지만 분포 편이 처리가 제한적입니다
  4. 기존 인과 방법: 주로 점 추정을 제공하며 불확실성 정량화가 부족합니다

연구 동기

저자들은 이전의 생성 불변성(GI) 연구를 바탕으로 인과 발견과 보정된 예측이라는 두 가지 오랫동안의 도전 문제를 동시에 해결할 수 있는 통합 베이지안 프레임워크를 구축하고자 합니다.

핵심 기여

  1. 첫 번째 베이지안 프레임워크: 숨겨진 교란 하에서 확률 예측을 수행할 수 있는 완전한 베이지안 프레임워크를 제안하며, 인과 발견과 예측을 동시에 수행합니다
  2. 이론적 보장: 사후 일관성, 축소율 및 Bernstein-von Mises 정리를 수립하여 방법의 점근적 성질을 증명합니다
  3. 가설 검정 능력: 선형 구조 방정식 모델에서 변수가 목표 응답의 부모 노드인지 검정하는 첫 번째 계산 가능한 가설 검정 방법을 제공합니다
  4. 보정된 예측: 분포 편이 도메인에서 이론적 수준에 가까운 커버리지를 가진 보정된 예측을 구현합니다
  5. 식별 가능성 스펙트럼: 약한 식별 가능성을 점근 현상으로서 경험적 표현을 처음으로 명확히 설명합니다

방법론 상세 설명

작업 정의

E개의 훈련 환경에서의 이질적 데이터 소스와 하나의 목표 테스트 환경이 주어졌을 때, 작업은:

  • 입력: 훈련 환경의 (X,Y) 쌍, 테스트 환경의 X
  • 출력: 테스트 환경에서 Y의 보정된 예측 분포 및 인과 매개변수의 신용 구간
  • 제약: 숨겨진 교란 인자가 X와 Y에 영향을 미침

모델 구조

구조 방정식 모델

기본 모델은:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

여기서 Z는 환경 지시자이고, ε_Y는 X_z와 상관될 수 있습니다(숨겨진 교란).

계층적 베이지안 모델

각 환경 e에 대해 우도를 설정합니다:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

핵심 매개변수:

  • w = (β, K): β = (α, γ)는 회귀 계수를 포함하고, K는 숨겨진 교란 효과를 흡수합니다
  • ϑ_e = (μ_e, Σ_e, σ_Y^2): 환경 특정 성가신 매개변수

사전 규정

능선형 가우스 사전을 채택합니다:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

기술적 혁신점

1. 교란 보정 메커니즘

K^⊤(X_ei - μ_e) 항을 통해 숨겨진 교란의 영향을 명시적으로 모델링하며, 여기서:

  • K는 숨겨진 교란 인자와 관측 변수의 공분산 구조를 포착합니다
  • 이 항은 각 환경에서 기댓값이 0이므로 절편 추정에 영향을 주지 않습니다

2. 환경 이질성 모델링

환경 평균 μ_e를 고정 매개변수가 아닌 공통 사전 분포에서 샘플링된 확률 변수로 취급하여 유익한 축소 효과를 구현합니다.

3. 식별 가능성 처리

식별 가능성 조건이 위반에 가까울 때, 베이지안 방법은 제어된 축소를 통해 빈도주의 방법의 수치적 불안정성을 회피합니다.

4. 인과 발견 기준

사후 분포를 기반으로 결정 규칙을 제안합니다: min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm일 때, j는 Y의 인과 부모 노드로 간주됩니다.

실험 설정

데이터셋

시뮬레이션 실험

  1. 단일 소스 예제: 1차원 설정, n₁=500, 숨겨진 교란 인자 H~N(0,0.5²)
  2. 다중 소스 예제: 다차원 설정, E=p+1개 환경, 체계적으로 변하는 환경 평균

실제 데이터

BMI 분석: 스페인 다중 지역 데이터

  • 예측 변수: 생활 방식 요인(알코올 소비, 흡연 습관, 수면 질 등)
  • 결과 변수: BMI
  • 숨겨진 교란: 성별, 콜레스테롤 및 혈당 수치
  • 환경 지시: 지역

평가 지표

  1. 경험적 커버리지: 예측 구간이 참값을 포함하는 비율
  2. 인과 발견 정확도: 인과 변수를 올바르게 식별하는 능력
  3. 예측 보정: 예측 분포와 참 분포의 일치 정도

비교 방법

  1. OLS: 보통 최소제곱법
  2. IV: 도구 변수 방법
  3. 표준 베이지안 선형 회귀

구현 세부사항

  • MCMC 샘플링: RStan을 사용하여 구현, 4개 체인 × 1000회 반복
  • 초매개변수: a_τ = b_τ = 1/2(표준 half-Cauchy 사전)
  • 병렬 계산: 8코어, 코어당 3회 시뮬레이션

실험 결과

주요 결과

시뮬레이션 실험 성능

다차원 설정에서의 평균 경험적 커버리지 비교(OLS vs 본 방법):

n, p2차원5차원10차원
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

핵심 발견:

  • 본 방법은 모든 경우에서 OLS를 능가합니다
  • 차원 증가에 따라 커버리지는 상대적으로 안정적입니다
  • OLS 성능은 차원 증가에 따라 명백히 악화됩니다

단일 소스 예제 결과

  • 매개변수 추정: β와 K의 사후 분포가 참값 1과 -0.25에 올바르게 중심화됩니다
  • 예측 성능: 경험적 커버리지 0.96, 이론적 수준 0.95에 가깝습니다
  • 비교 효과: OLS와 IV 예측이 완전히 목표에서 벗어납니다

의학 응용 결과

  • 경험적 커버리지: 0.95(이상적 수준)
  • 인과 발견: 신체 활동만이 유일한 인과 변수로 식별됩니다
  • 비교 분석: OLS는 관련성은 있지만 인과성이 없는 여러 변수(예: 전 흡연자)를 잘못 식별합니다

이론적 검증

그림 2는 약한 식별 가능성 현상을 보여줍니다: μ→0일 때, 사후가 사전 평균으로 축소되어 빈도주의 방법의 행렬 비가역성 문제를 회피합니다.

관련 연구

주요 연구 방향

  1. 분포 견고 최적화: Sinha et al. (2020)의 미니맥스 방법
  2. 인과 불변성: Peters et al. (2016)의 불변 예측 방법
  3. 앵커 회귀: Rothenhäusler et al. (2021)의 이질적 데이터 인과 방법
  4. 공형 예측: Tibshirani et al. (2019)의 견고한 예측 구간

본 논문의 장점

  1. 통합 프레임워크: 인과 발견과 예측 보정을 동시에 처리합니다
  2. 이론적 보장: 완전한 점근 이론을 제공합니다
  3. 실용성: 초매개변수 조정이나 특정 분포 편이 지식이 필요하지 않습니다
  4. 견고성: 숨겨진 교란 하에서 유효성을 유지합니다

결론 및 논의

주요 결론

  1. 숨겨진 교란 하에서 베이지안 예측 프레임워크를 성공적으로 구축했습니다
  2. 보정된 확률 예측과 효과적인 인과 발견을 구현했습니다
  3. 완전한 이론적 기초와 경험적 검증을 제공했습니다
  4. 저차원에서 중간 차원 설정에서 안정적인 성능을 유지합니다

한계

  1. 가우스 가정: 현재 프레임워크는 공변량이 가우스 분포를 따른다고 가정합니다
  2. 선형 모델: 선형 구조 방정식 모델로 제한됩니다
  3. 계산 복잡도: MCMC 샘플링은 고차원 설정에서 느릴 수 있습니다
  4. 환경 수: 식별 가능성을 보장하기 위해 충분한 수의 훈련 환경이 필요합니다

향후 방향

  1. 비모수 확장: 마팅게일 사후 프레임워크를 통합하여 우도-사전 규정 필요성을 제거합니다
  2. 대적 학습: 대적 기계학습 시나리오에 적용합니다
  3. 가정 완화: 교란 분포가 환경 간 변할 수 있도록 허용합니다
  4. PAC 보장: 한계 PAC 보장 이론을 수립합니다

심층 평가

장점

  1. 이론적 완전성: 사후 일관성에서 Bernstein-von Mises 정리까지 완전한 이론 분석을 제공합니다
  2. 방법론적 혁신성: 숨겨진 교란 하에서 인과 발견 가설 검정을 처음으로 구현합니다
  3. 실용적 가치: 두 가지 오랫동안의 도전 문제에 대한 통합 해결책입니다
  4. 실험 충분성: 시뮬레이션에서 실제 응용까지 포괄적인 검증입니다
  5. 작성 명확성: 수학적 유도가 엄밀하고 개념 설명이 명확합니다

부족함

  1. 가정 제한: 가우스 가정과 선형 모델이 적용 범위를 제한합니다
  2. 계산 효율성: MCMC 방법은 대규모 데이터에서 느릴 수 있습니다
  3. 사전 민감성: 사전에 무감각하다고 주장하지만 약한 식별 가능성 하에서는 여전히 영향을 받습니다
  4. 환경 요구사항: 다중 훈련 환경이 필요하며 실제 응용에서 제한될 수 있습니다

영향력

  1. 학술 기여: 인과 추론과 예측 보정을 위한 새로운 이론 프레임워크를 제공합니다
  2. 실제 가치: 의학, 경제학 등 숨겨진 교란이 존재하는 분야에서 광범위한 응용 전망이 있습니다
  3. 방법론적 의의: 식별 가능성 문제 처리에서 베이지안 방법의 장점을 보여줍니다

적용 시나리오

  1. 의학 연구: 관측되지 않은 교란 인자가 있는 역학 연구
  2. 경제학: 정책 평가의 인과 추론
  3. 기계학습: 도메인 적응 및 분포 편이 문제
  4. 사회과학: 관측 연구의 인과 분석

참고문헌

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.