2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon

I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.

academic

집계 데이터를 이용한 비모수 모형에서 개인 수준 모수의 부분 식별

기본 정보

논문 ID: 2403.07236
제목: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
저자: Sarah Moon (MIT)
분류: econ.EM stat.ME
발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2403.07236

초록

본 논문은 연구자가 집계 데이터만 이용 가능할 때 조건부 평균 결과의 선형 결합을 부분 식별하는 방법론을 개발했다. 기존 문헌과 달리, 저자는 집계 데이터 모형에서 공변량의 결합 분포가 아닌 주변 분포만을 허용한다. 최적화 프로그램을 풀어 경계값을 도출하며, 추가적인 다면체 형태의 제약 조건을 용이하게 수용할 수 있다. 본 논문은 로드아일랜드 표준화 시험 데이터에 대한 실증 적용을 제시한다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하는 것은 생태학적 추론 문제이다: 연구자가 집계 데이터만 관찰할 수 있을 때, 개인 수준의 모수를 어떻게 추론할 것인가. 구체적으로, 다음만 관찰 가능할 때:

각 집단 내 평균 결과 EYi|Gi = g
각 집단 내 각 공변량의 주변 분포 PXℓi = xk,ℓ|Gi = g
각 집단의 상대적 규모 PGi = g

개인 수준의 조건부 평균 EYi|Xi = xk의 선형 결합을 어떻게 식별할 것인가.

문제의 중요성

데이터 가용성 제약: 실제로 개인정보 보호 고려로 인해 주변 분포만 이용 가능한 경우가 많음
정책 수립 필요성: 효과적인 정책 수립을 위해 개인 수준의 인과 효과를 이해해야 함
생태학적 오류: 집계 수준의 관계가 개인 수준의 관계와 현저히 다를 수 있음

기존 방법의 한계

기존 문헌(Cross and Manski 2002, Cho and Manski 2008)은 일반적으로 공변량의 결합 분포를 관찰할 수 있다고 가정하는데, 이는 실제로는 현실적이지 않다. 기존 방법을 직접 적용하면 느슨한 경계값이 생성된다.

핵심 기여

방법론적 혁신: 주변 분포만을 기반으로 하는 부분 식별 방법 제시로 실제 데이터 가용성에 더 부합
이론적 보장: 구성된 경계값의 타이트함(sharpness) 증명
계산 프레임워크: 식별 문제를 이층 최적화 문제로 변환하여 계산 구현 용이
추론 절차: 주변 정보만으로 신뢰 구간 구성 방법 제공
실증 적용: 교육 데이터에서 방법의 실용성 입증

방법론 상세 설명

과제 정의

입력:

각 집단 평균 결과: EYi|Gi = g
각 집단 공변량 주변 분포: PXℓi = xk,ℓ|Gi = g
집단 규모: PGi = g

출력:

조건부 평균 선형 결합의 식별 집합: ∑K k=1 λkEYi|Xi = xk

제약 조건:

Yi ∈ yℓ, yu (유계 지지)
Xi, Gi는 이산 확률변수
결합 분포가 아닌 주변 분포만 관찰

모형 구조

1. 기본 제약 방정식

방법은 세 가지 핵심 제약 방정식을 기반으로 함:

주변-결합 일관성:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

집단 내 기댓값 분해:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

집단 간 집계:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. 식별 집합 구성

공변량 분포의 식별 집합 정의:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

모수의 식별 집합:

D = {∑K k=1 λkdk | ∃(p,c,d) 만족 제약 조건}

3. 이층 최적화 표현

명제 1: 식별 집합 D = L,U, 여기서:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

상한 U는 해당하는 supremum 문제를 통해 도출된다.

기술적 혁신점

타이트함: Cross-Manski 방법을 직접 적용하는 것과 비교하여 더 타이트한 경계값 생성
계산 가능성: 내층 문제는 선형 계획법이고 외층은 격자 탐색으로 해결
확장성: 추가적인 다면체 제약 조건 용이하게 추가 가능
주변 정보만 필요: 추론 과정에서 결합 분포 정보 불필요

실험 설정

데이터 집합

모의 데이터: 세 가지 다른 설정의 모의 연구
- 이진 결과 Yi ∈ {0,1}
- 세 개의 이진 공변량 Xi = (X1i, X2i, X3i)
- 다섯 개 집단 Gi ∈ {1,...,5}
- 데이터 생성 모형: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
실증 데이터: 로드아일랜드 표준화 시험 데이터(RICAS)
- 2019년 봄 3-8학년 학생
- 영어 및 수학 시험 통과율
- 공변량: 인종(whitei), 경제적 어려움(econi), 영어 학습자 상태(ELLi)
- 5개 카운티를 집단으로 사용

평가 지표

식별 집합 너비
신뢰 구간 포함율
추정 경계와 실제 식별 집합의 상대 너비 비율
신뢰 구간과 식별 집합의 상대 너비 비율

비교 방법

추가 제약이 없는 기준 방법
Cross-Manski (2002) 방법의 직접 적용
단조성 제약을 추가한 방법
부분 집단 데이터를 사용하는 방법

구현 세부사항

90% 신뢰 구간 구성
다중 검정을 위한 Bonferroni 보정
비볼록 최적화는 다중 시작점 격자 탐색 사용
이진 변수에 대해 Clopper-Pearson 구간 사용

실험 결과

주요 결과

1. 모의 실험 발견

포함율: 모든 모수의 90% 신뢰 구간 포함율이 1 (보수적이지만 효과적)
너비 제어: 신뢰 구간 평균 너비가 식별 집합 너비보다 3% 이상 초과하지 않음
추정 정확도: 추정 경계의 평균 너비가 식별 집합 너비와 기본적으로 동일

2. 경계 정보량의 주요 인자

핵심 발견: 주변 확률 PXℓi = xk,ℓ|Gi = g이 1에 가까울 때 경계가 더 정보 풍부함. 이는 이러한 경우 결합 확률 PXi = xk|Gi = g의 가능한 값의 범위가 더 작기 때문임.

3. Cross-Manski 방법 비교

본 논문의 방법이 생성하는 경계는 Cross-Manski 방법의 경계에 엄격히 포함되어 타이트함 우위를 확인함.

실증 적용 결과

1. 로드아일랜드 시험 데이터

수학 시험 백인/비백인 통과율 차이:

제약 없음: 경계가 극도로 넓어 거의 정보 없음
단조성 제약: 일부 모수 경계 축소
부분 집단 데이터: 경계 현저히 개선
부분 집단 데이터 + 단조성: 가장 타이트한 경계, 예: 경제적 어려움이 있지만 영어 학습자가 아닌 학생의 차이는 -26%, 52%

영어 시험 결과도 유사하며, 경제적 어려움이 있는 비영어 학습자의 백인/비백인 통과율 차이는 -30%, 64%로 추정됨.

2. 제약 조건 효과

단조성 제약: 경제 지위 및 영어 능력의 합리적 순서 가정 기반
부분 집단 데이터: 추가 정보 제공으로 경계 현저히 축소
동질성 제약: 카운티 간 차이 없음을 가정하면 결과가 공집합으로, 이 가정이 데이터와 맞지 않음을 나타냄

절제 실험

세 가지 다른 모의 설정을 통해 다음을 검증:

주변 분포의 극단화 정도가 경계 너비에 영향
데이터 대표성이 특정 부분 집단의 식별 정확도에 영향
다양한 데이터 생성 과정에서 방법의 견고성

결론 및 논의

주요 결론

주변 분포만을 기반으로 개인 수준 모수의 의미 있는 부분 식별 가능
이층 최적화 프레임워크가 계산 가능한 해결책 제공
추가적인 형태 제약 및 부분 집단 정보가 식별 정확도 현저히 향상
방법이 실제 교육 데이터에서 실용적 가치 입증

한계

계산 복잡도: 공변량이나 집단 수가 클 때 계산 부담 증가
보수성: Bonferroni 보정으로 인해 신뢰 구간이 과도하게 보수적
이산화 요구: 방법이 이산 공변량으로 제한됨
경계 너비: 일부 경우 경계가 여전히 넓을 수 있음

향후 방향

연속 공변량으로의 확장
더 효율적인 계산 알고리즘 개발
덜 보수적인 추론 방법 탐색
데이터 의존적 가중 모수 고려

심층 평가

장점

이론적 엄밀성: 완전한 식별 이론 및 타이트함 증명 제공
실용성: 실제 데이터 분석의 중요한 문제 해결
방법론적 혁신: 주변 분포 제약 하에서 식별 문제를 처음으로 체계적으로 다룸
계산 가능성: 구체적인 알고리즘 구현 방안 제공
실증 검증: 모의 및 실제 데이터를 통한 방법 유효성 검증

부족한 점

계산 효율성: 대규모 문제에서 계산 도전 가능성
가정 제약: 유계 지지 및 이산성 가정 필요
추론 보수성: 신뢰 구간 구성이 상대적으로 보수적
적용 범위: 주로 횡단면 집계 데이터에 적용

영향력

학술 기여: 생태학적 추론 문헌에 중요한 이론적 확장 제공
실용적 가치: 정책 결정자에게 유용한 분석 도구 제공
방법론적 의의: 부분 식별에서 최적화 방법의 적용 잠재력 입증
재현성: 상세한 알고리즘 설명 및 구현 세부사항 제공

적용 시나리오

교육 연구: 다양한 집단의 교육 성과 차이 분석
공공 정책: 정책의 이질적 효과 평가
의료 보건: 집계 데이터 기반 건강 불평등 분석
사회과학: 집계 데이터에서 개인 행동 추론이 필요한 모든 분야

참고문헌

Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

본 논문은 생태학적 추론 분야에서 중요한 기여를 하였으며, 특히 실제 데이터 제약을 다루는 측면에서 그러하다. 계산 및 가정상의 일부 한계가 있지만, 이론적 엄밀성과 실용적 가치로 인해 해당 분야의 중요한 진전이 되었다.