I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
논문 ID : 2403.07236제목 : Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model저자 : Sarah Moon (MIT)분류 : econ.EM stat.ME발표 시간 : 2025년 10월 16일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2403.07236 본 논문은 연구자가 집계 데이터만 이용 가능할 때 조건부 평균 결과의 선형 결합을 부분 식별하는 방법론을 개발했다. 기존 문헌과 달리, 저자는 집계 데이터 모형에서 공변량의 결합 분포가 아닌 주변 분포만을 허용한다. 최적화 프로그램을 풀어 경계값을 도출하며, 추가적인 다면체 형태의 제약 조건을 용이하게 수용할 수 있다. 본 논문은 로드아일랜드 표준화 시험 데이터에 대한 실증 적용을 제시한다.
본 연구가 해결하는 것은 생태학적 추론 문제 이다: 연구자가 집계 데이터만 관찰할 수 있을 때, 개인 수준의 모수를 어떻게 추론할 것인가. 구체적으로, 다음만 관찰 가능할 때:
각 집단 내 평균 결과 EYi|Gi = g 각 집단 내 각 공변량의 주변 분포 PXℓi = xk,ℓ|Gi = g 각 집단의 상대적 규모 PGi = g 개인 수준의 조건부 평균 EYi|Xi = xk 의 선형 결합을 어떻게 식별할 것인가.
데이터 가용성 제약 : 실제로 개인정보 보호 고려로 인해 주변 분포만 이용 가능한 경우가 많음정책 수립 필요성 : 효과적인 정책 수립을 위해 개인 수준의 인과 효과를 이해해야 함생태학적 오류 : 집계 수준의 관계가 개인 수준의 관계와 현저히 다를 수 있음기존 문헌(Cross and Manski 2002, Cho and Manski 2008)은 일반적으로 공변량의 결합 분포를 관찰할 수 있다고 가정하는데, 이는 실제로는 현실적이지 않다. 기존 방법을 직접 적용하면 느슨한 경계값이 생성된다.
방법론적 혁신 : 주변 분포만을 기반으로 하는 부분 식별 방법 제시로 실제 데이터 가용성에 더 부합이론적 보장 : 구성된 경계값의 타이트함(sharpness) 증명계산 프레임워크 : 식별 문제를 이층 최적화 문제로 변환하여 계산 구현 용이추론 절차 : 주변 정보만으로 신뢰 구간 구성 방법 제공실증 적용 : 교육 데이터에서 방법의 실용성 입증입력 :
각 집단 평균 결과: EYi|Gi = g 각 집단 공변량 주변 분포: PXℓi = xk,ℓ|Gi = g 집단 규모: PGi = g 출력 :
조건부 평균 선형 결합의 식별 집합: ∑K k=1 λkEYi|Xi = xk 제약 조건 :
Yi ∈ yℓ, yu (유계 지지) Xi, Gi는 이산 확률변수 결합 분포가 아닌 주변 분포만 관찰 방법은 세 가지 핵심 제약 방정식을 기반으로 함:
주변-결합 일관성 :
P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]
집단 내 기댓값 분해 :
E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]
집단 간 집계 :
E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]
공변량 분포의 식별 집합 정의:
P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}
모수의 식별 집합:
D = {∑K k=1 λkdk | ∃(p,c,d) 만족 제약 조건}
명제 1 : 식별 집합 D = L,U , 여기서:
L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g
상한 U는 해당하는 supremum 문제를 통해 도출된다.
타이트함 : Cross-Manski 방법을 직접 적용하는 것과 비교하여 더 타이트한 경계값 생성계산 가능성 : 내층 문제는 선형 계획법이고 외층은 격자 탐색으로 해결확장성 : 추가적인 다면체 제약 조건 용이하게 추가 가능주변 정보만 필요 : 추론 과정에서 결합 분포 정보 불필요모의 데이터 : 세 가지 다른 설정의 모의 연구이진 결과 Yi ∈ {0,1} 세 개의 이진 공변량 Xi = (X1i, X2i, X3i) 다섯 개 집단 Gi ∈ {1,...,5} 데이터 생성 모형: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1) 실증 데이터 : 로드아일랜드 표준화 시험 데이터(RICAS)2019년 봄 3-8학년 학생 영어 및 수학 시험 통과율 공변량: 인종(whitei), 경제적 어려움(econi), 영어 학습자 상태(ELLi) 5개 카운티를 집단으로 사용 식별 집합 너비 신뢰 구간 포함율 추정 경계와 실제 식별 집합의 상대 너비 비율 신뢰 구간과 식별 집합의 상대 너비 비율 추가 제약이 없는 기준 방법 Cross-Manski (2002) 방법의 직접 적용 단조성 제약을 추가한 방법 부분 집단 데이터를 사용하는 방법 90% 신뢰 구간 구성 다중 검정을 위한 Bonferroni 보정 비볼록 최적화는 다중 시작점 격자 탐색 사용 이진 변수에 대해 Clopper-Pearson 구간 사용 포함율 : 모든 모수의 90% 신뢰 구간 포함율이 1 (보수적이지만 효과적)너비 제어 : 신뢰 구간 평균 너비가 식별 집합 너비보다 3% 이상 초과하지 않음추정 정확도 : 추정 경계의 평균 너비가 식별 집합 너비와 기본적으로 동일핵심 발견: 주변 확률 PXℓi = xk,ℓ|Gi = g 이 1에 가까울 때 경계가 더 정보 풍부함. 이는 이러한 경우 결합 확률 PXi = xk|Gi = g 의 가능한 값의 범위가 더 작기 때문임.
본 논문의 방법이 생성하는 경계는 Cross-Manski 방법의 경계에 엄격히 포함되어 타이트함 우위를 확인함.
수학 시험 백인/비백인 통과율 차이 :
제약 없음: 경계가 극도로 넓어 거의 정보 없음 단조성 제약: 일부 모수 경계 축소 부분 집단 데이터: 경계 현저히 개선 부분 집단 데이터 + 단조성: 가장 타이트한 경계, 예: 경제적 어려움이 있지만 영어 학습자가 아닌 학생의 차이는 -26%, 52% 영어 시험 결과도 유사 하며, 경제적 어려움이 있는 비영어 학습자의 백인/비백인 통과율 차이는 -30%, 64% 로 추정됨.
단조성 제약 : 경제 지위 및 영어 능력의 합리적 순서 가정 기반부분 집단 데이터 : 추가 정보 제공으로 경계 현저히 축소동질성 제약 : 카운티 간 차이 없음을 가정하면 결과가 공집합으로, 이 가정이 데이터와 맞지 않음을 나타냄세 가지 다른 모의 설정을 통해 다음을 검증:
주변 분포의 극단화 정도가 경계 너비에 영향 데이터 대표성이 특정 부분 집단의 식별 정확도에 영향 다양한 데이터 생성 과정에서 방법의 견고성 고전 연구 : Robinson (1950), Duncan and Davis (1953), Theil (1954)현대 발전 : Cross and Manski (2002), Cho and Manski (2008)데이터 융합 : Fan et al. (2014, 2016), Buchinsky et al. (2022)데이터 모형 : 주변 분포만 있는 경우를 처음으로 체계적으로 다룸방법론 : 타이트한 경계값의 계산 프레임워크 제공추론 이론 : 주변 정보만 필요한 추론 절차 개발주변 분포만을 기반으로 개인 수준 모수의 의미 있는 부분 식별 가능 이층 최적화 프레임워크가 계산 가능한 해결책 제공 추가적인 형태 제약 및 부분 집단 정보가 식별 정확도 현저히 향상 방법이 실제 교육 데이터에서 실용적 가치 입증 계산 복잡도 : 공변량이나 집단 수가 클 때 계산 부담 증가보수성 : Bonferroni 보정으로 인해 신뢰 구간이 과도하게 보수적이산화 요구 : 방법이 이산 공변량으로 제한됨경계 너비 : 일부 경우 경계가 여전히 넓을 수 있음연속 공변량으로의 확장 더 효율적인 계산 알고리즘 개발 덜 보수적인 추론 방법 탐색 데이터 의존적 가중 모수 고려 이론적 엄밀성 : 완전한 식별 이론 및 타이트함 증명 제공실용성 : 실제 데이터 분석의 중요한 문제 해결방법론적 혁신 : 주변 분포 제약 하에서 식별 문제를 처음으로 체계적으로 다룸계산 가능성 : 구체적인 알고리즘 구현 방안 제공실증 검증 : 모의 및 실제 데이터를 통한 방법 유효성 검증계산 효율성 : 대규모 문제에서 계산 도전 가능성가정 제약 : 유계 지지 및 이산성 가정 필요추론 보수성 : 신뢰 구간 구성이 상대적으로 보수적적용 범위 : 주로 횡단면 집계 데이터에 적용학술 기여 : 생태학적 추론 문헌에 중요한 이론적 확장 제공실용적 가치 : 정책 결정자에게 유용한 분석 도구 제공방법론적 의의 : 부분 식별에서 최적화 방법의 적용 잠재력 입증재현성 : 상세한 알고리즘 설명 및 구현 세부사항 제공교육 연구 : 다양한 집단의 교육 성과 차이 분석공공 정책 : 정책의 이질적 효과 평가의료 보건 : 집계 데이터 기반 건강 불평등 분석사회과학 : 집계 데이터에서 개인 행동 추론이 필요한 모든 분야Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368. Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology . Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357. 본 논문은 생태학적 추론 분야에서 중요한 기여를 하였으며, 특히 실제 데이터 제약을 다루는 측면에서 그러하다. 계산 및 가정상의 일부 한계가 있지만, 이론적 엄밀성과 실용적 가치로 인해 해당 분야의 중요한 진전이 되었다.