I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
论文ID : 2403.07236标题 : Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model作者 : Sarah Moon (MIT)分类 : econ.EM stat.ME发表时间 : October 16, 2025 (arXiv预印本)论文链接 : https://arxiv.org/abs/2403.07236 本文开发了一种方法论,用于在研究者只能获得聚合数据时部分识别条件均值结果的线性组合。与现有文献不同,作者在聚合数据模型中只允许协变量的边际分布而非联合分布。通过求解优化程序获得边界,并可轻松容纳额外的多面体形状限制。文章提供了该方法在罗德岛标准化考试数据上的实证应用。
本研究解决的是生态推断问题 :当研究者只能观察到聚合数据时,如何推断个体层面参数。具体而言,当只能观察到:
各组内的平均结果 EYi|Gi = g 各组内每个协变量的边际分布 PXℓi = xk,ℓ|Gi = g 各组的相对规模 PGi = g 如何识别个体层面的条件均值 EYi|Xi = xk 的线性组合。
数据可得性限制 :实际中,出于隐私保护考虑,往往只能获得边际分布而非联合分布政策制定需求 :需要了解个体层面的因果效应来制定有效政策生态谬误 :聚合层面的关系可能与个体层面的关系存在显著差异现有文献(如Cross and Manski 2002, Cho and Manski 2008)通常假设能观察到协变量的联合分布,这在实践中往往不现实。直接应用现有方法会产生非紧致的边界。
方法论创新 :提出了仅基于边际分布的部分识别方法,更符合实际数据可得性理论保证 :证明了所构造边界的紧致性(sharpness)计算框架 :将识别问题转化为双层优化问题,便于计算实现推断程序 :提供了有效的置信区间构造方法,仅需边际信息实证应用 :在教育数据上展示了方法的实用性输入 :
各组平均结果:EYi|Gi = g 各组协变量边际分布:PXℓi = xk,ℓ|Gi = g 组规模:PGi = g 输出 :
条件均值线性组合的识别集:∑K k=1 λkEYi|Xi = xk 约束条件 :
Yi ∈ yℓ, yu (有界支撑) Xi, Gi 为离散随机变量 只观察边际而非联合分布 方法基于三个核心约束方程:
边际-联合一致性 :
P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]
组内期望分解 :
E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]
跨组聚合 :
E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]
定义协变量分布的识别集:
P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}
参数的识别集:
D = {∑K k=1 λkdk | ∃(p,c,d) 满足约束条件}
命题1 :识别集D = L,U ,其中:
L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g
上界U通过相应的supremum问题获得。
紧致性 :与直接应用Cross-Manski方法相比,本方法产生更紧致的边界计算可行性 :内层问题为线性规划,外层通过网格搜索求解扩展性 :易于加入额外的多面体约束条件仅需边际信息 :推断过程不需要联合分布信息模拟数据 :三个不同设置的模拟研究二元结果Yi ∈ {0,1} 三个二元协变量Xi = (X1i, X2i, X3i) 五个组Gi ∈ {1,...,5} 数据生成模型:Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1) 实证数据 :罗德岛标准化考试数据(RICAS)2019年春季3-8年级学生 英语和数学考试通过率 协变量:种族(whitei)、经济困难状况(econi)、英语学习者状态(ELLi) 5个县作为组 识别集宽度 置信区间覆盖率 估计边界与真实识别集的相对宽度比 置信区间与识别集的相对宽度比 无额外限制的基准方法 Cross-Manski (2002) 方法的直接应用 加入单调性约束的方法 使用子组数据的方法 90%置信区间构造 Bonferroni校正处理多重检验 非凸优化使用多起始点网格搜索 Clopper-Pearson区间用于二元变量 覆盖率 :所有参数的90%置信区间覆盖率均为1(保守但有效)宽度控制 :置信区间平均宽度比识别集宽度多不超过3%估计精度 :估计边界的平均宽度与识别集宽度基本相同关键发现:当边际概率PXℓi = xk,ℓ|Gi = g 接近1时,边界更加信息丰富。原因是这种情况下联合概率PXi = xk|Gi = g 的可能取值范围更小。
本文方法产生的边界严格包含在Cross-Manski方法的边界内,证实了紧致性优势。
数学考试白人/非白人通过率差距 :
无限制:边界极宽,几乎无信息 单调性约束:部分参数边界收窄 子组数据:显著改善边界 子组数据+单调性:最紧边界,如经济困难但非英语学习者学生的差距在-26%, 52% 英语考试结果类似 ,其中经济困难非英语学习者的白人/非白人通过率差距估计在-30%, 64% 。
单调性约束 :基于经济地位和英语能力的合理排序假设子组数据 :提供额外信息,显著收窄边界同质性约束 :假设县间无差异,结果为空集,表明该假设与数据不符通过三个不同的模拟设置验证了:
边际分布极端化程度影响边界宽度 数据代表性影响特定子群的识别精度 方法在不同数据生成过程下的稳健性 经典工作 :Robinson (1950), Duncan and Davis (1953), Theil (1954)现代发展 :Cross and Manski (2002), Cho and Manski (2008)数据融合 :Fan et al. (2014, 2016), Buchinsky et al. (2022)数据模型 :首次系统处理仅有边际分布的情况方法论 :提供紧致边界的计算框架推断理论 :发展了仅需边际信息的推断程序仅基于边际分布可以对个体层面参数进行有意义的部分识别 双层优化框架提供了计算可行的解决方案 额外的形状约束和子组信息能显著提高识别精度 方法在实际教育数据中展现了实用价值 计算复杂度 :当协变量或组数较大时计算负担重保守性 :Bonferroni校正导致置信区间偏保守离散化要求 :方法局限于离散协变量边界宽度 :在某些情况下边界仍可能较宽扩展到连续协变量情况 开发更高效的计算算法 探索不太保守的推断方法 考虑数据依赖的权重参数 理论严谨 :提供了完整的识别理论和紧致性证明实用性强 :解决了实际数据分析中的重要问题方法创新 :首次系统处理边际分布限制下的识别问题计算可行 :提供了具体的算法实现方案实证验证 :通过模拟和实际数据验证了方法有效性计算效率 :对于大规模问题可能面临计算挑战假设限制 :需要有界支撑和离散性假设推断保守性 :置信区间构造较为保守应用范围 :主要适用于横截面聚合数据学术贡献 :为生态推断文献提供了重要理论扩展实用价值 :为政策制定者提供了有用的分析工具方法论意义 :展示了优化方法在部分识别中的应用潜力可复现性 :提供了详细的算法描述和实现细节教育研究 :分析不同群体的教育成果差异公共政策 :评估政策对不同人群的异质性效应医疗卫生 :基于聚合数据分析健康差异社会科学 :任何需要从聚合数据推断个体行为的场景Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368. Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology . Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357. 本论文在生态推断领域做出了重要贡献,特别是在处理实际数据限制方面。虽然存在一些计算和假设上的局限,但其理论严谨性和实用价值使其成为该领域的重要进展。