2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

基本信息

  • 论文ID: 2403.07236
  • 标题: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
  • 作者: Sarah Moon (MIT)
  • 分类: econ.EM stat.ME
  • 发表时间: October 16, 2025 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2403.07236

摘要

本文开发了一种方法论,用于在研究者只能获得聚合数据时部分识别条件均值结果的线性组合。与现有文献不同,作者在聚合数据模型中只允许协变量的边际分布而非联合分布。通过求解优化程序获得边界,并可轻松容纳额外的多面体形状限制。文章提供了该方法在罗德岛标准化考试数据上的实证应用。

研究背景与动机

核心问题

本研究解决的是生态推断问题:当研究者只能观察到聚合数据时,如何推断个体层面参数。具体而言,当只能观察到:

  • 各组内的平均结果 EYi|Gi = g
  • 各组内每个协变量的边际分布 PXℓi = xk,ℓ|Gi = g
  • 各组的相对规模 PGi = g

如何识别个体层面的条件均值 EYi|Xi = xk 的线性组合。

问题重要性

  1. 数据可得性限制:实际中,出于隐私保护考虑,往往只能获得边际分布而非联合分布
  2. 政策制定需求:需要了解个体层面的因果效应来制定有效政策
  3. 生态谬误:聚合层面的关系可能与个体层面的关系存在显著差异

现有方法局限性

现有文献(如Cross and Manski 2002, Cho and Manski 2008)通常假设能观察到协变量的联合分布,这在实践中往往不现实。直接应用现有方法会产生非紧致的边界。

核心贡献

  1. 方法论创新:提出了仅基于边际分布的部分识别方法,更符合实际数据可得性
  2. 理论保证:证明了所构造边界的紧致性(sharpness)
  3. 计算框架:将识别问题转化为双层优化问题,便于计算实现
  4. 推断程序:提供了有效的置信区间构造方法,仅需边际信息
  5. 实证应用:在教育数据上展示了方法的实用性

方法详解

任务定义

输入

  • 各组平均结果:EYi|Gi = g
  • 各组协变量边际分布:PXℓi = xk,ℓ|Gi = g
  • 组规模:PGi = g

输出

  • 条件均值线性组合的识别集:∑K k=1 λkEYi|Xi = xk

约束条件

  • Yi ∈ yℓ, yu (有界支撑)
  • Xi, Gi 为离散随机变量
  • 只观察边际而非联合分布

模型架构

1. 基本约束方程

方法基于三个核心约束方程:

边际-联合一致性

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

组内期望分解

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

跨组聚合

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. 识别集构造

定义协变量分布的识别集:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

参数的识别集:

D = {∑K k=1 λkdk | ∃(p,c,d) 满足约束条件}

3. 双层优化表述

命题1:识别集D = L,U,其中:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

上界U通过相应的supremum问题获得。

技术创新点

  1. 紧致性:与直接应用Cross-Manski方法相比,本方法产生更紧致的边界
  2. 计算可行性:内层问题为线性规划,外层通过网格搜索求解
  3. 扩展性:易于加入额外的多面体约束条件
  4. 仅需边际信息:推断过程不需要联合分布信息

实验设置

数据集

  1. 模拟数据:三个不同设置的模拟研究
    • 二元结果Yi ∈ {0,1}
    • 三个二元协变量Xi = (X1i, X2i, X3i)
    • 五个组Gi ∈ {1,...,5}
    • 数据生成模型:Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. 实证数据:罗德岛标准化考试数据(RICAS)
    • 2019年春季3-8年级学生
    • 英语和数学考试通过率
    • 协变量:种族(whitei)、经济困难状况(econi)、英语学习者状态(ELLi)
    • 5个县作为组

评价指标

  • 识别集宽度
  • 置信区间覆盖率
  • 估计边界与真实识别集的相对宽度比
  • 置信区间与识别集的相对宽度比

对比方法

  • 无额外限制的基准方法
  • Cross-Manski (2002) 方法的直接应用
  • 加入单调性约束的方法
  • 使用子组数据的方法

实现细节

  • 90%置信区间构造
  • Bonferroni校正处理多重检验
  • 非凸优化使用多起始点网格搜索
  • Clopper-Pearson区间用于二元变量

实验结果

主要结果

1. 模拟实验发现

  • 覆盖率:所有参数的90%置信区间覆盖率均为1(保守但有效)
  • 宽度控制:置信区间平均宽度比识别集宽度多不超过3%
  • 估计精度:估计边界的平均宽度与识别集宽度基本相同

2. 边界信息量的驱动因素

关键发现:当边际概率PXℓi = xk,ℓ|Gi = g接近1时,边界更加信息丰富。原因是这种情况下联合概率PXi = xk|Gi = g的可能取值范围更小。

3. Cross-Manski方法比较

本文方法产生的边界严格包含在Cross-Manski方法的边界内,证实了紧致性优势。

实证应用结果

1. 罗德岛考试数据

数学考试白人/非白人通过率差距

  • 无限制:边界极宽,几乎无信息
  • 单调性约束:部分参数边界收窄
  • 子组数据:显著改善边界
  • 子组数据+单调性:最紧边界,如经济困难但非英语学习者学生的差距在-26%, 52%

英语考试结果类似,其中经济困难非英语学习者的白人/非白人通过率差距估计在-30%, 64%

2. 约束条件效果

  • 单调性约束:基于经济地位和英语能力的合理排序假设
  • 子组数据:提供额外信息,显著收窄边界
  • 同质性约束:假设县间无差异,结果为空集,表明该假设与数据不符

消融实验

通过三个不同的模拟设置验证了:

  1. 边际分布极端化程度影响边界宽度
  2. 数据代表性影响特定子群的识别精度
  3. 方法在不同数据生成过程下的稳健性

相关工作

生态推断文献

  • 经典工作:Robinson (1950), Duncan and Davis (1953), Theil (1954)
  • 现代发展:Cross and Manski (2002), Cho and Manski (2008)
  • 数据融合:Fan et al. (2014, 2016), Buchinsky et al. (2022)

本文贡献定位

  1. 数据模型:首次系统处理仅有边际分布的情况
  2. 方法论:提供紧致边界的计算框架
  3. 推断理论:发展了仅需边际信息的推断程序

结论与讨论

主要结论

  1. 仅基于边际分布可以对个体层面参数进行有意义的部分识别
  2. 双层优化框架提供了计算可行的解决方案
  3. 额外的形状约束和子组信息能显著提高识别精度
  4. 方法在实际教育数据中展现了实用价值

局限性

  1. 计算复杂度:当协变量或组数较大时计算负担重
  2. 保守性:Bonferroni校正导致置信区间偏保守
  3. 离散化要求:方法局限于离散协变量
  4. 边界宽度:在某些情况下边界仍可能较宽

未来方向

  1. 扩展到连续协变量情况
  2. 开发更高效的计算算法
  3. 探索不太保守的推断方法
  4. 考虑数据依赖的权重参数

深度评价

优点

  1. 理论严谨:提供了完整的识别理论和紧致性证明
  2. 实用性强:解决了实际数据分析中的重要问题
  3. 方法创新:首次系统处理边际分布限制下的识别问题
  4. 计算可行:提供了具体的算法实现方案
  5. 实证验证:通过模拟和实际数据验证了方法有效性

不足

  1. 计算效率:对于大规模问题可能面临计算挑战
  2. 假设限制:需要有界支撑和离散性假设
  3. 推断保守性:置信区间构造较为保守
  4. 应用范围:主要适用于横截面聚合数据

影响力

  1. 学术贡献:为生态推断文献提供了重要理论扩展
  2. 实用价值:为政策制定者提供了有用的分析工具
  3. 方法论意义:展示了优化方法在部分识别中的应用潜力
  4. 可复现性:提供了详细的算法描述和实现细节

适用场景

  1. 教育研究:分析不同群体的教育成果差异
  2. 公共政策:评估政策对不同人群的异质性效应
  3. 医疗卫生:基于聚合数据分析健康差异
  4. 社会科学:任何需要从聚合数据推断个体行为的场景

参考文献

  • Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
  • Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
  • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

本论文在生态推断领域做出了重要贡献,特别是在处理实际数据限制方面。虽然存在一些计算和假设上的局限,但其理论严谨性和实用价值使其成为该领域的重要进展。