I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
論文ID : 2403.07236タイトル : Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model著者 : Sarah Moon (MIT)分類 : econ.EM stat.ME発表日 : 2025年10月16日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2403.07236 本論文は、研究者が集計データのみにアクセス可能な場合に、条件付き平均結果の線形結合を部分識別するための方法論を開発している。既存文献と異なり、著者は集計データモデルにおいて共変量の結合分布ではなく周辺分布のみを許容している。最適化プログラムを解くことで境界を取得し、追加の多面体形状制約を容易に組み込むことができる。本論文はロードアイランド州の標準化試験データに対する実証応用を提供している。
本研究が対処する生態学的推論問題 は、研究者が集計データのみを観察できる場合に個体レベルのパラメータをいかに推論するかである。具体的には、以下のみが観察可能な場合:
各グループ内の平均結果 EYi|Gi = g 各グループ内の各共変量の周辺分布 PXℓi = xk,ℓ|Gi = g グループの相対的規模 PGi = g 個体レベルの条件付き平均 EYi|Xi = xk の線形結合をいかに識別するかという問題である。
データ入手可能性の制限 :実務では、プライバシー保護の理由から周辺分布のみが利用可能であることが多い政策立案の必要性 :効果的な政策立案のために個体レベルの因果効果を理解する必要がある生態学的誤謬 :集計レベルの関係は個体レベルの関係と大きく異なる可能性がある既存文献(Cross and Manski 2002、Cho and Manski 2008など)は通常、共変量の結合分布を観察できると仮定しており、これは実務ではしばしば非現実的である。既存方法を直接適用すると、非タイトな境界が生じる。
方法論的革新 :周辺分布のみに基づく部分識別方法を提案し、実際のデータ入手可能性により適合している理論的保証 :構築された境界のタイトネス(sharpness)を証明している計算フレームワーク :識別問題を二層最適化問題に変換し、計算実装を容易にしている推論手続き :周辺情報のみを必要とする有効な信頼区間構築方法を提供している実証応用 :教育データ上で方法の実用性を実証している入力 :
各グループの平均結果:EYi|Gi = g 各グループの共変量周辺分布:PXℓi = xk,ℓ|Gi = g グループ規模:PGi = g 出力 :
条件付き平均線形結合の識別集合:∑K k=1 λkEYi|Xi = xk 制約条件 :
Yi ∈ yℓ, yu (有界サポート) Xi、Gi は離散確率変数 結合分布ではなく周辺分布のみを観察 方法は3つの核心的制約方程式に基づいている:
周辺-結合一貫性 :
P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]
グループ内期待値分解 :
E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]
グループ間集計 :
E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]
共変量分布の識別集合を定義する:
P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}
パラメータの識別集合:
D = {∑K k=1 λkdk | ∃(p,c,d) が制約条件を満たす}
命題1 :識別集合D = L,U 、ここで:
L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
制約条件:{pkg} ∈ P、{ckg} ∈ [yℓ,yu]KG、{dk} ∈ [yℓ,yu]K、
dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k、
E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g
上界Uは対応する上限問題により取得される。
タイトネス :Cross-Manski方法を直接適用する場合と比較して、本方法はより厳密な境界を生成する計算可行性 :内層問題は線形計画法であり、外層はグリッド探索により解く拡張性 :追加の多面体制約条件を容易に組み込める周辺情報のみで十分 :推論プロセスは結合分布情報を必要としないシミュレーションデータ :3つの異なる設定のシミュレーション研究二値結果Yi ∈ {0,1} 3つの二値共変量Xi = (X1i, X2i, X3i) 5つのグループGi ∈ {1,...,5} データ生成モデル:Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}、ui ~ N(0,1) 実証データ :ロードアイランド州標準化試験データ(RICAS)2019年春季3~8年生 英語および数学試験合格率 共変量:人種(whitei)、経済困難状況(econi)、英語学習者状態(ELLi) 5つの郡をグループとして使用 識別集合の幅 信頼区間のカバレッジ率 推定境界と真の識別集合の相対幅比 信頼区間と識別集合の相対幅比 追加制約なしのベースライン方法 Cross-Manski (2002) 方法の直接適用 単調性制約を組み込んだ方法 サブグループデータを使用した方法 90%信頼区間の構築 多重検定に対するボンフェローニ補正 非凸最適化にはマルチスタートグリッド探索を使用 二値変数にはクロッパー・ピアソン区間を使用 カバレッジ率 :すべてのパラメータの90%信頼区間カバレッジ率は1(保守的だが有効)幅の制御 :信頼区間の平均幅は識別集合の幅を3%以上超えない推定精度 :推定境界の平均幅は識別集合の幅とほぼ同じ重要な発見:周辺確率PXℓi = xk,ℓ|Gi = g が1に近い場合、境界はより情報豊富である。理由は、この場合、結合確率PXi = xk|Gi = g の可能な値の範囲がより小さいからである。
本論文の方法により生成された境界は、Cross-Manski方法の境界に厳密に含まれており、タイトネスの優位性を確認している。
数学試験における白人/非白人合格率の差 :
制約なし:境界は極めて広く、ほぼ情報がない 単調性制約:一部のパラメータの境界が狭まる サブグループデータ:境界が大幅に改善される サブグループデータ+単調性:最も厳密な境界。例えば、経済困難だが英語学習者ではない学生の差は-26%, 52% 英語試験の結果も同様 で、経済困難で英語学習者ではない白人/非白人合格率の差は-30%, 64% と推定されている。
単調性制約 :経済状況と英語能力の合理的な順序付け仮説に基づくサブグループデータ :追加情報を提供し、境界を大幅に狭める同質性制約 :郡間に差異がないと仮定すると、結果は空集合となり、この仮定がデータと矛盾していることを示す3つの異なるシミュレーション設定を通じて以下を検証:
周辺分布の極端性の程度が境界幅に影響する データの代表性が特定のサブグループの識別精度に影響する 異なるデータ生成プロセスの下での方法の堅牢性 古典的研究 :Robinson (1950)、Duncan and Davis (1953)、Theil (1954)現代的発展 :Cross and Manski (2002)、Cho and Manski (2008)データ融合 :Fan et al. (2014, 2016)、Buchinsky et al. (2022)データモデル :周辺分布のみの場合を初めて体系的に扱う方法論 :タイトな境界の計算フレームワークを提供する推論理論 :周辺情報のみを必要とする推論手続きを開発する周辺分布のみに基づいて、個体レベルのパラメータに対する意味のある部分識別が可能である 二層最適化フレームワークは計算可行な解決策を提供する 追加の形状制約とサブグループ情報は識別精度を大幅に向上させることができる 方法は実際の教育データで実用的価値を示している 計算複雑性 :共変量またはグループ数が大きい場合、計算負担が重い保守性 :ボンフェローニ補正により信頼区間が過度に保守的になる離散化要件 :方法は離散共変量に限定される境界幅 :場合によっては境界がなお広い可能性がある連続共変量への拡張 より効率的な計算アルゴリズムの開発 より保守的でない推論方法の探索 データ依存の重み付けパラメータの検討 理論的厳密性 :完全な識別理論とタイトネス証明を提供している実用性 :実際のデータ分析における重要な問題を解決している方法論的革新 :周辺分布制限下の識別問題を初めて体系的に扱う計算可行性 :具体的なアルゴリズム実装方案を提供している実証検証 :シミュレーションと実際のデータにより方法の有効性を検証している計算効率 :大規模問題では計算上の課題に直面する可能性がある仮定の限定 :有界サポートと離散性の仮定が必要推論の保守性 :信頼区間構築が比較的保守的応用範囲 :主に横断面集計データに適用可能学術的貢献 :生態学的推論文献に重要な理論的拡張をもたらす実用的価値 :政策立案者に有用な分析ツールを提供する方法論的意義 :部分識別における最適化方法の応用可能性を示す再現可能性 :詳細なアルゴリズム記述と実装の詳細を提供している教育研究 :異なるグループ間の教育成果の差異を分析する公共政策 :政策の異質的効果を異なる人口集団に対して評価する医療衛生 :集計データに基づいて健康格差を分析する社会科学 :集計データから個体行動を推論する必要があるあらゆるシーンCross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368. Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology . Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357. 本論文は生態学的推論の分野に重要な貢献をもたらしており、特に実際のデータ制限への対処において顕著である。計算と仮定の面でいくつかの限界は存在するが、その理論的厳密性と実用的価値により、本論文は当該分野の重要な進展となっている。