2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

Частичная идентификация параметров на индивидуальном уровне с использованием агрегированных данных в непараметрической модели

Основная информация

  • ID статьи: 2403.07236
  • Название: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
  • Автор: Sarah Moon (MIT)
  • Классификация: econ.EM stat.ME
  • Дата публикации: 16 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2403.07236

Аннотация

В данной работе разработана методология для частичной идентификации линейных комбинаций условных средних результатов, когда исследователь имеет доступ только к агрегированным данным. В отличие от существующей литературы, автор допускает только маргинальные распределения ковариат, а не совместные распределения в модели агрегированных данных. Границы получаются путём решения оптимизационной программы и могут легко включать дополнительные полиэдральные ограничения. Статья содержит эмпирическое применение методологии на данных стандартизированных тестов Род-Айленда.

Исследовательский контекст и мотивация

Основная проблема

Данное исследование решает проблему экологического вывода: как вывести параметры на индивидуальном уровне, когда исследователь может наблюдать только агрегированные данные. Конкретно, когда можно наблюдать только:

  • Средние результаты в каждой группе EYi|Gi = g
  • Маргинальные распределения каждой ковариаты в группе PXℓi = xk,ℓ|Gi = g
  • Относительные размеры групп PGi = g

Как идентифицировать линейные комбинации условных средних на индивидуальном уровне EYi|Xi = xk?

Значимость проблемы

  1. Ограничения доступности данных: На практике часто доступны только маргинальные распределения, а не совместные, по соображениям конфиденциальности
  2. Потребности политики: Необходимо понимание причинно-следственных эффектов на индивидуальном уровне для разработки эффективной политики
  3. Экологическая ошибка: Отношения на агрегированном уровне могут существенно отличаться от отношений на индивидуальном уровне

Ограничения существующих методов

Существующая литература (например, Cross and Manski 2002, Cho and Manski 2008) обычно предполагает наблюдаемость совместного распределения ковариат, что часто нереалистично на практике. Прямое применение существующих методов приводит к неточным границам.

Основные вклады

  1. Методологическое новшество: Предложена методология частичной идентификации, основанная только на маргинальных распределениях, что лучше соответствует реальной доступности данных
  2. Теоретические гарантии: Доказана точность (sharpness) построенных границ
  3. Вычислительная схема: Задача идентификации преобразована в двухуровневую оптимизационную задачу, удобную для вычисления
  4. Процедура вывода: Предоставлены эффективные методы построения доверительных интервалов, требующие только маргинальной информации
  5. Эмпирическое применение: Продемонстрирована практическая применимость метода на образовательных данных

Описание методологии

Определение задачи

Входные данные:

  • Средние результаты в группах: EYi|Gi = g
  • Маргинальные распределения ковариат в группах: PXℓi = xk,ℓ|Gi = g
  • Размеры групп: PGi = g

Выходные данные:

  • Множество идентификации для линейных комбинаций условных средних: ∑K k=1 λkEYi|Xi = xk

Ограничения:

  • Yi ∈ yℓ, yu (ограниченный носитель)
  • Xi, Gi — дискретные случайные величины
  • Наблюдаются только маргинальные, а не совместные распределения

Архитектура модели

1. Основные уравнения ограничений

Методология основана на трёх ключевых уравнениях ограничений:

Согласованность маргинального и совместного распределений:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

Разложение условного ожидания в группе:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

Агрегирование по группам:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. Построение множества идентификации

Определим множество идентификации для распределения ковариат:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

Множество идентификации параметров:

D = {∑K k=1 λkdk | ∃(p,c,d) удовлетворяющие ограничениям}

3. Формулировка двухуровневой оптимизации

Предложение 1: Множество идентификации D = L,U, где:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

Верхняя граница U получается путём решения соответствующей задачи максимизации.

Технические инновации

  1. Точность: По сравнению с прямым применением метода Cross-Manski, данный метод производит более точные границы
  2. Вычислительная осуществимость: Внутренняя задача является линейной программой, внешняя решается сеточным поиском
  3. Расширяемость: Легко добавлять дополнительные полиэдральные ограничения
  4. Требует только маргинальную информацию: Процедура вывода не требует информации о совместном распределении

Экспериментальная установка

Наборы данных

  1. Смоделированные данные: Три смоделированных исследования с различными установками
    • Бинарный результат Yi ∈ {0,1}
    • Три бинарные ковариаты Xi = (X1i, X2i, X3i)
    • Пять групп Gi ∈ {1,...,5}
    • Модель генерирования данных: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. Эмпирические данные: Данные стандартизированных тестов Род-Айленда (RICAS)
    • Учащиеся 3-8 классов весной 2019 года
    • Процент прохождения тестов по английскому языку и математике
    • Ковариаты: раса (whitei), экономические трудности (econi), статус изучающего английский язык (ELLi)
    • 5 округов в качестве групп

Метрики оценки

  • Ширина множества идентификации
  • Уровень покрытия доверительного интервала
  • Относительная ширина оценённых границ к истинному множеству идентификации
  • Относительная ширина доверительного интервала к множеству идентификации

Методы сравнения

  • Базовый метод без дополнительных ограничений
  • Прямое применение метода Cross-Manski (2002)
  • Метод с добавлением ограничений монотонности
  • Метод с использованием данных подгрупп

Детали реализации

  • Построение 90% доверительных интервалов
  • Коррекция Бонферрони для множественного тестирования
  • Сеточный поиск с несколькими начальными точками для невыпуклой оптимизации
  • Интервалы Клоппера-Пирсона для бинарных переменных

Результаты экспериментов

Основные результаты

1. Выводы из смоделированных экспериментов

  • Уровень покрытия: 90% доверительные интервалы для всех параметров имеют уровень покрытия, равный 1 (консервативно, но эффективно)
  • Контроль ширины: Средняя ширина доверительного интервала превышает ширину множества идентификации не более чем на 3%
  • Точность оценки: Средняя ширина оценённых границ практически совпадает с шириной множества идентификации

2. Факторы, определяющие информативность границ

Ключевое открытие: когда маргинальная вероятность PXℓi = xk,ℓ|Gi = g близка к 1, границы более информативны. Причина заключается в том, что в этом случае диапазон возможных значений совместной вероятности PXi = xk|Gi = g меньше.

3. Сравнение с методом Cross-Manski

Границы, полученные в данной работе, строго содержатся в границах метода Cross-Manski, что подтверждает преимущество в точности.

Результаты эмпирического применения

1. Данные тестов Род-Айленда

Разница в проценте прохождения тестов по математике между белыми и небелыми:

  • Без ограничений: границы чрезвычайно широкие, практически без информации
  • Ограничение монотонности: границы для некоторых параметров сужаются
  • Данные подгрупп: значительное улучшение границ
  • Данные подгрупп + монотонность: самые точные границы, например, для экономически неблагополучных не-ELL учащихся разница оценивается в -26%, 52%

Результаты тестов по английскому языку аналогичны, где разница в проценте прохождения между белыми и небелыми для экономически неблагополучных не-ELL учащихся оценивается в -30%, 64%.

2. Эффект ограничений

  • Ограничение монотонности: Основано на разумном предположении об упорядочении по экономическому статусу и способности к английскому языку
  • Данные подгрупп: Предоставляют дополнительную информацию, значительно сужая границы
  • Ограничение однородности: Предположение об отсутствии различий между округами приводит к пустому множеству, указывая на несовместимость этого предположения с данными

Абляционные исследования

Три различные смоделированные установки подтвердили:

  1. Степень экстремальности маргинального распределения влияет на ширину границ
  2. Репрезентативность данных влияет на точность идентификации для конкретных подгрупп
  3. Робастность метода при различных процессах генерирования данных

Связанные работы

Литература по экологическому выводу

  • Классические работы: Robinson (1950), Duncan and Davis (1953), Theil (1954)
  • Современные разработки: Cross and Manski (2002), Cho and Manski (2008)
  • Объединение данных: Fan et al. (2014, 2016), Buchinsky et al. (2022)

Позиционирование вклада данной работы

  1. Модель данных: Первое систематическое рассмотрение случая, когда доступны только маргинальные распределения
  2. Методология: Предоставление вычислительной схемы для получения точных границ
  3. Теория вывода: Разработка процедур вывода, требующих только маргинальной информации

Заключение и обсуждение

Основные выводы

  1. Значимая частичная идентификация параметров на индивидуальном уровне возможна только на основе маргинальных распределений
  2. Двухуровневая оптимизационная схема обеспечивает вычислительно осуществимое решение
  3. Дополнительные ограничения формы и информация о подгруппах могут значительно повысить точность идентификации
  4. Метод продемонстрировал практическую ценность на реальных образовательных данных

Ограничения

  1. Вычислительная сложность: При большом числе ковариат или групп вычислительная нагрузка значительна
  2. Консервативность: Коррекция Бонферрони приводит к консервативным доверительным интервалам
  3. Требование дискретизации: Метод ограничен дискретными ковариатами
  4. Ширина границ: В некоторых случаях границы могут оставаться достаточно широкими

Направления будущих исследований

  1. Расширение на случай непрерывных ковариат
  2. Разработка более эффективных вычислительных алгоритмов
  3. Исследование менее консервативных методов вывода
  4. Рассмотрение зависящих от данных весовых параметров

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставлена полная теория идентификации и доказательство точности
  2. Практическая применимость: Решена важная проблема, возникающая при анализе реальных данных
  3. Методологическое новшество: Первое систематическое рассмотрение проблемы идентификации при ограничении на маргинальные распределения
  4. Вычислительная осуществимость: Предоставлены конкретные алгоритмические решения
  5. Эмпирическая верификация: Методология проверена на смоделированных и реальных данных

Недостатки

  1. Вычислительная эффективность: Возможны вычислительные трудности при работе с крупномасштабными задачами
  2. Ограничения предположений: Требуются предположения об ограниченном носителе и дискретности
  3. Консервативность вывода: Построение доверительных интервалов относительно консервативно
  4. Область применения: Главным образом применима к поперечным агрегированным данным

Влияние

  1. Академический вклад: Важное теоретическое расширение литературы по экологическому выводу
  2. Практическая ценность: Предоставляет полезный аналитический инструмент для политиков
  3. Методологическое значение: Демонстрирует потенциал оптимизационных методов в частичной идентификации
  4. Воспроизводимость: Предоставлены детальные описания алгоритмов и детали реализации

Сценарии применения

  1. Образовательные исследования: Анализ различий в образовательных результатах между группами
  2. Государственная политика: Оценка гетерогенных эффектов политики на различные группы населения
  3. Здравоохранение: Анализ различий в здоровье на основе агрегированных данных
  4. Социальные науки: Любые сценарии, требующие вывода индивидуального поведения из агрегированных данных

Библиография

  • Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
  • Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
  • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

Данная статья вносит важный вклад в область экологического вывода, особенно в решении проблем, связанных с практическими ограничениями доступности данных. Несмотря на некоторые вычислительные и теоретические ограничения, её теоретическая строгость и практическая ценность делают её значительным прогрессом в этой области.