Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic
Частичная идентификация параметров на индивидуальном уровне с использованием агрегированных данных в непараметрической модели
В данной работе разработана методология для частичной идентификации линейных комбинаций условных средних результатов, когда исследователь имеет доступ только к агрегированным данным. В отличие от существующей литературы, автор допускает только маргинальные распределения ковариат, а не совместные распределения в модели агрегированных данных. Границы получаются путём решения оптимизационной программы и могут легко включать дополнительные полиэдральные ограничения. Статья содержит эмпирическое применение методологии на данных стандартизированных тестов Род-Айленда.
Данное исследование решает проблему экологического вывода: как вывести параметры на индивидуальном уровне, когда исследователь может наблюдать только агрегированные данные. Конкретно, когда можно наблюдать только:
Средние результаты в каждой группе EYi|Gi = g
Маргинальные распределения каждой ковариаты в группе PXℓi = xk,ℓ|Gi = g
Относительные размеры групп PGi = g
Как идентифицировать линейные комбинации условных средних на индивидуальном уровне EYi|Xi = xk?
Существующая литература (например, Cross and Manski 2002, Cho and Manski 2008) обычно предполагает наблюдаемость совместного распределения ковариат, что часто нереалистично на практике. Прямое применение существующих методов приводит к неточным границам.
Методологическое новшество: Предложена методология частичной идентификации, основанная только на маргинальных распределениях, что лучше соответствует реальной доступности данных
Теоретические гарантии: Доказана точность (sharpness) построенных границ
Вычислительная схема: Задача идентификации преобразована в двухуровневую оптимизационную задачу, удобную для вычисления
Процедура вывода: Предоставлены эффективные методы построения доверительных интервалов, требующие только маргинальной информации
Эмпирическое применение: Продемонстрирована практическая применимость метода на образовательных данных
Ключевое открытие: когда маргинальная вероятность PXℓi = xk,ℓ|Gi = g близка к 1, границы более информативны. Причина заключается в том, что в этом случае диапазон возможных значений совместной вероятности PXi = xk|Gi = g меньше.
Разница в проценте прохождения тестов по математике между белыми и небелыми:
Без ограничений: границы чрезвычайно широкие, практически без информации
Ограничение монотонности: границы для некоторых параметров сужаются
Данные подгрупп: значительное улучшение границ
Данные подгрупп + монотонность: самые точные границы, например, для экономически неблагополучных не-ELL учащихся разница оценивается в -26%, 52%
Результаты тестов по английскому языку аналогичны, где разница в проценте прохождения между белыми и небелыми для экономически неблагополучных не-ELL учащихся оценивается в -30%, 64%.
Ограничение монотонности: Основано на разумном предположении об упорядочении по экономическому статусу и способности к английскому языку
Данные подгрупп: Предоставляют дополнительную информацию, значительно сужая границы
Ограничение однородности: Предположение об отсутствии различий между округами приводит к пустому множеству, указывая на несовместимость этого предположения с данными
Cross, P. J. and C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
Cho, W. K. T. and C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.
Данная статья вносит важный вклад в область экологического вывода, особенно в решении проблем, связанных с практическими ограничениями доступности данных. Несмотря на некоторые вычислительные и теоретические ограничения, её теоретическая строгость и практическая ценность делают её значительным прогрессом в этой области.