Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic
Identificación Parcial de Parámetros a Nivel Individual Utilizando Datos Agregados en un Modelo No Paramétrico
Este artículo desarrolla una metodología para la identificación parcial de combinaciones lineales de resultados de media condicional cuando los investigadores solo tienen acceso a datos agregados. A diferencia de la literatura existente, la autora permite únicamente distribuciones marginales de covariables en lugar de distribuciones conjuntas en el modelo de datos agregados. Los límites se obtienen resolviendo programas de optimización y pueden acomodar fácilmente restricciones adicionales de forma poliédrica. El artículo proporciona una aplicación empírica del método utilizando datos de pruebas estandarizadas de Rhode Island.
Esta investigación aborda el problema de la inferencia ecológica: cómo inferir parámetros a nivel individual cuando los investigadores solo pueden observar datos agregados. Específicamente, cuando solo se pueden observar:
Resultados promedio dentro de cada grupo EYi|Gi = g
Distribuciones marginales de cada covariable dentro de grupos PXℓi = xk,ℓ|Gi = g
Tamaños relativos de grupos PGi = g
Cómo identificar combinaciones lineales de medias condicionales a nivel individual EYi|Xi = xk.
Limitaciones de Disponibilidad de Datos: En la práctica, a menudo solo se pueden obtener distribuciones marginales en lugar de conjuntas por razones de privacidad
Necesidades de Formulación de Políticas: Es necesario comprender los efectos causales a nivel individual para formular políticas efectivas
Falacia Ecológica: Las relaciones a nivel agregado pueden diferir significativamente de las relaciones a nivel individual
La literatura existente (como Cross y Manski 2002, Cho y Manski 2008) generalmente asume que se pueden observar distribuciones conjuntas de covariables, lo cual frecuentemente no es realista en la práctica. La aplicación directa de métodos existentes produce límites no compactos.
Innovación Metodológica: Propone un método de identificación parcial basado únicamente en distribuciones marginales, más alineado con la disponibilidad real de datos
Garantías Teóricas: Demuestra la compacidad (sharpness) de los límites construidos
Marco Computacional: Transforma el problema de identificación en un problema de optimización de dos niveles, facilitando la implementación computacional
Procedimiento de Inferencia: Proporciona métodos efectivos para la construcción de intervalos de confianza, requiriendo solo información marginal
Aplicación Empírica: Demuestra la practicidad del método en datos educativos
Hallazgo clave: Los límites son más informativos cuando las probabilidades marginales PXℓi = xk,ℓ|Gi = g se acercan a 1. La razón es que en tales casos el rango de valores posibles para la probabilidad conjunta PXi = xk|Gi = g es más pequeño.
Los límites producidos por este método están estrictamente contenidos dentro de los límites del método Cross-Manski, confirmando la ventaja de compacidad.
Brecha de Tasa de Aprobación en Matemáticas Blanco/No Blanco:
Sin restricciones: Límites extremadamente amplios, casi sin información
Restricción de monotonía: Límites de algunos parámetros se estrechan
Datos de subgrupos: Mejora significativa de límites
Datos de subgrupos + monotonía: Límites más compactos, por ejemplo, la brecha para estudiantes con dificultad económica pero no aprendices de inglés se estima en -26%, 52%
Resultados de Prueba de Inglés Similares, donde la brecha de tasa de aprobación blanco/no blanco para estudiantes con dificultad económica no aprendices de inglés se estima en -30%, 64%.
Restricción de Monotonía: Basada en supuestos razonables de ordenamiento por estatus económico y capacidad de inglés
Datos de Subgrupos: Proporciona información adicional, estrechando significativamente los límites
Restricción de Homogeneidad: Asume sin diferencias entre condados, resultando en conjunto vacío, indicando que este supuesto es inconsistente con los datos
Cross, P. J. y C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
Cho, W. K. T. y C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.
Este artículo realiza una contribución importante al campo de la inferencia ecológica, particularmente en el abordaje de limitaciones de datos reales. Aunque existen algunas limitaciones computacionales y de supuestos, su rigor teórico y valor práctico lo convierten en un avance importante en el campo.