2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon

I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.

academic

Identificación Parcial de Parámetros a Nivel Individual Utilizando Datos Agregados en un Modelo No Paramétrico

Información Básica

ID del Artículo: 2403.07236
Título: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
Autora: Sarah Moon (MIT)
Clasificación: econ.EM stat.ME
Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2403.07236

Resumen

Este artículo desarrolla una metodología para la identificación parcial de combinaciones lineales de resultados de media condicional cuando los investigadores solo tienen acceso a datos agregados. A diferencia de la literatura existente, la autora permite únicamente distribuciones marginales de covariables en lugar de distribuciones conjuntas en el modelo de datos agregados. Los límites se obtienen resolviendo programas de optimización y pueden acomodar fácilmente restricciones adicionales de forma poliédrica. El artículo proporciona una aplicación empírica del método utilizando datos de pruebas estandarizadas de Rhode Island.

Contexto de Investigación y Motivación

Problema Central

Esta investigación aborda el problema de la inferencia ecológica: cómo inferir parámetros a nivel individual cuando los investigadores solo pueden observar datos agregados. Específicamente, cuando solo se pueden observar:

Resultados promedio dentro de cada grupo EYi|Gi = g
Distribuciones marginales de cada covariable dentro de grupos PXℓi = xk,ℓ|Gi = g
Tamaños relativos de grupos PGi = g

Cómo identificar combinaciones lineales de medias condicionales a nivel individual EYi|Xi = xk.

Importancia del Problema

Limitaciones de Disponibilidad de Datos: En la práctica, a menudo solo se pueden obtener distribuciones marginales en lugar de conjuntas por razones de privacidad
Necesidades de Formulación de Políticas: Es necesario comprender los efectos causales a nivel individual para formular políticas efectivas
Falacia Ecológica: Las relaciones a nivel agregado pueden diferir significativamente de las relaciones a nivel individual

Limitaciones de Métodos Existentes

La literatura existente (como Cross y Manski 2002, Cho y Manski 2008) generalmente asume que se pueden observar distribuciones conjuntas de covariables, lo cual frecuentemente no es realista en la práctica. La aplicación directa de métodos existentes produce límites no compactos.

Contribuciones Principales

Innovación Metodológica: Propone un método de identificación parcial basado únicamente en distribuciones marginales, más alineado con la disponibilidad real de datos
Garantías Teóricas: Demuestra la compacidad (sharpness) de los límites construidos
Marco Computacional: Transforma el problema de identificación en un problema de optimización de dos niveles, facilitando la implementación computacional
Procedimiento de Inferencia: Proporciona métodos efectivos para la construcción de intervalos de confianza, requiriendo solo información marginal
Aplicación Empírica: Demuestra la practicidad del método en datos educativos

Explicación Detallada del Método

Definición de la Tarea

Entrada:

Resultados promedio por grupo: EYi|Gi = g
Distribuciones marginales de covariables por grupo: PXℓi = xk,ℓ|Gi = g
Tamaños de grupos: PGi = g

Salida:

Conjunto de identificación de combinaciones lineales de medias condicionales: ∑K k=1 λkEYi|Xi = xk

Restricciones:

Yi ∈ yℓ, yu (soporte acotado)
Xi, Gi son variables aleatorias discretas
Solo se observan distribuciones marginales, no conjuntas

Arquitectura del Modelo

1. Ecuaciones de Restricción Básicas

El método se basa en tres ecuaciones de restricción fundamentales:

Consistencia Marginal-Conjunta:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

Descomposición de Expectativa Dentro del Grupo:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

Agregación Entre Grupos:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. Construcción del Conjunto de Identificación

Se define el conjunto de identificación de distribuciones de covariables:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

Conjunto de identificación de parámetros:

D = {∑K k=1 λkdk | ∃(p,c,d) satisface restricciones}

3. Formulación de Optimización de Dos Niveles

Proposición 1: El conjunto de identificación D = L,U, donde:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

El límite superior U se obtiene mediante el problema de supremo correspondiente.

Puntos de Innovación Técnica

Compacidad: En comparación con la aplicación directa del método Cross-Manski, este método produce límites más compactos
Viabilidad Computacional: El problema interno es programación lineal, el externo se resuelve mediante búsqueda en cuadrícula
Extensibilidad: Fácil de incorporar restricciones poliédricas adicionales
Solo Requiere Información Marginal: El procedimiento de inferencia no necesita información de distribución conjunta

Configuración Experimental

Conjuntos de Datos

Datos Simulados: Tres estudios de simulación con diferentes configuraciones
- Resultado binario Yi ∈ {0,1}
- Tres covariables binarias Xi = (X1i, X2i, X3i)
- Cinco grupos Gi ∈ {1,...,5}
- Modelo de generación de datos: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
Datos Empíricos: Datos de pruebas estandarizadas de Rhode Island (RICAS)
- Estudiantes de grados 3-8, primavera de 2019
- Tasas de aprobación en pruebas de inglés y matemáticas
- Covariables: raza (whitei), situación de dificultad económica (econi), estado de aprendiz de inglés (ELLi)
- 5 condados como grupos

Métricas de Evaluación

Ancho del conjunto de identificación
Tasa de cobertura del intervalo de confianza
Relación de ancho relativo entre límites estimados y conjunto de identificación verdadero
Relación de ancho relativo entre intervalo de confianza y conjunto de identificación

Métodos de Comparación

Método de referencia sin restricciones adicionales
Aplicación directa del método Cross-Manski (2002)
Método con restricción de monotonía
Método utilizando datos de subgrupos

Detalles de Implementación

Construcción de intervalo de confianza al 90%
Corrección de Bonferroni para pruebas múltiples
Búsqueda en cuadrícula con múltiples puntos de inicio para optimización no convexa
Intervalo de Clopper-Pearson para variables binarias

Resultados Experimentales

Resultados Principales

1. Hallazgos de Experimentos Simulados

Tasa de Cobertura: La tasa de cobertura del intervalo de confianza al 90% para todos los parámetros es 1 (conservador pero efectivo)
Control de Ancho: El ancho promedio del intervalo de confianza no excede el ancho del conjunto de identificación en más del 3%
Precisión de Estimación: El ancho promedio de los límites estimados es esencialmente idéntico al ancho del conjunto de identificación

2. Factores Impulsores de la Información de Límites

Hallazgo clave: Los límites son más informativos cuando las probabilidades marginales PXℓi = xk,ℓ|Gi = g se acercan a 1. La razón es que en tales casos el rango de valores posibles para la probabilidad conjunta PXi = xk|Gi = g es más pequeño.

3. Comparación con Método Cross-Manski

Los límites producidos por este método están estrictamente contenidos dentro de los límites del método Cross-Manski, confirmando la ventaja de compacidad.

Resultados de Aplicación Empírica

1. Datos de Pruebas de Rhode Island

Brecha de Tasa de Aprobación en Matemáticas Blanco/No Blanco:

Sin restricciones: Límites extremadamente amplios, casi sin información
Restricción de monotonía: Límites de algunos parámetros se estrechan
Datos de subgrupos: Mejora significativa de límites
Datos de subgrupos + monotonía: Límites más compactos, por ejemplo, la brecha para estudiantes con dificultad económica pero no aprendices de inglés se estima en -26%, 52%

Resultados de Prueba de Inglés Similares, donde la brecha de tasa de aprobación blanco/no blanco para estudiantes con dificultad económica no aprendices de inglés se estima en -30%, 64%.

2. Efecto de Restricciones

Restricción de Monotonía: Basada en supuestos razonables de ordenamiento por estatus económico y capacidad de inglés
Datos de Subgrupos: Proporciona información adicional, estrechando significativamente los límites
Restricción de Homogeneidad: Asume sin diferencias entre condados, resultando en conjunto vacío, indicando que este supuesto es inconsistente con los datos

Experimentos de Ablación

Se verificó mediante tres configuraciones de simulación diferentes que:

El grado de extremidad de la distribución marginal afecta el ancho del límite
La representatividad de los datos afecta la precisión de identificación de subgrupos específicos
La robustez del método bajo diferentes procesos de generación de datos

Trabajo Relacionado

Literatura de Inferencia Ecológica

Trabajos Clásicos: Robinson (1950), Duncan y Davis (1953), Theil (1954)
Desarrollos Modernos: Cross y Manski (2002), Cho y Manski (2008)
Fusión de Datos: Fan et al. (2014, 2016), Buchinsky et al. (2022)

Posicionamiento de Contribución del Artículo

Modelo de Datos: Primera vez que se aborda sistemáticamente el caso con solo distribuciones marginales
Metodología: Proporciona marco computacional para límites compactos
Teoría de Inferencia: Desarrolla procedimientos de inferencia que requieren solo información marginal

Conclusiones y Discusión

Conclusiones Principales

La identificación parcial significativa de parámetros a nivel individual es posible basándose únicamente en distribuciones marginales
El marco de optimización de dos niveles proporciona una solución computacionalmente viable
Las restricciones de forma adicionales e información de subgrupos pueden mejorar significativamente la precisión de identificación
El método demuestra valor práctico en datos educativos reales

Limitaciones

Complejidad Computacional: Carga computacional pesada cuando hay muchas covariables o grupos
Conservadurismo: La corrección de Bonferroni resulta en intervalos de confianza sesgados hacia la conservación
Requisito de Discretización: El método se limita a covariables discretas
Ancho de Límites: En algunos casos, los límites aún pueden ser relativamente amplios

Direcciones Futuras

Extensión a casos de covariables continuas
Desarrollo de algoritmos computacionales más eficientes
Exploración de métodos de inferencia menos conservadores
Consideración de parámetros de ponderación dependientes de datos

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona teoría de identificación completa y pruebas de compacidad
Fuerte Practicidad: Resuelve un problema importante en análisis de datos reales
Innovación Metodológica: Primera vez que se aborda sistemáticamente el problema de identificación bajo restricción de distribuciones marginales
Viabilidad Computacional: Proporciona esquema de algoritmo concreto e implementable
Verificación Empírica: Valida la efectividad del método mediante simulaciones y datos reales

Insuficiencias

Eficiencia Computacional: Puede enfrentar desafíos computacionales para problemas a gran escala
Limitaciones de Supuestos: Requiere supuestos de soporte acotado y discretitud
Conservadurismo en Inferencia: La construcción de intervalos de confianza es relativamente conservadora
Rango de Aplicación: Principalmente aplicable a datos agregados de corte transversal

Impacto

Contribución Académica: Proporciona extensión teórica importante a la literatura de inferencia ecológica
Valor Práctico: Proporciona herramienta analítica útil para formuladores de políticas
Significado Metodológico: Demuestra el potencial de métodos de optimización en identificación parcial
Reproducibilidad: Proporciona descripción detallada de algoritmos y detalles de implementación

Escenarios Aplicables

Investigación Educativa: Análisis de diferencias en resultados educativos entre diferentes grupos
Política Pública: Evaluación de efectos heterogéneos de políticas en diferentes poblaciones
Salud Pública: Análisis de disparidades de salud basado en datos agregados
Ciencias Sociales: Cualquier escenario que requiera inferir comportamiento individual a partir de datos agregados

Referencias

Cross, P. J. y C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
Cho, W. K. T. y C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

Este artículo realiza una contribución importante al campo de la inferencia ecológica, particularmente en el abordaje de limitaciones de datos reales. Aunque existen algunas limitaciones computacionales y de supuestos, su rigor teórico y valor práctico lo convierten en un avance importante en el campo.