2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

Identificación Parcial de Parámetros a Nivel Individual Utilizando Datos Agregados en un Modelo No Paramétrico

Información Básica

  • ID del Artículo: 2403.07236
  • Título: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
  • Autora: Sarah Moon (MIT)
  • Clasificación: econ.EM stat.ME
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2403.07236

Resumen

Este artículo desarrolla una metodología para la identificación parcial de combinaciones lineales de resultados de media condicional cuando los investigadores solo tienen acceso a datos agregados. A diferencia de la literatura existente, la autora permite únicamente distribuciones marginales de covariables en lugar de distribuciones conjuntas en el modelo de datos agregados. Los límites se obtienen resolviendo programas de optimización y pueden acomodar fácilmente restricciones adicionales de forma poliédrica. El artículo proporciona una aplicación empírica del método utilizando datos de pruebas estandarizadas de Rhode Island.

Contexto de Investigación y Motivación

Problema Central

Esta investigación aborda el problema de la inferencia ecológica: cómo inferir parámetros a nivel individual cuando los investigadores solo pueden observar datos agregados. Específicamente, cuando solo se pueden observar:

  • Resultados promedio dentro de cada grupo EYi|Gi = g
  • Distribuciones marginales de cada covariable dentro de grupos PXℓi = xk,ℓ|Gi = g
  • Tamaños relativos de grupos PGi = g

Cómo identificar combinaciones lineales de medias condicionales a nivel individual EYi|Xi = xk.

Importancia del Problema

  1. Limitaciones de Disponibilidad de Datos: En la práctica, a menudo solo se pueden obtener distribuciones marginales en lugar de conjuntas por razones de privacidad
  2. Necesidades de Formulación de Políticas: Es necesario comprender los efectos causales a nivel individual para formular políticas efectivas
  3. Falacia Ecológica: Las relaciones a nivel agregado pueden diferir significativamente de las relaciones a nivel individual

Limitaciones de Métodos Existentes

La literatura existente (como Cross y Manski 2002, Cho y Manski 2008) generalmente asume que se pueden observar distribuciones conjuntas de covariables, lo cual frecuentemente no es realista en la práctica. La aplicación directa de métodos existentes produce límites no compactos.

Contribuciones Principales

  1. Innovación Metodológica: Propone un método de identificación parcial basado únicamente en distribuciones marginales, más alineado con la disponibilidad real de datos
  2. Garantías Teóricas: Demuestra la compacidad (sharpness) de los límites construidos
  3. Marco Computacional: Transforma el problema de identificación en un problema de optimización de dos niveles, facilitando la implementación computacional
  4. Procedimiento de Inferencia: Proporciona métodos efectivos para la construcción de intervalos de confianza, requiriendo solo información marginal
  5. Aplicación Empírica: Demuestra la practicidad del método en datos educativos

Explicación Detallada del Método

Definición de la Tarea

Entrada:

  • Resultados promedio por grupo: EYi|Gi = g
  • Distribuciones marginales de covariables por grupo: PXℓi = xk,ℓ|Gi = g
  • Tamaños de grupos: PGi = g

Salida:

  • Conjunto de identificación de combinaciones lineales de medias condicionales: ∑K k=1 λkEYi|Xi = xk

Restricciones:

  • Yi ∈ yℓ, yu (soporte acotado)
  • Xi, Gi son variables aleatorias discretas
  • Solo se observan distribuciones marginales, no conjuntas

Arquitectura del Modelo

1. Ecuaciones de Restricción Básicas

El método se basa en tres ecuaciones de restricción fundamentales:

Consistencia Marginal-Conjunta:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

Descomposición de Expectativa Dentro del Grupo:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

Agregación Entre Grupos:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. Construcción del Conjunto de Identificación

Se define el conjunto de identificación de distribuciones de covariables:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

Conjunto de identificación de parámetros:

D = {∑K k=1 λkdk | ∃(p,c,d) satisface restricciones}

3. Formulación de Optimización de Dos Niveles

Proposición 1: El conjunto de identificación D = L,U, donde:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

El límite superior U se obtiene mediante el problema de supremo correspondiente.

Puntos de Innovación Técnica

  1. Compacidad: En comparación con la aplicación directa del método Cross-Manski, este método produce límites más compactos
  2. Viabilidad Computacional: El problema interno es programación lineal, el externo se resuelve mediante búsqueda en cuadrícula
  3. Extensibilidad: Fácil de incorporar restricciones poliédricas adicionales
  4. Solo Requiere Información Marginal: El procedimiento de inferencia no necesita información de distribución conjunta

Configuración Experimental

Conjuntos de Datos

  1. Datos Simulados: Tres estudios de simulación con diferentes configuraciones
    • Resultado binario Yi ∈ {0,1}
    • Tres covariables binarias Xi = (X1i, X2i, X3i)
    • Cinco grupos Gi ∈ {1,...,5}
    • Modelo de generación de datos: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. Datos Empíricos: Datos de pruebas estandarizadas de Rhode Island (RICAS)
    • Estudiantes de grados 3-8, primavera de 2019
    • Tasas de aprobación en pruebas de inglés y matemáticas
    • Covariables: raza (whitei), situación de dificultad económica (econi), estado de aprendiz de inglés (ELLi)
    • 5 condados como grupos

Métricas de Evaluación

  • Ancho del conjunto de identificación
  • Tasa de cobertura del intervalo de confianza
  • Relación de ancho relativo entre límites estimados y conjunto de identificación verdadero
  • Relación de ancho relativo entre intervalo de confianza y conjunto de identificación

Métodos de Comparación

  • Método de referencia sin restricciones adicionales
  • Aplicación directa del método Cross-Manski (2002)
  • Método con restricción de monotonía
  • Método utilizando datos de subgrupos

Detalles de Implementación

  • Construcción de intervalo de confianza al 90%
  • Corrección de Bonferroni para pruebas múltiples
  • Búsqueda en cuadrícula con múltiples puntos de inicio para optimización no convexa
  • Intervalo de Clopper-Pearson para variables binarias

Resultados Experimentales

Resultados Principales

1. Hallazgos de Experimentos Simulados

  • Tasa de Cobertura: La tasa de cobertura del intervalo de confianza al 90% para todos los parámetros es 1 (conservador pero efectivo)
  • Control de Ancho: El ancho promedio del intervalo de confianza no excede el ancho del conjunto de identificación en más del 3%
  • Precisión de Estimación: El ancho promedio de los límites estimados es esencialmente idéntico al ancho del conjunto de identificación

2. Factores Impulsores de la Información de Límites

Hallazgo clave: Los límites son más informativos cuando las probabilidades marginales PXℓi = xk,ℓ|Gi = g se acercan a 1. La razón es que en tales casos el rango de valores posibles para la probabilidad conjunta PXi = xk|Gi = g es más pequeño.

3. Comparación con Método Cross-Manski

Los límites producidos por este método están estrictamente contenidos dentro de los límites del método Cross-Manski, confirmando la ventaja de compacidad.

Resultados de Aplicación Empírica

1. Datos de Pruebas de Rhode Island

Brecha de Tasa de Aprobación en Matemáticas Blanco/No Blanco:

  • Sin restricciones: Límites extremadamente amplios, casi sin información
  • Restricción de monotonía: Límites de algunos parámetros se estrechan
  • Datos de subgrupos: Mejora significativa de límites
  • Datos de subgrupos + monotonía: Límites más compactos, por ejemplo, la brecha para estudiantes con dificultad económica pero no aprendices de inglés se estima en -26%, 52%

Resultados de Prueba de Inglés Similares, donde la brecha de tasa de aprobación blanco/no blanco para estudiantes con dificultad económica no aprendices de inglés se estima en -30%, 64%.

2. Efecto de Restricciones

  • Restricción de Monotonía: Basada en supuestos razonables de ordenamiento por estatus económico y capacidad de inglés
  • Datos de Subgrupos: Proporciona información adicional, estrechando significativamente los límites
  • Restricción de Homogeneidad: Asume sin diferencias entre condados, resultando en conjunto vacío, indicando que este supuesto es inconsistente con los datos

Experimentos de Ablación

Se verificó mediante tres configuraciones de simulación diferentes que:

  1. El grado de extremidad de la distribución marginal afecta el ancho del límite
  2. La representatividad de los datos afecta la precisión de identificación de subgrupos específicos
  3. La robustez del método bajo diferentes procesos de generación de datos

Trabajo Relacionado

Literatura de Inferencia Ecológica

  • Trabajos Clásicos: Robinson (1950), Duncan y Davis (1953), Theil (1954)
  • Desarrollos Modernos: Cross y Manski (2002), Cho y Manski (2008)
  • Fusión de Datos: Fan et al. (2014, 2016), Buchinsky et al. (2022)

Posicionamiento de Contribución del Artículo

  1. Modelo de Datos: Primera vez que se aborda sistemáticamente el caso con solo distribuciones marginales
  2. Metodología: Proporciona marco computacional para límites compactos
  3. Teoría de Inferencia: Desarrolla procedimientos de inferencia que requieren solo información marginal

Conclusiones y Discusión

Conclusiones Principales

  1. La identificación parcial significativa de parámetros a nivel individual es posible basándose únicamente en distribuciones marginales
  2. El marco de optimización de dos niveles proporciona una solución computacionalmente viable
  3. Las restricciones de forma adicionales e información de subgrupos pueden mejorar significativamente la precisión de identificación
  4. El método demuestra valor práctico en datos educativos reales

Limitaciones

  1. Complejidad Computacional: Carga computacional pesada cuando hay muchas covariables o grupos
  2. Conservadurismo: La corrección de Bonferroni resulta en intervalos de confianza sesgados hacia la conservación
  3. Requisito de Discretización: El método se limita a covariables discretas
  4. Ancho de Límites: En algunos casos, los límites aún pueden ser relativamente amplios

Direcciones Futuras

  1. Extensión a casos de covariables continuas
  2. Desarrollo de algoritmos computacionales más eficientes
  3. Exploración de métodos de inferencia menos conservadores
  4. Consideración de parámetros de ponderación dependientes de datos

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona teoría de identificación completa y pruebas de compacidad
  2. Fuerte Practicidad: Resuelve un problema importante en análisis de datos reales
  3. Innovación Metodológica: Primera vez que se aborda sistemáticamente el problema de identificación bajo restricción de distribuciones marginales
  4. Viabilidad Computacional: Proporciona esquema de algoritmo concreto e implementable
  5. Verificación Empírica: Valida la efectividad del método mediante simulaciones y datos reales

Insuficiencias

  1. Eficiencia Computacional: Puede enfrentar desafíos computacionales para problemas a gran escala
  2. Limitaciones de Supuestos: Requiere supuestos de soporte acotado y discretitud
  3. Conservadurismo en Inferencia: La construcción de intervalos de confianza es relativamente conservadora
  4. Rango de Aplicación: Principalmente aplicable a datos agregados de corte transversal

Impacto

  1. Contribución Académica: Proporciona extensión teórica importante a la literatura de inferencia ecológica
  2. Valor Práctico: Proporciona herramienta analítica útil para formuladores de políticas
  3. Significado Metodológico: Demuestra el potencial de métodos de optimización en identificación parcial
  4. Reproducibilidad: Proporciona descripción detallada de algoritmos y detalles de implementación

Escenarios Aplicables

  1. Investigación Educativa: Análisis de diferencias en resultados educativos entre diferentes grupos
  2. Política Pública: Evaluación de efectos heterogéneos de políticas en diferentes poblaciones
  3. Salud Pública: Análisis de disparidades de salud basado en datos agregados
  4. Ciencias Sociales: Cualquier escenario que requiera inferir comportamiento individual a partir de datos agregados

Referencias

  • Cross, P. J. y C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
  • Cho, W. K. T. y C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
  • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

Este artículo realiza una contribución importante al campo de la inferencia ecológica, particularmente en el abordaje de limitaciones de datos reales. Aunque existen algunas limitaciones computacionales y de supuestos, su rigor teórico y valor práctico lo convierten en un avance importante en el campo.