2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

Identificazione Parziale dei Parametri a Livello Individuale Utilizzando Dati Aggregati in un Modello Non Parametrico

Informazioni Fondamentali

  • ID Articolo: 2403.07236
  • Titolo: Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
  • Autore: Sarah Moon (MIT)
  • Classificazione: econ.EM stat.ME
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2403.07236

Riassunto

Questo articolo sviluppa una metodologia per l'identificazione parziale delle combinazioni lineari dei risultati della media condizionata quando i ricercatori hanno accesso solo a dati aggregati. Diversamente dalla letteratura esistente, l'autore consente solo la distribuzione marginale delle covariate piuttosto che la distribuzione congiunta nel modello di dati aggregati. I limiti vengono ottenuti risolvendo un programma di ottimizzazione e possono facilmente incorporare vincoli aggiuntivi di forma poliedrica. L'articolo fornisce un'applicazione empirica del metodo sui dati dei test standardizzati del Rhode Island.

Contesto di Ricerca e Motivazione

Problema Centrale

Questa ricerca affronta il problema dell'inferenza ecologica: come inferire i parametri a livello individuale quando i ricercatori possono osservare solo dati aggregati. Specificamente, quando si può osservare solo:

  • I risultati medi all'interno di ogni gruppo EYi|Gi = g
  • La distribuzione marginale di ogni covariata all'interno di ogni gruppo PXℓi = xk,ℓ|Gi = g
  • La dimensione relativa di ogni gruppo PGi = g

Come identificare le combinazioni lineari della media condizionata a livello individuale EYi|Xi = xk.

Importanza del Problema

  1. Limitazioni nella Disponibilità dei Dati: In pratica, per motivi di privacy, spesso si può accedere solo alle distribuzioni marginali piuttosto che a quelle congiunte
  2. Esigenze di Formulazione delle Politiche: È necessario comprendere gli effetti causali a livello individuale per formulare politiche efficaci
  3. Fallacia Ecologica: Le relazioni a livello aggregato possono differire significativamente da quelle a livello individuale

Limitazioni dei Metodi Esistenti

La letteratura esistente (come Cross e Manski 2002, Cho e Manski 2008) generalmente assume di poter osservare la distribuzione congiunta delle covariate, il che spesso non è realistico nella pratica. L'applicazione diretta dei metodi esistenti produce limiti non stretti.

Contributi Principali

  1. Innovazione Metodologica: Propone un metodo di identificazione parziale basato solo su distribuzioni marginali, più coerente con la disponibilità effettiva dei dati
  2. Garanzie Teoriche: Dimostra la nitidezza (sharpness) dei limiti costruiti
  3. Quadro Computazionale: Trasforma il problema di identificazione in un problema di ottimizzazione a due livelli, facilitando l'implementazione computazionale
  4. Procedura di Inferenza: Fornisce un metodo efficace per la costruzione di intervalli di confidenza, richiedendo solo informazioni marginali
  5. Applicazione Empirica: Dimostra l'utilità pratica del metodo su dati educativi

Dettagli del Metodo

Definizione del Compito

Input:

  • Risultati medi per gruppo: EYi|Gi = g
  • Distribuzioni marginali delle covariate per gruppo: PXℓi = xk,ℓ|Gi = g
  • Dimensioni dei gruppi: PGi = g

Output:

  • Insieme di identificazione delle combinazioni lineari della media condizionata: ∑K k=1 λkEYi|Xi = xk

Vincoli:

  • Yi ∈ yℓ, yu (supporto limitato)
  • Xi, Gi sono variabili casuali discrete
  • Si osservano solo distribuzioni marginali e non congiunte

Architettura del Modello

1. Equazioni di Vincolo Fondamentali

Il metodo si basa su tre equazioni di vincolo fondamentali:

Coerenza Marginale-Congiunta:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

Decomposizione dell'Aspettativa Intra-Gruppo:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

Aggregazione tra Gruppi:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. Costruzione dell'Insieme di Identificazione

Definire l'insieme di identificazione della distribuzione delle covariate:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

Insieme di identificazione dei parametri:

D = {∑K k=1 λkdk | ∃(p,c,d) soddisfa i vincoli}

3. Formulazione dell'Ottimizzazione a Due Livelli

Proposizione 1: L'insieme di identificazione D = L,U, dove:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

Il limite superiore U viene ottenuto attraverso il corrispondente problema di supremum.

Punti di Innovazione Tecnica

  1. Nitidezza: Rispetto all'applicazione diretta del metodo Cross-Manski, questo metodo produce limiti più stretti
  2. Fattibilità Computazionale: Il problema interno è una programmazione lineare, il problema esterno viene risolto mediante ricerca su griglia
  3. Estensibilità: Facile incorporare vincoli poliedrici aggiuntivi
  4. Richiede Solo Informazioni Marginali: Il processo di inferenza non richiede informazioni sulla distribuzione congiunta

Configurazione Sperimentale

Set di Dati

  1. Dati Simulati: Tre studi di simulazione con diverse impostazioni
    • Risultato binario Yi ∈ {0,1}
    • Tre covariate binarie Xi = (X1i, X2i, X3i)
    • Cinque gruppi Gi ∈ {1,...,5}
    • Modello di generazione dei dati: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. Dati Empirici: Dati dei test standardizzati del Rhode Island (RICAS)
    • Studenti di gradi 3-8 primavera 2019
    • Tassi di superamento dei test di inglese e matematica
    • Covariate: razza (whitei), difficoltà economica (econi), stato di studente di lingua inglese (ELLi)
    • 5 contee come gruppi

Metriche di Valutazione

  • Larghezza dell'insieme di identificazione
  • Tasso di copertura dell'intervallo di confidenza
  • Rapporto di larghezza relativa tra limiti stimati e insieme di identificazione vero
  • Rapporto di larghezza relativa tra intervallo di confidenza e insieme di identificazione

Metodi di Confronto

  • Metodo di base senza vincoli aggiuntivi
  • Applicazione diretta del metodo Cross-Manski (2002)
  • Metodo con vincoli di monotonicità
  • Metodo utilizzando dati di sottogruppi

Dettagli di Implementazione

  • Costruzione di intervalli di confidenza al 90%
  • Correzione di Bonferroni per test multipli
  • Ricerca su griglia con più punti di partenza per ottimizzazione non convessa
  • Intervallo di Clopper-Pearson per variabili binarie

Risultati Sperimentali

Risultati Principali

1. Scoperte da Esperimenti di Simulazione

  • Tasso di Copertura: Il tasso di copertura dell'intervallo di confidenza al 90% per tutti i parametri è 1 (conservatore ma efficace)
  • Controllo della Larghezza: La larghezza media dell'intervallo di confidenza supera la larghezza dell'insieme di identificazione di non più del 3%
  • Precisione di Stima: La larghezza media dei limiti stimati è sostanzialmente identica alla larghezza dell'insieme di identificazione

2. Fattori che Guidano l'Informatività dei Limiti

Scoperta chiave: quando la probabilità marginale PXℓi = xk,ℓ|Gi = g è vicina a 1, i limiti sono più informativi. La ragione è che in questo caso l'intervallo di possibili valori della probabilità congiunta PXi = xk|Gi = g è più piccolo.

3. Confronto con il Metodo Cross-Manski

I limiti prodotti da questo metodo sono strettamente contenuti all'interno dei limiti del metodo Cross-Manski, confermando il vantaggio di nitidezza.

Risultati dell'Applicazione Empirica

1. Dati dei Test del Rhode Island

Differenza nei Tassi di Superamento Matematica Bianchi/Non Bianchi:

  • Senza restrizioni: limiti estremamente ampi, quasi nessuna informazione
  • Vincoli di monotonicità: alcuni limiti dei parametri si restringono
  • Dati di sottogruppi: miglioramento significativo dei limiti
  • Dati di sottogruppi + monotonicità: limiti più stretti, ad esempio la differenza per studenti economicamente svantaggiati ma non studenti di lingua inglese è stimata in -26%, 52%

Risultati dei Test di Inglese Simili, dove la differenza nei tassi di superamento bianchi/non bianchi per studenti economicamente svantaggiati non studenti di lingua inglese è stimata in -30%, 64%.

2. Effetto dei Vincoli

  • Vincoli di Monotonicità: Basati su ipotesi ragionevoli di ordinamento per stato economico e competenza linguistica
  • Dati di Sottogruppi: Forniscono informazioni aggiuntive, restringono significativamente i limiti
  • Vincoli di Omogeneità: Ipotesi di nessuna differenza tra contee, risultato è un insieme vuoto, indicando che questa ipotesi è incoerente con i dati

Esperimenti di Ablazione

Attraverso tre diverse impostazioni di simulazione è stato verificato che:

  1. Il grado di estremizzazione della distribuzione marginale influenza la larghezza dei limiti
  2. La rappresentatività dei dati influenza la precisione di identificazione di sottogruppi specifici
  3. La robustezza del metodo in diversi processi di generazione dei dati

Lavori Correlati

Letteratura sull'Inferenza Ecologica

  • Lavori Classici: Robinson (1950), Duncan e Davis (1953), Theil (1954)
  • Sviluppi Moderni: Cross e Manski (2002), Cho e Manski (2008)
  • Fusione di Dati: Fan et al. (2014, 2016), Buchinsky et al. (2022)

Posizionamento del Contributo di Questo Articolo

  1. Modello di Dati: Primo trattamento sistematico del caso con solo distribuzioni marginali
  2. Metodologia: Fornisce un quadro computazionale per limiti stretti
  3. Teoria dell'Inferenza: Sviluppa procedure di inferenza che richiedono solo informazioni marginali

Conclusioni e Discussione

Conclusioni Principali

  1. L'identificazione parziale significativa dei parametri a livello individuale è possibile basandosi solo su distribuzioni marginali
  2. Il quadro di ottimizzazione a due livelli fornisce una soluzione computazionalmente fattibile
  3. Vincoli di forma aggiuntivi e informazioni di sottogruppi possono migliorare significativamente la precisione di identificazione
  4. Il metodo ha dimostrato valore pratico su dati educativi reali

Limitazioni

  1. Complessità Computazionale: Quando il numero di covariate o gruppi è grande, il carico computazionale è pesante
  2. Conservatorismo: La correzione di Bonferroni porta a intervalli di confidenza eccessivamente conservatori
  3. Requisito di Discretizzazione: Il metodo è limitato a covariate discrete
  4. Larghezza dei Limiti: In alcuni casi i limiti possono ancora essere relativamente ampi

Direzioni Future

  1. Estensione al caso di covariate continue
  2. Sviluppo di algoritmi computazionali più efficienti
  3. Esplorazione di metodi di inferenza meno conservatori
  4. Considerazione di parametri di peso dipendenti dai dati

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce una teoria di identificazione completa e prove di nitidezza
  2. Forte Praticità: Risolve un importante problema nell'analisi dei dati reali
  3. Innovazione Metodologica: Primo trattamento sistematico del problema di identificazione con limitazioni di distribuzioni marginali
  4. Fattibilità Computazionale: Fornisce uno schema di algoritmo concreto e implementabile
  5. Verifica Empirica: Valida l'efficacia del metodo attraverso simulazioni e dati reali

Insufficienze

  1. Efficienza Computazionale: Potrebbe affrontare sfide computazionali per problemi su larga scala
  2. Limitazioni di Assunzioni: Richiede ipotesi di supporto limitato e discretezza
  3. Conservatorismo dell'Inferenza: La costruzione dell'intervallo di confidenza è relativamente conservatrice
  4. Ambito di Applicazione: Principalmente applicabile a dati aggregati trasversali

Impatto

  1. Contributo Accademico: Fornisce un'importante estensione teorica alla letteratura sull'inferenza ecologica
  2. Valore Pratico: Fornisce uno strumento di analisi utile ai responsabili delle politiche
  3. Significato Metodologico: Dimostra il potenziale di applicazione dei metodi di ottimizzazione nell'identificazione parziale
  4. Riproducibilità: Fornisce descrizioni dettagliate degli algoritmi e dettagli di implementazione

Scenari Applicabili

  1. Ricerca Educativa: Analisi delle differenze nei risultati educativi tra diversi gruppi
  2. Politiche Pubbliche: Valutazione degli effetti eterogenei delle politiche su diverse popolazioni
  3. Sanità Pubblica: Analisi delle disparità sanitarie basata su dati aggregati
  4. Scienze Sociali: Qualsiasi scenario che richieda l'inferenza del comportamento individuale da dati aggregati

Bibliografia

  • Cross, P. J. e C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
  • Cho, W. K. T. e C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
  • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

Questo articolo fornisce un contributo importante nel campo dell'inferenza ecologica, in particolare nel trattare le limitazioni dei dati reali. Sebbene presenti alcune limitazioni dal punto di vista computazionale e delle assunzioni, il suo rigore teorico e il suo valore pratico lo rendono un importante progresso in questo campo.