Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model
Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic
Identificazione Parziale dei Parametri a Livello Individuale Utilizzando Dati Aggregati in un Modello Non Parametrico
Questo articolo sviluppa una metodologia per l'identificazione parziale delle combinazioni lineari dei risultati della media condizionata quando i ricercatori hanno accesso solo a dati aggregati. Diversamente dalla letteratura esistente, l'autore consente solo la distribuzione marginale delle covariate piuttosto che la distribuzione congiunta nel modello di dati aggregati. I limiti vengono ottenuti risolvendo un programma di ottimizzazione e possono facilmente incorporare vincoli aggiuntivi di forma poliedrica. L'articolo fornisce un'applicazione empirica del metodo sui dati dei test standardizzati del Rhode Island.
Questa ricerca affronta il problema dell'inferenza ecologica: come inferire i parametri a livello individuale quando i ricercatori possono osservare solo dati aggregati. Specificamente, quando si può osservare solo:
I risultati medi all'interno di ogni gruppo EYi|Gi = g
La distribuzione marginale di ogni covariata all'interno di ogni gruppo PXℓi = xk,ℓ|Gi = g
La dimensione relativa di ogni gruppo PGi = g
Come identificare le combinazioni lineari della media condizionata a livello individuale EYi|Xi = xk.
Limitazioni nella Disponibilità dei Dati: In pratica, per motivi di privacy, spesso si può accedere solo alle distribuzioni marginali piuttosto che a quelle congiunte
Esigenze di Formulazione delle Politiche: È necessario comprendere gli effetti causali a livello individuale per formulare politiche efficaci
Fallacia Ecologica: Le relazioni a livello aggregato possono differire significativamente da quelle a livello individuale
La letteratura esistente (come Cross e Manski 2002, Cho e Manski 2008) generalmente assume di poter osservare la distribuzione congiunta delle covariate, il che spesso non è realistico nella pratica. L'applicazione diretta dei metodi esistenti produce limiti non stretti.
Innovazione Metodologica: Propone un metodo di identificazione parziale basato solo su distribuzioni marginali, più coerente con la disponibilità effettiva dei dati
Garanzie Teoriche: Dimostra la nitidezza (sharpness) dei limiti costruiti
Quadro Computazionale: Trasforma il problema di identificazione in un problema di ottimizzazione a due livelli, facilitando l'implementazione computazionale
Procedura di Inferenza: Fornisce un metodo efficace per la costruzione di intervalli di confidenza, richiedendo solo informazioni marginali
Applicazione Empirica: Dimostra l'utilità pratica del metodo su dati educativi
Scoperta chiave: quando la probabilità marginale PXℓi = xk,ℓ|Gi = g è vicina a 1, i limiti sono più informativi. La ragione è che in questo caso l'intervallo di possibili valori della probabilità congiunta PXi = xk|Gi = g è più piccolo.
Differenza nei Tassi di Superamento Matematica Bianchi/Non Bianchi:
Senza restrizioni: limiti estremamente ampi, quasi nessuna informazione
Vincoli di monotonicità: alcuni limiti dei parametri si restringono
Dati di sottogruppi: miglioramento significativo dei limiti
Dati di sottogruppi + monotonicità: limiti più stretti, ad esempio la differenza per studenti economicamente svantaggiati ma non studenti di lingua inglese è stimata in -26%, 52%
Risultati dei Test di Inglese Simili, dove la differenza nei tassi di superamento bianchi/non bianchi per studenti economicamente svantaggiati non studenti di lingua inglese è stimata in -30%, 64%.
Cross, P. J. e C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
Cho, W. K. T. e C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.
Questo articolo fornisce un contributo importante nel campo dell'inferenza ecologica, in particolare nel trattare le limitazioni dei dati reali. Sebbene presenti alcune limitazioni dal punto di vista computazionale e delle assunzioni, il suo rigore teorico e il suo valore pratico lo rendono un importante progresso in questo campo.