2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

Apprendimento Locale per la Selezione di Covariate nella Stima Non Parametrica dell'Effetto Causale con Variabili Latenti

Informazioni Fondamentali

ID Articolo: 2411.16315
Titolo: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Autori: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
Classificazione: cs.LG math.ST stat.ML stat.TH
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Link Articolo: https://arxiv.org/abs/2411.16315

Riassunto

La stima dell'effetto causale da dati non sperimentali rappresenta un problema fondamentale in numerosi campi scientifici. Una componente critica di questo compito è la selezione di un insieme appropriato di covariate per l'aggiustamento della confondenza al fine di evitare distorsioni. I metodi esistenti di selezione delle covariate generalmente presuppongono l'assenza di variabili latenti e si basano sull'apprendimento della struttura di rete globale tra le variabili. Tuttavia, quando l'interesse principale riguarda la stima dell'effetto della variabile di trattamento sulla variabile di risultato, l'identificazione della struttura globale potrebbe risultare non necessaria e inefficiente. Per affrontare questa limitazione, il presente articolo propone un innovativo metodo di apprendimento locale per la selezione di covariate nella stima non parametrica dell'effetto causale in presenza di variabili latenti. Il metodo sfrutta le relazioni di indipendenza e dipendenza condizionale testabili tra le variabili osservate per identificare insiemi di aggiustamento validi per la relazione causale di interesse, garantendo completezza e correttezza secondo le assunzioni standard.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come selezionare efficientemente un insieme di covariate per stimare l'effetto causale specifico della variabile di trattamento X sulla variabile di risultato Y in presenza di variabili latenti?

Importanza del Problema

Ampia Applicabilità: La stima dell'effetto causale è cruciale in epidemiologia, scienze sociali, economia e intelligenza artificiale
Esigenze Pratiche: Nelle applicazioni reali, gli studi randomizzati controllati ideali sono spesso difficili da implementare
Controllo della Distorsione: La selezione scorretta delle covariate comporta stime distorte dell'effetto causale

Limitazioni dei Metodi Esistenti

Apprendimento della Struttura Globale: Metodi esistenti come IDA e LV-IDA richiedono l'apprendimento della struttura completa del grafo causale, con elevata complessità computazionale
Trascuratezza delle Variabili Latenti: Molti metodi presuppongono l'assenza di variabili di confondimento latenti, irrealistico nelle applicazioni pratiche
Incompletezza dei Metodi Locali: Metodi come CEELS, sebbene più efficienti, potrebbero omettere insiemi di aggiustamento validi

Motivazione della Ricerca

Il punto di partenza di questo lavoro è lo sviluppo di un metodo di selezione delle covariate che mantenga i vantaggi di efficienza dell'apprendimento locale garantendo al contempo completezza e correttezza, in particolare in scenari complessi con variabili latenti.

Contributi Fondamentali

Proposta dell'Algoritmo LSAS: Progettazione di un algoritmo di selezione delle covariate completamente locale che sfrutta relazioni di indipendenza e dipendenza testabili, consentendo l'esistenza di variabili latenti
Garanzie Teoriche: Dimostrazione della completezza e correttezza dell'algoritmo proposto secondo le assunzioni standard, con capacità di identificare insiemi di aggiustamento validi per la relazione causale di interesse
Miglioramento dell'Efficienza: Riduzione significativa della complessità computazionale rispetto ai metodi globali, con complessità temporale ridotta da O(t×2^t) a O(|MB(X)|-1)×2^|MB(Y)|-1+n
Validazione Sperimentale: Verifica dell'efficacia dell'algoritmo su dati sintetici e reali

Dettagli del Metodo

Definizione del Compito

Input: Dataset di osservazioni D, contenente la variabile di trattamento X, la variabile di risultato Y e l'insieme di covariate O Output:

Scenario S1: Stima dell'effetto causale θ di X su Y
Scenario S2: Determinazione che X non ha effetto causale su Y (θ=0)
Scenario S3: Impossibilità di determinare se esiste un effetto causale (θ=∅)

Vincoli:

Y non è un antenato causale di X
O è l'insieme di variabili di pre-trattamento (X e Y non sono antenati causali di alcuna variabile in O)

Fondamenti Teorici Principali

Definizione di AMB

Definizione dell'insieme di aggiustamento all'interno della coperta di Markov AMB(X,Y):

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z blocca tutti i percorsi non causali da X a Y

Teoremi Chiave

Teorema 1 (Esistenza di AMB): Esiste un sottoinsieme di O che funge da insieme di aggiustamento per (X,Y) se e solo se esiste un sottoinsieme di MB(Y){X} che funge da insieme di aggiustamento.

Teorema 2 (Regola R1): Per Z ⊆ MB(Y){X}, se esiste S ∈ MB(X){Y} che soddisfa:

S ⊥̸⊥ Y | Z (condizione i)
S ⊥⊥ Y | Z∪{X} (condizione ii)

allora Z è AMB(X,Y) e X ha un effetto causale su Y.

Teorema 3 (Regola R2): Se esiste Z ⊆ MB(Y){X} e S ∈ MB(X){Y} che soddisfa una delle seguenti condizioni:

X ⊥⊥ Y | Z (condizione i)
S ⊥̸⊥ X | Z e S ⊥⊥ Y | Z (condizione ii)

allora X non ha effetto causale su Y.

Flusso dell'Algoritmo LSAS

Algoritmo 1: Local Search Adjustment Sets (LSAS)
Input: Dataset di osservazioni D, variabile di trattamento X, variabile di risultato Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // Inizializzazione della stima dell'effetto causale
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S e Z soddisfano la regola R1 then
5:     Stima l'effetto causale θ di X su Y, Θ ← θ // Scenario S1
6:   end if
7:   if S e Z soddisfano la regola R2 then
8:     return Θ ← 0 // Nessun effetto causale, Scenario S2
9:   end if
10: end for
Output: Effetto causale stimato Θ // Se ∅ allora Scenario S3

Punti di Innovazione Tecnica

Utilizzo della Coperta di Markov Locale: Richiede solo le informazioni della coperta di Markov di X e Y, evitando l'apprendimento del grafo globale
Identificazione Guidata da Regole: Identifica direttamente le relazioni causali dai test di indipendenza condizionale attraverso le regole R1 e R2
Gestione delle Variabili Latenti: Gestisce le variabili di confondimento latenti nel framework MAG
Garanzia di Completezza: Dimostrazione teorica della completezza del metodo, senza omissione di insiemi di aggiustamento identificabili

Configurazione Sperimentale

Dataset

Dati Sintetici:
- Grafi casuali: Modello Erdős-Rényi G(n,d), con numero di nodi 20-50 e grado medio 3-9
- Strutture Specifiche: Strutture DAG basate su Figura 3(a) e Figura 4(a)
- Reti di Riferimento: INSURANCE (27 nodi), MILDEW (35 nodi), WIN95PTS (76 nodi), ANDES (223 nodi)
Dati Reali: Dataset Cattaneo2, contenente 4642 registrazioni di nascite singole della Pennsylvania

Metriche di Valutazione

Errore Relativo (RE): |（valore stimato - valore vero）/valore vero| × 100%
Numero di Test (nTest): Numero di test di indipendenza condizionale eseguiti dall'algoritmo

Metodi di Confronto

LV-IDA: Metodo di apprendimento del grafo globale basato su algoritmo RFCI
EHS: Metodo di ricerca globale con assunzione di pre-trattamento
CEELS: Metodo di ricerca locale con assunzione di pre-trattamento
LDP: Metodo di ricerca locale che rilassa l'assunzione di pre-trattamento

Dettagli di Implementazione

Dimensione del campione: 1K, 5K, 10K, 15K
Modello causale lineare gaussiano, con pesi degli archi campionati da Uniform0.5,1.5
Livello di significatività del test di indipendenza condizionale: 0.01
Dimensione massima dell'insieme condizionale: 3-7 (secondo la complessità della rete)

Risultati Sperimentali

Risultati Principali

Esperimenti su Strutture Specifiche

Sulle strutture MAG corrispondenti a Figura 3(b) e Figura 4(b):

Errore Relativo: LSAS supera significativamente gli altri metodi a tutte le dimensioni di campione
Efficienza dei Test: nTest di LSAS è notevolmente inferiore a LV-IDA e EHS
Vantaggi di Completezza: CEELS e LDP, a causa dell'incompletezza, non riescono a trovare insiemi di aggiustamento validi in alcune strutture

Esperimenti su Reti di Riferimento

Sulle reti MILDEW e WIN95PTS:

LSAS mostra prestazioni ottimali in quasi tutte le metriche di valutazione e dimensioni di campione
Anche in caso di violazione dell'assunzione di pre-trattamento, LSAS supera gli altri metodi
EHS non riesce a completare l'esecuzione su reti di grandi dimensioni a causa del tempo di esecuzione eccessivo

Validazione su Dati Reali

Nel dataset Cattaneo2 per lo studio dell'effetto del fumo in gravidanza sul peso alla nascita:

Le stime dell'effetto di LSAS e EHS rientrano entrambe nell'intervallo di riferimento -250g, -200g
LSAS richiede solo 158 test di indipendenza condizionale, mentre CEELS ne richiede 1284 e LDP 266
Verifica l'efficacia del metodo nelle applicazioni pratiche

Esperimenti di Ablazione

L'articolo verifica la robustezza del metodo attraverso esperimenti con diverse densità di rete:

Con l'aumentare della densità del grafo, le prestazioni di tutti i metodi diminuiscono, ma LSAS mantiene un vantaggio evidente
Nella rete G(40,9), sebbene LDP abbia nTest più basso, l'RE di LSAS è significativamente superiore

Analisi del Tempo di Esecuzione

LSAS mostra prestazioni di tempo di esecuzione ottimali nella maggior parte delle reti e dimensioni di campione, con l'unica eccezione della rete WIN95PTS con grandi dimensioni di campione (15K) dove LDP è più veloce, ma l'accuratezza di LSAS è significativamente superiore.

Lavori Correlati

Metodi con Grafo Causale Noto

Criteri di Aggiustamento Classici: Criterio della porta posteriore, criterio della porta posteriore generalizzato
Insiemi di Aggiustamento Ottimali: Ricerca di insiemi di aggiustamento con varianza asintotica minima

Metodi con Grafo Causale Sconosciuto

Apprendimento Globale: Metodi della serie IDA, richiedono l'apprendimento di CPDAG/PAG completo
Apprendimento Locale: Metodi CovSel, EHS, ma la maggior parte presuppone assenza di variabili latenti
Gestione delle Variabili Latenti: Metodi LV-IDA, CE-SAT, ma con elevata complessità computazionale

Vantaggi di Questo Lavoro

Rispetto ai lavori esistenti, il metodo di questo articolo realizza l'unificazione dell'efficienza dell'apprendimento locale con la completezza dei metodi globali, con vantaggi particolarmente evidenti nella gestione delle variabili latenti.

Conclusioni e Discussione

Conclusioni Principali

Proposta del primo algoritmo di selezione delle covariate che mantiene la località garantendo completezza in presenza di variabili latenti
Dimostrazione teorica della correttezza e completezza del metodo
Validazione sperimentale dei vantaggi significativi in efficienza e accuratezza

Limitazioni

Assunzione di Pre-trattamento: Continua a dipendere dall'assunzione di pre-trattamento, sebbene mostri buone prestazioni in alcuni casi di violazione
Identificazione dei Discendenti: Impossibilità di identificare localmente i discendenti della variabile di trattamento senza recuperare il grafo completo
Test di Indipendenza Condizionale: Dipendenza da test accurati di indipendenza condizionale, con possibili errori con campioni finiti

Direzioni Future

Rilassamento delle Assunzioni: Sviluppo di metodi che non dipendono dall'assunzione di pre-trattamento
Integrazione di Conoscenze di Background: Utilizzo di conoscenze di dominio per assistere l'identificazione causale
Dati Multi-Ambiente: Sfruttamento di dati multi-ambiente per migliorare l'identificazione causale
Identificazione dei Discendenti: Ricerca di metodi per l'identificazione locale dei discendenti della variabile di trattamento

Valutazione Approfondita

Punti di Forza

Contributo Teorico: Fornisce un framework teorico completo, dimostrando la fattibilità dei metodi locali
Valore Pratico: Riduzione significativa della complessità computazionale, rendendo possibili applicazioni su larga scala
Esperimenti Completi: Validazione completa su molteplici tipi di dati
Chiarezza della Scrittura: Struttura dell'articolo chiara, esposizione teorica rigorosa

Insufficienze

Limitazioni delle Assunzioni: L'assunzione di pre-trattamento potrebbe non essere soddisfatta in alcuni scenari applicativi
Dipendenza dai Test: Le prestazioni del metodo dipendono fortemente dall'accuratezza dei test di indipendenza condizionale
Scalabilità: La scalabilità per reti di dimensioni molto grandi richiede ulteriore verifica

Impatto

Valore Accademico: Fornisce un nuovo framework teorico e metodologico al campo dell'inferenza causale
Significato Pratico: Fornisce una soluzione efficiente per la selezione delle covariate nelle applicazioni pratiche
Riproducibilità: Codice pubblico, configurazione sperimentale dettagliata, buona riproducibilità

Scenari Applicabili

Questo metodo è particolarmente adatto ai seguenti scenari:

Stima dell'effetto causale su dati osservazionali su larga scala
Sistemi complessi con variabili di confondimento latenti
Applicazioni in tempo reale con requisiti di efficienza computazionale
Progetti di ricerca con raccolta relativamente completa di variabili di pre-trattamento

Riferimenti Bibliografici

L'articolo cita importanti letteratura nel campo dell'inferenza causale, inclusi i classici lavori di Pearl, l'algoritmo PC di Spirtes e altri, nonché metodi di apprendimento locale recenti, riflettendo una comprensione completa e approfondita dei lavori correlati.