Local Causal Discovery for Statistically Efficient Causal Inference
Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic
Scoperta Causale Locale per l'Inferenza Causale Statisticamente Efficiente
I metodi di scoperta causale possono identificare insiemi di aggiustamento validi per la stima dell'effetto causale tra una coppia di variabili target, anche quando il grafo causale sottostante è sconosciuto. I metodi di scoperta causale globale si concentrano sull'apprendimento dell'intero grafo causale e quindi possono recuperare insiemi di aggiustamento ottimali (cioè quelli con la varianza asintotica più bassa), ma diventano rapidamente computazionalmente intrattabili con l'aumento del numero di variabili. I metodi di scoperta causale locale offrono alternative più scalabili concentrandosi sul vicinato locale delle variabili target, ma sono limitati a insiemi di aggiustamento statisticamente subottimali. In questo lavoro, gli autori propongono LOAD (Local Optimal Adjustment Discovery), un metodo di scoperta causale affidabile e completo che combina l'efficienza computazionale dei metodi locali con l'ottimalità statistica dei metodi globali.
Nell'inferenza causale, la stima dell'effetto causale tra due variabili è un compito centrale. Quando il grafo causale sottostante è sconosciuto, è necessario utilizzare metodi di scoperta causale per identificare insiemi di aggiustamento validi per la stima dell'effetto causale. I metodi esistenti affrontano un compromesso fondamentale:
Il Dilemma dei Metodi Globali: I metodi di scoperta causale globale (come l'algoritmo PC) possono apprendere il grafo causale completo e recuperare insiemi di aggiustamento ottimali, ma la complessità computazionale cresce esponenzialmente con il numero di variabili, rendendoli infattibili per problemi su larga scala.
Le Limitazioni dei Metodi Locali: I metodi di scoperta causale locale (come MB-by-MB, LDECC) sono computazionalmente efficienti, ma possono solo recuperare insiemi di aggiustamento subottimali, risultando in una varianza asintotica più elevata nella stima dell'effetto causale.
Gli autori identificano i seguenti problemi nei metodi locali esistenti:
L'algoritmo LocalPC non è sufficientemente affidabile nell'identificazione delle variabili adiacenti e potrebbe identificare erroneamente coniugi non adiacenti come adiacenti
L'algoritmo LDECC è incompleto e in alcuni casi non riesce a orientare tutti gli archi orientabili
L'algoritmo LDP potrebbe erroneamente segnalare effetti non identificabili quando l'effetto è effettivamente identificabile come zero
Pertanto, è necessario un nuovo metodo che mantenga l'efficienza computazionale dei metodi locali mentre raggiunge l'ottimalità statistica dei metodi globali.
Sviluppo di metodi per determinare l'identificabilità dell'effetto causale basati su informazioni locali: Propone condizioni necessarie e sufficienti per determinare se un effetto causale è identificabile utilizzando solo informazioni locali.
Proposizione dell'algoritmo LOAD: Un metodo affidabile e completo che identifica insiemi di aggiustamento ottimali utilizzando solo informazioni locali intorno alle variabili.
Valutazione sperimentale completa: Valuta LOAD su dati sintetici e reali, dimostrando che può recuperare insiemi di aggiustamento di alta qualità con basso costo computazionale.
Garanzie teoriche: Dimostra l'affidabilità e la completezza di LOAD nel determinare l'identificabilità dell'effetto causale e nel trovare insiemi di aggiustamento ottimali.
Test di Adattabilità Locale: Propone per la prima volta condizioni necessarie e sufficienti per testare l'adattabilità utilizzando solo informazioni locali, evitando la necessità di controllare tutti i possibili percorsi diretti.
Meccanismo di Cache: L'algoritmo MB-by-MB migliorato utilizza la cache per riutilizzare le coperte di Markov e le strutture locali identificate nelle esecuzioni precedenti, migliorando significativamente l'efficienza computazionale.
Completezza Teorica: Dimostra che LOAD è affidabile e completo nel determinare le relazioni causali, l'identificabilità e gli insiemi di aggiustamento ottimali.
Il numero di test di indipendenza condizionata di LOAD rimane costantemente inferiore ai metodi globali in tutte le configurazioni, leggermente superiore ai metodi locali:
Con 1000 nodi, LOAD richiede 9.43×10³ test, mentre PC richiede 542.52×10³
Rispetto ai 5.64×10³ test di MB-by-MB+, il sovraccarico aggiuntivo di LOAD è ragionevole
Assunzione di Sufficienza Causale: La versione attuale assume l'assenza di fattori di confondimento latenti o bias di selezione
Collo di Bottiglia Computazionale su Reti su Larga Scala: Su grafi estremamente grandi, la ricerca della coperta di Markov potrebbe ancora diventare un collo di bottiglia computazionale
Prestazioni su Dati Binari: Prestazioni limitate su dati binari utilizzando il test G²
L'articolo cita importanti letteratura nel campo dell'inferenza causale, inclusa:
Pearl (2009): Causality - Manuale classico di inferenza causale
Spirtes et al. (2000): Lavoro fondamentale sulla scoperta causale basata su vincoli
Henckel et al. (2022): Criteri grafici per insiemi di aggiustamento ottimali
Perković et al. (2015): Definizione e proprietà dell'adattabilità
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'inferenza causale, con importanti contributi sia a livello teorico che pratico. L'algoritmo LOAD risolve elegantemente il compromesso tra efficienza computazionale e ottimalità statistica nella scoperta causale, con importante valore accademico e prospettive di applicazione.