Local Causal Discovery for Statistically Efficient Causal Inference
Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic
Découverte Causale Locale pour l'Inférence Causale Statistiquement Efficace
Les méthodes de découverte causale peuvent identifier des ensembles d'ajustement valides pour l'estimation de l'effet causal entre une paire de variables cibles, même lorsque le graphe causal sous-jacent est inconnu. Les méthodes de découverte causale globales se concentrent sur l'apprentissage du graphe causal complet, ce qui leur permet de récupérer l'ensemble d'ajustement optimal (c'est-à-dire l'ensemble ayant la variance asymptotique la plus faible), mais elles deviennent rapidement intraitable sur le plan informatique à mesure que le nombre de variables augmente. Les méthodes de découverte causale locale offrent une alternative plus évolutive en se concentrant sur le voisinage local des variables cibles, mais elles sont limitées à des ensembles d'ajustement statistiquement sous-optimaux. Dans ce travail, les auteurs proposent LOAD (Local Optimal Adjustment Discovery), une méthode de découverte causale fiable et complète qui combine l'efficacité informatique des méthodes locales et l'optimalité statistique des méthodes globales.
En inférence causale, l'estimation de l'effet causal entre deux variables est une tâche fondamentale. Lorsque le graphe causal sous-jacent est inconnu, il est nécessaire d'utiliser des méthodes de découverte causale pour identifier les ensembles d'ajustement valides pour l'estimation de l'effet causal. Les méthodes existantes font face à un compromis fondamental :
Le dilemme des méthodes globales : Les méthodes de découverte causale globale (comme l'algorithme PC) peuvent apprendre le graphe causal complet et récupérer l'ensemble d'ajustement optimal, mais la complexité informatique croît exponentiellement avec le nombre de variables, ce qui les rend impraticables pour les problèmes à grande échelle.
Les limitations des méthodes locales : Les méthodes de découverte causale locale (comme MB-by-MB, LDECC) sont informatiquement efficaces, mais ne peuvent récupérer que des ensembles d'ajustement sous-optimaux, ce qui entraîne une variance asymptotique plus élevée dans l'estimation de l'effet causal.
Les auteurs identifient les problèmes suivants dans les méthodes locales existantes :
L'algorithme LocalPC n'est pas suffisamment fiable pour identifier les variables adjacentes et peut identifier à tort des conjoints non-adjacents comme adjacents
L'algorithme LDECC est incomplet et ne peut pas orienter tous les arcs orientables dans certains cas
L'algorithme LDP peut signaler à tort qu'un effet n'est pas identifiable dans certains cas où l'effet identifiable est zéro
Par conséquent, une nouvelle méthode est nécessaire qui maintient l'efficacité informatique des méthodes locales tout en atteignant l'optimalité statistique des méthodes globales.
Développement de méthodes pour déterminer l'identifiabilité de l'effet causal basées sur l'information locale : Proposition de conditions nécessaires et suffisantes pour déterminer si un effet causal est identifiable en utilisant uniquement l'information locale.
Proposition de l'algorithme LOAD : Une méthode fiable et complète qui identifie l'ensemble d'ajustement optimal en utilisant uniquement l'information locale autour des variables.
Évaluation expérimentale complète : Évaluation de LOAD sur des données synthétiques et réelles, démontrant qu'il peut récupérer des ensembles d'ajustement de haute qualité à faible coût informatique.
Garanties théoriques : Preuve de la fiabilité et de la complétude de LOAD dans la détermination de l'identifiabilité de l'effet causal et la recherche de l'ensemble d'ajustement optimal.
Utilisation de l'algorithme LocalRelate (Algorithme 1), en déterminant la relation par les théorèmes suivants :
Relation d'ancêtre explicite (Théorème 4.1) : Pour deux nœuds distincts X et Y dans un CPDAG G, X ∈ ExplAn_G(Y) si et seulement si X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
Relation de non-ancêtre certain (Théorème 4.2) : X est un non-ancêtre certain de Y si et seulement si X ⊥⊥ Y | Pa_G(X)
Test d'adaptabilité locale : Première proposition de conditions nécessaires et suffisantes pour tester l'adaptabilité en utilisant uniquement l'information locale, évitant la nécessité de vérifier tous les chemins dirigés possibles.
Mécanisme de mise en cache : L'algorithme MB-by-MB amélioré utilise la mise en cache pour réutiliser les couvertures de Markov et les structures locales identifiées dans les exécutions précédentes, améliorant significativement l'efficacité informatique.
Complétude théorique : Preuve que LOAD est fiable et complet dans la détermination des relations causales, de l'identifiabilité et de l'ensemble d'ajustement optimal.
Le nombre de tests d'indépendance conditionnelle de LOAD reste constamment inférieur aux méthodes globales dans tous les paramètres, légèrement supérieur aux méthodes locales :
Avec 1000 nœuds, LOAD nécessite 9,43×10³ tests, tandis que PC en nécessite 542,52×10³
Comparé aux 5,64×10³ tests de MB-by-MB+, la surcharge supplémentaire de LOAD est raisonnable
Algorithme PC : Méthode classique basée sur les contraintes, mais complexité informatique élevée
MARVEL : Approche récursive, toujours difficile à étendre à des centaines de variables
SNAP : Identification et suppression progressive des non-ancêtres certains, mais nécessite toujours la découverte causale sur tous les ancêtres possibles
Hypothèse de suffisance causale : La version actuelle suppose l'absence de facteurs de confusion latents ou de biais de sélection
Goulot d'étranglement informatique sur les grands réseaux : Sur les graphes extrêmement grands, la recherche de couverture de Markov peut toujours devenir un goulot d'étranglement informatique
Performance sur données binaires : Performance limitée sur les données binaires utilisant le test G²
Contribution théorique significative : Première proposition d'un test d'adaptabilité basé uniquement sur l'information locale, avec une valeur théorique importante
Forte praticité : Réalisation de l'optimalité statistique tout en maintenant l'efficacité informatique, résolvant les problèmes clés dans les applications pratiques
Expériences complètes : Couverture de multiples types de données, échelles de réseau et métriques d'évaluation, avec des résultats convaincants
Algorithme complet : Fourniture de garanties théoriques de fiabilité et de complétude, conception d'algorithme rigoureuse
L'article cite des travaux importants dans le domaine de l'inférence causale, notamment :
Pearl (2009) : Causality - Manuel classique de l'inférence causale
Spirtes et al. (2000) : Travaux fondamentaux de la découverte causale basée sur les contraintes
Henckel et al. (2022) : Critères graphiques pour les ensembles d'ajustement optimaux
Perković et al. (2015) : Définition et propriétés de l'adaptabilité
Évaluation Globale : Cet article est de haute qualité dans le domaine de l'inférence causale, avec des contributions importantes aux niveaux théorique et pratique. L'algorithme LOAD résout élégamment le compromis entre efficacité informatique et optimalité statistique dans la découverte causale, possédant une valeur académique importante et des perspectives d'application prometteuses.