2025-11-18T15:28:13.400087

Local Causal Discovery for Statistically Efficient Causal Inference

Schubert, Claassen, Magliacane

Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.

academic

Découverte Causale Locale pour l'Inférence Causale Statistiquement Efficace

Informations Fondamentales

ID de l'article : 2510.14582
Titre : Local Causal Discovery for Statistically Efficient Causal Inference
Auteurs : Mátyás Schubert (Université d'Amsterdam), Tom Claassen (Université Radboud Nijmegen), Sara Magliacane (Université d'Amsterdam)
Classification : stat.ML cs.AI cs.LG
Date de publication : 16 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.14582v1

Résumé

Les méthodes de découverte causale peuvent identifier des ensembles d'ajustement valides pour l'estimation de l'effet causal entre une paire de variables cibles, même lorsque le graphe causal sous-jacent est inconnu. Les méthodes de découverte causale globales se concentrent sur l'apprentissage du graphe causal complet, ce qui leur permet de récupérer l'ensemble d'ajustement optimal (c'est-à-dire l'ensemble ayant la variance asymptotique la plus faible), mais elles deviennent rapidement intraitable sur le plan informatique à mesure que le nombre de variables augmente. Les méthodes de découverte causale locale offrent une alternative plus évolutive en se concentrant sur le voisinage local des variables cibles, mais elles sont limitées à des ensembles d'ajustement statistiquement sous-optimaux. Dans ce travail, les auteurs proposent LOAD (Local Optimal Adjustment Discovery), une méthode de découverte causale fiable et complète qui combine l'efficacité informatique des méthodes locales et l'optimalité statistique des méthodes globales.

Contexte et Motivation de la Recherche

Définition du Problème

En inférence causale, l'estimation de l'effet causal entre deux variables est une tâche fondamentale. Lorsque le graphe causal sous-jacent est inconnu, il est nécessaire d'utiliser des méthodes de découverte causale pour identifier les ensembles d'ajustement valides pour l'estimation de l'effet causal. Les méthodes existantes font face à un compromis fondamental :

Le dilemme des méthodes globales : Les méthodes de découverte causale globale (comme l'algorithme PC) peuvent apprendre le graphe causal complet et récupérer l'ensemble d'ajustement optimal, mais la complexité informatique croît exponentiellement avec le nombre de variables, ce qui les rend impraticables pour les problèmes à grande échelle.
Les limitations des méthodes locales : Les méthodes de découverte causale locale (comme MB-by-MB, LDECC) sont informatiquement efficaces, mais ne peuvent récupérer que des ensembles d'ajustement sous-optimaux, ce qui entraîne une variance asymptotique plus élevée dans l'estimation de l'effet causal.

Motivation de la Recherche

Les auteurs identifient les problèmes suivants dans les méthodes locales existantes :

L'algorithme LocalPC n'est pas suffisamment fiable pour identifier les variables adjacentes et peut identifier à tort des conjoints non-adjacents comme adjacents
L'algorithme LDECC est incomplet et ne peut pas orienter tous les arcs orientables dans certains cas
L'algorithme LDP peut signaler à tort qu'un effet n'est pas identifiable dans certains cas où l'effet identifiable est zéro

Par conséquent, une nouvelle méthode est nécessaire qui maintient l'efficacité informatique des méthodes locales tout en atteignant l'optimalité statistique des méthodes globales.

Contributions Principales

Développement de méthodes pour déterminer l'identifiabilité de l'effet causal basées sur l'information locale : Proposition de conditions nécessaires et suffisantes pour déterminer si un effet causal est identifiable en utilisant uniquement l'information locale.
Proposition de l'algorithme LOAD : Une méthode fiable et complète qui identifie l'ensemble d'ajustement optimal en utilisant uniquement l'information locale autour des variables.
Évaluation expérimentale complète : Évaluation de LOAD sur des données synthétiques et réelles, démontrant qu'il peut récupérer des ensembles d'ajustement de haute qualité à faible coût informatique.
Garanties théoriques : Preuve de la fiabilité et de la complétude de LOAD dans la détermination de l'identifiabilité de l'effet causal et la recherche de l'ensemble d'ajustement optimal.

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une paire de variables cibles X et Y, l'objectif est :

Déterminer la relation causale entre X et Y (ancêtre explicite, ancêtre possible ou non-ancêtre certain)
Juger si l'effet causal est identifiable
Si identifiable, trouver l'ensemble d'ajustement optimal ; sinon, retourner un ensemble d'ajustement parental localement valide

Architecture de l'Algorithme LOAD

L'algorithme LOAD se compose de 5 étapes principales :

Étape 1 : Détermination de la Relation Causale entre Variables Cibles

Utilisation de l'algorithme LocalRelate (Algorithme 1), en déterminant la relation par les théorèmes suivants :

Relation d'ancêtre explicite (Théorème 4.1) : Pour deux nœuds distincts X et Y dans un CPDAG G, X ∈ ExplAn_G(Y) si et seulement si X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
Relation de non-ancêtre certain (Théorème 4.2) : X est un non-ancêtre certain de Y si et seulement si X ⊥⊥ Y | Pa_G(X)

Étape 2 : Test de l'Identifiabilité de l'Effet Causal

Proposition d'un test adaptatif basé sur l'information locale :

Lemme 4.3 : Pour X ∈ PossAn_G(Y) dans un CPDAG G, G est adapté relativement à (X,Y) si et seulement si :

∀V ∈ Sib_G(X) : V ⊥⊥ Y | Pa_G(V) ∪ {X}

Cette condition peut être détectée efficacement par l'algorithme LocalAmenTest (Algorithme 2).

Étapes 3-5 : Construction de l'Ensemble d'Ajustement Optimal

Si l'effet causal est identifiable, LOAD construit l'ensemble d'ajustement optimal par les étapes suivantes :

Recherche des descendants explicites : Identification de tous les descendants explicites de T
Identification des nœuds médiateurs : Recherche de nœuds qui sont à la fois descendants explicites de T et ancêtres explicites de O

Construction de l'ensemble d'ajustement optimal :

Oset_G(T,O) = Pa_G(Cn_G(T,O)) \ (Cn_G(T,O) ∪ {T})

Points d'Innovation Technique

Test d'adaptabilité locale : Première proposition de conditions nécessaires et suffisantes pour tester l'adaptabilité en utilisant uniquement l'information locale, évitant la nécessité de vérifier tous les chemins dirigés possibles.
Mécanisme de mise en cache : L'algorithme MB-by-MB amélioré utilise la mise en cache pour réutiliser les couvertures de Markov et les structures locales identifiées dans les exécutions précédentes, améliorant significativement l'efficacité informatique.
Complétude théorique : Preuve que LOAD est fiable et complet dans la détermination des relations causales, de l'identifiabilité et de l'ensemble d'ajustement optimal.

Configuration Expérimentale

Ensembles de Données

Données synthétiques :
- Graphes Erdős–Rényi générés aléatoirement
- Nombre de variables : 100-1000
- Degré attendu : d=2, degré maximal : dmax=10
- Nombre d'échantillons : nD=10000
Réseaux réels :
- Réseau MAGIC-NIAB : 44 nœuds, degré moyen 3
- Réseau ANDES : 223 nœuds, degré moyen 3,03

Métriques d'Évaluation

Efficacité informatique : Nombre de tests d'indépendance conditionnelle
Qualité de l'ensemble d'ajustement : Score F1 de l'ensemble d'ajustement optimal
Qualité de l'estimation de l'effet causal : Distance d'intervention

Méthodes de Comparaison

Méthodes globales : PC, MARVEL, SNAP(∞)
Méthodes locales : MB-by-MB+, LDECC+, LDP+ (versions étendues)

Détails d'Implémentation

Niveau de signification : α = 0,01
Trois tests d'indépendance conditionnelle : d-séparation oracle, test Fisher-Z, test G²
100 exécutions par configuration, avec suppression des 5 meilleurs et 5 pires résultats

Résultats Expérimentaux

Résultats Principaux

Efficacité Informatique

Le nombre de tests d'indépendance conditionnelle de LOAD reste constamment inférieur aux méthodes globales dans tous les paramètres, légèrement supérieur aux méthodes locales :

Avec 1000 nœuds, LOAD nécessite 9,43×10³ tests, tandis que PC en nécessite 542,52×10³
Comparé aux 5,64×10³ tests de MB-by-MB+, la surcharge supplémentaire de LOAD est raisonnable

Qualité de l'Ensemble d'Ajustement (Score F1)

Configuration Oracle : LOAD atteint un F1 parfait de 1,0, comparable aux méthodes globales
Test Fisher-Z : LOAD surpasse les méthodes de base sur tous les nombres de nœuds, avec des scores F1 d'environ 0,91-0,95
Test G² : Performance sous-optimale de LOAD, mais reste la deuxième meilleure méthode

Distance d'Intervention

LOAD réalise la distance d'intervention la plus faible dans la plupart des configurations :

Configuration Oracle : 0,003 (comparable à PC, SNAP)
Test Fisher-Z : 0,014-0,026 (optimal)
Test G² : 0,022-0,036 (deuxième meilleur, seulement après PC)

Résultats sur Données Réelles

Sur le réseau MAGIC-NIAB :

LOAD atteint le meilleur score F1 (0,62)
Réalise la distance d'intervention la plus faible (0,007)
Nombre de tests d'indépendance conditionnelle (4,35×10³) situé entre les méthodes locales et globales

Études d'Ablation

Relation traitement-résultat connue : Lorsque des connaissances préalables sont fournies, LOAD* surpasse PC sur les données binaires
Paires cibles identifiables : Les modèles de résultats restent cohérents dans les configurations où l'effet causal est identifiable
Sensibilité aux paramètres : LOAD montre une robustesse face à différents nombres d'échantillons et degrés attendus

Travaux Connexes

Méthodes Globales de Découverte Causale

Algorithme PC : Méthode classique basée sur les contraintes, mais complexité informatique élevée
MARVEL : Approche récursive, toujours difficile à étendre à des centaines de variables
SNAP : Identification et suppression progressive des non-ancêtres certains, mais nécessite toujours la découverte causale sur tous les ancêtres possibles

Méthodes Locales de Découverte Causale

MB-by-MB : Découverte séquentielle de couverture de Markov, mais limitée à des ensembles d'ajustement sous-optimaux
LDECC : Vérification efficace des colliders, mais avec des problèmes de fiabilité et de complétude
LDP : Apprentissage d'ensembles d'ajustement par partitionnement, mais toujours potentiellement sous-optimal avec des hypothèses limitantes

Avantages de cet Article

LOAD est la première méthode à réaliser simultanément les objectifs suivants :

Utiliser uniquement l'information locale
Récupérer l'ensemble d'ajustement optimal
Fournir des garanties théoriques (fiabilité et complétude)

Conclusion et Discussion

Conclusions Principales

LOAD combine avec succès l'efficacité informatique des méthodes locales et l'optimalité statistique des méthodes globales
Le test d'adaptabilité locale proposé fournit une méthode efficace pour juger de l'identifiabilité de l'effet causal
Sur plusieurs types de données et structures de réseau, LOAD démontre une performance supérieure

Limitations

Hypothèse de suffisance causale : La version actuelle suppose l'absence de facteurs de confusion latents ou de biais de sélection
Goulot d'étranglement informatique sur les grands réseaux : Sur les graphes extrêmement grands, la recherche de couverture de Markov peut toujours devenir un goulot d'étranglement informatique
Performance sur données binaires : Performance limitée sur les données binaires utilisant le test G²

Directions Futures

Extension aux paramètres causalement insuffisants : Traitement des cas avec facteurs de confusion latents
Optimisation de la découverte de couverture de Markov : Amélioration supplémentaire de l'efficacité informatique sur les grands réseaux
Amélioration de la performance en échantillon fini : Particulièrement la performance sur les données binaires

Évaluation Approfondie

Points Forts

Contribution théorique significative : Première proposition d'un test d'adaptabilité basé uniquement sur l'information locale, avec une valeur théorique importante
Forte praticité : Réalisation de l'optimalité statistique tout en maintenant l'efficacité informatique, résolvant les problèmes clés dans les applications pratiques
Expériences complètes : Couverture de multiples types de données, échelles de réseau et métriques d'évaluation, avec des résultats convaincants
Algorithme complet : Fourniture de garanties théoriques de fiabilité et de complétude, conception d'algorithme rigoureuse

Insuffisances

Limitations des hypothèses : L'hypothèse de suffisance causale peut ne pas être satisfaite dans les applications pratiques
Problèmes d'extensibilité : Bien que meilleur que les méthodes globales, il y a toujours des défis informatiques sur les réseaux ultra-larges
Performance en échantillon fini : Performance instable dans certains paramètres d'échantillon fini

Impact

Valeur académique : Fourniture d'un nouveau cadre théorique et d'idées de conception d'algorithmes pour le domaine de la découverte causale
Valeur pratique : Importance significative dans les applications pratiques nécessitant l'estimation d'effets causaux
Reproductibilité : Fourniture de descriptions d'algorithmes détaillées et de configurations expérimentales, facilitant la reproduction et l'extension

Scénarios Applicables

Inférence causale à échelle moyenne : Tâches d'estimation d'effets causaux avec des centaines à des milliers de variables
Ressources informatiques limitées : Scénarios d'application nécessitant l'équilibre entre efficacité informatique et performance statistique
Environnements causalement suffisants : Études observationnelles sans facteurs de confusion importants latents

Références

L'article cite des travaux importants dans le domaine de l'inférence causale, notamment :

Pearl (2009) : Causality - Manuel classique de l'inférence causale
Spirtes et al. (2000) : Travaux fondamentaux de la découverte causale basée sur les contraintes
Henckel et al. (2022) : Critères graphiques pour les ensembles d'ajustement optimaux
Perković et al. (2015) : Définition et propriétés de l'adaptabilité

Évaluation Globale : Cet article est de haute qualité dans le domaine de l'inférence causale, avec des contributions importantes aux niveaux théorique et pratique. L'algorithme LOAD résout élégamment le compromis entre efficacité informatique et optimalité statistique dans la découverte causale, possédant une valeur académique importante et des perspectives d'application prometteuses.