2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

Apprentissage Local pour la Sélection de Covariables dans l'Estimation Non-Paramétrique des Effets Causaux avec Variables Latentes

Informations Fondamentales

ID de l'article: 2411.16315
Titre: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Auteurs: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
Classification: cs.LG math.ST stat.ML stat.TH
Conférence de publication: 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
Lien de l'article: https://arxiv.org/abs/2411.16315

Résumé

L'estimation des effets causaux à partir de données non-expérimentales constitue un problème fondamental dans de nombreux domaines scientifiques. Un élément clé de cette tâche est la sélection d'un ensemble approprié de covariables pour l'ajustement des facteurs de confusion afin d'éviter les biais. Les méthodes existantes de sélection de covariables supposent généralement l'absence de variables latentes et s'appuient sur l'apprentissage de la structure réseau globale entre les variables. Cependant, lorsque l'objectif principal est d'estimer l'effet d'une variable de traitement sur une variable de résultat, l'identification de la structure globale peut s'avérer inutile et inefficace. Pour remédier à cette limitation, cet article propose une nouvelle méthode d'apprentissage local pour la sélection de covariables dans l'estimation non-paramétrique des effets causaux en présence de variables latentes. Cette méthode exploite les relations d'indépendance et de dépendance testables entre les variables observées pour identifier les ensembles d'ajustement valides pour la relation causale cible, garantissant l'exhaustivité et la correction sous les hypothèses standard.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cette recherche est : comment sélectionner efficacement un ensemble de covariables pour estimer l'effet causal d'une variable de traitement X spécifique sur une variable de résultat Y en présence de variables latentes ?

Importance du Problème

Applicabilité générale: L'estimation des effets causaux est cruciale en épidémiologie, sciences sociales, économie et intelligence artificielle
Besoins pratiques: Dans les applications réelles, les essais contrôlés randomisés idéalisés sont souvent difficiles à mettre en œuvre
Contrôle des biais: Une sélection incorrecte de covariables entraîne des estimations biaisées des effets causaux

Limitations des Méthodes Existantes

Apprentissage de la structure globale: Les méthodes existantes telles que IDA et LV-IDA nécessitent l'apprentissage de la structure complète du graphe causal, avec une complexité computationnelle élevée
Négligence des variables latentes: De nombreuses méthodes supposent l'absence de variables de confusion latentes, ce qui est irréaliste dans les applications pratiques
Incomplétude des méthodes locales: Des méthodes comme CEELS, bien qu'efficaces, peuvent omettre des ensembles d'ajustement valides

Motivation de la Recherche

Le point de départ de cet article est de développer une méthode de sélection de covariables qui conserve les avantages d'efficacité de l'apprentissage local tout en garantissant l'exhaustivité et la correction, particulièrement dans les scénarios complexes avec variables latentes.

Contributions Principales

Proposition de l'algorithme LSAS: Conception d'un algorithme de sélection de covariables entièrement local exploitant les relations d'indépendance et de dépendance testables, permettant l'existence de variables latentes
Garanties théoriques: Preuve de l'exhaustivité et de la correction de l'algorithme proposé sous les hypothèses standard, capable d'identifier les ensembles d'ajustement valides pour la relation causale cible
Amélioration de l'efficacité: Réduction significative de la complexité computationnelle par rapport aux méthodes globales, passant d'une complexité temporelle de O(t×2^t) à O(|MB(X)|-1)×2^|MB(Y)|-1+n
Validation expérimentale: Vérification de l'efficacité de l'algorithme sur des données synthétiques et réelles

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Ensemble de données observées D, contenant la variable de traitement X, la variable de résultat Y et l'ensemble de covariables O Sortie:

Scénario S1: Estimation de l'effet causal θ de X sur Y
Scénario S2: Détermination qu'il n'existe pas d'effet causal de X sur Y (θ=0)
Scénario S3: Impossibilité de déterminer l'existence d'un effet causal (θ=∅)

Contraintes:

Y n'est pas un ancêtre causal de X
O est l'ensemble des variables de prétraitement (X et Y ne sont pas des ancêtres causaux d'aucune variable dans O)

Fondements Théoriques Fondamentaux

Définition d'AMB

Définition de l'ensemble d'ajustement dans la couverture de Markov AMB(X,Y) :

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z bloque tous les chemins non-causaux de X à Y

Théorèmes Clés

Théorème 1 (Existence d'AMB): Il existe un sous-ensemble de O servant d'ensemble d'ajustement pour (X,Y) si et seulement s'il existe un sous-ensemble de MB(Y){X} servant d'ensemble d'ajustement.

Théorème 2 (Règle R1): Pour Z ⊆ MB(Y){X}, s'il existe S ∈ MB(X){Y} satisfaisant :

S ⊥̸⊥ Y | Z (condition i)
S ⊥⊥ Y | Z∪{X} (condition ii)

alors Z est AMB(X,Y), et X a un effet causal sur Y.

Théorème 3 (Règle R2): S'il existe Z ⊆ MB(Y){X} et S ∈ MB(X){Y} satisfaisant l'une des conditions suivantes :

X ⊥⊥ Y | Z (condition i)
S ⊥̸⊥ X | Z et S ⊥⊥ Y | Z (condition ii)

alors X n'a pas d'effet causal sur Y.

Flux de l'Algorithme LSAS

Algorithme 1: Ensembles d'Ajustement de Recherche Locale (LSAS)
Entrée: Ensemble de données observées D, variable de traitement X, variable de résultat Y
1: MB(X), MB(Y) ← Découverte de Couverture de Markov(X,Y,D)
2: Θ ← ∅ // Initialisation de l'estimation de l'effet causal
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S et Z satisfont la règle R1 then
5:     Estimer l'effet causal θ de X sur Y, Θ ← θ // Scénario S1
6:   end if
7:   if S et Z satisfont la règle R2 then
8:     return Θ ← 0 // Pas d'effet causal, scénario S2
9:   end if
10: end for
Sortie: Effet causal estimé Θ // Si ∅ alors scénario S3

Points d'Innovation Technique

Exploitation de la couverture de Markov locale: Nécessite uniquement les informations de couverture de Markov de X et Y, évitant l'apprentissage du graphe global
Identification dirigée par les règles: Identification directe des relations causales à partir des tests d'indépendance conditionnelle via les règles R1 et R2
Traitement des variables latentes: Traitement des variables de confusion latentes dans le cadre MAG
Garantie d'exhaustivité: Preuve théorique de l'exhaustivité de la méthode, n'omettant pas les ensembles d'ajustement identifiables

Configuration Expérimentale

Ensembles de Données

Données synthétiques:
- Graphes aléatoires: Modèle Erdős-Rényi G(n,d), 20-50 nœuds, degré moyen 3-9
- Structures spécifiques: Structures DAG basées sur les figures 3(a) et 4(a)
- Réseaux de référence: INSURANCE(27 nœuds), MILDEW(35 nœuds), WIN95PTS(76 nœuds), ANDES(223 nœuds)
Données réelles: Ensemble de données Cattaneo2, contenant 4642 dossiers de naissances simples en Pennsylvanie

Métriques d'Évaluation

Erreur relative (RE): |（valeur estimée - valeur réelle）/valeur réelle| × 100%
Nombre de tests (nTest): Nombre de tests d'indépendance conditionnelle exécutés par l'algorithme

Méthodes de Comparaison

LV-IDA: Méthode d'apprentissage de graphe global basée sur l'algorithme RFCI
EHS: Méthode de recherche globale avec hypothèse de prétraitement
CEELS: Méthode de recherche locale avec hypothèse de prétraitement
LDP: Méthode de recherche locale relâchant l'hypothèse de prétraitement

Détails d'Implémentation

Tailles d'échantillon: 1K, 5K, 10K, 15K
Modèle causal linéaire gaussien, poids des arêtes échantillonnés à partir de Uniform0.5,1.5
Niveau de signification du test d'indépendance conditionnelle: 0.01
Taille maximale de l'ensemble conditionnel: 3-7 (selon la complexité du réseau)

Résultats Expérimentaux

Résultats Principaux

Expériences sur Structures Spécifiques

Sur les structures MAG correspondant aux figures 3(b) et 4(b) :

Erreur relative: LSAS surpasse significativement les autres méthodes pour toutes les tailles d'échantillon
Efficacité des tests: Le nTest de LSAS est bien inférieur à celui de LV-IDA et EHS
Avantage d'exhaustivité: CEELS et LDP, en raison de leur incomplétude, ne peuvent pas trouver d'ensembles d'ajustement valides sur certaines structures

Expériences sur Réseaux de Référence

Sur les réseaux MILDEW et WIN95PTS :

LSAS affiche les meilleures performances sur presque toutes les métriques d'évaluation et tailles d'échantillon
Même en cas de violation de l'hypothèse de prétraitement, LSAS surpasse les autres méthodes
EHS ne peut pas se terminer sur les grands réseaux en raison du temps d'exécution excessif

Validation sur Données Réelles

Sur l'ensemble de données Cattaneo2 étudiant l'effet du tabagisme pendant la grossesse sur le poids à la naissance :

Les estimations d'effet de LSAS et EHS se situent toutes deux dans l'intervalle de référence -250g, -200g
LSAS ne nécessite que 158 tests d'indépendance conditionnelle, tandis que CEELS en nécessite 1284 et LDP 266
Validation de l'efficacité de la méthode dans les applications pratiques

Expériences d'Ablation

L'article valide la robustesse de la méthode par des expériences avec différentes densités de réseau :

Avec l'augmentation de la densité du graphe, les performances de toutes les méthodes diminuent, mais LSAS maintient un avantage évident
Dans le réseau G(40,9), bien que le nTest de LDP soit plus faible, le RE de LSAS est significativement meilleur

Analyse du Temps d'Exécution

LSAS affiche les meilleures performances en termes de temps d'exécution sur la plupart des réseaux et tailles d'échantillon, la seule exception étant le réseau WIN95PTS avec des tailles d'échantillon importantes (15K) où LDP est plus rapide, mais la précision de LSAS est significativement supérieure.

Travaux Connexes

Méthodes avec Graphe Causal Connu

Critères d'ajustement classiques: Critère de la porte arrière, critère de porte arrière généralisé
Ensembles d'ajustement optimaux: Recherche d'ensembles d'ajustement avec variance asymptotique minimale

Méthodes avec Graphe Causal Inconnu

Apprentissage global: Méthodes de la série IDA, nécessitant l'apprentissage du CPDAG/PAG complet
Apprentissage local: Méthodes CovSel, EHS, etc., mais la plupart supposent l'absence de variables latentes
Traitement des variables latentes: Méthodes LV-IDA, CE-SAT, etc., mais avec complexité computationnelle élevée

Avantages de cet Article

Comparé aux travaux existants, la méthode de cet article réalise l'unification de l'efficacité de l'apprentissage local et de l'exhaustivité des méthodes globales, avec des avantages particulièrement évidents dans le traitement des variables latentes.

Conclusion et Discussion

Conclusions Principales

Proposition du premier algorithme de sélection de covariables qui maintient la localité tout en garantissant l'exhaustivité en présence de variables latentes
Preuve théorique de la correction et de l'exhaustivité de la méthode
Validation expérimentale des avantages significatifs de la méthode en termes d'efficacité et de précision

Limitations

Hypothèse de prétraitement: Dépend toujours de l'hypothèse de prétraitement, bien que les performances soient bonnes dans certains cas de violation
Identification des descendants: Impossible d'identifier localement les descendants de la variable de traitement sans récupérer le graphe complet
Tests d'indépendance conditionnelle: Dépend de tests d'indépendance conditionnelle précis, pouvant présenter des erreurs avec des échantillons finis

Directions Futures

Relâchement des hypothèses: Développement de méthodes ne dépendant pas de l'hypothèse de prétraitement
Fusion des connaissances de domaine: Utilisation des connaissances de domaine pour assister l'identification causale
Données multi-environnements: Exploitation de données multi-environnements pour améliorer l'identification causale
Identification des descendants: Recherche de méthodes pour l'identification locale des descendants de la variable de traitement

Évaluation Approfondie

Points Forts

Contribution théorique: Fournit un cadre théorique complet, prouvant la faisabilité des méthodes locales
Valeur pratique: Réduction significative de la complexité computationnelle, rendant les applications à grande échelle possibles
Expériences complètes: Validation complète sur plusieurs types de données
Rédaction claire: Structure de l'article claire, exposition théorique rigoureuse

Insuffisances

Limitations des hypothèses: L'hypothèse de prétraitement peut ne pas être satisfaite dans certains scénarios d'application
Dépendance aux tests: Les performances de la méthode dépendent largement de la précision des tests d'indépendance conditionnelle
Extensibilité: L'extensibilité à des réseaux ultra-larges reste à vérifier

Impact

Valeur académique: Fournit un nouveau cadre théorique et méthodologique au domaine de l'inférence causale
Signification pratique: Fournit une solution efficace pour la sélection de covariables dans les applications pratiques
Reproductibilité: Code public, configuration expérimentale détaillée, bonne reproductibilité

Scénarios Applicables

Cette méthode est particulièrement adaptée aux scénarios suivants :

Estimation des effets causaux sur des données observées à grande échelle
Systèmes complexes avec variables de confusion latentes
Applications en temps réel avec exigences d'efficacité computationnelle
Conceptions de recherche avec collecte relativement complète de variables de prétraitement

Références Bibliographiques

L'article cite les travaux importants du domaine de l'inférence causale, incluant les ouvrages classiques de Pearl, l'algorithme PC de Spirtes et al., ainsi que les méthodes d'apprentissage local récentes, reflétant une compréhension complète et approfondie des travaux connexes.