2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

Apprentissage Local pour la Sélection de Covariables dans l'Estimation Non-Paramétrique des Effets Causaux avec Variables Latentes

Informations Fondamentales

  • ID de l'article: 2411.16315
  • Titre: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • Auteurs: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • Classification: cs.LG math.ST stat.ML stat.TH
  • Conférence de publication: 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article: https://arxiv.org/abs/2411.16315

Résumé

L'estimation des effets causaux à partir de données non-expérimentales constitue un problème fondamental dans de nombreux domaines scientifiques. Un élément clé de cette tâche est la sélection d'un ensemble approprié de covariables pour l'ajustement des facteurs de confusion afin d'éviter les biais. Les méthodes existantes de sélection de covariables supposent généralement l'absence de variables latentes et s'appuient sur l'apprentissage de la structure réseau globale entre les variables. Cependant, lorsque l'objectif principal est d'estimer l'effet d'une variable de traitement sur une variable de résultat, l'identification de la structure globale peut s'avérer inutile et inefficace. Pour remédier à cette limitation, cet article propose une nouvelle méthode d'apprentissage local pour la sélection de covariables dans l'estimation non-paramétrique des effets causaux en présence de variables latentes. Cette méthode exploite les relations d'indépendance et de dépendance testables entre les variables observées pour identifier les ensembles d'ajustement valides pour la relation causale cible, garantissant l'exhaustivité et la correction sous les hypothèses standard.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cette recherche est : comment sélectionner efficacement un ensemble de covariables pour estimer l'effet causal d'une variable de traitement X spécifique sur une variable de résultat Y en présence de variables latentes ?

Importance du Problème

  1. Applicabilité générale: L'estimation des effets causaux est cruciale en épidémiologie, sciences sociales, économie et intelligence artificielle
  2. Besoins pratiques: Dans les applications réelles, les essais contrôlés randomisés idéalisés sont souvent difficiles à mettre en œuvre
  3. Contrôle des biais: Une sélection incorrecte de covariables entraîne des estimations biaisées des effets causaux

Limitations des Méthodes Existantes

  1. Apprentissage de la structure globale: Les méthodes existantes telles que IDA et LV-IDA nécessitent l'apprentissage de la structure complète du graphe causal, avec une complexité computationnelle élevée
  2. Négligence des variables latentes: De nombreuses méthodes supposent l'absence de variables de confusion latentes, ce qui est irréaliste dans les applications pratiques
  3. Incomplétude des méthodes locales: Des méthodes comme CEELS, bien qu'efficaces, peuvent omettre des ensembles d'ajustement valides

Motivation de la Recherche

Le point de départ de cet article est de développer une méthode de sélection de covariables qui conserve les avantages d'efficacité de l'apprentissage local tout en garantissant l'exhaustivité et la correction, particulièrement dans les scénarios complexes avec variables latentes.

Contributions Principales

  1. Proposition de l'algorithme LSAS: Conception d'un algorithme de sélection de covariables entièrement local exploitant les relations d'indépendance et de dépendance testables, permettant l'existence de variables latentes
  2. Garanties théoriques: Preuve de l'exhaustivité et de la correction de l'algorithme proposé sous les hypothèses standard, capable d'identifier les ensembles d'ajustement valides pour la relation causale cible
  3. Amélioration de l'efficacité: Réduction significative de la complexité computationnelle par rapport aux méthodes globales, passant d'une complexité temporelle de O(t×2^t) à O(|MB(X)|-1)×2^|MB(Y)|-1+n
  4. Validation expérimentale: Vérification de l'efficacité de l'algorithme sur des données synthétiques et réelles

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Ensemble de données observées D, contenant la variable de traitement X, la variable de résultat Y et l'ensemble de covariables O Sortie:

  • Scénario S1: Estimation de l'effet causal θ de X sur Y
  • Scénario S2: Détermination qu'il n'existe pas d'effet causal de X sur Y (θ=0)
  • Scénario S3: Impossibilité de déterminer l'existence d'un effet causal (θ=∅)

Contraintes:

  • Y n'est pas un ancêtre causal de X
  • O est l'ensemble des variables de prétraitement (X et Y ne sont pas des ancêtres causaux d'aucune variable dans O)

Fondements Théoriques Fondamentaux

Définition d'AMB

Définition de l'ensemble d'ajustement dans la couverture de Markov AMB(X,Y) :

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z bloque tous les chemins non-causaux de X à Y

Théorèmes Clés

Théorème 1 (Existence d'AMB): Il existe un sous-ensemble de O servant d'ensemble d'ajustement pour (X,Y) si et seulement s'il existe un sous-ensemble de MB(Y){X} servant d'ensemble d'ajustement.

Théorème 2 (Règle R1): Pour Z ⊆ MB(Y){X}, s'il existe S ∈ MB(X){Y} satisfaisant :

  • S ⊥̸⊥ Y | Z (condition i)
  • S ⊥⊥ Y | Z∪{X} (condition ii)

alors Z est AMB(X,Y), et X a un effet causal sur Y.

Théorème 3 (Règle R2): S'il existe Z ⊆ MB(Y){X} et S ∈ MB(X){Y} satisfaisant l'une des conditions suivantes :

  • X ⊥⊥ Y | Z (condition i)
  • S ⊥̸⊥ X | Z et S ⊥⊥ Y | Z (condition ii)

alors X n'a pas d'effet causal sur Y.

Flux de l'Algorithme LSAS

Algorithme 1: Ensembles d'Ajustement de Recherche Locale (LSAS)
Entrée: Ensemble de données observées D, variable de traitement X, variable de résultat Y
1: MB(X), MB(Y) ← Découverte de Couverture de Markov(X,Y,D)
2: Θ ← ∅ // Initialisation de l'estimation de l'effet causal
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S et Z satisfont la règle R1 then
5:     Estimer l'effet causal θ de X sur Y, Θ ← θ // Scénario S1
6:   end if
7:   if S et Z satisfont la règle R2 then
8:     return Θ ← 0 // Pas d'effet causal, scénario S2
9:   end if
10: end for
Sortie: Effet causal estimé Θ // Si ∅ alors scénario S3

Points d'Innovation Technique

  1. Exploitation de la couverture de Markov locale: Nécessite uniquement les informations de couverture de Markov de X et Y, évitant l'apprentissage du graphe global
  2. Identification dirigée par les règles: Identification directe des relations causales à partir des tests d'indépendance conditionnelle via les règles R1 et R2
  3. Traitement des variables latentes: Traitement des variables de confusion latentes dans le cadre MAG
  4. Garantie d'exhaustivité: Preuve théorique de l'exhaustivité de la méthode, n'omettant pas les ensembles d'ajustement identifiables

Configuration Expérimentale

Ensembles de Données

  1. Données synthétiques:
    • Graphes aléatoires: Modèle Erdős-Rényi G(n,d), 20-50 nœuds, degré moyen 3-9
    • Structures spécifiques: Structures DAG basées sur les figures 3(a) et 4(a)
    • Réseaux de référence: INSURANCE(27 nœuds), MILDEW(35 nœuds), WIN95PTS(76 nœuds), ANDES(223 nœuds)
  2. Données réelles: Ensemble de données Cattaneo2, contenant 4642 dossiers de naissances simples en Pennsylvanie

Métriques d'Évaluation

  • Erreur relative (RE): |(valeur estimée - valeur réelle)/valeur réelle| × 100%
  • Nombre de tests (nTest): Nombre de tests d'indépendance conditionnelle exécutés par l'algorithme

Méthodes de Comparaison

  • LV-IDA: Méthode d'apprentissage de graphe global basée sur l'algorithme RFCI
  • EHS: Méthode de recherche globale avec hypothèse de prétraitement
  • CEELS: Méthode de recherche locale avec hypothèse de prétraitement
  • LDP: Méthode de recherche locale relâchant l'hypothèse de prétraitement

Détails d'Implémentation

  • Tailles d'échantillon: 1K, 5K, 10K, 15K
  • Modèle causal linéaire gaussien, poids des arêtes échantillonnés à partir de Uniform0.5,1.5
  • Niveau de signification du test d'indépendance conditionnelle: 0.01
  • Taille maximale de l'ensemble conditionnel: 3-7 (selon la complexité du réseau)

Résultats Expérimentaux

Résultats Principaux

Expériences sur Structures Spécifiques

Sur les structures MAG correspondant aux figures 3(b) et 4(b) :

  • Erreur relative: LSAS surpasse significativement les autres méthodes pour toutes les tailles d'échantillon
  • Efficacité des tests: Le nTest de LSAS est bien inférieur à celui de LV-IDA et EHS
  • Avantage d'exhaustivité: CEELS et LDP, en raison de leur incomplétude, ne peuvent pas trouver d'ensembles d'ajustement valides sur certaines structures

Expériences sur Réseaux de Référence

Sur les réseaux MILDEW et WIN95PTS :

  • LSAS affiche les meilleures performances sur presque toutes les métriques d'évaluation et tailles d'échantillon
  • Même en cas de violation de l'hypothèse de prétraitement, LSAS surpasse les autres méthodes
  • EHS ne peut pas se terminer sur les grands réseaux en raison du temps d'exécution excessif

Validation sur Données Réelles

Sur l'ensemble de données Cattaneo2 étudiant l'effet du tabagisme pendant la grossesse sur le poids à la naissance :

  • Les estimations d'effet de LSAS et EHS se situent toutes deux dans l'intervalle de référence -250g, -200g
  • LSAS ne nécessite que 158 tests d'indépendance conditionnelle, tandis que CEELS en nécessite 1284 et LDP 266
  • Validation de l'efficacité de la méthode dans les applications pratiques

Expériences d'Ablation

L'article valide la robustesse de la méthode par des expériences avec différentes densités de réseau :

  • Avec l'augmentation de la densité du graphe, les performances de toutes les méthodes diminuent, mais LSAS maintient un avantage évident
  • Dans le réseau G(40,9), bien que le nTest de LDP soit plus faible, le RE de LSAS est significativement meilleur

Analyse du Temps d'Exécution

LSAS affiche les meilleures performances en termes de temps d'exécution sur la plupart des réseaux et tailles d'échantillon, la seule exception étant le réseau WIN95PTS avec des tailles d'échantillon importantes (15K) où LDP est plus rapide, mais la précision de LSAS est significativement supérieure.

Travaux Connexes

Méthodes avec Graphe Causal Connu

  • Critères d'ajustement classiques: Critère de la porte arrière, critère de porte arrière généralisé
  • Ensembles d'ajustement optimaux: Recherche d'ensembles d'ajustement avec variance asymptotique minimale

Méthodes avec Graphe Causal Inconnu

  • Apprentissage global: Méthodes de la série IDA, nécessitant l'apprentissage du CPDAG/PAG complet
  • Apprentissage local: Méthodes CovSel, EHS, etc., mais la plupart supposent l'absence de variables latentes
  • Traitement des variables latentes: Méthodes LV-IDA, CE-SAT, etc., mais avec complexité computationnelle élevée

Avantages de cet Article

Comparé aux travaux existants, la méthode de cet article réalise l'unification de l'efficacité de l'apprentissage local et de l'exhaustivité des méthodes globales, avec des avantages particulièrement évidents dans le traitement des variables latentes.

Conclusion et Discussion

Conclusions Principales

  1. Proposition du premier algorithme de sélection de covariables qui maintient la localité tout en garantissant l'exhaustivité en présence de variables latentes
  2. Preuve théorique de la correction et de l'exhaustivité de la méthode
  3. Validation expérimentale des avantages significatifs de la méthode en termes d'efficacité et de précision

Limitations

  1. Hypothèse de prétraitement: Dépend toujours de l'hypothèse de prétraitement, bien que les performances soient bonnes dans certains cas de violation
  2. Identification des descendants: Impossible d'identifier localement les descendants de la variable de traitement sans récupérer le graphe complet
  3. Tests d'indépendance conditionnelle: Dépend de tests d'indépendance conditionnelle précis, pouvant présenter des erreurs avec des échantillons finis

Directions Futures

  1. Relâchement des hypothèses: Développement de méthodes ne dépendant pas de l'hypothèse de prétraitement
  2. Fusion des connaissances de domaine: Utilisation des connaissances de domaine pour assister l'identification causale
  3. Données multi-environnements: Exploitation de données multi-environnements pour améliorer l'identification causale
  4. Identification des descendants: Recherche de méthodes pour l'identification locale des descendants de la variable de traitement

Évaluation Approfondie

Points Forts

  1. Contribution théorique: Fournit un cadre théorique complet, prouvant la faisabilité des méthodes locales
  2. Valeur pratique: Réduction significative de la complexité computationnelle, rendant les applications à grande échelle possibles
  3. Expériences complètes: Validation complète sur plusieurs types de données
  4. Rédaction claire: Structure de l'article claire, exposition théorique rigoureuse

Insuffisances

  1. Limitations des hypothèses: L'hypothèse de prétraitement peut ne pas être satisfaite dans certains scénarios d'application
  2. Dépendance aux tests: Les performances de la méthode dépendent largement de la précision des tests d'indépendance conditionnelle
  3. Extensibilité: L'extensibilité à des réseaux ultra-larges reste à vérifier

Impact

  1. Valeur académique: Fournit un nouveau cadre théorique et méthodologique au domaine de l'inférence causale
  2. Signification pratique: Fournit une solution efficace pour la sélection de covariables dans les applications pratiques
  3. Reproductibilité: Code public, configuration expérimentale détaillée, bonne reproductibilité

Scénarios Applicables

Cette méthode est particulièrement adaptée aux scénarios suivants :

  • Estimation des effets causaux sur des données observées à grande échelle
  • Systèmes complexes avec variables de confusion latentes
  • Applications en temps réel avec exigences d'efficacité computationnelle
  • Conceptions de recherche avec collecte relativement complète de variables de prétraitement

Références Bibliographiques

L'article cite les travaux importants du domaine de l'inférence causale, incluant les ouvrages classiques de Pearl, l'algorithme PC de Spirtes et al., ainsi que les méthodes d'apprentissage local récentes, reflétant une compréhension complète et approfondie des travaux connexes.