2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

Lokales Lernen zur Kovariatenauswahl in der nichtparametrischen Kausaleffektschätzung mit latenten Variablen

Grundlegende Informationen

  • Paper-ID: 2411.16315
  • Titel: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • Autoren: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • Klassifizierung: cs.LG math.ST stat.ML stat.TH
  • Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Paper-Link: https://arxiv.org/abs/2411.16315

Zusammenfassung

Die Schätzung von Kausaleffekten aus nicht-experimentellen Daten ist ein grundlegendes Problem in vielen wissenschaftlichen Disziplinen. Eine Schlüsselkomponente dieser Aufgabe ist die Auswahl eines angemessenen Satzes von Kovariaten für die Confounding-Anpassung, um Verzerrungen zu vermeiden. Bestehende Kovariatenauswahlmethoden setzen typischerweise das Fehlen latenter Variablen voraus und verlassen sich auf das Erlernen globaler Netzwerkstrukturen zwischen Variablen. Wenn wir uns jedoch hauptsächlich auf die Schätzung des Effekts einer Behandlungsvariablen auf eine Ergebnisvariable konzentrieren, kann die Identifizierung der globalen Struktur unnötig und ineffizient sein. Um diese Einschränkung zu beheben, präsentiert dieses Papier eine neuartige lokale Lernmethode zur Kovariatenauswahl in der nichtparametrischen Kausaleffektschätzung mit latenten Variablen. Die Methode nutzt testbare Unabhängigkeits- und Abhängigkeitsbeziehungen zwischen beobachteten Variablen, um gültige Anpassungssätze für die Zielkausalbeziehung zu identifizieren und gewährleistet unter Standardannahmen Vollständigkeit und Korrektheit.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können Kovariaten effizient ausgewählt werden, um den Kausaleffekt einer spezifischen Behandlungsvariablen X auf eine Ergebnisvariable Y in Gegenwart latenter Variablen zu schätzen?

Bedeutung des Problems

  1. Breite Anwendbarkeit: Die Kausaleffektschätzung ist in Epidemiologie, Sozialwissenschaften, Wirtschaftswissenschaften und künstlicher Intelligenz von entscheidender Bedeutung
  2. Praktische Anforderungen: In praktischen Anwendungen sind ideale randomisierte kontrollierte Studien oft schwer durchzuführen
  3. Verzerrungskontrolle: Falsche Kovariatenauswahl führt zu verzerrten Kausaleffektschätzungen

Einschränkungen bestehender Methoden

  1. Globales Strukturlernen: Bestehende Methoden wie IDA und LV-IDA erfordern das Erlernen der vollständigen Kausaldiagrammstruktur mit hoher Rechenkomplexität
  2. Vernachlässigung latenter Variablen: Viele Methoden setzen das Fehlen latenter Confounding-Variablen voraus, was in praktischen Anwendungen unrealistisch ist
  3. Unvollständigkeit lokaler Methoden: Methoden wie CEELS sind zwar effizienter, können aber gültige Anpassungssätze übersehen

Forschungsmotivation

Der Ausgangspunkt dieses Papiers ist die Entwicklung einer Kovariatenauswahlmethode, die sowohl die Effizienzvorteile des lokalen Lernens bewahrt als auch Vollständigkeit und Korrektheit gewährleistet, besonders in komplexen Szenarien mit latenten Variablen.

Kernbeiträge

  1. Vorschlag des LSAS-Algorithmus: Entwurf eines vollständig lokalen Kovariatenauswahlalgorithmus, der testbare Unabhängigkeits- und Abhängigkeitsbeziehungen nutzt und das Vorhandensein latenter Variablen ermöglicht
  2. Theoretische Garantien: Beweis der Vollständigkeit und Korrektheit des vorgeschlagenen Algorithmus unter Standardannahmen, der gültige Anpassungssätze für Zielkausalbeziehungen identifizieren kann
  3. Effizienzverbesserung: Signifikante Reduzierung der Rechenkomplexität im Vergleich zu globalen Methoden, mit Zeitkomplexität von O(t×2^t) auf O(|MB(X)|-1)×2^|MB(Y)|-1+n
  4. Experimentelle Validierung: Verifikation der Algorithmuseffektivität auf synthetischen und realen Daten

Methodische Details

Aufgabendefinition

Eingabe: Beobachtungsdatensatz D, bestehend aus Behandlungsvariable X, Ergebnisvariable Y und Kovariatenset O Ausgabe:

  • Szenario S1: Geschätzter Kausaleffekt θ von X auf Y
  • Szenario S2: Bestätigung, dass X keinen Kausaleffekt auf Y hat (θ=0)
  • Szenario S3: Unmöglichkeit zu bestimmen, ob ein Kausaleffekt existiert (θ=∅)

Einschränkungen:

  • Y ist kein kausaler Vorfahr von X
  • O ist ein Set von Präprozess-Variablen (X und Y sind keine kausalen Vorfahren von Variablen in O)

Theoretische Grundlagen

AMB-Definition

Definition des Anpassungssatzes innerhalb der Markov-Decke AMB(X,Y):

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z blockiert alle nicht-kausalen Pfade von X zu Y

Schlüsselsätze

Satz 1 (AMB-Existenz): Ein Subset von O existiert als Anpassungssatz für (X,Y) dann und nur dann, wenn ein Subset von MB(Y){X} als Anpassungssatz existiert.

Satz 2 (Regel R1): Für Z ⊆ MB(Y){X}, wenn ein S ∈ MB(X){Y} existiert, das erfüllt:

  • S ⊥̸⊥ Y | Z (Bedingung i)
  • S ⊥⊥ Y | Z∪{X} (Bedingung ii)

dann ist Z ein AMB(X,Y) und X hat einen Kausaleffekt auf Y.

Satz 3 (Regel R2): Wenn ein Z ⊆ MB(Y){X} und S ∈ MB(X){Y} existieren, die eine der folgenden Bedingungen erfüllen:

  • X ⊥⊥ Y | Z (Bedingung i)
  • S ⊥̸⊥ X | Z und S ⊥⊥ Y | Z (Bedingung ii)

dann hat X keinen Kausaleffekt auf Y.

LSAS-Algorithmusablauf

Algorithmus 1: Local Search Adjustment Sets (LSAS)
Eingabe: Beobachtungsdatensatz D, Behandlungsvariable X, Ergebnisvariable Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // Initialisierung der Kausaleffektschätzung
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S und Z erfüllen Regel R1 then
5:     Schätze Kausaleffekt θ von X auf Y, Θ ← θ // Szenario S1
6:   end if
7:   if S und Z erfüllen Regel R2 then
8:     return Θ ← 0 // Kein Kausaleffekt, Szenario S2
9:   end if
10: end for
Ausgabe: Geschätzter Kausaleffekt Θ // Wenn ∅, dann Szenario S3

Technische Innovationen

  1. Nutzung lokaler Markov-Decke: Benötigt nur Markov-Decken-Informationen von X und Y, vermeidet globales Graphenlernen
  2. Regelgesteuerte Identifikation: Direkte Identifikation von Kausalbeziehungen aus Unabhängigkeitstests durch R1- und R2-Regeln
  3. Behandlung latenter Variablen: Handhabung latenter Confounding-Variablen im MAG-Framework
  4. Vollständigkeitsgarantie: Theoretischer Beweis der Vollständigkeit der Methode, übersieht keine identifizierbaren Anpassungssätze

Experimentelle Einrichtung

Datensätze

  1. Synthetische Daten:
    • Zufallsgraphen: Erdős-Rényi-Modell G(n,d), 20-50 Knoten, durchschnittlicher Grad 3-9
    • Spezifische Strukturen: DAG-Strukturen basierend auf Abbildung 3(a) und 4(a)
    • Benchmark-Netzwerke: INSURANCE (27 Knoten), MILDEW (35 Knoten), WIN95PTS (76 Knoten), ANDES (223 Knoten)
  2. Reale Daten: Cattaneo2-Datensatz mit 4642 Aufzeichnungen von Einzelgeburten in Pennsylvania

Bewertungsmetriken

  • Relativer Fehler (RE): |(Schätzwert-Wahrheitswert)/Wahrheitswert| × 100%
  • Testanzahl (nTest): Anzahl der vom Algorithmus durchgeführten Unabhängigkeitstests

Vergleichsmethoden

  • LV-IDA: Globale Graphenlernmethode basierend auf RFCI-Algorithmus
  • EHS: Globale Suchvormethode mit Präprozess-Annahme
  • CEELS: Lokale Suchmethode mit Präprozess-Annahme
  • LDP: Lokale Suchmethode mit gelockerten Präprozess-Annahmen

Implementierungsdetails

  • Stichprobengröße: 1K, 5K, 10K, 15K
  • Lineares Gaußsches Kausalmodell, Kantengewichte aus Uniform0.5,1.5 gezogen
  • Signifikanzniveau für Unabhängigkeitstests: 0.01
  • Maximale Größe der Bedingungsmenge: 3-7 (abhängig von Netzwerkkomplexität)

Experimentelle Ergebnisse

Hauptergebnisse

Experimente mit spezifischen Strukturen

Auf MAG-Strukturen entsprechend Abbildung 3(b) und 4(b):

  • Relativer Fehler: LSAS übertrifft andere Methoden bei allen Stichprobengrößen signifikant
  • Testeffizenz: nTest von LSAS ist deutlich niedriger als bei LV-IDA und EHS
  • Vollständigkeitsvorteil: CEELS und LDP können aufgrund von Unvollständigkeit auf einigen Strukturen keine gültigen Anpassungssätze finden

Benchmark-Netzwerk-Experimente

Auf MILDEW- und WIN95PTS-Netzwerken:

  • LSAS zeigt optimale Leistung bei fast allen Bewertungsmetriken und Stichprobengrößen
  • Selbst bei Verletzung der Präprozess-Annahme übertrifft LSAS andere Methoden
  • EHS kann aufgrund zu langer Laufzeiten auf großen Netzwerken nicht abgeschlossen werden

Validierung mit realen Daten

Auf dem Cattaneo2-Datensatz zur Untersuchung des Effekts von Schwangerschaftsrauchen auf das Geburtsgewicht:

  • Effektschätzungen von LSAS und EHS fallen beide in den Benchmark-Bereich -250g, -200g
  • LSAS benötigt nur 158 Unabhängigkeitstests, während CEELS 1284 benötigt und LDP 266
  • Validiert die Effektivität der Methode in praktischen Anwendungen

Ablationsstudien

Das Papier validiert die Robustheit der Methode durch Experimente mit unterschiedlichen Netzwerkdichten:

  • Mit zunehmender Graphdichte sinkt die Leistung aller Methoden, aber LSAS behält einen deutlichen Vorteil
  • Im G(40,9)-Netzwerk hat LDP zwar niedrigere nTest, aber LSAS zeigt signifikant bessere RE

Laufzeitanalyse

LSAS zeigt in den meisten Netzwerken und Stichprobengrößen optimale Laufzeitperformance. Die einzige Ausnahme ist das WIN95PTS-Netzwerk bei großen Stichprobengrößen (15K), wo LDP schneller ist, aber die Genauigkeit von LSAS ist signifikant höher.

Verwandte Arbeiten

Methoden mit bekanntem Kausaldiagramm

  • Klassische Anpassungskriterien: Hintertür-Kriterium, verallgemeinertes Hintertür-Kriterium
  • Optimale Anpassungssätze: Suche nach Anpassungssätzen mit minimaler asymptotischer Varianz

Methoden mit unbekanntem Kausaldiagramm

  • Globales Lernen: IDA-Serienmethoden, erfordern Erlernen vollständiger CPDAG/PAG
  • Lokales Lernen: CovSel, EHS und andere Methoden, aber die meisten setzen Abwesenheit latenter Variablen voraus
  • Behandlung latenter Variablen: LV-IDA, CE-SAT und andere Methoden, aber mit hoher Rechenkomplexität

Vorteile dieses Papiers

Im Vergleich zu bestehenden Arbeiten vereint diese Methode die Effizienz des lokalen Lernens mit der Vollständigkeit globaler Methoden, besonders mit deutlichen Vorteilen bei der Behandlung latenter Variablen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Vorschlag des ersten Kovariatenauswahlalgorithmus, der bei Vorhandensein latenter Variablen sowohl Lokalität bewahrt als auch Vollständigkeit gewährleistet
  2. Theoretischer Beweis der Korrektheit und Vollständigkeit der Methode
  3. Experimentelle Validierung signifikanter Vorteile in Effizienz und Genauigkeit

Einschränkungen

  1. Präprozess-Annahme: Verlässt sich immer noch auf Präprozess-Annahmen, zeigt aber gute Leistung bei einigen Verletzungen
  2. Nachfahren-Identifikation: Kann Nachfahren der Behandlungsvariablen nicht lokal identifizieren, ohne den vollständigen Graphen wiederherzustellen
  3. Unabhängigkeitstests: Abhängigkeit von genauen Unabhängigkeitstests, kann bei endlichen Stichproben Fehler aufweisen

Zukünftige Richtungen

  1. Lockerung von Annahmen: Entwicklung von Methoden, die nicht auf Präprozess-Annahmen angewiesen sind
  2. Integration von Hintergrundwissen: Nutzung von Domänenwissen zur Unterstützung der Kausalidentifikation
  3. Multi-Umgebungs-Daten: Nutzung von Multi-Umgebungs-Daten zur Verbesserung der Kausalidentifikation
  4. Nachfahren-Identifikation: Forschung zur lokalen Identifikation von Nachfahren der Behandlungsvariablen

Tiefgreifende Bewertung

Stärken

  1. Theoretischer Beitrag: Bereitstellung eines vollständigen theoretischen Rahmens, der die Machbarkeit lokaler Methoden beweist
  2. Praktischer Wert: Signifikante Reduzierung der Rechenkomplexität ermöglicht großflächige Anwendungen
  3. Umfassende Experimente: Vollständige Validierung auf verschiedenen Datentypen
  4. Klare Darstellung: Klare Papierstruktur, strenge theoretische Darlegung

Mängel

  1. Annahmebeschränkungen: Präprozess-Annahmen können in einigen Anwendungsszenarien nicht erfüllt sein
  2. Testabhängigkeit: Methodenleistung hängt stark von der Genauigkeit von Unabhängigkeitstests ab
  3. Skalierbarkeit: Skalierbarkeit auf sehr große Netzwerke muss noch validiert werden

Auswirkungen

  1. Akademischer Wert: Bereitstellung neuer theoretischer und methodischer Rahmen für das Kausalinferenzfeld
  2. Praktische Bedeutung: Bereitstellung effizienter Lösungen für die Kovariatenauswahl in praktischen Anwendungen
  3. Reproduzierbarkeit: Offener Code, detaillierte Experimenteinstellungen mit guter Reproduzierbarkeit

Anwendungsszenarien

Diese Methode ist besonders geeignet für:

  • Kausaleffektschätzung in großflächigen Beobachtungsdaten
  • Komplexe Systeme mit latenten Confounding-Variablen
  • Echtzeitanwendungen mit Anforderungen an Recheneffizienz
  • Forschungsdesigns mit relativ vollständiger Erfassung von Präprozess-Variablen

Literaturverzeichnis

Das Papier zitiert wichtige Literatur im Kausalinferenzfeld, einschließlich klassischer Werke von Pearl, PC-Algorithmus von Spirtes und anderen sowie neuere lokale Lernmethoden, was umfassendes Verständnis und tiefe Kenntnis verwandter Arbeiten widerspiegelt.