Local Causal Discovery for Statistically Efficient Causal Inference
Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic
Lokale Kausale Entdeckung für statistisch effiziente kausale Inferenz
Methoden der kausalen Entdeckung können für die Schätzung des kausalen Effekts zwischen einem Paar von Zielvariablen gültige Anpassungsmengen identifizieren, selbst wenn der zugrunde liegende kausale Graph unbekannt ist. Globale Methoden der kausalen Entdeckung konzentrieren sich auf das Erlernen des gesamten kausalen Graphen und können daher optimale Anpassungsmengen (d.h. solche mit der niedrigsten asymptotischen Varianz) wiederherstellen, werden aber mit zunehmender Anzahl von Variablen schnell rechnerisch unhandlich. Lokale Methoden der kausalen Entdeckung bieten durch die Konzentration auf die lokale Nachbarschaft der Zielvariablen eine skalierbarere Alternative, sind aber auf statistisch suboptimale Anpassungsmengen beschränkt. In dieser Arbeit präsentieren die Autoren LOAD (Local Optimal Adjustment Discovery), eine zuverlässige und vollständige Methode der kausalen Entdeckung, die die Recheneffizienz lokaler Methoden mit der statistischen Optimalität globaler Methoden verbindet.
In der kausalen Inferenz ist die Schätzung des kausalen Effekts zwischen zwei Variablen eine Kernaufgabe. Wenn der zugrunde liegende kausale Graph unbekannt ist, müssen Methoden der kausalen Entdeckung verwendet werden, um gültige Anpassungsmengen für die Schätzung des kausalen Effekts zu identifizieren. Bestehende Methoden stehen vor einem grundlegenden Kompromiss:
Das Dilemma globaler Methoden: Globale Methoden der kausalen Entdeckung (wie der PC-Algorithmus) können den vollständigen kausalen Graphen erlernen und optimale Anpassungsmengen wiederherstellen, aber ihre Rechenkomplexität wächst exponentiell mit der Anzahl der Variablen, was sie bei großen Problemen unmöglich macht.
Die Einschränkungen lokaler Methoden: Lokale Methoden der kausalen Entdeckung (wie MB-by-MB, LDECC) sind rechnerisch effizient, können aber nur suboptimale Anpassungsmengen wiederherstellen, was zu einer höheren asymptotischen Varianz bei der Schätzung des kausalen Effekts führt.
Die Autoren identifizieren folgende Probleme bei bestehenden lokalen Methoden:
Der LocalPC-Algorithmus ist bei der Identifizierung von Nachbarvariablen nicht zuverlässig genug und kann fälschlicherweise nicht-benachbarte Ehepartner als benachbart identifizieren
Der LDECC-Algorithmus ist unvollständig und kann in bestimmten Fällen nicht alle orientierbaren Kanten orientieren
Der LDP-Algorithmus kann fälschlicherweise berichten, dass Effekte nicht identifizierbar sind, wenn sie tatsächlich null sind
Daher ist eine neue Methode erforderlich, die die Recheneffizienz lokaler Methoden beibehält und gleichzeitig die statistische Optimalität globaler Methoden erreicht.
Entwicklung von Methoden zur Bestimmung der Identifizierbarkeit kausaler Effekte basierend auf lokalen Informationen: Präsentation von notwendigen und hinreichenden Bedingungen, um allein mit lokalen Informationen zu bestimmen, ob ein kausaler Effekt identifizierbar ist.
Vorstellung des LOAD-Algorithmus: Eine zuverlässige und vollständige Methode, die optimale Anpassungsmengen nur unter Verwendung lokaler Informationen um die Variablen herum identifiziert.
Umfassende experimentelle Bewertung: Bewertung von LOAD auf synthetischen und realen Daten, die zeigt, dass es hochwertige Anpassungsmengen mit niedrigen Rechenkosten wiederherstellen kann.
Theoretische Garantien: Nachweis der Zuverlässigkeit und Vollständigkeit von LOAD bei der Bestimmung der Identifizierbarkeit kausaler Effekte und beim Auffinden optimaler Anpassungsmengen.
Verwendung des LocalRelate-Algorithmus (Algorithmus 1) durch folgende Theoreme:
Explizite Vorfahr-Beziehung (Theorem 4.1): Für zwei verschiedene Knoten X und Y in CPDAG G gilt X ∈ ExplAn_G(Y) genau dann, wenn X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
Bestimmte Nicht-Vorfahr-Beziehung (Theorem 4.2): X ist ein bestimmter Nicht-Vorfahr von Y genau dann, wenn X ⊥⊥ Y | Pa_G(X)
Lokaler Anpassungstest: Erstmalige Präsentation von notwendigen und hinreichenden Bedingungen für die Prüfung der Anpassungsfähigkeit nur mit lokalen Informationen, wodurch die Notwendigkeit entfällt, alle möglichen gerichteten Pfade zu überprüfen.
Caching-Mechanismus: Der verbesserte MB-by-MB-Algorithmus nutzt Caching zur Wiederverwendung von in früheren Läufen identifizierten Markov-Decken und lokalen Strukturen, was die Recheneffizienz erheblich verbessert.
Theoretische Vollständigkeit: Nachweis, dass LOAD bei der Bestimmung kausaler Beziehungen, Identifizierbarkeit und optimaler Anpassungsmengen zuverlässig und vollständig ist.
Die Anzahl der Tests auf bedingte Unabhängigkeit von LOAD ist in allen Einstellungen durchweg niedriger als bei globalen Methoden und etwas höher als bei lokalen Methoden:
Bei 1000 Knoten benötigt LOAD 9,43×10³ Tests, während PC 542,52×10³ Tests benötigt
Im Vergleich zu den 5,64×10³ Tests von MB-by-MB+ ist der zusätzliche Aufwand von LOAD angemessen
PC-Algorithmus: Klassische constraint-basierte Methode, aber hohe Rechenkomplexität
MARVEL: Rekursive Methode, aber immer noch schwer auf Hunderte von Variablen skalierbar
SNAP: Progressive Identifizierung und Entfernung bestimmter Nicht-Vorfahren, aber erfordert immer noch kausale Entdeckung auf allen möglichen Vorfahren
Bedeutende theoretische Beiträge: Erstmalige Präsentation eines Anpassungstests basierend nur auf lokalen Informationen mit wichtigem theoretischen Wert
Hohe Praktikabilität: Erreicht statistische Optimalität bei Beibehaltung der Recheneffizienz und löst damit ein Schlüsselproblem in praktischen Anwendungen
Umfassende Experimente: Abdeckung verschiedener Datentypen, Netzwerkgrößen und Bewertungsmetriken mit überzeugenden Ergebnissen
Algorithmische Vollständigkeit: Bereitstellung theoretischer Garantien für Zuverlässigkeit und Vollständigkeit mit strenger Algorithmus-Gestaltung
Das Papier zitiert wichtige Literatur im Bereich der kausalen Inferenz, einschließlich:
Pearl (2009): Causality - Klassisches Lehrbuch der kausalen Inferenz
Spirtes et al. (2000): Grundlegende Arbeiten zur constraint-basierten kausalen Entdeckung
Henckel et al. (2022): Graphische Kriterien für optimale Anpassungsmengen
Perković et al. (2015): Definition und Eigenschaften der Anpassungsfähigkeit
Gesamtbewertung: Dies ist ein hochqualitatives Papier zur kausalen Inferenz mit wichtigen Beiträgen auf theoretischer und praktischer Ebene. Der LOAD-Algorithmus löst elegant das Kompromiss-Problem zwischen Recheneffizienz und statistischer Optimalität in der kausalen Entdeckung und hat bedeutende akademische Werte und Anwendungsperspektiven.