2025-11-18T15:28:13.400087

Local Causal Discovery for Statistically Efficient Causal Inference

Schubert, Claassen, Magliacane

Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.

academic

Lokale Kausale Entdeckung für statistisch effiziente kausale Inferenz

Grundinformationen

Paper-ID: 2510.14582
Titel: Local Causal Discovery for Statistically Efficient Causal Inference
Autoren: Mátyás Schubert (Universität Amsterdam), Tom Claassen (Radboud-Universität Nijmegen), Sara Magliacane (Universität Amsterdam)
Klassifizierung: stat.ML cs.AI cs.LG
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.14582v1

Zusammenfassung

Methoden der kausalen Entdeckung können für die Schätzung des kausalen Effekts zwischen einem Paar von Zielvariablen gültige Anpassungsmengen identifizieren, selbst wenn der zugrunde liegende kausale Graph unbekannt ist. Globale Methoden der kausalen Entdeckung konzentrieren sich auf das Erlernen des gesamten kausalen Graphen und können daher optimale Anpassungsmengen (d.h. solche mit der niedrigsten asymptotischen Varianz) wiederherstellen, werden aber mit zunehmender Anzahl von Variablen schnell rechnerisch unhandlich. Lokale Methoden der kausalen Entdeckung bieten durch die Konzentration auf die lokale Nachbarschaft der Zielvariablen eine skalierbarere Alternative, sind aber auf statistisch suboptimale Anpassungsmengen beschränkt. In dieser Arbeit präsentieren die Autoren LOAD (Local Optimal Adjustment Discovery), eine zuverlässige und vollständige Methode der kausalen Entdeckung, die die Recheneffizienz lokaler Methoden mit der statistischen Optimalität globaler Methoden verbindet.

Forschungshintergrund und Motivation

Problemdefinition

In der kausalen Inferenz ist die Schätzung des kausalen Effekts zwischen zwei Variablen eine Kernaufgabe. Wenn der zugrunde liegende kausale Graph unbekannt ist, müssen Methoden der kausalen Entdeckung verwendet werden, um gültige Anpassungsmengen für die Schätzung des kausalen Effekts zu identifizieren. Bestehende Methoden stehen vor einem grundlegenden Kompromiss:

Das Dilemma globaler Methoden: Globale Methoden der kausalen Entdeckung (wie der PC-Algorithmus) können den vollständigen kausalen Graphen erlernen und optimale Anpassungsmengen wiederherstellen, aber ihre Rechenkomplexität wächst exponentiell mit der Anzahl der Variablen, was sie bei großen Problemen unmöglich macht.
Die Einschränkungen lokaler Methoden: Lokale Methoden der kausalen Entdeckung (wie MB-by-MB, LDECC) sind rechnerisch effizient, können aber nur suboptimale Anpassungsmengen wiederherstellen, was zu einer höheren asymptotischen Varianz bei der Schätzung des kausalen Effekts führt.

Forschungsmotivation

Die Autoren identifizieren folgende Probleme bei bestehenden lokalen Methoden:

Der LocalPC-Algorithmus ist bei der Identifizierung von Nachbarvariablen nicht zuverlässig genug und kann fälschlicherweise nicht-benachbarte Ehepartner als benachbart identifizieren
Der LDECC-Algorithmus ist unvollständig und kann in bestimmten Fällen nicht alle orientierbaren Kanten orientieren
Der LDP-Algorithmus kann fälschlicherweise berichten, dass Effekte nicht identifizierbar sind, wenn sie tatsächlich null sind

Daher ist eine neue Methode erforderlich, die die Recheneffizienz lokaler Methoden beibehält und gleichzeitig die statistische Optimalität globaler Methoden erreicht.

Kernbeiträge

Entwicklung von Methoden zur Bestimmung der Identifizierbarkeit kausaler Effekte basierend auf lokalen Informationen: Präsentation von notwendigen und hinreichenden Bedingungen, um allein mit lokalen Informationen zu bestimmen, ob ein kausaler Effekt identifizierbar ist.
Vorstellung des LOAD-Algorithmus: Eine zuverlässige und vollständige Methode, die optimale Anpassungsmengen nur unter Verwendung lokaler Informationen um die Variablen herum identifiziert.
Umfassende experimentelle Bewertung: Bewertung von LOAD auf synthetischen und realen Daten, die zeigt, dass es hochwertige Anpassungsmengen mit niedrigen Rechenkosten wiederherstellen kann.
Theoretische Garantien: Nachweis der Zuverlässigkeit und Vollständigkeit von LOAD bei der Bestimmung der Identifizierbarkeit kausaler Effekte und beim Auffinden optimaler Anpassungsmengen.

Methodische Details

Aufgabendefinition

Gegeben ein Paar von Zielvariablen X und Y besteht das Ziel darin:

Die kausale Beziehung zwischen X und Y zu bestimmen (expliziter Vorfahr, möglicher Vorfahr oder bestimmter Nicht-Vorfahr)
Zu bestimmen, ob der kausale Effekt identifizierbar ist
Falls identifizierbar, die optimale Anpassungsmenge zu finden; andernfalls eine lokal gültige Eltern-Anpassungsmenge zurückzugeben

LOAD-Algorithmus-Architektur

Der LOAD-Algorithmus besteht aus 5 Hauptschritten:

Schritt 1: Bestimmung der kausalen Beziehung zwischen Zielvariablen

Verwendung des LocalRelate-Algorithmus (Algorithmus 1) durch folgende Theoreme:

Explizite Vorfahr-Beziehung (Theorem 4.1): Für zwei verschiedene Knoten X und Y in CPDAG G gilt X ∈ ExplAn_G(Y) genau dann, wenn X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
Bestimmte Nicht-Vorfahr-Beziehung (Theorem 4.2): X ist ein bestimmter Nicht-Vorfahr von Y genau dann, wenn X ⊥⊥ Y | Pa_G(X)

Schritt 2: Prüfung der Identifizierbarkeit des kausalen Effekts

Vorstellung eines adaptiven Tests basierend auf lokalen Informationen:

Lemma 4.3: Für X ∈ PossAn_G(Y) in CPDAG G ist G relativ zu (X,Y) anpassungsfähig genau dann, wenn:

∀V ∈ Sib_G(X) : V ⊥⊥ Y | Pa_G(V) ∪ {X}

Diese Bedingung kann effizient durch den LocalAmenTest-Algorithmus (Algorithmus 2) erkannt werden.

Schritte 3-5: Konstruktion der optimalen Anpassungsmenge

Falls der kausale Effekt identifizierbar ist, konstruiert LOAD die optimale Anpassungsmenge durch folgende Schritte:

Auffinden expliziter Nachkommen: Identifizierung aller expliziten Nachkommen von T
Identifizierung von Vermittlungsknoten: Auffinden von Knoten, die sowohl explizite Nachkommen von T als auch explizite Vorfahren von O sind

Konstruktion der optimalen Anpassungsmenge:

Oset_G(T,O) = Pa_G(Cn_G(T,O)) \ (Cn_G(T,O) ∪ {T})

Technische Innovationen

Lokaler Anpassungstest: Erstmalige Präsentation von notwendigen und hinreichenden Bedingungen für die Prüfung der Anpassungsfähigkeit nur mit lokalen Informationen, wodurch die Notwendigkeit entfällt, alle möglichen gerichteten Pfade zu überprüfen.
Caching-Mechanismus: Der verbesserte MB-by-MB-Algorithmus nutzt Caching zur Wiederverwendung von in früheren Läufen identifizierten Markov-Decken und lokalen Strukturen, was die Recheneffizienz erheblich verbessert.
Theoretische Vollständigkeit: Nachweis, dass LOAD bei der Bestimmung kausaler Beziehungen, Identifizierbarkeit und optimaler Anpassungsmengen zuverlässig und vollständig ist.

Experimentelle Einrichtung

Datensätze

Synthetische Daten:
- Verwendung von zufällig generierten Erdős–Rényi-Graphen
- Anzahl der Variablen: 100-1000
- Erwarteter Grad: d=2, maximaler Grad: dmax=10
- Stichprobengröße: nD=10000
Reale Netzwerke:
- MAGIC-NIAB-Netzwerk: 44 Knoten, durchschnittlicher Grad 3
- ANDES-Netzwerk: 223 Knoten, durchschnittlicher Grad 3,03

Bewertungsmetriken

Recheneffizienz: Anzahl der Tests auf bedingte Unabhängigkeit
Qualität der Anpassungsmenge: F1-Score der optimalen Anpassungsmenge
Qualität der Schätzung des kausalen Effekts: Interventionsdistanz

Vergleichsmethoden

Globale Methoden: PC, MARVEL, SNAP(∞)
Lokale Methoden: MB-by-MB+, LDECC+, LDP+ (erweiterte Versionen)

Implementierungsdetails

Signifikanzniveau: α = 0,01
Drei Arten von Tests auf bedingte Unabhängigkeit: Oracle d-Separation, Fisher-Z-Test, G²-Test
100 Durchläufe pro Einstellung, wobei die besten und schlechtesten 5 Ergebnisse entfernt werden

Experimentelle Ergebnisse

Hauptergebnisse

Recheneffizienz

Die Anzahl der Tests auf bedingte Unabhängigkeit von LOAD ist in allen Einstellungen durchweg niedriger als bei globalen Methoden und etwas höher als bei lokalen Methoden:

Bei 1000 Knoten benötigt LOAD 9,43×10³ Tests, während PC 542,52×10³ Tests benötigt
Im Vergleich zu den 5,64×10³ Tests von MB-by-MB+ ist der zusätzliche Aufwand von LOAD angemessen

Qualität der Anpassungsmenge (F1-Score)

Oracle-Einstellung: LOAD erreicht einen perfekten F1=1,0, vergleichbar mit globalen Methoden
Fisher-Z-Test: LOAD übertrifft alle Baseline-Methoden bei allen Knotenzahlen mit F1-Scores von etwa 0,91-0,95
G²-Test: LOAD zeigt suboptimale Leistung, ist aber immer noch die zweitbeste Methode

Interventionsdistanz

LOAD erreicht in den meisten Einstellungen die niedrigste Interventionsdistanz:

Oracle-Einstellung: 0,003 (vergleichbar mit PC, SNAP)
Fisher-Z-Test: 0,014-0,026 (optimal)
G²-Test: 0,022-0,036 (zweitbest, nur hinter PC)

Ergebnisse auf realen Daten

Im MAGIC-NIAB-Netzwerk:

LOAD erreicht den besten F1-Score (0,62)
Erreicht die niedrigste Interventionsdistanz (0,007)
Anzahl der Tests auf bedingte Unabhängigkeit (4,35×10³) liegt zwischen lokalen und globalen Methoden

Ablationsstudien

Bekannte Behandlungs-Ergebnis-Beziehung: Wenn Hintergrundwissen bereitgestellt wird, übertrifft LOAD* PC bei binären Daten
Identifizierbare Zielpaare: In Einstellungen, die sicherstellen, dass der kausale Effekt identifizierbar ist, bleiben die Ergebnismuster konsistent
Parameterempfindlichkeit: LOAD zeigt Robustheit gegenüber verschiedenen Stichprobengrößen und erwarteten Graden

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

LOAD verbindet erfolgreich die Recheneffizienz lokaler Methoden mit der statistischen Optimalität globaler Methoden
Der vorgeschlagene lokale Anpassungstest bietet eine effiziente Methode zur Bestimmung der Identifizierbarkeit kausaler Effekte
Bei verschiedenen Datentypen und Netzwerkstrukturen zeigt LOAD überlegene Leistung

Einschränkungen

Annahme kausaler Suffizienz: Die aktuelle Version setzt voraus, dass es keine latenten Verwirrvariablen oder Selektionsverzerrungen gibt
Rechnerische Engpässe bei großen Netzwerken: Bei extrem großen Graphen kann die Markov-Decken-Suche immer noch ein Rechnerengpass sein
Leistung bei binären Daten: Begrenzte Leistung bei Verwendung des G²-Tests auf binären Daten

Zukünftige Richtungen

Erweiterung auf kausale Insuffizienz-Einstellungen: Umgang mit latenten Verwirrvariablen
Optimierung der Markov-Decken-Entdeckung: Weitere Verbesserung der Recheneffizienz bei großen Netzwerken
Verbesserung der Leistung bei endlichen Stichproben: Besonders bei binären Daten

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge: Erstmalige Präsentation eines Anpassungstests basierend nur auf lokalen Informationen mit wichtigem theoretischen Wert
Hohe Praktikabilität: Erreicht statistische Optimalität bei Beibehaltung der Recheneffizienz und löst damit ein Schlüsselproblem in praktischen Anwendungen
Umfassende Experimente: Abdeckung verschiedener Datentypen, Netzwerkgrößen und Bewertungsmetriken mit überzeugenden Ergebnissen
Algorithmische Vollständigkeit: Bereitstellung theoretischer Garantien für Zuverlässigkeit und Vollständigkeit mit strenger Algorithmus-Gestaltung

Mängel

Annahmebeschränkungen: Die Annahme kausaler Suffizienz ist in praktischen Anwendungen möglicherweise nicht erfüllt
Skalierungsprobleme: Obwohl besser als globale Methoden, gibt es immer noch rechnerische Herausforderungen bei extrem großen Netzwerken
Leistung bei endlichen Stichproben: In bestimmten Einstellungen mit endlichen Stichproben ist die Leistung nicht stabil genug

Auswirkungen

Akademischer Wert: Bietet neue theoretische Rahmen und Algorithmus-Designideen für das Feld der kausalen Entdeckung
Praktischer Wert: Von großer Bedeutung für praktische Anwendungen, die Schätzung kausaler Effekte erfordern
Reproduzierbarkeit: Detaillierte Algorithmus-Beschreibungen und experimentelle Einrichtungen ermöglichen einfache Reproduktion und Erweiterung

Anwendungsszenarien

Kausale Inferenz mittlerer Größe: Schätzung kausaler Effekte mit Hunderten bis Tausenden von Variablen
Rechnerisch begrenzte Ressourcen: Anwendungsszenarien, die ein Gleichgewicht zwischen Recheneffizienz und statistischer Leistung erfordern
Kausale Suffizienz-Umgebung: Beobachtungsstudien ohne wichtige latente Verwirrvariablen

Referenzen

Das Papier zitiert wichtige Literatur im Bereich der kausalen Inferenz, einschließlich:

Pearl (2009): Causality - Klassisches Lehrbuch der kausalen Inferenz
Spirtes et al. (2000): Grundlegende Arbeiten zur constraint-basierten kausalen Entdeckung
Henckel et al. (2022): Graphische Kriterien für optimale Anpassungsmengen
Perković et al. (2015): Definition und Eigenschaften der Anpassungsfähigkeit

Gesamtbewertung: Dies ist ein hochqualitatives Papier zur kausalen Inferenz mit wichtigen Beiträgen auf theoretischer und praktischer Ebene. Der LOAD-Algorithmus löst elegant das Kompromiss-Problem zwischen Recheneffizienz und statistischer Optimalität in der kausalen Entdeckung und hat bedeutende akademische Werte und Anwendungsperspektiven.