We present a new method for causal discovery in linear structural vector autoregressive models. We adapt an idea designed for independent observations to the case of time series while retaining its favorable properties, i.e., explicit error control for false causal discovery, at least asymptotically. We apply our method to several real-world bivariate time series datasets and discuss its findings which mostly agree with common understanding. The arrow of time in a model can be interpreted as background knowledge on possible causal mechanisms. Hence, our ideas could be extended to incorporating different background knowledge, even for independent observations.
- Papier-ID: 2403.03778
- Titel: Ancestor regression in structural vector autoregressive models
- Autoren: Christoph Schultheiss, Markus Ulmer, Peter Bühlmann (ETH Zürich)
- Klassifizierung: stat.ME (Statistik - Methodologie)
- Veröffentlichungsdatum: 3. Januar 2025 (arXiv-Version)
- Papier-Link: https://arxiv.org/abs/2403.03778
In diesem Papier wird eine neue Methode zur kausalen Entdeckung in linearen strukturellen Vektor-Autoregression-Modellen vorgestellt. Die Autoren erweitern die ursprünglich für unabhängige Beobachtungen konzipierte Ahnen-Regressionsmethode auf Zeitreihen, während sie deren vorteilhafte Eigenschaften bewahren, nämlich explizite Fehlerkontrolle bei falschen kausalen Entdeckungen (zumindest im asymptotischen Sinne). Die Methode wird auf mehrere reale binäre Zeitreihendatensätze angewendet, wobei die Ergebnisse größtenteils mit dem Allgemeinwissen übereinstimmen. Der Zeitpfeil kann als Hintergrundwissen über mögliche Kausalitätsmechanismen interpretiert werden, daher kann dieser Ansatz auf die Kombination verschiedener Hintergrundwissen erweitert werden und ist sogar auf unabhängige Beobachtungen anwendbar.
- Zu lösende Probleme: Reale Datensätze haben typischerweise eine zeitliche Struktur, die die in der kausalen Entdeckung weit verbreitete Annahme unabhängig identisch verteilter Daten verletzt. Dieses Papier zielt darauf ab, das Problem der kausalen Entdeckung in strukturellen Vektor-Autoregression-Modellen (SVAR) zu lösen.
- Bedeutung des Problems: Zeitreihendaten sind in praktischen Anwendungen sehr verbreitet, aber traditionelle Methoden der kausalen Entdeckung sind hauptsächlich für unabhängige Beobachtungen konzipiert. Während zeitliche Abhängigkeit Schätzungsschwierigkeiten mit sich bringt, bietet sie auch Vorteile – Prädiktorvariablen können nicht kausal andere Variablen zu früheren Zeitpunkten beeinflussen.
- Einschränkungen bestehender Methoden:
- Traditionelle Methoden wie LiNGAM sind hauptsächlich für unabhängige Beobachtungen konzipiert
- Mangel an expliziter Fehlerkontrolle für kausale Entdeckung in Zeitreihen
- Bestehende SVAR-Erweiterungsmethoden ermangeln theoretischer Garantien
- Forschungsmotivation: Erweiterung der Ahnen-Regressionsmethode von Schultheiss und Bühlmann (2023) auf multivariate Zeitreihen, wobei asymptotische Garantien beibehalten werden und gleichzeitig zeitliche Abhängigkeit behandelt wird.
- Methodische Erweiterung: Erweiterung der Ahnen-Regression von unabhängigen Beobachtungen auf lineare SVAR-Modelle, die momentane und verzögerte Kausalbeziehungen behandeln
- Fehlerkontrolle: Bereitstellung asymptotischer Typ-I-Fehlergarantien, um explizite Kontrolle über falsche kausale Entdeckungen zu erreichen
- Auswahl von Anpassungsmengen: Demonstration, wie man für verschiedene zeitliche Verzögerungen die richtigen Anpassungsmengen auswählt, um Fehlerkontrolle zu erreichen
- Netzwerk-Inferenz: Vorschlag von Algorithmen zur Konstruktion von momentanen Effektgraphen und zusammengefassten Zeitgraphen
- Empirische Validierung: Validierung der Methodeneffektivität auf realen Datensätzen
Gegeben eine multivariate Zeitreihe xt,j (t = 1,...,T; j = 1,...,d), besteht das Ziel darin, Ahnen-Kausalbeziehungen zwischen Variablen zu identifizieren, einschließlich momentaner Effekte (τ=0) und verzögerter Effekte (τ>0).
SVAR-Modell:
xt=∑τ=0pBτxt−τ+ϵt
Wobei:
- B0 momentanen Effekten entspricht und als azyklische Struktur angenommen wird
- Bτ (τ>0) Verzögerungs-Effektmatrizen sind
- ϵt unabhängige Innovationsterme sind
Äquivalente Form:
xt=∑τ=1pB~τxt−τ+ξt
Kernidee der Ahnen-Regression:
Für eine nichtlineare Funktion f(·), Verwendung der Kleinste-Quadrate-Regression:
f(ξt,jτ) versus ξt−τ
Wobei ξt,jτ und ξt−τ Residuen sind, aus denen die Beiträge früherer Zeitpunkte projiziert wurden.
Schlüsselsatz 1: Für k ∉ AN_τ(j) (k ist kein τ-verzögerter Ahne von j), gilt:
βkf,j,τ=E[zt−τ,kf(ξt,jτ)]/E[zt−τ,k2]=0
- Residuenkonstruktion: Durch Projektion werden Einflüsse früherer Zeitpunkte entfernt, um das Signal-Rausch-Verhältnis zu verbessern
- Verzögerungs-Anpassung: Konstruktion geeigneter Anpassungsmengen für verschiedene Verzögerungen τ
- Asymptotische Theorie: Aufbau auf der Grundlage von nahen Periodizitätsabhängigkeiten für asymptotische Normalität
- Netzwerk-Inferenz: Rekursive Konstruktion von Ahnen-Beziehungen mit Zyklenerkennung
Simulierte Daten:
- Anzahl der Variablen: d = 6, 10, 50
- SVAR-Ordnung: p = 1
- Stichprobengröße: 10² bis 10⁶
- Fehlerverteilungen: t₇, Uniform, Laplace, Mischung von Normalverteilungen
- Kantengewichte: Gleichmäßige Verteilung, Signal-Rausch-Verhältnis kontrolliert
Reale Daten:
- Old Faithful Geysir: Wartezeit vs. Eruptionsdauer (299 Beobachtungen)
- Gasofen: Eingasgasrate vs. Ausgabe-CO₂-Konzentration (296 Beobachtungen)
- Milchproduktpreise: Butter- vs. Cheddar-Käsepreise (522 Beobachtungen)
- Family-wise error rate (FWER): Familienfehlerate bei falschen Entdeckungen
- Power: Erkennungsrate echter Kausalbeziehungen
- p-Werte: Hypothesentests basierend auf asymptotischer Normalverteilung
- LiNGAM-Algorithmus (Hyvärinen et al., 2010)
- Leistungsvergleich unter verschiedenen Stichprobengrößen und Einstellungen versteckter Variablen
- Nichtlineare Funktion: f(x) = sign(x)|x|³
- Mehrfachvergleichskorrektur: Bonferroni-Holm-Methode
- Signifikanzniveau: α = 0,05
Simulationsexperimente:
- Für Nicht-Ahnen-Variablen liegt die durchschnittliche absolute z-Statistik nahe dem theoretischen Nullhypothese-Verteilungsmittelwert
- Typ-I-Fehler werden bei allen Stichprobengrößen kontrolliert
- Erkennungsleistung nimmt mit zunehmender Stichprobengröße zu
- Verzögerte Ahnen sind leichter zu erkennen als momentane Ahnen (stärkeres Signal)
Netzwerk-Inferenz:
- Momentane Effektgraphen und zusammengefasste Zeitgraphen erreichen gute Ahnen-Nicht-Ahnen-Trennung
- Rekursive Konstruktion hilft, schwer einzeln erkennbare Effekte zu erkennen
- Nahezu perfekte Leistung bei großen Stichproben
Einfluss versteckter Variablen:
- Verlust der vorgegebenen Fehlerkontrolle bei Annahmeverletzung
- Aber Effektgrößentrennung zwischen Ahnen und Nicht-Ahnen bleibt erhalten
- p-Wert-Rangfolge kann immer noch echte Ahnen anzeigen
Verschiedene Ahnen-Typen:
- Direkte verzögerte Effekte (B~4,k=0): Stärkstes Signal
- Momentane Ahnen: Mittleres Signal
- Durch momentane Effekte vermittelte verzögerte Ahnen: Schwächstes Signal
Old Faithful Geysir:
- Originaldaten: Keine signifikanten momentanen Effekte erkannt
- Nach Zeitanpassung: Momentaner Effekt von Eruptionsdauer → Wartezeit erkannt (p=5×10⁻⁴)
- Stimmt mit Domänenwissen überein
Gasofen:
- Keine momentanen Effekte
- Verzögerter Effekt von Eingasgasrate → Ausgabe-CO₂-Konzentration erkannt (p=4×10⁻²⁰)
Milchproduktpreise:
- Verzögerter Effekt von Butter → Cheddar-Käse erkannt (p=5×10⁻¹⁵)
- Kein umgekehrter Effekt gefunden, schließt versteckte Verwechslung aus
- Methode zeigt gute Leistung bei endlichen Stichproben
- Zeitliche Struktur bietet Vorwissen, das Kausalinferenz unterstützt
- Rekursive Konstruktion verbessert Netzwerk-Inferenz-Leistung erheblich
- Gewisse Robustheit gegenüber Modellannahmeverletzungen
- LiNGAM-Serie: Shimizu et al. (2006) lineares nicht-gaußsches azyklisches Modell und dessen Zeitreihenerweiterungen
- Strukturelle Kausalmodelle: Peters et al. (2013) eingeschränkte strukturelle Gleichungsmodelle
- Ahnen-Regression: Schultheiss & Bühlmann (2023) Methode für unabhängige Beobachtungen
- Erweiterung der Ahnen-Regression auf Zeitreihen-Einstellung
- Ähnliche Identifizierungsfähigkeit wie LiNGAM-SVAR-Erweiterung, aber mit Fehlerkontrolle
- Höhere Recheneffizienz im Vergleich zu traditionellen Methoden
- vs LiNGAM: Interpretierbare Fehlerkontrolle, aber etwas niedrigere Leistung
- vs traditionelle Methoden: Nutzt zeitliche Struktur, vermeidet bestimmte Identifizierungsprobleme
- vs andere SVAR-Methoden: Stärkere theoretische Garantien, einfachere Implementierung
- Erfolgreiche Erweiterung der Ahnen-Regression auf SVAR-Modelle
- Beibehaltung der vorteilhaften Eigenschaften asymptotischer Typ-I-Fehlerkontrolle
- Validierung der Methodeneffektivität auf simulierten und realen Daten
- Bereitstellung eines neuen theoretischen Rahmens für Zeitreihen-Kausalentdeckung
- Modellannahmen: Erfordert lineare Beziehungen und unabhängige Innovationsterme
- Momentane Azyklizität: Annahme azyklischer momentaner Effekte kann unrealistisch sein
- Gaußsches Rauschen: Empfindlich gegenüber Gaußschem Rauschen benachbarter Variablen
- Versteckte Variablen: Verlust der Fehlerkontrolle bei Vorhandensein unbeobachteter Variablen
- Integration von Hintergrundwissen: Erweiterung auf allgemeinere Hintergrundwissen-Einstellungen
- Nichtlineare Erweiterung: Behandlung nichtlinearer Kausalbeziehungen
- Hochdimensionale Optimierung: Verbesserung der Recheneffizienz für hochdimensionale Zeitreihen
- Robustheit-Verbesserung: Robuste Methoden gegen Modellannahmeverletzungen
- Theoretische Strenge: Vollständige asymptotische Theorieanalyse und Beweise
- Methodische Innovation: Geschickte Nutzung zeitlicher Struktur für Kausalinferenz
- Starke Praktikabilität: Einfache Berechnung, leicht zu implementieren
- Umfassende Validierung: Umfassende Validierung durch Simulation und reale Daten
- Klare Darstellung: Logisch klar, mathematisch präzise
- Strenge Annahmen: Linearitäts- und Unabhängigkeitsannahmen begrenzen Anwendungsbereich
- Leistungsprobleme: In einigen Fällen niedrigere Leistung als LiNGAM
- Begrenzte reale Daten: Validierung nur auf binären Zeitreihen
- Hochdimensionale Herausforderungen: Mehrfachvergleichskorrektur bei großen Netzwerken zu konservativ
- Theoretischer Beitrag: Neuer theoretischer Rahmen für Zeitreihen-Kausalentdeckung
- Methodologischer Wert: Wichtige Erweiterung der Ahnen-Regression
- Praktischer Wert: Werkzeuge für praktische Zeitreihenanalyse
- Reproduzierbarkeit: Öffentlich verfügbarer Code, reproduzierbare Ergebnisse
- Wirtschaftszeitreihen: Kausalanalyse makroökonomischer Variablen
- Biomedizin: Kausalinferenz physiologischer Signale
- Ingenieurwesen: Kausalidentifikation in Kontrollsystemen
- Sozialwissenschaften: Dynamische Kausalanalyse sozialer Phänomene
- Schultheiss, C. and Bühlmann, P. (2023). Ancestor regression in linear structural equation models. Biometrika, 110(4):1117–1124.
- Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., and Jordan, M. (2006). A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).
- Peters, J., Janzing, D., and Schölkopf, B. (2013). Causal inference on time series using restricted structural equation models. Advances in neural information processing systems, 26.
- Hyvärinen, A., Zhang, K., Shimizu, S., and Hoyer, P. O. (2010). Estimation of a structural vector autoregression model using non-gaussianity. Journal of Machine Learning Research, 11(5).
Gesamtbewertung: Dies ist ein hochqualitatives methodologisches Papier mit wichtigen Beiträgen auf theoretischer und praktischer Ebene. Die Autoren haben eine wichtige Kausalentdeckungsmethode erfolgreich auf die Zeitreihen-Einstellung erweitert und dabei die vorteilhaften Eigenschaften der ursprünglichen Methode bewahrt. Trotz einiger Einschränkungen bietet es wertvolle Werkzeuge und theoretische Grundlagen für das Feld der Zeitreihen-Kausalinferenz.