We present a new method for causal discovery in linear structural vector autoregressive models. We adapt an idea designed for independent observations to the case of time series while retaining its favorable properties, i.e., explicit error control for false causal discovery, at least asymptotically. We apply our method to several real-world bivariate time series datasets and discuss its findings which mostly agree with common understanding. The arrow of time in a model can be interpreted as background knowledge on possible causal mechanisms. Hence, our ideas could be extended to incorporating different background knowledge, even for independent observations.
- ID de l'article : 2403.03778
- Titre : Ancestor regression in structural vector autoregressive models
- Auteurs : Christoph Schultheiss, Markus Ulmer, Peter Bühlmann (ETH Zurich)
- Classification : stat.ME (Statistiques - Méthodologie)
- Date de publication : 3 janvier 2025 (version arXiv)
- Lien de l'article : https://arxiv.org/abs/2403.03778
Cet article propose une nouvelle méthode de découverte causale dans les modèles linéaires vectoriels autorégressifs structurels. Les auteurs étendent la méthode de régression des ancêtres, initialement conçue pour les observations indépendantes, aux séries temporelles, tout en conservant ses propriétés avantageuses, à savoir un contrôle explicite des erreurs de découverte causale fallacieuse (du moins au sens asymptotique). La méthode est appliquée à plusieurs ensembles de données de séries temporelles bivariées du monde réel, avec des résultats largement cohérents avec la compréhension commune. La flèche temporelle peut être interprétée comme une connaissance préalable des mécanismes causaux possibles, permettant ainsi d'étendre cette approche à l'intégration de différentes connaissances préalables, voire à l'application aux observations indépendantes.
- Problème à résoudre : Les ensembles de données du monde réel possèdent généralement une structure temporelle, violant l'hypothèse d'indépendance et d'identique distribution largement utilisée en découverte causale. Cet article vise à résoudre le problème de la découverte causale dans les modèles vectoriels autorégressifs structurels (SVAR).
- Importance du problème : Les données de séries temporelles sont très courantes dans les applications pratiques, mais les méthodes traditionnelles de découverte causale sont principalement conçues pour les observations indépendantes. Bien que la dépendance temporelle crée des difficultés d'estimation, elle offre également un avantage : une variable prédictive ne peut pas causer un impact sur d'autres variables à des points temporels antérieurs.
- Limitations des méthodes existantes :
- Les méthodes traditionnelles telles que LiNGAM ciblent principalement les observations indépendantes
- Absence de contrôle explicite des erreurs pour la découverte causale dans les séries temporelles
- Les extensions SVAR existantes manquent de garanties théoriques
- Motivation de la recherche : Étendre la méthode de régression des ancêtres de Schultheiss et Bühlmann (2023) aux séries temporelles multivariées, en maintenant les garanties asymptotiques tout en traitant la dépendance temporelle.
- Extension de la méthode : Extension de la régression des ancêtres des observations indépendantes aux modèles SVAR linéaires, traitant les relations causales instantanées et décalées
- Contrôle des erreurs : Fourniture de garanties asymptotiques d'erreur de type I, réalisant un contrôle explicite des découvertes causales fallacieuses
- Sélection d'ensemble d'ajustement : Démonstration de la sélection d'ensembles d'ajustement appropriés pour différents décalages temporels afin d'obtenir un contrôle des erreurs
- Inférence de réseau : Proposition d'algorithmes pour construire des graphes d'effets instantanés et des graphes temporels résumés
- Vérification empirique : Validation de l'efficacité de la méthode sur des ensembles de données du monde réel
Étant donné une série temporelle multivariée xt,j (t = 1,...,T; j = 1,...,d), l'objectif est d'identifier les relations causales d'ancêtres entre variables, incluant les effets instantanés (τ=0) et les effets décalés (τ>0).
Modèle SVAR :
xt=∑τ=0pBτxt−τ+ϵt
Où :
- B0 correspond aux effets instantanés, supposés avoir une structure acyclique
- Bτ (τ>0) sont les matrices d'effets décalés
- ϵt est le terme d'innovation indépendant
Forme équivalente :
xt=∑τ=1pB~τxt−τ+ξt
Idée centrale de la régression des ancêtres :
Pour une fonction non-linéaire f(·), utiliser la régression des moindres carrés :
f(ξt,jτ) versus ξt−τ
Où ξt,jτ et ξt−τ sont les résidus après projection des contributions des points temporels antérieurs.
Théorème clé 1 : Pour k ∉ AN_τ(j) (k n'est pas un ancêtre de j avec décalage τ), on a :
βkf,j,τ=E[zt−τ,kf(ξt,jτ)]/E[zt−τ,k2]=0
- Construction des résidus : Suppression des influences des points temporels antérieurs par projection, améliorant le rapport signal-bruit
- Ajustement des décalages : Construction d'ensembles d'ajustement appropriés pour différents décalages τ
- Théorie asymptotique : Établissement de la normalité asymptotique basée sur la dépendance quasi-périodique
- Inférence de réseau : Construction récursive des relations d'ancêtres, traitant la détection de cycles
Données simulées :
- Nombre de variables : d = 6, 10, 50
- Ordre SVAR : p = 1
- Taille d'échantillon : 10² à 10⁶
- Distribution des erreurs : mélange de t₇, uniforme, Laplace et distribution normale
- Poids des arêtes : distribution uniforme, contrôlant le rapport signal-bruit
Données réelles :
- Geyser Old Faithful : temps d'attente vs durée d'éruption (299 observations)
- Four à gaz : débit de gaz d'entrée vs concentration de CO₂ en sortie (296 observations)
- Prix des produits laitiers : prix du beurre vs prix du fromage cheddar (522 observations)
- Family-wise error rate (FWER) : taux d'erreur familiale des découvertes fallacieuses
- Puissance : taux de détection des relations causales réelles
- Valeur p : test d'hypothèse basé sur la distribution normale asymptotique
- Algorithme LiNGAM (Hyvärinen et al., 2010)
- Comparaison de performance sous différentes tailles d'échantillon et configurations de variables latentes
- Fonction non-linéaire : f(x) = sign(x)|x|³
- Correction de multiplicité : méthode Bonferroni-Holm
- Niveau de signification : α = 0,05
Expériences de simulation :
- Pour les variables non-ancêtres, la statistique z absolue moyenne se rapproche de la moyenne de la distribution d'hypothèse nulle théorique
- L'erreur de type I est contrôlée pour toutes les tailles d'échantillon
- La puissance de détection augmente avec la taille de l'échantillon
- La détection des ancêtres décalés est plus facile que celle des ancêtres instantanés (signal plus fort)
Inférence de réseau :
- Les graphes d'effets instantanés et les graphes temporels résumés réalisent une bonne séparation ancêtre-non-ancêtre
- La construction récursive aide à détecter les effets difficiles à découvrir isolément
- Performance quasi-parfaite pour les grands échantillons
Impact des variables latentes :
- Perte du contrôle des erreurs au niveau prévu en cas de violation d'hypothèse
- Mais maintien toujours de la séparation de la taille d'effet entre ancêtres et non-ancêtres
- L'ordre des valeurs p indique toujours les ancêtres réels
Différents types d'ancêtres :
- Effets décalés directs (B~4,k=0) : signal le plus fort
- Ancêtres instantanés : signal modéré
- Ancêtres décalés médiatisés par des effets instantanés : signal le plus faible
Geyser Old Faithful :
- Données originales : aucun effet instantané significatif détecté
- Après ajustement temporel : détection d'un effet instantané durée d'éruption → temps d'attente (p=5×10⁻⁴)
- Conforme aux connaissances du domaine
Four à gaz :
- Aucun effet instantané
- Détection d'un effet décalé débit de gaz d'entrée → concentration de CO₂ en sortie (p=4×10⁻²⁰)
Prix des produits laitiers :
- Détection d'un effet décalé beurre → fromage cheddar (p=5×10⁻¹⁵)
- Aucun effet inverse détecté, excluant l'hypothèse de confusion cachée
- La méthode fonctionne bien sur des échantillons finis
- La connaissance préalable fournie par la structure temporelle facilite l'inférence causale
- La construction récursive améliore significativement la performance de l'inférence de réseau
- Robustesse certaine aux violations des hypothèses du modèle
- Série LiNGAM : modèle acyclique linéaire non-gaussien de Shimizu et al. (2006) et ses extensions aux séries temporelles
- Modèles causaux structurels : modèles d'équations structurelles restreints de Peters et al. (2013)
- Régression des ancêtres : méthode pour observations indépendantes de Schultheiss & Bühlmann (2023)
- Extension de la régression des ancêtres au cadre des séries temporelles
- Capacité d'identification similaire aux extensions SVAR de LiNGAM, mais avec contrôle des erreurs
- Efficacité computationnelle supérieure aux méthodes traditionnelles
- vs LiNGAM : contrôle des erreurs interprétable, mais puissance légèrement inférieure
- vs méthodes traditionnelles : utilisation de la structure temporelle, évitant certains problèmes d'identification
- vs autres méthodes SVAR : garanties théoriques plus fortes, implémentation plus simple
- Extension réussie de la régression des ancêtres au modèle SVAR
- Conservation des excellentes propriétés de contrôle asymptotique des erreurs de type I
- Vérification de l'efficacité de la méthode sur données simulées et réelles
- Fourniture d'un nouveau cadre théorique pour la découverte causale en séries temporelles
- Hypothèses du modèle : exigence de relations linéaires et de termes d'innovation indépendants
- Acyclicité instantanée : hypothèse que les effets instantanés sont acycliques, potentiellement irréaliste
- Bruit gaussien : sensibilité au bruit gaussien des variables adjacentes
- Variables latentes : perte du contrôle des erreurs en présence de variables non observées
- Intégration de connaissances préalables : extension à des cadres de connaissances préalables plus généraux
- Extension non-linéaire : traitement des relations causales non-linéaires
- Optimisation haute dimension : amélioration de l'efficacité computationnelle pour les séries temporelles haute dimension
- Amélioration de la robustesse : méthodes robustes aux violations des hypothèses du modèle
- Rigueur théorique : analyse théorique asymptotique complète et preuves
- Innovation méthodologique : utilisation ingénieuse de la structure temporelle pour l'inférence causale
- Forte praticité : calcul simple, facile à implémenter
- Vérification suffisante : vérification complète sur données simulées et réelles
- Clarté de la rédaction : logique claire, expression mathématique précise
- Hypothèses strictes : les hypothèses de linéarité et d'indépendance limitent le champ d'application
- Problème de puissance : puissance inférieure à LiNGAM dans certains cas
- Données réelles limitées : vérification uniquement sur séries temporelles bivariées
- Défi haute dimension : correction de multiplicité trop conservatrice pour les grands réseaux
- Contribution théorique : fourniture d'un nouveau cadre théorique pour la découverte causale en séries temporelles
- Valeur méthodologique : extension importante de la régression des ancêtres
- Valeur pratique : fourniture d'outils pour l'analyse pratique des séries temporelles
- Reproductibilité : code public, résultats reproductibles
- Séries temporelles économiques : analyse des relations causales entre variables macroéconomiques
- Biomédicale : inférence causale entre signaux physiologiques
- Systèmes d'ingénierie : identification des relations causales dans les systèmes de contrôle
- Sciences sociales : analyse causale dynamique des phénomènes sociaux
- Schultheiss, C. and Bühlmann, P. (2023). Ancestor regression in linear structural equation models. Biometrika, 110(4):1117–1124.
- Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., and Jordan, M. (2006). A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).
- Peters, J., Janzing, D., and Schölkopf, B. (2013). Causal inference on time series using restricted structural equation models. Advances in neural information processing systems, 26.
- Hyvärinen, A., Zhang, K., Shimizu, S., and Hoyer, P. O. (2010). Estimation of a structural vector autoregression model using non-gaussianity. Journal of Machine Learning Research, 11(5).
Évaluation globale : Cet article est un travail méthodologique de haute qualité avec des contributions importantes tant sur le plan théorique que pratique. Les auteurs ont réussi à étendre une méthode importante de découverte causale au cadre des séries temporelles, en conservant les excellentes propriétés de la méthode originale. Malgré certaines limitations, il fournit des outils et des fondations théoriques précieux au domaine de l'inférence causale en séries temporelles.