2025-11-20T18:07:15.632725

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models

Xu, Küçükyavuz, Shojaie et al.
This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
academic

Un Algorithme de Descente de Coordonnées Asymptotiquement Optimal pour l'Apprentissage de Réseaux Bayésiens à partir de Modèles Gaussiens

Informations Fondamentales

  • ID de l'article: 2408.11977
  • Titre: An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
  • Auteurs: Tong Xu (Northwestern University), Simge Küçükyavuz (Northwestern University), Ali Shojaie (University of Washington), Armeen Taeb (University of Washington)
  • Classification: stat.ML cs.LG
  • Date de publication: Août 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2408.11977

Résumé

Cet article étudie le problème de l'apprentissage de réseaux bayésiens à partir de données continues observées, générées selon un modèle d'équations structurelles linéaires gaussiennes. Les auteurs considèrent l'estimateur du maximum de vraisemblance pénalisé par ℓ₀ pour ce problème, qui possède de bonnes propriétés statistiques mais présente des défis computationnels, particulièrement pour les réseaux bayésiens de taille moyenne. L'article propose un nouvel algorithme de descente de coordonnées pour approximer cet estimateur et démontre plusieurs propriétés remarquables : l'algorithme converge vers un minimum de coordonnées, et bien que la fonction de perte soit non-convexe, la valeur objective de la solution de descente de coordonnées converge vers la valeur objective optimale de l'estimateur du maximum de vraisemblance pénalisé par ℓ₀ lorsque la taille de l'échantillon tend vers l'infini. À la connaissance des auteurs, il s'agit du premier algorithme de descente de coordonnées avec garanties d'optimalité dans le contexte de l'apprentissage de réseaux bayésiens.

Contexte et Motivation de la Recherche

Définition du Problème

Les réseaux bayésiens fournissent un cadre puissant pour modéliser les relations causales entre un ensemble de variables aléatoires. Généralement représentés par un graphe acyclique orienté (DAG), où les variables aléatoires sont codées comme des sommets et une arête orientée du nœud i au nœud j représente que i cause j, l'acyclicité du graphe prévient l'apparition de dépendances circulaires.

Importance du Problème

Dans les grands systèmes tels que les réseaux de régulation génétique, la structure DAG est généralement inconnue et doit être apprise à partir des données. Si le DAG est connu, il peut être utilisé pour prédire le comportement du système sous opération ou intervention, ce qui est d'une importance capitale pour la découverte scientifique et la prise de décision.

Limitations des Méthodes Existantes

  1. Méthodes basées sur les contraintes: Comme l'algorithme PC, qui nécessitent des garanties de cohérence statistique sous des conditions de fidélité forte, condition trop stricte dans les paramètres de haute dimension
  2. Méthodes basées sur le score: Bien qu'elles ne nécessitent pas l'hypothèse de fidélité forte, de nombreuses méthodes manquent de garanties statistiques, et la complexité computationnelle de la résolution exacte est très élevée
  3. Méthodes de descente de coordonnées existantes: Bien qu'elles montrent un potentiel significatif pour l'apprentissage de réseaux bayésiens à grande échelle, elles manquent de garanties de convergence et d'optimalité

Motivation de la Recherche

Les auteurs visent à développer une méthode possédant à la fois des garanties théoriques et une scalabilité computationnelle, comblant ainsi le vide dans l'analyse théorique des algorithmes de descente de coordonnées existants.

Contributions Principales

  1. Proposition du premier algorithme de descente de coordonnées avec garanties d'optimalité: Dans le contexte de l'apprentissage de réseaux bayésiens, l'algorithme converge vers un minimum de coordonnées et produit un DAG avec un score optimal à la limite des grands échantillons
  2. Établissement de la théorie d'optimalité asymptotique: Démonstration que, malgré la non-convexité du problème, la valeur objective de la solution de descente de coordonnées converge vers la valeur objective optimale de l'estimateur du maximum de vraisemblance pénalisé par ℓ₀ lorsque la taille de l'échantillon tend vers l'infini
  3. Caractérisation du paysage d'optimisation: Dans le cas des grands échantillons, tous les minima locaux atteignent une valeur objective proche du minimum global, correspondant exactement à la limite
  4. Fourniture d'une analyse du taux de convergence: Caractérisation du taux de convergence en fonction de la taille de l'échantillon et du nombre de nœuds
  5. Extension de la théorie du tri topologique: Amélioration des résultats de Chen et al., permettant la récupération d'un tri topologique valide sous des conditions d'hétéroscédasticité légère

Détails de la Méthode

Définition de la Tâche

Étant donné n observations indépendantes et identiquement distribuées provenant d'un vecteur aléatoire X satisfaisant un modèle d'équations structurelles linéaires:

X = B⋆ᵀX + ε

où B⋆ est la matrice de connectivité, ε ~ N(0,Ω⋆) est le bruit gaussien. L'objectif est d'estimer le motif creux de B⋆, c'est-à-dire d'apprendre la structure DAG sous-jacente.

Architecture du Modèle

1. Estimateur du Maximum de Vraisemblance Pénalisé par ℓ₀

Problème d'optimisation original:

min_{B,D} ℓₙ((I-B)D(I-B)ᵀ) + λ/2‖B‖_{ℓ₀}
s.c. G(B) est un DAG

2. Transformation Équivalente

Par substitution de variables Γ ← (I-B)D^{1/2}, on obtient le problème équivalent:

min_Γ f(Γ) s.c. G(Γ-diag(Γ)) est un DAG

où f(Γ) = Σᵢ(-2log(Γᵢᵢ)) + tr(ΓΓᵀΣ̂) + λ/2‖Γ-diag(Γ)‖_{ℓ₀}

3. Règles de Mise à Jour des Coordonnées

La Proposition 3 fournit la solution analytique de l'optimisation d'une seule coordonnée:

  • Pour les éléments hors-diagonale Γᵤᵥ (u≠v):
Γ̂ᵤᵥ = {-Aᵤᵥ/(2Σ̂ᵤᵤ), si λ/2 ≤ A²ᵤᵥ/(4Σ̂ᵤᵤ)
        {0,              sinon
  • Pour les éléments diagonaux Γᵤᵤ:
Γ̂ᵤᵤ = (-Aᵤᵤ + √(A²ᵤᵤ + 16Σ̂ᵤᵤ))/(4Σ̂ᵤᵤ)

Conception de l'Algorithme

Algorithme 1: Algorithme de Descente de Coordonnées Cyclique

  1. Entrée: Matrice de covariance empirique Σ̂, paramètre de régularisation λ, super-structure E^{super}, tri topologique O
  2. Boucle principale: Mise à jour successive des coordonnées selon le tri topologique
  3. Vérification d'acyclicité: Utilisation de la recherche en largeur d'abord pour vérifier la contrainte DAG
  4. Étapes d'intervalle: Exécution d'étapes d'intervalle lorsque le nombre d'occurrences du support atteint un seuil pour stabiliser le comportement de l'algorithme

Points d'Innovation Technique

  1. Percée théorique: Première analyse théorique rigoureuse fournissant convergence et garanties d'optimalité pour l'algorithme de descente de coordonnées dans l'apprentissage de réseaux bayésiens
  2. Conception algorithmique: Combinaison astucieuse de mises à jour analytiques de coordonnées, vérification de contraintes et techniques de stabilisation
  3. Tri topologique: Extension de la théorie existante pour traiter les cas de bruit hétéroscédastique
  4. Analyse du paysage d'optimisation: Caractérisation approfondie des propriétés des minima locaux dans les problèmes non-convexes

Configuration Expérimentale

Ensembles de Données

  1. Données synthétiques: Générées à partir de 12 réseaux publics, avec un nombre de nœuds variant de 6 à 413
  2. Données réelles: Utilisant des données de systèmes physiques collectées par les chambres causales (causal chambers), contenant 20 variables

Métriques d'Évaluation

  • dcpdag: Nombre d'arêtes différentes entre le CPDAG (graphe partiellement orienté acyclique complet) estimé et le CPDAG vrai
  • Valeur de la fonction objective: Différence relative par rapport à la solution optimale
  • Temps de calcul: Temps d'exécution de l'algorithme

Méthodes de Comparaison

  • MICODAG: Approche de programmation convexe en nombres entiers mixtes
  • CCDr-MCP: Descente de coordonnées utilisant la pénalité minimax concave
  • GES: Algorithme de recherche équivalente gourmande
  • NOTEARS: Méthode basée sur l'optimisation continue
  • TD: Méthode descendante

Détails d'Implémentation

  • Super-structure estimée à l'aide du graphe lasso du graphe moral
  • Paramètre de régularisation sélectionné par ajustement oracle pour obtenir la valeur optimale
  • Seuil d'étape d'intervalle C=5
  • Initialisation par défaut Γ^{init} = I

Résultats Expérimentaux

Résultats Principaux

1. Vérification de l'Optimalité Asymptotique

Pour un réseau de 10 nœuds, avec la taille de l'échantillon augmentant de 100 à 3200:

  • La différence relative entre la valeur objective de CD-ℓ₀ et la solution optimale tend vers 0
  • GES ne peut pas atteindre la valeur objective optimale
  • CD-ℓ₀ obtient une solution quasi-optimale en environ 0,1% du temps de calcul

2. Comparaison de Référence (Cas d'Hétéroscédasticité Légère)

Dans le paramètre où la variance du bruit est échantillonnée à partir de {0.6,1,1.2}:

  • Petits graphes (m≤20): CD-ℓ₀ et MICODAG ont des performances similaires, mais beaucoup plus rapide
  • Graphes moyens (m>20): MICODAG ne peut pas résoudre dans la limite de temps, CD-ℓ₀ obtient des modèles plus précis
  • Grands graphes (m>100): CD-ℓ₀ montre une excellente scalabilité

3. Données de Performance Spécifiques

Prenant le réseau Insurance(27) comme exemple:

  • CD-ℓ₀: dcpdag=18.3±1.9, temps≤1 seconde
  • MICODAG: dcpdag=18.5±8.5, temps≥1350 secondes, RGAP=0.272
  • GES: dcpdag=24.2±7.9

Études d'Ablation

Vérification de l'influence de différents tris aléatoires sur la convergence de l'algorithme, confirmant la robustesse des résultats théoriques.

Découvertes Expérimentales

  1. Avantages de la pénalité ℓ₀: Comparée à la pénalité MCP, elle assure que les DAG équivalents ont le même score
  2. Importance du tri topologique: Un bon tri initial améliore significativement les performances
  3. Robustesse à l'hétéroscédasticité: Bonnes performances sous hétéroscédasticité légère, mais dégradation sous hétéroscédasticité sévère

Travaux Connexes

Principales Directions de Recherche

  1. Méthodes basées sur les contraintes: Algorithme PC et ses extensions
  2. Méthodes basées sur le score: Programmation dynamique, programmation en nombres entiers mixtes
  3. Méthodes hybrides: Combinaison de méthodes basées sur les contraintes et le score
  4. Méthodes de gradient: NOTEARS et autres méthodes d'optimisation continue

Avantages de cet Article

  1. Comparé aux méthodes basées sur les contraintes: Pas besoin d'hypothèse de fidélité forte
  2. Comparé aux méthodes exactes: Efficacité computationnelle élevée, bonne scalabilité
  3. Comparé à la descente de coordonnées existante: Garanties théoriques plus fortes
  4. Comparé aux méthodes de gradient: Garanties de convergence et d'optimalité plus robustes

Conclusion et Discussion

Conclusions Principales

  1. Proposition du premier algorithme de descente de coordonnées pour l'apprentissage de réseaux bayésiens avec garanties d'optimalité
  2. Démonstration que l'algorithme converge vers un minimum de coordonnées et atteint asymptotiquement la valeur objective optimale
  3. Vérification expérimentale de la scalabilité de la méthode et de la qualité des solutions

Limitations

  1. Sensibilité à l'hétéroscédasticité: Sous hétéroscédasticité sévère, la récupération du tri topologique est difficile, affectant les performances
  2. Dépendance à l'ordre: Différents ordres peuvent conduire à différentes classes d'équivalence de Markov
  3. Complexité d'échantillon: Les garanties théoriques nécessitent une taille d'échantillon considérablement grande

Directions Futures

  1. Vitesse de convergence: Caractérisation de la vitesse de convergence de l'algorithme
  2. Mise à jour de coordonnées par bloc: Amélioration de l'efficacité computationnelle par mise à jour de blocs de variables
  3. Cohérence statistique: Établissement de garanties de cohérence statistique de l'algorithme
  4. Amélioration de la complexité d'échantillon: Réduction des exigences en taille d'échantillon et du taux de convergence

Évaluation Approfondie

Points Forts

  1. Contributions théoriques significatives: Première analyse théorique rigoureuse fournissant des garanties de convergence et d'optimalité pour l'algorithme de descente de coordonnées dans ce problème
  2. Conception de méthode ingénieuse: Combinaison efficace de mises à jour analytiques, vérification de contraintes et techniques de stabilisation
  3. Expériences complètes: Couverture de données synthétiques et réelles, comparaisons exhaustives
  4. Rédaction claire: Dérivations mathématiques rigoureuses, descriptions algorithmiques détaillées

Insuffisances

  1. Limitations pratiques: La dépendance à la qualité du tri topologique peut limiter les applications pratiques
  2. Hypothèses: L'hypothèse d'hétéroscédasticité approximativement nulle peut ne pas être satisfaite en pratique
  3. Complexité computationnelle: Pas d'analyse détaillée de la complexité computationnelle
  4. Garanties statistiques: Absence de garanties de cohérence statistique en échantillon fini

Valeur d'Impact

  1. Valeur théorique: Nouvelle perspective pour l'application de l'optimisation non-convexe à l'apprentissage de structures
  2. Valeur pratique: Peut servir de warm start pour les méthodes existantes de programmation en nombres entiers mixtes
  3. Reproductibilité: Implémentation open-source disponible, facilitant la vérification et l'extension

Scénarios d'Application

  1. Réseaux de taille moyenne à grande: Particulièrement adaptés aux réseaux avec 20-400 nœuds
  2. Données gaussiennes: Applicables aux données d'observation continue
  3. Ressources computationnelles limitées: Alternative lorsque le coût computationnel des méthodes exactes est trop élevé

Références

Cet article s'appuie principalement sur les travaux importants suivants:

  1. van de Geer & Bühlmann (2013): Propriétés statistiques du maximum de vraisemblance pénalisé par ℓ₀
  2. Hazimeh & Mazumder (2020): Cadre d'analyse de convergence de la descente de coordonnées
  3. Chen et al. (2019): Algorithme de récupération du tri topologique
  4. Xu et al. (2024): Méthode de programmation en nombres entiers mixtes

Évaluation Globale: Cet article est une contribution de haute qualité combinant théorie et applications dans le domaine de l'apprentissage de réseaux bayésiens. L'analyse théorique est rigoureuse, la vérification expérimentale est complète, et il jette une base solide pour le développement futur du domaine.