2025-11-20T18:07:15.632725

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models

Xu, KÃ¼Ã§Ã¼kyavuz, Shojaie et al.

This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.

academic

Ein asymptotisch optimaler Koordinatenabstiegsalgorithmus zum Lernen von Bayesschen Netzen aus Gaußschen Modellen

Grundlegende Informationen

Papier-ID: 2408.11977
Titel: An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
Autoren: Tong Xu (Northwestern University), Simge Küçükyavuz (Northwestern University), Ali Shojaie (University of Washington), Armeen Taeb (University of Washington)
Klassifizierung: stat.ML cs.LG
Veröffentlichungsdatum: August 2024 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2408.11977

Zusammenfassung

Dieses Papier untersucht das Problem des Lernens von Bayesschen Netzen aus kontinuierlichen Beobachtungsdaten, die nach linearen Gaußschen Strukturgleichungsmodellen generiert werden. Die Autoren betrachten den ℓ₀-penalisierten Maximum-Likelihood-Schätzer für dieses Problem, der gute statistische Eigenschaften aufweist, aber rechnerisch herausfordernd ist, besonders für mittlere Bayessche Netze. Der Artikel präsentiert einen neuen Koordinatenabstiegsalgorithmus zur Approximation dieses Schätzers und beweist mehrere bemerkenswerte Eigenschaften des Algorithmus: Der Algorithmus konvergiert zu einem Koordinatenminimum, und obwohl die Verlustfunktion nicht konvex ist, konvergiert der Zielwert der Koordinatenabstiegslösung asymptotisch zum optimalen Zielwert des ℓ₀-penalisierten Maximum-Likelihood-Schätzers, wenn die Stichprobengröße gegen unendlich geht. Nach Aussage der Autoren ist dies der erste Koordinatenabstiegsalgorithmus mit Optimalitätsgarantien im Kontext des Lernens von Bayesschen Netzen.

Forschungshintergrund und Motivation

Problemdefinition

Bayessche Netze bieten ein starkes Framework zur Modellierung kausaler Beziehungen zwischen Mengen von Zufallsvariablen. Sie werden üblicherweise durch gerichtete azyklische Graphen (DAGs) dargestellt, wobei Zufallsvariablen als Knoten kodiert sind und eine gerichtete Kante von Knoten i zu Knoten j bedeutet, dass i j verursacht. Die Azyklizität des Graphen verhindert das Auftreten zirkulärer Abhängigkeiten.

Problemrelevanz

In großen Systemen wie Genregulationsnetzwerken ist die DAG-Struktur üblicherweise unbekannt und muss aus Daten gelernt werden. Wenn die DAG bekannt ist, kann sie zur Vorhersage des Systemverhaltens unter Operationen oder Interventionen verwendet werden, was für wissenschaftliche Entdeckungen und Entscheidungsfindung von großer Bedeutung ist.

Einschränkungen bestehender Methoden

Constraint-basierte Methoden: Wie der PC-Algorithmus, erfordern starke Treue-Bedingungen für statistische Konsistenzgarantien, die in hochdimensionalen Einstellungen zu streng sind
Score-basierte Methoden: Obwohl sie keine starke Treue-Annahme erfordern, fehlt vielen Methoden statistische Garantien, und die rechnerische Komplexität zur Lösung exakter Lösungen ist hoch
Bestehende Koordinatenabstiegsmethoden: Obwohl sie erhebliches Potenzial beim Lernen großer Bayesscher Netze zeigen, fehlen ihnen Konvergenz- und Optimalitätsgarantien

Forschungsmotivation

Die Autoren zielen darauf ab, eine Methode zu entwickeln, die sowohl theoretische Garantien als auch rechnerische Skalierbarkeit bietet und damit die Lücke in der theoretischen Analyse bestehender Koordinatenabstiegsalgorithmen zu schließen.

Kernbeiträge

Präsentation des ersten Koordinatenabstiegsalgorithmus mit Optimalitätsgarantien: Im Kontext des Lernens von Bayesschen Netzen konvergiert der Algorithmus zu einem Koordinatenminimum und erzeugt im großen Stichprobenfall einen DAG mit optimalem Score
Etablierung asymptotischer Optimalitätstheorie: Beweis, dass trotz der Nicht-Konvexität des Problems der Zielwert der Koordinatenabstiegslösung gegen den optimalen Zielwert des ℓ₀-penalisierten Maximum-Likelihood-Schätzers konvergiert, wenn die Stichprobengröße gegen unendlich geht
Charakterisierung der Optimierungslandschaft: Im großen Stichprobenfall erreichen alle lokalen Minima Zielwerte, die nahe am globalen Minimum liegen, und stimmen im Grenzfall vollständig überein
Bereitstellung von Konvergenzratenanalyse: Charakterisierung der Konvergenzrate als Funktion der Stichprobengröße und Knotenzahl
Erweiterung der Topologiesortierttheorie: Verbesserung der Ergebnisse von Chen et al., die die Wiederherstellung gültiger topologischer Sortierungen unter leicht heteroskedastischen Rauschbedingungen ermöglicht

Methodische Details

Aufgabendefinition

Gegeben seien n unabhängig identisch verteilte Beobachtungsstichproben aus einem Zufallsvektor X, der einem linearen Strukturgleichungsmodell genügt:

X = B⋆ᵀX + ε

wobei B⋆ die Verbindungsmatrix ist und ε～N(0,Ω⋆) Gaußsches Rauschen ist. Das Ziel ist es, das spärliche Muster von B⋆ zu schätzen, d.h. die zugrunde liegende DAG-Struktur zu lernen.

Modellarchitektur

1. ℓ₀-penalisierter Maximum-Likelihood-Schätzer

Ursprüngliches Optimierungsproblem:

min_{B,D} ℓₙ((I-B)D(I-B)ᵀ) + λ/2‖B‖_{ℓ₀}
s.t. G(B) is a DAG

2. Äquivalente Transformation

Durch Variablensubstitution Γ ← (I-B)D^{1/2} erhält man das äquivalente Problem:

min_Γ f(Γ) s.t. G(Γ-diag(Γ)) is a DAG

wobei f(Γ) = Σᵢ(-2log(Γᵢᵢ)) + tr(ΓΓᵀΣ̂) + λ/2‖Γ-diag(Γ)‖_{ℓ₀}

3. Koordinaten-Aktualisierungsregeln

Proposition 3 gibt die analytische Lösung für die Einzelkoordinatenoptimierung an:

Für Nicht-Diagonalelemente Γᵤᵥ (u≠v):

Γ̂ᵤᵥ = {-Aᵤᵥ/(2Σ̂ᵤᵤ), if λ/2 ≤ A²ᵤᵥ/(4Σ̂ᵤᵤ)
        {0,              otherwise

Für Diagonalelemente Γᵤᵤ:

Γ̂ᵤᵤ = (-Aᵤᵤ + √(A²ᵤᵤ + 16Σ̂ᵤᵤ))/(4Σ̂ᵤᵤ)

Algorithmisches Design

Algorithmus 1: Zyklischer Koordinatenabstiegsalgorithmus

Eingabe: Stichprobenkovarianz Σ̂, Regularisierungsparameter λ, Supergraph E^{super}, topologische Sortierung O
Hauptschleife: Aktualisierung von Koordinaten nacheinander nach topologischer Sortierung
Azyklizitätsprüfung: Verwendung von Breitensuche zur Überprüfung der DAG-Bedingung
Intervallschritte: Wenn die Häufigkeit des Trägers einen Schwellenwert erreicht, werden Intervallschritte durchgeführt, um das Algorithmusverhalten zu stabilisieren

Technische Innovationen

Theoretischer Durchbruch: Erstmalige Bereitstellung strenger theoretischer Analyse für Koordinatenabstiegsalgorithmen beim Lernen von Bayesschen Netzen
Algorithmisches Design: Geschickte Kombination analytischer Koordinatenaktualisierungen, Bedingungsprüfung und Stabilisierungstechniken
Topologische Sortierung: Erweiterung bestehender Theorie zur Behandlung heteroskedastischer Rauschfälle
Optimierungslandschaftsanalyse: Tiefe Charakterisierung der Eigenschaften lokaler Minima in nicht-konvexen Problemen

Experimentelle Einrichtung

Datensätze

Synthetische Daten: Basierend auf 12 öffentlichen Netzwerken generiert, mit Knotenzahlen von 6 bis 413
Echte Daten: Physische Systemdaten, die mit kausalen Kammern (causal chambers) erfasst wurden, mit 20 Variablen

Bewertungsmetriken

dcpdag: Anzahl unterschiedlicher Kanten zwischen dem geschätzten vollständigen partiellen gerichteten azyklischen Graphen (CPDAG) und dem echten CPDAG
Zielwert: Relative Differenz zur optimalen Lösung
Rechenzeit: Laufzeit des Algorithmus

Vergleichsmethoden

MICODAG: Gemischte ganzzahlige konvexe Programmierungsmethode
CCDr-MCP: Koordinatenabstieg mit Minimax-konkaver Penalisierung
GES: Gieriger Äquivalenzsuchalgorithmus
NOTEARS: Methode basierend auf kontinuierlicher Optimierung
TD: Top-Down-Methode

Implementierungsdetails

Supergraph wird mit Graph-Lasso geschätzt
Regularisierungsparameter durch Oracle-Abstimmung zur Auswahl des optimalen Wertes
Intervallschritt-Schwellenwert C=5
Standardinitialisierung Γ^{init} = I

Experimentelle Ergebnisse

Hauptergebnisse

1. Verifikation asymptotischer Optimalität

Für ein 10-Knoten-Netzwerk, wenn die Stichprobengröße von 100 auf 3200 ansteigt:

Die relative Differenz des Zielwerts von CD-ℓ₀ zur optimalen Lösung tendiert gegen 0
GES kann den optimalen Zielwert nicht erreichen
CD-ℓ₀ erreicht eine nahezu optimale Lösung in etwa 0,1% der Rechenzeit

2. Benchmark-Vergleich (leicht heteroskedastischer Fall)

In der Einstellung, in der die Rauschvarianz aus {0,6, 1, 1,2} abgetastet wird:

Kleine Graphen (m≤20): CD-ℓ₀ zeigt ähnliche Leistung wie MICODAG, ist aber viel schneller
Mittlere Graphen (m>20): MICODAG kann nicht innerhalb des Zeitlimits gelöst werden, CD-ℓ₀ erhält genauere Modelle
Große Graphen (m>100): CD-ℓ₀ zeigt hervorragende Skalierbarkeit

3. Spezifische Leistungsdaten

Am Beispiel des Insurance(27)-Netzwerks:

CD-ℓ₀: dcpdag=18,3±1,9, Zeit≤1 Sekunde
MICODAG: dcpdag=18,5±8,5, Zeit≥1350 Sekunden, RGAP=0,272
GES: dcpdag=24,2±7,9

Ablationsstudien

Verifikation des Einflusses verschiedener zufälliger Sortierungen auf die Algorithmuskonvergenz, Bestätigung der Robustheit theoretischer Ergebnisse.

Experimentelle Erkenntnisse

Vorteile der ℓ₀-Penalisierung: Im Vergleich zur MCP-Penalisierung wird sichergestellt, dass äquivalente DAGs denselben Score haben
Bedeutung der topologischen Sortierung: Eine gute anfängliche Sortierung verbessert die Leistung erheblich
Heteroskedastische Robustheit: Gute Leistung unter leicht heteroskedastischen Bedingungen, aber Leistungsabfall unter schwerer Heteroskedastizität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Präsentation des ersten Koordinatenabstiegsalgorithmus mit Optimalitätsgarantien zum Lernen von Bayesschen Netzen
Beweis, dass der Algorithmus zu einem Koordinatenminimum konvergiert und asymptotisch den optimalen Zielwert erreicht
Experimentelle Verifikation der Skalierbarkeit und Lösungsqualität der Methode

Einschränkungen

Heteroskedastische Empfindlichkeit: Bei schwerer Heteroskedastizität ist die Wiederherstellung topologischer Sortierungen schwierig, was die Leistung beeinträchtigt
Sortierungsabhängigkeit: Unterschiedliche Sortierungen können zu unterschiedlichen Markov-Äquivalenzklassen führen
Stichprobenkomplexität: Theoretische Garantien erfordern beträchtlich große Stichprobengrößen

Zukünftige Richtungen

Konvergenzgeschwindigkeit: Charakterisierung der Konvergenzgeschwindigkeit des Algorithmus
Block-Koordinatenaktualisierung: Verbesserung der Recheneffizienz durch Aktualisierung von Variablenblöcken
Statistische Konsistenz: Etablierung statistischer Konsistenzgarantien für den Algorithmus
Verbesserte Stichprobenkomplexität: Reduzierung der Stichprobenanforderungen und Konvergenzraten

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge: Erstmalige strenge theoretische Analyse für Koordinatenabstiegsalgorithmen bei diesem Problem
Geschicktes Methodendesign: Effektive Kombination analytischer Aktualisierungen, Bedingungsprüfung und Stabilisierungstechniken
Umfassende Experimente: Abdeckung synthetischer und echter Daten, umfassende Methodenvergleiche
Klare Darstellung: Strenge mathematische Ableitungen, detaillierte Algorithmusbeschreibungen

Mängel

Praktische Einschränkungen: Die Abhängigkeit von der Qualität der topologischen Sortierung kann die praktische Anwendung einschränken
Annahmen: Die Annahme näherungsweise homoskedastischen Rauschens erfüllt sich in der Praxis möglicherweise nicht
Rechenkomplexität: Keine detaillierte Analyse der Rechenkomplexität vorhanden
Statistische Garantien: Fehlende statistische Konsistenzgarantien für endliche Stichproben

Auswirkungen

Theoretischer Wert: Bietet neue Perspektive für die Anwendung nicht-konvexer Optimierung beim Strukturlernen
Praktischer Wert: Kann als Warm-Start für bestehende gemischte ganzzahlige Programmierungsmethoden dienen
Reproduzierbarkeit: Bereitstellung von Open-Source-Implementierung zur Vereinfachung von Verifikation und Erweiterung

Anwendungsszenarien

Mittlere bis große Netzwerke: Besonders geeignet für Netzwerke mit 20-400 Knoten
Gaußsche Daten: Anwendbar auf kontinuierliche Beobachtungsdaten
Begrenzte Rechenressourcen: Alternative zu exakten Methoden, wenn Rechenkosten zu hoch sind

Referenzen

Dieses Papier bezieht sich hauptsächlich auf folgende wichtige Arbeiten:

van de Geer & Bühlmann (2013): Statistische Eigenschaften der ℓ₀-penalisierten Maximum-Likelihood
Hazimeh & Mazumder (2020): Konvergenzanalyse-Framework für Koordinatenabstieg
Chen et al. (2019): Algorithmus zur Wiederherstellung topologischer Sortierung
Xu et al. (2024): Gemischte ganzzahlige Programmierungsmethode

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit Fokus auf Theorie und Anwendung, das bedeutende Beiträge zum Bereich des Lernens von Bayesschen Netzen leistet. Die theoretische Analyse ist streng, die experimentelle Verifikation umfassend, und es schafft eine solide Grundlage für die weitere Entwicklung des Feldes.