2025-11-20T18:07:15.632725

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models

Xu, KÃ¼Ã§Ã¼kyavuz, Shojaie et al.

This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.

academic

Un Algoritmo di Discesa per Coordinate Asintoticamente Ottimale per l'Apprendimento di Reti Bayesiane da Modelli Gaussiani

Informazioni Fondamentali

ID Articolo: 2408.11977
Titolo: An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
Autori: Tong Xu (Northwestern University), Simge Küçükyavuz (Northwestern University), Ali Shojaie (University of Washington), Armeen Taeb (University of Washington)
Classificazione: stat.ML cs.LG
Data di Pubblicazione: Agosto 2024 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2408.11977

Riassunto

Questo articolo affronta il problema dell'apprendimento di reti bayesiane da dati continui osservati, generati secondo un modello di equazioni strutturali lineari gaussiane. Gli autori considerano lo stimatore di massima verosimiglianza con penalità ℓ₀ per questo problema, che possiede buone proprietà statistiche ma presenta sfide computazionali, in particolare per reti bayesiane di dimensioni medie. L'articolo propone un nuovo algoritmo di discesa per coordinate per approssimare questo stimatore e dimostra diverse proprietà notevoli: l'algoritmo converge a un minimo per coordinate e, nonostante la non-convessità della funzione di perdita, il valore obiettivo della soluzione di discesa per coordinate converge al valore obiettivo ottimale dello stimatore di massima verosimiglianza con penalità ℓ₀ al crescere della dimensione campionaria verso l'infinito. A conoscenza degli autori, questo è il primo algoritmo di discesa per coordinate con garanzie di ottimalità nel contesto dell'apprendimento di reti bayesiane.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le reti bayesiane forniscono un framework potente per modellare le relazioni causali tra insiemi di variabili casuali. Sono tipicamente rappresentate da grafi aciclici orientati (DAG), dove le variabili casuali sono codificate come vertici e un arco orientato dal nodo i al nodo j rappresenta che i causa j; l'aciclicità del grafo previene l'insorgenza di dipendenze circolari.

Importanza del Problema

In sistemi di grandi dimensioni come le reti di regolazione genica, la struttura DAG è generalmente sconosciuta e deve essere appresa dai dati. Se il DAG è noto, può essere utilizzato per prevedere il comportamento del sistema sotto operazioni o interventi, il che è di grande importanza nella scoperta scientifica e nel processo decisionale.

Limitazioni dei Metodi Esistenti

Metodi Basati su Vincoli: come l'algoritmo PC, richiedono garanzie di coerenza statistica sotto condizioni di fedeltà forte, che sono troppo restrittive in contesti ad alta dimensionalità
Metodi Basati su Punteggio: sebbene non richiedano l'assunzione di fedeltà forte, molti metodi mancano di garanzie statistiche e la complessità computazionale della risoluzione esatta è elevata
Metodi di Discesa per Coordinate Esistenti: sebbene mostrino potenziale significativo nell'apprendimento di reti bayesiane su larga scala, mancano di garanzie di convergenza e ottimalità

Motivazione della Ricerca

Gli autori mirano a sviluppare un metodo che sia sia teoricamente garantito che computazionalmente scalabile, colmando il divario nell'analisi teorica degli algoritmi di discesa per coordinate esistenti.

Contributi Principali

Propone il primo algoritmo di discesa per coordinate con garanzie di ottimalità: nel contesto dell'apprendimento di reti bayesiane, l'algoritmo converge a un minimo per coordinate e produce un DAG con punteggio ottimale nel limite di grandi campioni
Stabilisce la teoria dell'ottimalità asintotica: dimostra che, nonostante la non-convessità del problema, il valore obiettivo della soluzione di discesa per coordinate converge al valore obiettivo ottimale dello stimatore di massima verosimiglianza con penalità ℓ₀ al crescere della dimensione campionaria verso l'infinito
Caratterizza il paesaggio di ottimizzazione: nel caso di grandi campioni, tutti i minimi locali raggiungono valori obiettivo prossimi al minimo globale, corrispondendo perfettamente nel limite
Fornisce l'analisi della velocità di convergenza: caratterizza la velocità di convergenza come funzione della dimensione campionaria e del numero di nodi
Estende la teoria dell'ordinamento topologico: migliora i risultati di Chen et al., permettendo il recupero di ordinamenti topologici validi sotto condizioni di rumore leggermente eteroschedastico

Dettagli del Metodo

Definizione del Compito

Dati n campioni indipendenti e identicamente distribuiti provenienti da un vettore casuale X che soddisfa un modello di equazioni strutturali lineari:

X = B⋆ᵀX + ε

dove B⋆ è la matrice di connessione e ε～N(0,Ω⋆) è il rumore gaussiano. L'obiettivo è stimare il modello sparso di B⋆, cioè apprendere la struttura DAG sottostante.

Architettura del Modello

1. Stima di Massima Verosimiglianza con Penalità ℓ₀

Problema di ottimizzazione originale:

min_{B,D} ℓₙ((I-B)D(I-B)ᵀ) + λ/2‖B‖_{ℓ₀}
s.t. G(B) is a DAG

2. Trasformazione Equivalente

Attraverso la sostituzione di variabili Γ ← (I-B)D^{1/2}, si ottiene il problema equivalente:

min_Γ f(Γ) s.t. G(Γ-diag(Γ)) is a DAG

dove f(Γ) = Σᵢ(-2log(Γᵢᵢ)) + tr(ΓΓᵀΣ̂) + λ/2‖Γ-diag(Γ)‖_{ℓ₀}

3. Regole di Aggiornamento per Coordinate

La Proposizione 3 fornisce la soluzione analitica per l'ottimizzazione di una singola coordinata:

Per elementi fuori diagonale Γᵤᵥ (u≠v):

Γ̂ᵤᵥ = {-Aᵤᵥ/(2Σ̂ᵤᵤ), if λ/2 ≤ A²ᵤᵥ/(4Σ̂ᵤᵤ)
        {0,              otherwise

Per elementi diagonali Γᵤᵤ:

Γ̂ᵤᵤ = (-Aᵤᵤ + √(A²ᵤᵤ + 16Σ̂ᵤᵤ))/(4Σ̂ᵤᵤ)

Progettazione dell'Algoritmo

Algoritmo 1: Algoritmo di Discesa per Coordinate Ciclica

Input: covarianza campionaria Σ̂, parametro di regolarizzazione λ, sovrastruttura E^{super}, ordinamento topologico O
Ciclo Principale: aggiorna le coordinate sequenzialmente secondo l'ordinamento topologico
Verifica di Aciclicità: utilizza la ricerca in ampiezza per verificare il vincolo DAG
Passi Intermedi: quando il numero di occorrenze dell'insieme di supporto raggiunge una soglia, esegue passi intermedi per stabilizzare il comportamento dell'algoritmo

Punti di Innovazione Tecnica

Avanzamento Teorico: fornisce per la prima volta un'analisi teorica rigorosa della convergenza e dell'ottimalità per l'algoritmo di discesa per coordinate nell'apprendimento di reti bayesiane
Progettazione dell'Algoritmo: combina abilmente aggiornamenti analitici per coordinate, verifica dei vincoli e tecniche di stabilizzazione
Ordinamento Topologico: estende la teoria esistente per gestire il caso di rumore eteroschedastico
Analisi del Paesaggio di Ottimizzazione: caratterizza profondamente le proprietà dei minimi locali in problemi non convessi

Configurazione Sperimentale

Dataset

Dati Sintetici: generati da 12 reti pubbliche, con numero di nodi da 6 a 413
Dati Reali: dati di sistemi fisici raccolti da camere causali (causal chambers), contenenti 20 variabili

Metriche di Valutazione

dcpdag: numero di archi diversi tra il CPDAG (grafo parzialmente orientato aciclico completo) stimato e il CPDAG vero
Valore della Funzione Obiettivo: differenza relativa rispetto alla soluzione ottimale
Tempo di Calcolo: tempo di esecuzione dell'algoritmo

Metodi di Confronto

MICODAG: metodo di programmazione convessa mista intera
CCDr-MCP: discesa per coordinate con penalità minimax concava
GES: ricerca equivalente golosa
NOTEARS: metodo basato su ottimizzazione continua
TD: metodo top-down

Dettagli di Implementazione

La sovrastruttura è stimata utilizzando il grafo lasso del grafo morale
Il parametro di regolarizzazione è selezionato mediante sintonizzazione oracle per il valore ottimale
Soglia del passo intermedio C=5
Inizializzazione predefinita Γ^{init} = I

Risultati Sperimentali

Risultati Principali

1. Verifica dell'Ottimalità Asintotica

Per una rete a 10 nodi, al crescere della dimensione campionaria da 100 a 3200:

La differenza relativa tra il valore obiettivo di CD-ℓ₀ e la soluzione ottimale tende a 0
GES non riesce a raggiungere il valore obiettivo ottimale
CD-ℓ₀ ottiene una soluzione quasi ottimale in circa lo 0,1% del tempo di calcolo

2. Confronto di Base (Caso Leggermente Eteroschedastico)

Nella configurazione in cui la varianza del rumore è campionata da {0.6,1,1.2}:

Grafi Piccoli (m≤20): CD-ℓ₀ ha prestazioni simili a MICODAG, ma molto più veloce
Grafi Medi (m>20): MICODAG non riesce a risolvere entro il limite di tempo, CD-ℓ₀ ottiene modelli più accurati
Grafi Grandi (m>100): CD-ℓ₀ mostra eccellente scalabilità

3. Dati di Prestazione Specifici

Utilizzando la rete Insurance(27) come esempio:

CD-ℓ₀: dcpdag=18.3±1.9, tempo≤1 secondo
MICODAG: dcpdag=18.5±8.5, tempo≥1350 secondi, RGAP=0.272
GES: dcpdag=24.2±7.9

Esperimenti di Ablazione

Verifica l'influenza di diversi ordinamenti casuali sulla convergenza dell'algoritmo, confermando la robustezza dei risultati teorici.

Scoperte Sperimentali

Vantaggi della Penalità ℓ₀: rispetto alla penalità MCP, garantisce che i DAG equivalenti abbiano lo stesso punteggio
Importanza dell'Ordinamento Topologico: un buon ordinamento iniziale migliora significativamente le prestazioni
Robustezza all'Eteroschedasticità: buone prestazioni sotto condizioni leggermente eteroschedastiche, ma le prestazioni diminuiscono con eteroschedasticità grave

Lavori Correlati

Principali Direzioni di Ricerca

Metodi Basati su Vincoli: algoritmo PC e sue estensioni
Metodi Basati su Punteggio: programmazione dinamica, programmazione mista intera
Metodi Ibridi: combinazione di metodi basati su vincoli e punteggio
Metodi Basati su Gradienti: NOTEARS e altri metodi di ottimizzazione continua

Vantaggi di Questo Articolo

Rispetto ai metodi basati su vincoli: non richiede l'assunzione di fedeltà forte
Rispetto ai metodi esatti: alta efficienza computazionale e buona scalabilità
Rispetto alla discesa per coordinate esistente: garanzie teoriche più forti
Rispetto ai metodi basati su gradienti: garanzie di convergenza e ottimalità più robuste

Conclusioni e Discussione

Conclusioni Principali

Propone il primo algoritmo di discesa per coordinate con garanzie di ottimalità per l'apprendimento di reti bayesiane
Dimostra che l'algoritmo converge a un minimo per coordinate e raggiunge asintoticamente il valore obiettivo ottimale
Gli esperimenti verificano la scalabilità del metodo e la qualità delle soluzioni

Limitazioni

Sensibilità all'Eteroschedasticità: sotto condizioni di eteroschedasticità grave, il recupero dell'ordinamento topologico è difficile, influenzando le prestazioni
Dipendenza dall'Ordinamento: ordinamenti diversi possono portare a diverse classi di equivalenza di Markov
Complessità Campionaria: le garanzie teoriche richiedono una dimensione campionaria considerevolmente grande

Direzioni Future

Velocità di Convergenza: caratterizzare la velocità di convergenza dell'algoritmo
Aggiornamenti per Blocchi di Coordinate: migliorare l'efficienza computazionale aggiornando blocchi di variabili
Coerenza Statistica: stabilire garanzie di coerenza statistica per l'algoritmo
Miglioramento della Complessità Campionaria: ridurre i requisiti di dimensione campionaria e i tassi di convergenza

Valutazione Approfondita

Punti di Forza

Contributi Teorici Significativi: fornisce per la prima volta un'analisi teorica rigorosa dell'algoritmo di discesa per coordinate per questo problema
Progettazione del Metodo Ingegnosa: combina efficacemente aggiornamenti analitici, verifica dei vincoli e tecniche di stabilizzazione
Esperimenti Completi: copre dati sintetici e reali, con confronti metodologici completi
Scrittura Chiara: derivazioni matematiche rigorose e descrizioni dettagliate dell'algoritmo

Insufficienze

Limitazioni Pratiche: la dipendenza dalla qualità dell'ordinamento topologico può limitare le applicazioni pratiche
Assunzioni Condizionali: l'assunzione di rumore approssimativamente omoschedastico potrebbe non essere soddisfatta nella pratica
Analisi della Complessità Computazionale: manca un'analisi dettagliata della complessità computazionale
Garanzie Statistiche: mancano garanzie di coerenza statistica con campioni finiti

Impatto

Valore Teorico: fornisce una nuova prospettiva per l'applicazione dell'ottimizzazione non convessa nell'apprendimento strutturale
Valore Pratico: può servire come warm start per i metodi di programmazione mista intera esistenti
Riproducibilità: fornisce implementazione open source, facilitando la verifica e l'estensione

Scenari Applicabili

Reti di Dimensioni Medie-Grandi: particolarmente adatto per reti con numero di nodi nell'intervallo 20-400
Dati Gaussiani: applicabile a dati osservati continui
Risorse Computazionali Limitate: alternativa quando il costo computazionale dei metodi esatti è troppo elevato

Riferimenti Bibliografici

Questo articolo fa principalmente riferimento ai seguenti lavori importanti:

van de Geer & Bühlmann (2013): proprietà statistiche della massima verosimiglianza con penalità ℓ₀
Hazimeh & Mazumder (2020): framework di analisi della convergenza della discesa per coordinate
Chen et al. (2019): algoritmo di recupero dell'ordinamento topologico
Xu et al. (2024): metodo di programmazione mista intera

Valutazione Complessiva: Questo è un articolo di alta qualità che combina teoria e applicazioni, apportando contributi importanti nel campo dell'apprendimento di reti bayesiane. L'analisi teorica è rigorosa, la verifica sperimentale è completa e fornisce una base solida per lo sviluppo futuro del campo.