2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.

Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.

academic

Reti di Flusso Bayesiano Gerarchiche per la Generazione di Grafi Molecolari

Informazioni Fondamentali

ID Articolo: 2510.10211
Titolo: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Autori: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (Scuola di Informatica, Università di Wuhan)
Classificazione: cs.LG (Apprendimento Automatico)
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10211

Riassunto

La generazione di grafi molecolari è intrinsecamente un problema di generazione classificatoria, mirato a predire le categorie di atomi e legami chimici. I modelli di diffusione continua prevalenti attualmente trattano il processo di addestramento come un compito di regressione, prevedendo valori numerici continui, ma richiedono operazioni di arrotondamento per la conversione in categorie classificatorie discrete durante la generazione finale. Poiché il processo di arrotondamento non è incluso durante l'addestramento, esiste una discrepanza significativa tra l'obiettivo di addestramento del modello e il processo di inferenza, causando overfitting, bassa efficienza di apprendimento e ridotta diversità molecolare. Per affrontare questa limitazione fondamentale, gli autori propongono GraphBFN, un framework gerarchico da grossolano a fine basato su Reti di Flusso Bayesiano, che introduce innovativamente funzioni di distribuzione cumulativa per calcolare le probabilità di selezione della categoria corretta, unificando così l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento.

Contesto di Ricerca e Motivazione

Problema Centrale

Esiste un problema fondamentale di incoerenza tra addestramento e inferenza nella generazione di grafi molecolari:

Fase di Addestramento: I modelli di diffusione continua mappano categorie discrete di atomi/legami nello spazio continuo, ottimizzando le previsioni numeriche continue attraverso perdite di regressione
Fase di Inferenza: Richiedono arrotondamento rigido per convertire i valori predetti continui in categorie discrete
Incoerenza: Le regole di arrotondamento non sono considerate durante l'addestramento, causando al modello di concentrarsi eccessivamente sulla variazione intra-classe ignorando la natura discreta

Importanza del Problema

La generazione di grafi molecolari è una tecnologia chiave nella scoperta di farmaci, influenzando l'ottimizzazione molecolare, la predizione dell'affinità di legame farmaco-bersaglio e altri compiti a valle
L'incoerenza dei metodi esistenti causa ridotta diversità molecolare e capacità di generalizzazione limitata
Anche piccoli errori di regressione possono portare a risultati di classificazione completamente errati

Limitazioni dei Metodi Esistenti

Modelli di Diffusione Discreta: Sebbene appropriati per strutture grafiche discrete, sacrificano la fluidità della rappresentazione continua e le caratteristiche di generazione dinamica
Modelli di Diffusione Continua: L'obiettivo di addestramento è scollegato dal processo di inferenza, facilitando l'overfitting a variazioni intra-classe irrilevanti
Reti di Flusso Bayesiano Tradizionali: Assumono che tutte le categorie siano equidistanti nel simplesso di probabilità, causando convergenza lenta e rumore maggiore

Contributi Principali

Prima applicazione di Reti di Flusso Bayesiano alla generazione di grafi molecolari, con rappresentazione molecolare gerarchica che supervisiona il miglioramento della generazione
Introduzione innovativa di funzioni di distribuzione cumulativa (CDF), calcolando le probabilità di categoria piuttosto che adattando valori specifici, unificando l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento
Proposta di un framework gerarchico da grossolano a fine, catturando simultaneamente la connettività atomica locale e la topologia molecolare globale attraverso rappresentazioni multi-scala
Realizzazione di addestramento e campionamento più veloci, raggiungendo prestazioni all'avanguardia sui benchmark QM9 e ZINC250k, con significativa riduzione dei passi di campionamento

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un grafo molecolare $G = (X, A)$ , dove:

$X \in \{0, \ldots, K_X - 1\}^D$ : matrice di caratteristiche di $D$ atomi, provenienti da $K_X$ categorie
$A \in \{0, \ldots, K_A - 1\}^{D \times D}$ : matrice di adiacenza, contenente caratteristiche di $K_A$ categorie di legami

L'obiettivo è imparare a generare nuovi grafi molecolari conformi alla distribuzione molecolare reale.

Architettura del Modello

1. Framework Gerarchico da Grossolano a Fine

Rappresentazione Multi-scala: Utilizza DiffPool per costruire $L$ strati di grossolanizzazione, generando una rappresentazione piramidale del grafo molecolare
Generazione dal Basso verso l'Alto: Inizia con generazione incondizionata dallo strato più grossolano, affinando progressivamente fino al grafo atomico completo
Trasmissione Condizionata: Il modulo di sovracampionamento di ogni strato $\phi_1^{(l)}$ converte l'output dello strato grossolano nella condizione dello strato fine $c^{(l)}$

2. Mappatura della Rappresentazione Grafica

Mappa le categorie discrete $k \in \{0, \ldots, K-1\}$ nello spazio continuo $[-1, 1]$ :

k_c = (2k + 1)/K - 1  # punto centrale
k_l = k_c - 1/K       # limite sinistro  
k_r = k_c + 1/K       # limite destro

3. Componenti della Rete di Flusso Bayesiano

Distribuzione di Ingresso: Modellata utilizzando una distribuzione gaussiana

p_I(G|θ) = N(G|μ, ρ^{-1}I)

Distribuzione di Trasmissione: Aggiunge rumore gaussiano

p_S(Y|G; α) = N(Y|G, α^{-1}I)

Distribuzione di Uscita: Calcola le probabilità discrete attraverso CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

Distribuzione di Ricezione:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. Innovazione Chiave: Meccanismo CDF

Utilizza una funzione di distribuzione cumulativa troncata per collegare la distribuzione continua alle categorie discrete:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    se x ≤ -1
  1,                    se x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], altrimenti
}

Punti di Innovazione Tecnica

Coerenza Addestramento-Inferenza: La CDF calcola direttamente le probabilità discrete, evitando la mancata corrispondenza tra previsione continua e arrotondamento discreto
Mappatura Categoria Non-Equidistante: Diversamente dalle BFN tradizionali che assumono categorie equidistanti, consente convergenza più veloce e fluida
Supervisione Multi-scala: Il framework gerarchico fornisce informazioni strutturali a diversi livelli di granularità, migliorando la qualità della generazione
Ottimizzazione End-to-End: Una funzione di perdita unificata ottimizza simultaneamente la perdita di generazione BFN e la perdita di pooling

Configurazione Sperimentale

Dataset

QM9: Dataset di chimica quantistica contenente 134k piccole molecole
ZINC250k: Dataset di molecole simili a farmaci contenente 250k molecole relativamente più grandi

Metriche di Valutazione

Validità senza correzione: Proporzione di molecole valide non corrette
Unicità: Proporzione di molecole generate uniche
FCD (Fréchet ChemNet Distance): Distanza tra il set di addestramento e il set generato calcolata utilizzando caratteristiche ChemNet
NSPDK MMD: Differenza di media massima del kernel di distanza pairwise del sottografo di vicinato considerando caratteristiche di atomi e legami

Metodi di Confronto

Include diversi baseline all'avanguardia:

Modelli di Flusso: MoFlow
Modelli di Diffusione: EDP-GNN, GDSS, DiGress, GSDM
Corrispondenza di Flusso: Dirichlet FM, CatFlow
Modelli Energetici: GraphEBM

Dettagli di Implementazione

Passi di campionamento: GraphBFN utilizza 100×L passi (L è il numero di strati), significativamente inferiore ai 400-1000 passi dei baseline
Parametri di bilanciamento della perdita multi-scala: λ₁, λ₂
Soglia di tempo minimo: t_min = 10⁻⁵

Risultati Sperimentali

Risultati Principali

Metodo	QM9 Val.↑	QM9 Unique↑	QM9 FCD↓	QM9 NSPDK↓	ZINC250k Val.↑	ZINC250k Unique↑	ZINC250k FCD↓	ZINC250k NSPDK↓	Passi Campionamento
GDSS	95.72	98.46	2.565	0.0033	97.12	99.64	14.032	0.0192	1000
CatFlow	99.81	99.95	0.441	0.0029	99.21	100.00	13.211	0.0207	-
GraphBFN	99.60	99.97	0.214	0.0008	96.00	100.00	5.743	0.0069	100×L

Scoperte Chiave:

Miglioramento della metrica FCD del 51.5%, miglioramento della metrica NSPDK del 72.4%
Raggiungimento delle migliori prestazioni con significativamente meno passi di campionamento
Unicità massima raggiunta, riflettendo eccellente diversità

Esperimenti di Ablazione

GraphBFN vs GraphBFN_w/o (senza supervisione gerarchica):

Il framework gerarchico migliora tutte le metriche
Sebbene sacrifichi una certa velocità di campionamento, migliora significativamente la qualità della generazione

Analisi dell'Efficienza di Campionamento

Prestazioni eccellenti nei primi 50 passi
Rispetto ai metodi baseline che richiedono 400-1000 passi, GraphBFN raggiunge risultati eccellenti con soli 100 passi
Adatto per scenari applicativi sensibili al tempo di inferenza

Lavori Correlati

Modelli di Generazione di Grafi Molecolari

Modelli Autoregressivi: Aggiungono progressivamente nodi e archi, come la serie GraphRNN
Modelli Monostadio: Metodi basati su VAE, flussi normalizzati, GAN, ma spesso affrontano problemi come il collasso di modalità
Modelli di Diffusione: Direzione prevalente recente, divisa in categorie discrete e continue

Modelli di Diffusione Grafica

Diffusione Discreta: Definisce direttamente il processo di diffusione nello spazio di stato discreto, come DiGress
Diffusione Continua: Mappa nello spazio continuo applicando diffusione gaussiana, come GDSS, GSDM
Sfida Centrale: Come gestire la natura discreta delle etichette di atomi e legami

Reti di Flusso Bayesiano

Nuovo tipo di modello generativo che apprende mappature tra distribuzioni
Crea processi di addestramento continui e differenziabili per dati discreti
Questo articolo propone un meccanismo più semplice ed efficace per il trattamento di caratteristiche discrete basato su questo

Conclusioni e Discussione

Conclusioni Principali

Risoluzione riuscita del problema di incoerenza addestramento-inferenza: Unifica l'addestramento continuo e il campionamento discreto attraverso il meccanismo CDF
Miglioramento significativo della qualità della generazione: Raggiunge prestazioni all'avanguardia sui benchmark standard
Aumento sostanziale dell'efficienza di campionamento: Riduce i passi di campionamento a 1/4-1/10 dei metodi baseline
Miglioramento della diversità molecolare: Evita l'overfitting a variazioni intra-classe irrilevanti

Limitazioni

Analisi di Interpretabilità Insufficiente: Manca un'analisi approfondita su come le informazioni multi-scala ottimizzano i risultati della generazione
Ambito di Applicabilità Limitato: Principalmente verificato su dataset di molecole relativamente piccole
Complessità Computazionale: Il framework gerarchico aggiunge un certo sovraccarico computazionale

Direzioni Future

Estensione a domini grafici più grandi e complessi
Esplorazione di applicazioni di generazione condizionata
Miglioramento dell'analisi di interpretabilità
Ottimizzazione dell'efficienza computazionale

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Identifica e risolve il problema fondamentale dei modelli di diffusione continua
Innovazione Tecnica Prominente: Il meccanismo CDF collega astutamente l'addestramento continuo e l'inferenza discreta
Verifica Sperimentale Completa: Esperimenti di confronto completi e ricerca di ablazione
Alto Valore Pratico: Migliora significativamente l'efficienza, adatto per applicazioni pratiche

Carenze

Profondità dell'Analisi Teorica: Analisi limitata delle proprietà di convergenza e garanzie teoriche
Scala Sperimentale: Principalmente verificato su dataset di scala media-piccola, manca verifica su larga scala
Costo Computazionale: Analisi insufficiente del costo computazionale aggiuntivo del framework gerarchico
Sensibilità degli Iperparametri: Analisi insufficiente della sensibilità ai iperparametri chiave

Impatto

Contributo Accademico: Fornisce un nuovo approccio risolutivo per compiti di generazione discreta
Valore Pratico: Può accelerare il processo di scoperta di farmaci
Riproducibilità: La descrizione del metodo è chiara, facilitando la riproduzione
Potenziale di Diffusione: Il framework è estendibile ad altri compiti di generazione di strutture discrete

Scenari Applicabili

Scoperta di Farmaci: Progettazione e ottimizzazione molecolare
Scienza dei Materiali: Generazione di strutture di nuovi materiali
Chemioinformatica: Espansione di librerie di composti
Altra Generazione di Strutture Discrete: Come sequenze di proteine, DNA, ecc.

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

Graves et al. (2023): Lavoro originale sulle Reti di Flusso Bayesiano
Vignac et al. (2023): Metodo di diffusione discreta DiGress
Jo, Lee, and Hwang (2022): Modello di diffusione di score GDSS
Ying et al. (2018): Metodo di pooling gerarchico di grafi DiffPool

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica e risolve con successo il problema centrale nella generazione di grafi molecolari. Attraverso il meccanismo CDF innovativo e il framework gerarchico, migliora significativamente le prestazioni pratiche mantenendo il rigore teorico. Sebbene vi sia spazio per miglioramenti nella profondità dell'analisi teorica e nella scala sperimentale, i suoi contributi sono sufficienti a promuovere lo sviluppo di questo campo.