2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic

Reti di Flusso Bayesiano Gerarchiche per la Generazione di Grafi Molecolari

Informazioni Fondamentali

  • ID Articolo: 2510.10211
  • Titolo: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
  • Autori: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (Scuola di Informatica, Università di Wuhan)
  • Classificazione: cs.LG (Apprendimento Automatico)
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10211

Riassunto

La generazione di grafi molecolari è intrinsecamente un problema di generazione classificatoria, mirato a predire le categorie di atomi e legami chimici. I modelli di diffusione continua prevalenti attualmente trattano il processo di addestramento come un compito di regressione, prevedendo valori numerici continui, ma richiedono operazioni di arrotondamento per la conversione in categorie classificatorie discrete durante la generazione finale. Poiché il processo di arrotondamento non è incluso durante l'addestramento, esiste una discrepanza significativa tra l'obiettivo di addestramento del modello e il processo di inferenza, causando overfitting, bassa efficienza di apprendimento e ridotta diversità molecolare. Per affrontare questa limitazione fondamentale, gli autori propongono GraphBFN, un framework gerarchico da grossolano a fine basato su Reti di Flusso Bayesiano, che introduce innovativamente funzioni di distribuzione cumulativa per calcolare le probabilità di selezione della categoria corretta, unificando così l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento.

Contesto di Ricerca e Motivazione

Problema Centrale

Esiste un problema fondamentale di incoerenza tra addestramento e inferenza nella generazione di grafi molecolari:

  1. Fase di Addestramento: I modelli di diffusione continua mappano categorie discrete di atomi/legami nello spazio continuo, ottimizzando le previsioni numeriche continue attraverso perdite di regressione
  2. Fase di Inferenza: Richiedono arrotondamento rigido per convertire i valori predetti continui in categorie discrete
  3. Incoerenza: Le regole di arrotondamento non sono considerate durante l'addestramento, causando al modello di concentrarsi eccessivamente sulla variazione intra-classe ignorando la natura discreta

Importanza del Problema

  • La generazione di grafi molecolari è una tecnologia chiave nella scoperta di farmaci, influenzando l'ottimizzazione molecolare, la predizione dell'affinità di legame farmaco-bersaglio e altri compiti a valle
  • L'incoerenza dei metodi esistenti causa ridotta diversità molecolare e capacità di generalizzazione limitata
  • Anche piccoli errori di regressione possono portare a risultati di classificazione completamente errati

Limitazioni dei Metodi Esistenti

  1. Modelli di Diffusione Discreta: Sebbene appropriati per strutture grafiche discrete, sacrificano la fluidità della rappresentazione continua e le caratteristiche di generazione dinamica
  2. Modelli di Diffusione Continua: L'obiettivo di addestramento è scollegato dal processo di inferenza, facilitando l'overfitting a variazioni intra-classe irrilevanti
  3. Reti di Flusso Bayesiano Tradizionali: Assumono che tutte le categorie siano equidistanti nel simplesso di probabilità, causando convergenza lenta e rumore maggiore

Contributi Principali

  1. Prima applicazione di Reti di Flusso Bayesiano alla generazione di grafi molecolari, con rappresentazione molecolare gerarchica che supervisiona il miglioramento della generazione
  2. Introduzione innovativa di funzioni di distribuzione cumulativa (CDF), calcolando le probabilità di categoria piuttosto che adattando valori specifici, unificando l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento
  3. Proposta di un framework gerarchico da grossolano a fine, catturando simultaneamente la connettività atomica locale e la topologia molecolare globale attraverso rappresentazioni multi-scala
  4. Realizzazione di addestramento e campionamento più veloci, raggiungendo prestazioni all'avanguardia sui benchmark QM9 e ZINC250k, con significativa riduzione dei passi di campionamento

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un grafo molecolare G=(X,A)G = (X, A), dove:

  • X{0,,KX1}DX \in \{0, \ldots, K_X - 1\}^D: matrice di caratteristiche di DD atomi, provenienti da KXK_X categorie
  • A{0,,KA1}D×DA \in \{0, \ldots, K_A - 1\}^{D \times D}: matrice di adiacenza, contenente caratteristiche di KAK_A categorie di legami

L'obiettivo è imparare a generare nuovi grafi molecolari conformi alla distribuzione molecolare reale.

Architettura del Modello

1. Framework Gerarchico da Grossolano a Fine

  • Rappresentazione Multi-scala: Utilizza DiffPool per costruire LL strati di grossolanizzazione, generando una rappresentazione piramidale del grafo molecolare
  • Generazione dal Basso verso l'Alto: Inizia con generazione incondizionata dallo strato più grossolano, affinando progressivamente fino al grafo atomico completo
  • Trasmissione Condizionata: Il modulo di sovracampionamento di ogni strato ϕ1(l)\phi_1^{(l)} converte l'output dello strato grossolano nella condizione dello strato fine c(l)c^{(l)}

2. Mappatura della Rappresentazione Grafica

Mappa le categorie discrete k{0,,K1}k \in \{0, \ldots, K-1\} nello spazio continuo [1,1][-1, 1]:

k_c = (2k + 1)/K - 1  # punto centrale
k_l = k_c - 1/K       # limite sinistro  
k_r = k_c + 1/K       # limite destro

3. Componenti della Rete di Flusso Bayesiano

Distribuzione di Ingresso: Modellata utilizzando una distribuzione gaussiana

p_I(G|θ) = N(G|μ, ρ^{-1}I)

Distribuzione di Trasmissione: Aggiunge rumore gaussiano

p_S(Y|G; α) = N(Y|G, α^{-1}I)

Distribuzione di Uscita: Calcola le probabilità discrete attraverso CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

Distribuzione di Ricezione:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. Innovazione Chiave: Meccanismo CDF

Utilizza una funzione di distribuzione cumulativa troncata per collegare la distribuzione continua alle categorie discrete:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    se x ≤ -1
  1,                    se x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], altrimenti
}

Punti di Innovazione Tecnica

  1. Coerenza Addestramento-Inferenza: La CDF calcola direttamente le probabilità discrete, evitando la mancata corrispondenza tra previsione continua e arrotondamento discreto
  2. Mappatura Categoria Non-Equidistante: Diversamente dalle BFN tradizionali che assumono categorie equidistanti, consente convergenza più veloce e fluida
  3. Supervisione Multi-scala: Il framework gerarchico fornisce informazioni strutturali a diversi livelli di granularità, migliorando la qualità della generazione
  4. Ottimizzazione End-to-End: Una funzione di perdita unificata ottimizza simultaneamente la perdita di generazione BFN e la perdita di pooling

Configurazione Sperimentale

Dataset

  • QM9: Dataset di chimica quantistica contenente 134k piccole molecole
  • ZINC250k: Dataset di molecole simili a farmaci contenente 250k molecole relativamente più grandi

Metriche di Valutazione

  • Validità senza correzione: Proporzione di molecole valide non corrette
  • Unicità: Proporzione di molecole generate uniche
  • FCD (Fréchet ChemNet Distance): Distanza tra il set di addestramento e il set generato calcolata utilizzando caratteristiche ChemNet
  • NSPDK MMD: Differenza di media massima del kernel di distanza pairwise del sottografo di vicinato considerando caratteristiche di atomi e legami

Metodi di Confronto

Include diversi baseline all'avanguardia:

  • Modelli di Flusso: MoFlow
  • Modelli di Diffusione: EDP-GNN, GDSS, DiGress, GSDM
  • Corrispondenza di Flusso: Dirichlet FM, CatFlow
  • Modelli Energetici: GraphEBM

Dettagli di Implementazione

  • Passi di campionamento: GraphBFN utilizza 100×L passi (L è il numero di strati), significativamente inferiore ai 400-1000 passi dei baseline
  • Parametri di bilanciamento della perdita multi-scala: λ₁, λ₂
  • Soglia di tempo minimo: t_min = 10⁻⁵

Risultati Sperimentali

Risultati Principali

MetodoQM9 Val.↑QM9 Unique↑QM9 FCD↓QM9 NSPDK↓ZINC250k Val.↑ZINC250k Unique↑ZINC250k FCD↓ZINC250k NSPDK↓Passi Campionamento
GDSS95.7298.462.5650.003397.1299.6414.0320.01921000
CatFlow99.8199.950.4410.002999.21100.0013.2110.0207-
GraphBFN99.6099.970.2140.000896.00100.005.7430.0069100×L

Scoperte Chiave:

  • Miglioramento della metrica FCD del 51.5%, miglioramento della metrica NSPDK del 72.4%
  • Raggiungimento delle migliori prestazioni con significativamente meno passi di campionamento
  • Unicità massima raggiunta, riflettendo eccellente diversità

Esperimenti di Ablazione

GraphBFN vs GraphBFN_w/o (senza supervisione gerarchica):

  • Il framework gerarchico migliora tutte le metriche
  • Sebbene sacrifichi una certa velocità di campionamento, migliora significativamente la qualità della generazione

Analisi dell'Efficienza di Campionamento

  • Prestazioni eccellenti nei primi 50 passi
  • Rispetto ai metodi baseline che richiedono 400-1000 passi, GraphBFN raggiunge risultati eccellenti con soli 100 passi
  • Adatto per scenari applicativi sensibili al tempo di inferenza

Lavori Correlati

Modelli di Generazione di Grafi Molecolari

  • Modelli Autoregressivi: Aggiungono progressivamente nodi e archi, come la serie GraphRNN
  • Modelli Monostadio: Metodi basati su VAE, flussi normalizzati, GAN, ma spesso affrontano problemi come il collasso di modalità
  • Modelli di Diffusione: Direzione prevalente recente, divisa in categorie discrete e continue

Modelli di Diffusione Grafica

  • Diffusione Discreta: Definisce direttamente il processo di diffusione nello spazio di stato discreto, come DiGress
  • Diffusione Continua: Mappa nello spazio continuo applicando diffusione gaussiana, come GDSS, GSDM
  • Sfida Centrale: Come gestire la natura discreta delle etichette di atomi e legami

Reti di Flusso Bayesiano

  • Nuovo tipo di modello generativo che apprende mappature tra distribuzioni
  • Crea processi di addestramento continui e differenziabili per dati discreti
  • Questo articolo propone un meccanismo più semplice ed efficace per il trattamento di caratteristiche discrete basato su questo

Conclusioni e Discussione

Conclusioni Principali

  1. Risoluzione riuscita del problema di incoerenza addestramento-inferenza: Unifica l'addestramento continuo e il campionamento discreto attraverso il meccanismo CDF
  2. Miglioramento significativo della qualità della generazione: Raggiunge prestazioni all'avanguardia sui benchmark standard
  3. Aumento sostanziale dell'efficienza di campionamento: Riduce i passi di campionamento a 1/4-1/10 dei metodi baseline
  4. Miglioramento della diversità molecolare: Evita l'overfitting a variazioni intra-classe irrilevanti

Limitazioni

  1. Analisi di Interpretabilità Insufficiente: Manca un'analisi approfondita su come le informazioni multi-scala ottimizzano i risultati della generazione
  2. Ambito di Applicabilità Limitato: Principalmente verificato su dataset di molecole relativamente piccole
  3. Complessità Computazionale: Il framework gerarchico aggiunge un certo sovraccarico computazionale

Direzioni Future

  1. Estensione a domini grafici più grandi e complessi
  2. Esplorazione di applicazioni di generazione condizionata
  3. Miglioramento dell'analisi di interpretabilità
  4. Ottimizzazione dell'efficienza computazionale

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Identifica e risolve il problema fondamentale dei modelli di diffusione continua
  2. Innovazione Tecnica Prominente: Il meccanismo CDF collega astutamente l'addestramento continuo e l'inferenza discreta
  3. Verifica Sperimentale Completa: Esperimenti di confronto completi e ricerca di ablazione
  4. Alto Valore Pratico: Migliora significativamente l'efficienza, adatto per applicazioni pratiche

Carenze

  1. Profondità dell'Analisi Teorica: Analisi limitata delle proprietà di convergenza e garanzie teoriche
  2. Scala Sperimentale: Principalmente verificato su dataset di scala media-piccola, manca verifica su larga scala
  3. Costo Computazionale: Analisi insufficiente del costo computazionale aggiuntivo del framework gerarchico
  4. Sensibilità degli Iperparametri: Analisi insufficiente della sensibilità ai iperparametri chiave

Impatto

  1. Contributo Accademico: Fornisce un nuovo approccio risolutivo per compiti di generazione discreta
  2. Valore Pratico: Può accelerare il processo di scoperta di farmaci
  3. Riproducibilità: La descrizione del metodo è chiara, facilitando la riproduzione
  4. Potenziale di Diffusione: Il framework è estendibile ad altri compiti di generazione di strutture discrete

Scenari Applicabili

  1. Scoperta di Farmaci: Progettazione e ottimizzazione molecolare
  2. Scienza dei Materiali: Generazione di strutture di nuovi materiali
  3. Chemioinformatica: Espansione di librerie di composti
  4. Altra Generazione di Strutture Discrete: Come sequenze di proteine, DNA, ecc.

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

  • Graves et al. (2023): Lavoro originale sulle Reti di Flusso Bayesiano
  • Vignac et al. (2023): Metodo di diffusione discreta DiGress
  • Jo, Lee, and Hwang (2022): Modello di diffusione di score GDSS
  • Ying et al. (2018): Metodo di pooling gerarchico di grafi DiffPool

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica e risolve con successo il problema centrale nella generazione di grafi molecolari. Attraverso il meccanismo CDF innovativo e il framework gerarchico, migliora significativamente le prestazioni pratiche mantenendo il rigore teorico. Sebbene vi sia spazio per miglioramenti nella profondità dell'analisi teorica e nella scala sperimentale, i suoi contributi sono sufficienti a promuovere lo sviluppo di questo campo.