Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic
Reti di Flusso Bayesiano Gerarchiche per la Generazione di Grafi Molecolari
La generazione di grafi molecolari è intrinsecamente un problema di generazione classificatoria, mirato a predire le categorie di atomi e legami chimici. I modelli di diffusione continua prevalenti attualmente trattano il processo di addestramento come un compito di regressione, prevedendo valori numerici continui, ma richiedono operazioni di arrotondamento per la conversione in categorie classificatorie discrete durante la generazione finale. Poiché il processo di arrotondamento non è incluso durante l'addestramento, esiste una discrepanza significativa tra l'obiettivo di addestramento del modello e il processo di inferenza, causando overfitting, bassa efficienza di apprendimento e ridotta diversità molecolare. Per affrontare questa limitazione fondamentale, gli autori propongono GraphBFN, un framework gerarchico da grossolano a fine basato su Reti di Flusso Bayesiano, che introduce innovativamente funzioni di distribuzione cumulativa per calcolare le probabilità di selezione della categoria corretta, unificando così l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento.
Esiste un problema fondamentale di incoerenza tra addestramento e inferenza nella generazione di grafi molecolari:
Fase di Addestramento: I modelli di diffusione continua mappano categorie discrete di atomi/legami nello spazio continuo, ottimizzando le previsioni numeriche continue attraverso perdite di regressione
Fase di Inferenza: Richiedono arrotondamento rigido per convertire i valori predetti continui in categorie discrete
Incoerenza: Le regole di arrotondamento non sono considerate durante l'addestramento, causando al modello di concentrarsi eccessivamente sulla variazione intra-classe ignorando la natura discreta
La generazione di grafi molecolari è una tecnologia chiave nella scoperta di farmaci, influenzando l'ottimizzazione molecolare, la predizione dell'affinità di legame farmaco-bersaglio e altri compiti a valle
L'incoerenza dei metodi esistenti causa ridotta diversità molecolare e capacità di generalizzazione limitata
Anche piccoli errori di regressione possono portare a risultati di classificazione completamente errati
Modelli di Diffusione Discreta: Sebbene appropriati per strutture grafiche discrete, sacrificano la fluidità della rappresentazione continua e le caratteristiche di generazione dinamica
Modelli di Diffusione Continua: L'obiettivo di addestramento è scollegato dal processo di inferenza, facilitando l'overfitting a variazioni intra-classe irrilevanti
Reti di Flusso Bayesiano Tradizionali: Assumono che tutte le categorie siano equidistanti nel simplesso di probabilità, causando convergenza lenta e rumore maggiore
Prima applicazione di Reti di Flusso Bayesiano alla generazione di grafi molecolari, con rappresentazione molecolare gerarchica che supervisiona il miglioramento della generazione
Introduzione innovativa di funzioni di distribuzione cumulativa (CDF), calcolando le probabilità di categoria piuttosto che adattando valori specifici, unificando l'obiettivo di addestramento con le operazioni di arrotondamento nel campionamento
Proposta di un framework gerarchico da grossolano a fine, catturando simultaneamente la connettività atomica locale e la topologia molecolare globale attraverso rappresentazioni multi-scala
Realizzazione di addestramento e campionamento più veloci, raggiungendo prestazioni all'avanguardia sui benchmark QM9 e ZINC250k, con significativa riduzione dei passi di campionamento
Rappresentazione Multi-scala: Utilizza DiffPool per costruire L strati di grossolanizzazione, generando una rappresentazione piramidale del grafo molecolare
Generazione dal Basso verso l'Alto: Inizia con generazione incondizionata dallo strato più grossolano, affinando progressivamente fino al grafo atomico completo
Trasmissione Condizionata: Il modulo di sovracampionamento di ogni strato ϕ1(l) converte l'output dello strato grossolano nella condizione dello strato fine c(l)
Coerenza Addestramento-Inferenza: La CDF calcola direttamente le probabilità discrete, evitando la mancata corrispondenza tra previsione continua e arrotondamento discreto
Mappatura Categoria Non-Equidistante: Diversamente dalle BFN tradizionali che assumono categorie equidistanti, consente convergenza più veloce e fluida
Supervisione Multi-scala: Il framework gerarchico fornisce informazioni strutturali a diversi livelli di granularità, migliorando la qualità della generazione
Ottimizzazione End-to-End: Una funzione di perdita unificata ottimizza simultaneamente la perdita di generazione BFN e la perdita di pooling
Risoluzione riuscita del problema di incoerenza addestramento-inferenza: Unifica l'addestramento continuo e il campionamento discreto attraverso il meccanismo CDF
Miglioramento significativo della qualità della generazione: Raggiunge prestazioni all'avanguardia sui benchmark standard
Aumento sostanziale dell'efficienza di campionamento: Riduce i passi di campionamento a 1/4-1/10 dei metodi baseline
Miglioramento della diversità molecolare: Evita l'overfitting a variazioni intra-classe irrilevanti
L'articolo cita importanti lavori in questo campo, inclusi:
Graves et al. (2023): Lavoro originale sulle Reti di Flusso Bayesiano
Vignac et al. (2023): Metodo di diffusione discreta DiGress
Jo, Lee, and Hwang (2022): Modello di diffusione di score GDSS
Ying et al. (2018): Metodo di pooling gerarchico di grafi DiffPool
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica e risolve con successo il problema centrale nella generazione di grafi molecolari. Attraverso il meccanismo CDF innovativo e il framework gerarchico, migliora significativamente le prestazioni pratiche mantenendo il rigore teorico. Sebbene vi sia spazio per miglioramenti nella profondità dell'analisi teorica e nella scala sperimentale, i suoi contributi sono sufficienti a promuovere lo sviluppo di questo campo.