2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.

Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.

academic

Иерархические байесовские сетевые потоки для генерации молекулярных графов

Основная информация

ID статьи: 2510.10211
Название: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Авторы: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (Факультет компьютерных наук, Университет Ухани)
Категория: cs.LG (машинное обучение)
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10211

Аннотация

Генерация молекулярных графов по сути является задачей категориальной генерации, направленной на предсказание категорий атомов и химических связей. Современные непрерывные модели диффузии рассматривают процесс обучения как задачу регрессии, предсказывая непрерывные числовые значения, но при окончательной генерации требуют преобразования в дискретные категориальные классы путём округления. Поскольку операция округления не включена в процесс обучения, существует значительное расхождение между целью обучения модели и процессом вывода, что приводит к переобучению, низкой эффективности обучения и снижению молекулярного разнообразия. Для решения этого фундаментального ограничения авторы предлагают GraphBFN — иерархическую структуру от грубого к тонкому на основе байесовских сетевых потоков, которая инновационно вводит кумулятивную функцию распределения для расчёта вероятности выбора правильного класса, тем самым объединяя цель обучения с операцией округления при выборке.

Исследовательский контекст и мотивация

Основная проблема

В генерации молекулярных графов существует фундаментальная проблема несоответствия между обучением и выводом:

Этап обучения: непрерывные модели диффузии отображают дискретные категории атомов/связей в непрерывное пространство, оптимизируя предсказание непрерывных значений через потери регрессии
Этап вывода: требуется преобразование непрерывных предсказанных значений в дискретные классы путём жёсткого округления
Несоответствие: во время обучения правила округления не учитываются, что приводит к чрезмерному сосредоточению модели на внутриклассовых вариациях и игнорированию дискретной природы

Важность проблемы

Генерация молекулярных графов является ключевой технологией в открытии лекарств, влияющей на оптимизацию молекул, предсказание сродства связывания лекарство-мишень и другие нижестоящие задачи
Несоответствие существующих методов приводит к снижению молекулярного разнообразия и ограниченной способности к обобщению
Даже небольшие ошибки регрессии могут привести к полностью неправильным результатам классификации

Ограничения существующих методов

Дискретные модели диффузии: хотя и подходят для дискретных графических структур, они жертвуют гладкостью непрерывного представления и динамическими характеристиками генерации
Непрерывные модели диффузии: цель обучения отделена от процесса вывода, что легко приводит к переобучению на нерелевантные внутриклассовые вариации
Традиционные байесовские сетевые потоки: предполагают равномерное расстояние всех классов в вероятностном симплексе, что приводит к медленной сходимости и большему шуму

Основные вклады

Первое применение байесовских сетевых потоков к генерации молекулярных графов с использованием иерархического молекулярного представления для улучшения результатов генерации
Инновационное введение кумулятивной функции распределения (CDF) для расчёта вероятностей классов вместо подгонки конкретных значений, объединяя цель обучения с операцией округления при выборке
Предложение иерархической структуры от грубого к тонкому, которая одновременно захватывает локальную связность атомов и глобальную топологию молекул через многомасштабное представление графов
Достижение более быстрого обучения и выборки с новыми передовыми результатами на эталонах QM9 и ZINC250k, значительно сокращая количество шагов выборки

Подробное описание методологии

Определение задачи

Дан молекулярный граф $G = (X, A)$ , где:

$X \in \{0, \ldots, K_X - 1\}^D$ : матрица признаков $D$ атомов из $K_X$ категорий
$A \in \{0, \ldots, K_A - 1\}^{D \times D}$ : матрица смежности, содержащая признаки $K_A$ категорий связей

Цель состоит в обучении генерации новых молекулярных графов, соответствующих реальному распределению молекул.

Архитектура модели

1. Иерархическая структура от грубого к тонкому

Многомасштабное представление: использование DiffPool для построения $L$ слоёв укрупнения, генерирующих пирамидальное представление молекулярного графа
Генерация снизу вверх: начиная с безусловной генерации на самом грубом слое, постепенно уточняя до полного графа атомов
Передача условий: модуль повышающей дискретизации каждого слоя $\phi_1^{(l)}$ преобразует выход грубого слоя в условие тонкого слоя $c^{(l)}$

2. Отображение представления графа

Отображение дискретного класса $k \in \{0, \ldots, K-1\}$ в непрерывное пространство $[-1, 1]$ :

k_c = (2k + 1)/K - 1  # центральная точка
k_l = k_c - 1/K       # левая граница  
k_r = k_c + 1/K       # правая граница

3. Компоненты байесовской сетевой потока

Входное распределение: моделирование с использованием гауссова распределения

p_I(G|θ) = N(G|μ, ρ^{-1}I)

Распределение отправки: добавление гауссова шума

p_S(Y|G; α) = N(Y|G, α^{-1}I)

Выходное распределение: расчёт дискретной вероятности через CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

Распределение приёма:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. Ключевое инновационное решение: механизм CDF

Использование усечённой кумулятивной функции распределения для связи непрерывного распределения с дискретными классами:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    если x ≤ -1
  1,                    если x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], иначе
}

Технические инновационные моменты

Согласованность обучения и вывода: CDF напрямую вычисляет дискретные вероятности, избегая несоответствия между непрерывным предсказанием и дискретным округлением
Неравномерное отображение классов: в отличие от традиционного BFN, предполагающего равномерное расстояние классов, позволяет более быструю и плавную сходимость
Многомасштабный контроль: иерархическая структура обеспечивает информацию о структуре на разных уровнях детализации, улучшая качество генерации
Сквозная оптимизация: единая функция потерь одновременно оптимизирует потери генерации BFN и потери объединения

Экспериментальная установка

Наборы данных

QM9: набор данных квантовой химии, содержащий 134k небольших молекул
ZINC250k: набор данных лекарственных молекул, содержащий 250k относительно крупных молекул

Метрики оценки

Validity w/o correction: доля валидных молекул без коррекции
Uniqueness: доля уникальности генерируемых молекул
FCD (Fréchet ChemNet Distance): расстояние между набором обучения и набором генерации, рассчитанное с использованием признаков ChemNet
NSPDK MMD: максимальное среднее расхождение ядра попарного расстояния подграфа соседства, учитывающее признаки атомов и связей

Методы сравнения

Включают несколько передовых базовых методов:

Модели потоков: MoFlow
Модели диффузии: EDP-GNN, GDSS, DiGress, GSDM
Согласование потоков: Dirichlet FM, CatFlow
Энергетические модели: GraphEBM

Детали реализации

Количество шагов выборки: GraphBFN использует 100×L шагов (L — количество слоёв), значительно меньше, чем 400-1000 шагов базовых методов
Параметры балансировки многомасштабных потерь: λ₁, λ₂
Минимальный временной порог: t_min = 10⁻⁵

Результаты экспериментов

Основные результаты

Метод	QM9 Val.↑	QM9 Unique↑	QM9 FCD↓	QM9 NSPDK↓	ZINC250k Val.↑	ZINC250k Unique↑	ZINC250k FCD↓	ZINC250k NSPDK↓	Шаги выборки
GDSS	95.72	98.46	2.565	0.0033	97.12	99.64	14.032	0.0192	1000
CatFlow	99.81	99.95	0.441	0.0029	99.21	100.00	13.211	0.0207	-
GraphBFN	99.60	99.97	0.214	0.0008	96.00	100.00	5.743	0.0069	100×L

Ключевые находки:

Улучшение метрики FCD на 51,5%, метрики NSPDK на 72,4%
Достижение лучших результатов при значительно меньшем количестве шагов выборки
Достижение наивысшей уникальности, демонстрирующей превосходное разнообразие

Абляционные исследования

GraphBFN vs GraphBFN_w/o (без иерархического контроля):

Иерархическая структура обеспечивает улучшения по всем метрикам
Хотя и жертвует некоторой скоростью выборки, значительно улучшает качество генерации

Анализ эффективности выборки

Превосходная производительность в первые 50 шагов
По сравнению с базовыми методами, требующими 400-1000 шагов, GraphBFN требует только 100 шагов для достижения отличных результатов
Подходит для приложений, чувствительных к времени вывода

Связанные работы

Модели генерации молекулярных графов

Авторегрессивные модели: пошаговое добавление узлов и рёбер, такие как серия GraphRNN
Одноэтапные модели: методы на основе VAE, нормализованных потоков, GAN, но часто сталкиваются с проблемами коллапса мод
Модели диффузии: современное направление, разделённое на дискретные и непрерывные типы

Модели диффузии графов

Дискретная диффузия: прямое определение процесса диффузии в дискретном пространстве состояний, такие как DiGress
Непрерывная диффузия: отображение в непрерывное пространство с применением гауссовой диффузии, такие как GDSS, GSDM
Основная проблема: как обработать дискретную природу меток атомов и связей

Байесовские сетевые потоки

Новый тип генеративной модели для обучения отображению между распределениями
Создание непрерывно дифференцируемого процесса обучения для дискретных данных
В данной работе предлагается более простой и эффективный механизм обработки дискретных признаков на этой основе

Выводы и обсуждение

Основные выводы

Успешное решение проблемы несоответствия обучения и вывода: объединение непрерывного обучения и дискретной выборки через механизм CDF
Значительное улучшение качества генерации: достижение новых передовых результатов на стандартных эталонах
Значительное повышение эффективности выборки: сокращение количества шагов выборки до 1/4-1/10 базовых методов
Повышение молекулярного разнообразия: избежание переобучения на нерелевантные внутриклассовые вариации

Ограничения

Недостаточный анализ интерпретируемости: отсутствие глубокого анализа того, как многомасштабная информация оптимизирует результаты генерации
Ограниченная область применения: основная проверка на относительно небольших наборах данных молекул
Вычислительная сложность: иерархическая структура добавляет определённые вычислительные затраты

Будущие направления

Расширение на более крупные и сложные графические области
Исследование применения условной генерации
Повышение анализа интерпретируемости
Оптимизация вычислительной эффективности

Глубокая оценка

Преимущества

Значительный теоретический вклад: выявление и решение фундаментальной проблемы непрерывных моделей диффузии
Выдающиеся технические инновации: механизм CDF искусно связывает непрерывное обучение с дискретным выводом
Полная экспериментальная проверка: всесторонние сравнительные эксперименты и исследования абляции
Высокая практическая ценность: значительное повышение эффективности, подходит для практического применения

Недостатки

Ограниченная глубина теоретического анализа: недостаточный анализ свойств сходимости и теоретических гарантий
Масштаб экспериментов: основная проверка на наборах данных среднего и малого размера, отсутствие проверки в большом масштабе
Анализ вычислительных затрат: недостаточный анализ дополнительных вычислительных затрат иерархической структуры
Анализ чувствительности гиперпараметров: недостаточно подробный анализ чувствительности к ключевым гиперпараметрам

Влияние

Академический вклад: предоставление новых идей решения для задач дискретной генерации
Практическая ценность: возможность ускорения процесса открытия лекарств
Воспроизводимость: чёткое описание методологии, удобное для воспроизведения
Потенциал распространения: структура может быть расширена на другие задачи генерации дискретных структур

Применимые сценарии

Открытие лекарств: проектирование и оптимизация молекул
Материаловедение: генерация структур новых материалов
Химическая информатика: расширение библиотек соединений
Другая генерация дискретных структур: такие как последовательности белков, ДНК и т.д.

Библиография

Статья цитирует важные работы в этой области, включая:

Graves et al. (2023): оригинальная работа по байесовским сетевым потокам
Vignac et al. (2023): метод дискретной диффузии DiGress
Jo, Lee, and Hwang (2022): модель оценочной диффузии GDSS
Ying et al. (2018): метод иерархического объединения графов DiffPool

Общая оценка: это высококачественная исследовательская статья, которая успешно выявляет и решает основную проблему в генерации молекулярных графов. Благодаря инновационному механизму CDF и иерархической структуре, она значительно повышает практическую производительность при сохранении теоретической строгости. Хотя есть место для улучшения в глубине теоретического анализа и масштабе экспериментов, её вклад достаточен для продвижения развития этой области.