Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic
Иерархические байесовские сетевые потоки для генерации молекулярных графов
Генерация молекулярных графов по сути является задачей категориальной генерации, направленной на предсказание категорий атомов и химических связей. Современные непрерывные модели диффузии рассматривают процесс обучения как задачу регрессии, предсказывая непрерывные числовые значения, но при окончательной генерации требуют преобразования в дискретные категориальные классы путём округления. Поскольку операция округления не включена в процесс обучения, существует значительное расхождение между целью обучения модели и процессом вывода, что приводит к переобучению, низкой эффективности обучения и снижению молекулярного разнообразия. Для решения этого фундаментального ограничения авторы предлагают GraphBFN — иерархическую структуру от грубого к тонкому на основе байесовских сетевых потоков, которая инновационно вводит кумулятивную функцию распределения для расчёта вероятности выбора правильного класса, тем самым объединяя цель обучения с операцией округления при выборке.
В генерации молекулярных графов существует фундаментальная проблема несоответствия между обучением и выводом:
Этап обучения: непрерывные модели диффузии отображают дискретные категории атомов/связей в непрерывное пространство, оптимизируя предсказание непрерывных значений через потери регрессии
Этап вывода: требуется преобразование непрерывных предсказанных значений в дискретные классы путём жёсткого округления
Несоответствие: во время обучения правила округления не учитываются, что приводит к чрезмерному сосредоточению модели на внутриклассовых вариациях и игнорированию дискретной природы
Генерация молекулярных графов является ключевой технологией в открытии лекарств, влияющей на оптимизацию молекул, предсказание сродства связывания лекарство-мишень и другие нижестоящие задачи
Несоответствие существующих методов приводит к снижению молекулярного разнообразия и ограниченной способности к обобщению
Даже небольшие ошибки регрессии могут привести к полностью неправильным результатам классификации
Дискретные модели диффузии: хотя и подходят для дискретных графических структур, они жертвуют гладкостью непрерывного представления и динамическими характеристиками генерации
Непрерывные модели диффузии: цель обучения отделена от процесса вывода, что легко приводит к переобучению на нерелевантные внутриклассовые вариации
Традиционные байесовские сетевые потоки: предполагают равномерное расстояние всех классов в вероятностном симплексе, что приводит к медленной сходимости и большему шуму
Первое применение байесовских сетевых потоков к генерации молекулярных графов с использованием иерархического молекулярного представления для улучшения результатов генерации
Инновационное введение кумулятивной функции распределения (CDF) для расчёта вероятностей классов вместо подгонки конкретных значений, объединяя цель обучения с операцией округления при выборке
Предложение иерархической структуры от грубого к тонкому, которая одновременно захватывает локальную связность атомов и глобальную топологию молекул через многомасштабное представление графов
Достижение более быстрого обучения и выборки с новыми передовыми результатами на эталонах QM9 и ZINC250k, значительно сокращая количество шагов выборки
Согласованность обучения и вывода: CDF напрямую вычисляет дискретные вероятности, избегая несоответствия между непрерывным предсказанием и дискретным округлением
Неравномерное отображение классов: в отличие от традиционного BFN, предполагающего равномерное расстояние классов, позволяет более быструю и плавную сходимость
Многомасштабный контроль: иерархическая структура обеспечивает информацию о структуре на разных уровнях детализации, улучшая качество генерации
Сквозная оптимизация: единая функция потерь одновременно оптимизирует потери генерации BFN и потери объединения
Статья цитирует важные работы в этой области, включая:
Graves et al. (2023): оригинальная работа по байесовским сетевым потокам
Vignac et al. (2023): метод дискретной диффузии DiGress
Jo, Lee, and Hwang (2022): модель оценочной диффузии GDSS
Ying et al. (2018): метод иерархического объединения графов DiffPool
Общая оценка: это высококачественная исследовательская статья, которая успешно выявляет и решает основную проблему в генерации молекулярных графов. Благодаря инновационному механизму CDF и иерархической структуре, она значительно повышает практическую производительность при сохранении теоретической строгости. Хотя есть место для улучшения в глубине теоретического анализа и масштабе экспериментов, её вклад достаточен для продвижения развития этой области.