2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.

Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.

academic

분자 그래프 생성을 위한 계층적 베이지안 흐름 네트워크

기본 정보

논문 ID: 2510.10211
제목: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
저자: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (우한대학교 컴퓨터학부)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.10211

초록

분자 그래프 생성은 본질적으로 원자와 화학 결합의 범주를 예측하는 분류 생성 문제입니다. 현재 주류인 연속 확산 모델은 훈련 과정을 회귀 작업으로 취급하여 연속 수치를 예측하지만, 최종 생성 시 반올림 연산을 통해 이산 분류 범주로 변환해야 합니다. 훈련 과정에 반올림 연산이 포함되지 않아 모델의 훈련 목표와 추론 과정 사이에 현저한 차이가 존재하므로, 과적합, 학습 효율 저하, 분자 다양성 감소 등의 문제가 발생합니다. 이러한 근본적인 한계를 해결하기 위해 저자들은 GraphBFN을 제안합니다. 이는 베이지안 흐름 네트워크 기반의 계층적 조잡-세밀 프레임워크로, 누적분포함수를 혁신적으로 도입하여 올바른 범주를 선택할 확률을 계산함으로써 훈련 목표와 샘플링 반올림 연산을 통합합니다.

연구 배경 및 동기

핵심 문제

분자 그래프 생성에 존재하는 근본적인 훈련-추론 불일치 문제:

훈련 단계: 연속 확산 모델이 이산 원자/결합 범주를 연속 공간으로 매핑하고, 회귀 손실을 통해 연속 수치 예측을 최적화
추론 단계: 연속 예측값을 이산 범주로 변환하기 위해 경직된 반올림 필요
불일치성: 훈련 시 반올림 규칙을 고려하지 않아 모델이 이산 특성을 무시하고 범주 내 변화에 과도하게 집중

문제의 중요성

분자 그래프 생성은 약물 발견의 핵심 기술로, 분자 최적화, 약물-표적 결합 친화력 예측 등 하위 작업에 영향
기존 방법의 불일치성으로 인해 분자 다양성 감소, 일반화 능력 제한
미미한 회귀 편차도 완전히 잘못된 분류 결과 초래 가능

기존 방법의 한계

이산 확산 모델: 이산 그래프 구조에 적합하지만 연속 표현의 평활성과 동적 생성 특성 포기
연속 확산 모델: 훈련 목표와 추론 과정 분리로 무관한 범주 내 변화에 과적합
전통적 베이지안 흐름 네트워크: 모든 범주가 확률 심플렉스에서 등거리라고 가정하여 수렴 속도 저하 및 노이즈 증가

핵심 기여

베이지안 흐름 네트워크를 분자 그래프 생성에 최초 적용, 계층적 분자 표현 감독을 통해 생성 효과 향상
누적분포함수(CDF) 혁신적 도입, 특정 수치 적합이 아닌 각 범주의 확률 계산으로 훈련 목표와 샘플링 반올림 연산 통합
계층적 조잡-세밀 프레임워크 제안, 다중 스케일 그래프 표현을 통해 국소 원자 연결성과 전역 분자 위상 동시 포착
더 빠른 훈련 및 샘플링 구현, QM9 및 ZINC250k 벤치마크에서 최첨단 성능 달성, 샘플링 단계 현저히 감소

방법 상세 설명

작업 정의

분자 그래프 $G = (X, A)$ 가 주어질 때:

$X \in \{0, \ldots, K_X - 1\}^D$ : $K_X$ 개 범주에서 나온 $D$ 개 원자 특성 행렬
$A \in \{0, \ldots, K_A - 1\}^{D \times D}$ : 인접 행렬, $K_A$ 개 결합 범주 특성 포함

목표는 실제 분자 분포를 따르는 새로운 분자 그래프 생성을 학습하는 것입니다.

모델 아키텍처

1. 계층적 조잡-세밀 프레임워크

다중 스케일 표현: DiffPool을 사용하여 $L$ 층 조잡화 층 구축, 분자 그래프의 피라미드 표현 생성
상향식 생성: 가장 조잡한 층에서 무조건 생성 시작, 완전한 원자 그래프로 점진적 세밀화
조건 전달: 각 층의 상향 샘플링 모듈 $\phi_1^{(l)}$ 이 조잡층 출력을 세밀층 조건 $c^{(l)}$ 으로 변환

2. 그래프 표현 매핑

이산 범주 $k \in \{0, \ldots, K-1\}$ 을 연속 공간 $[-1, 1]$ 로 매핑:

k_c = (2k + 1)/K - 1  # 중심점
k_l = k_c - 1/K       # 좌측 경계  
k_r = k_c + 1/K       # 우측 경계

3. 베이지안 흐름 네트워크 구성요소

입력 분포: 가우스 분포로 모델링

p_I(G|θ) = N(G|μ, ρ^{-1}I)

송신 분포: 가우스 노이즈 추가

p_S(Y|G; α) = N(Y|G, α^{-1}I)

출력 분포: CDF를 통해 이산 확률 계산

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

수신 분포:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. 핵심 혁신: CDF 메커니즘

절단된 누적분포함수를 사용하여 연속 분포와 이산 범주 연결:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    if x ≤ -1
  1,                    if x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], otherwise
}

기술 혁신점

훈련-추론 일관성: CDF가 이산 확률을 직접 계산하여 연속 예측과 이산 반올림의 불일치 회피
비등거리 범주 매핑: 전통적 BFN의 등거리 범주 가정과 달리 더 빠르고 평활한 수렴 허용
다중 스케일 감독: 계층적 프레임워크가 다양한 입도에서 구조 정보 제공, 생성 품질 향상
종단간 최적화: 통합된 손실 함수가 BFN 생성 손실과 풀링 손실을 동시 최적화

실험 설정

데이터셋

QM9: 134k개 소분자를 포함한 양자화학 데이터셋
ZINC250k: 250k개 상대적으로 큰 분자를 포함한 약물 유사 분자 데이터셋

평가 지표

Validity w/o correction: 교정 없는 유효 분자 비율
Uniqueness: 생성 분자의 고유성 비율
FCD (Fréchet ChemNet Distance): ChemNet 특성을 사용한 훈련 집합과 생성 집합 간 거리
NSPDK MMD: 원자 및 결합 특성을 고려한 근방 부분그래프 쌍별 거리 커널 최대 평균 차이

비교 방법

여러 최첨단 기준선 포함:

흐름 모델: MoFlow
확산 모델: EDP-GNN, GDSS, DiGress, GSDM
흐름 매칭: Dirichlet FM, CatFlow
에너지 모델: GraphEBM

구현 세부사항

샘플링 단계: GraphBFN은 100×L 단계 사용 (L은 층 수), 기준선의 400-1000 단계보다 현저히 적음
다중 스케일 손실 균형 매개변수: λ₁, λ₂
최소 시간 임계값: t_min = 10⁻⁵

실험 결과

주요 결과

방법	QM9 Val.↑	QM9 Unique↑	QM9 FCD↓	QM9 NSPDK↓	ZINC250k Val.↑	ZINC250k Unique↑	ZINC250k FCD↓	ZINC250k NSPDK↓	샘플링 단계
GDSS	95.72	98.46	2.565	0.0033	97.12	99.64	14.032	0.0192	1000
CatFlow	99.81	99.95	0.441	0.0029	99.21	100.00	13.211	0.0207	-
GraphBFN	99.60	99.97	0.214	0.0008	96.00	100.00	5.743	0.0069	100×L

주요 발견:

FCD 지표 51.5% 향상, NSPDK 지표 72.4% 향상
현저히 적은 샘플링 단계에서 최고 성능 달성
최고 고유성 달성, 우수한 다양성 입증

소거 실험

GraphBFN vs GraphBFN_w/o (계층적 감독 없음):

계층적 프레임워크가 모든 지표에서 향상
일부 샘플링 속도 희생하지만 생성 품질 현저히 개선

샘플링 효율 분석

처음 50 단계 내 우수한 성능
400-1000 단계가 필요한 기준선 방법과 달리 GraphBFN은 100 단계만으로 우수한 효과 달성
추론 시간에 민감한 응용 분야에 적합

결론 및 논의

주요 결론

훈련-추론 불일치 문제 성공적 해결: CDF 메커니즘을 통해 연속 훈련과 이산 샘플링 통합
생성 품질 현저히 향상: 표준 벤치마크에서 새로운 최첨단 성능 달성
샘플링 효율 대폭 개선: 샘플링 단계를 기준선 방법의 1/4-1/10로 감소
분자 다양성 강화: 무관한 범주 내 변화에 대한 과적합 회피

한계

해석 가능성 분석 부족: 다중 스케일 정보가 생성 결과를 어떻게 최적화하는지에 대한 심층 분석 부재
적용 범위 제한: 주로 상대적으로 작은 분자 데이터셋에서 검증
계산 복잡도: 계층적 프레임워크가 일정한 계산 오버헤드 증가

향후 방향

더 크고 복잡한 그래프 영역으로 확장
조건부 생성 작업 응용 탐색
해석 가능성 분석 강화
계산 효율 최적화

심층 평가

장점

이론적 기여 현저함: 연속 확산 모델의 근본적 문제 식별 및 해결
기술 혁신 두드러짐: CDF 메커니즘이 연속 훈련과 이산 추론을 교묘하게 연결
실험 검증 충분함: 포괄적인 비교 실험 및 소거 연구
실용 가치 높음: 효율성 현저히 향상, 실제 응용에 적합

부족점

이론 분석 깊이: 수렴 특성 및 이론적 보장에 대한 분석 제한적
실험 규모: 주로 중소 규모 데이터셋에서 검증, 대규모 검증 부족
계산 오버헤드: 계층적 프레임워크의 추가 계산 비용 분석 부족
초매개변수 민감성: 핵심 초매개변수에 대한 민감성 분석 불충분

영향력

학술적 기여: 이산 생성 작업에 새로운 해결 방안 제시
실용 가치: 약물 발견 프로세스 가속화 가능
재현성: 방법 설명이 명확하여 재현 용이
확산 잠재력: 프레임워크를 다른 이산 구조 생성 작업으로 확장 가능

적용 시나리오

약물 발견: 분자 설계 및 최적화
재료 과학: 신규 재료 구조 생성
화학 정보학: 화합물 라이브러리 확장
기타 이산 구조 생성: 단백질, DNA 서열 등

참고문헌

논문은 해당 분야의 중요 연구를 인용하고 있습니다:

Graves et al. (2023): 베이지안 흐름 네트워크 원본 연구
Vignac et al. (2023): DiGress 이산 확산 방법
Jo, Lee, and Hwang (2022): GDSS 점수 확산 모델
Ying et al. (2018): DiffPool 계층적 그래프 풀링 방법

종합 평가: 이는 분자 그래프 생성의 핵심 문제를 성공적으로 식별하고 해결한 고품질 연구 논문입니다. 혁신적인 CDF 메커니즘과 계층적 프레임워크를 통해 이론적 엄밀성을 유지하면서 동시에 실용 성능을 현저히 향상시켰습니다. 이론 분석 깊이와 실험 규모 측면에서 개선 여지가 있지만, 그 기여는 해당 분야의 발전을 추진하기에 충분합니다.