2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

구조 정보 기반 항체 설계 및 최적화를 위한 검색 증강 확산 모델

기본 정보

논문 ID: 2410.15040
제목: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
저자: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
분류: cs.AI
발표 학회: ICLR 2025
논문 링크: https://arxiv.org/abs/2410.15040

초록

항체는 신체의 면역 반응을 담당하는 중요한 단백질로서 병원체의 항원 분자를 특이적으로 인식할 수 있습니다. 생성 모델의 최근 발전에도 불구하고 합리적 항체 설계 능력이 크게 향상되었지만, 기존 방법들은 주로 항체를 처음부터 생성하며 템플릿 제약이 부족하여 모델 최적화의 어려움과 비자연적 서열 문제를 야기합니다. 이러한 문제를 해결하기 위해 본 논문은 효율적인 항체 설계를 위한 검색 증강 확산 프레임워크 RADAb를 제안합니다. 본 방법은 쿼리 구조 제약과 정렬된 구조 동족 모티프 집합을 활용하여 생성 모델이 원하는 설계 기준에 따라 항체를 역방향으로 최적화하도록 안내합니다. 구체적으로, 구조 정보 검색 메커니즘을 도입하여 새로운 이중 분기 노이징 제거 모듈을 통해 이러한 예제 모티프를 입력 골격과 통합하면서 구조 및 진화 정보를 활용합니다. 또한 조건부 확산 모델을 개발하여 전역 컨텍스트와 국소 진화 조건을 결합함으로써 반복적 최적화 과정을 수행합니다. 본 방법은 생성 모델의 선택과 무관하며, 실험을 통해 여러 항체 역방향 폴딩 및 최적화 작업에서 최첨단 성능을 달성함을 입증합니다.

연구 배경 및 동기

문제 정의

항체 설계가 직면한 핵심 과제는 사전 정의된 생화학적 특성을 가진 기능성 항체 서열을 생성하는 방법입니다. 전통적인 항체 개발은 동물 면역화 또는 대규모 항체 라이브러리 스크리닝과 같은 노동 집약적인 실험 방법에 의존하며, 치료 관련 에피토프를 표적으로 하는 항체를 효과적으로 생성하지 못하는 경우가 많습니다.

기존 방법의 한계

데이터 부족: 주로 SAbDab 데이터베이스에 의존하며, 1만 개 미만의 항원-항체 복합체 구조를 포함하고 있어 모델이 고차 상호작용 정보를 포착하는 능력을 제한합니다
처음부터의 설계 어려움: 기존 방법은 항체 서열을 처음부터 설계하려고 시도하며, 템플릿 기반 지침이 부족하여 대량의 데이터와 광범위한 훈련이 필요합니다
구조 제약 부재: 현재 생성 모델은 구조 제약을 준수하면서 원하는 생물학적 특성을 가진 항체를 설계하기 어렵습니다

연구 동기

본 논문은 템플릿 및 프래그먼트 기반 항체 설계에서 영감을 받아 다음을 목표로 합니다:

템플릿 인식 국소 및 전역 단백질 기하학 정보를 활용하여 모델 생성 능력 향상
모티프 진화 신호를 통합하여 과적합 방지
실제 응용에서 최소한의 훈련 또는 미세 조정 필요

핵심 기여

최초 검색 증강 생성 프레임워크: 원하는 골격 구조 및 특성을 만족하는 기능성 CDR 유사 프래그먼트 집합으로 생성을 안내하는 합리적 항체 설계를 위한 최초의 검색 증강 생성 프레임워크 제안
새로운 검색 메커니즘: 이중 분기 노이징 제거 모듈을 통해 예제 모티프를 입력 골격과 통합하고 구조 및 진화 정보를 활용하는 구조 정보 검색 메커니즘 도입
현저한 성능 향상: 여러 항체 역방향 폴딩 작업에서 최첨단 방법 개선, 예를 들어 긴 CDRH3 역방향 폴딩 작업에서 AAR 8.08% 향상, 기능 최적화 작업에서 평균 절대 ΔΔG 7 cal/mol 개선

방법 상세 설명

작업 정의

항체 프레임워크 복합체 $C_{ab}$ , 항원 $C_{ag}$ , 검색된 CDR 유사 프래그먼트 $A$ 가 주어졌을 때, 목표는 CDR 영역 $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ 의 서열 분포를 예측하는 것입니다. 여기서 $m$ 은 CDR 길이, $a$ 는 시작 위치입니다.

모델 아키텍처

1. 구조 검색 모듈

MASTER 알고리즘을 사용한 구조 검색:

입력: CDR 골격 원자 좌표 집합 $X = \{x_k | k \in \{1, ..., m\}\}$
유사성 측정: 골격 원자의 제곱근 평균 제곱 편차(RMSD)
출력: 구조적으로 유사한 CDR 유사 프래그먼트 집합 $A = \{A_i | i \in \{1, ..., k\}\}$

2. 이중 분기 노이징 제거 네트워크

전역 기하학적 컨텍스트 분기:

컨텍스트 인코더: 단일 잔기 특성 $z_i$ 및 잔기 쌍 특성 $y_{ij}$ 추출
진화 인코더: ESM2를 사용하여 항체 서열의 진화 임베딩 $e^t$ 추출
구조 정보 네트워크: IPA 계층 스택을 통해 처리하여 전역 확률 표현 $r_{global}$ 출력

국소 CDR 초점 분기:

CDR 초점 축방향 주의: 의사 MSA 행렬 $P$ 구성: $P = \text{concat}((S_{ab} \cup R^t_g), E)$ 여기서 $E$ 는 CDR 유사 서열 행렬
결합된 행 주의 메커니즘: 다중 행 주의 점수를 동시에 고려하여 구조 유사성 활용
정보 융합: 스킵 연결을 통해 $r_{local}$ 과 $r_{global}$ 융합

3. 조건부 확산 과정

전향 과정 노이즈 추가: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

역향 노이징 제거 과정: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

기술 혁신점

구조 정보 검색: MASTER 알고리즘을 활용하여 골격 구조를 기반으로 CDR 유사 프래그먼트를 검색하여 서열 정보 누출 방지
이중 분기 아키텍처: 전역 분기는 항원-항체 복합체 컨텍스트를 포착하고, 국소 분기는 동족 진화 정보 학습
결합된 행 주의: 구조 유사성을 충분히 활용하도록 특별히 설계된 주의 메커니즘
모델 무관성: 프레임워크는 임의의 확산 생성 모델과 통합 가능

실험 설정

데이터셋

훈련 집합: SAbDab 데이터베이스, 분해능 4Å 이하의 구조 제거, CDRH3 영역 50% 서열 유사성 기반 클러스터링
테스트 집합: 50개 PDB 파일, 63개 항체-항원 복합체 구조 포함
CDR 유사 프래그먼트 데이터베이스: 비중복 PDB에서 구성, 구조적으로 호환되는 CDR 유사 선형 기능 모티프 포함

평가 지표

아미노산 회복률(AAR): 설계 서열과 실제 CDR 서열이 동일한 아미노산 위치의 비율
자체 일관성 RMSD(scRMSD): 재폴딩된 항체 구조 후 CDR 영역 Cα 원자의 RMSD
타당성(Plausibility): AntiBERTy를 사용하여 계산한 의사 로그 우도

비교 방법

전통적 방법: Grafting(상위-1 검색 프래그먼트 직접 이식)
심층 학습 방법: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

구현 세부사항

최적화기: Adam, 학습률 0.0001
배치 크기: 8
CDRH3 별도 훈련 100,000 반복, 기타 CDR 영역 공동 훈련 250,000 반복
확산 시간 단계: 100 단계

실험 결과

주요 결과

항체 CDR 서열 역방향 폴딩 결과:

방법	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibility
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

긴 CDRH3 서열 설계 결과(길이 >14):

방법	AAR(%)	scRMSD	Plausibility
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

기능 최적화 결과

결합 에너지 최적화 결과:

방법	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

절제 실험

구성 요소	AAR(%)	scRMSD	Plausibility
완전한 모델	57.02	2.23	-0.530
검색 증강 없음	52.15	2.39	-0.529
진화 임베딩 없음	51.36	2.23	-0.538
기준선 Diffab	49.17	2.24	-0.541

사례 분석

SARS-CoV-2 중화 항체(PDB: 7d6i)를 예로 들어, 생성된 50개 CDRH3 서열 중 68%가 원본 복합체보다 낮은 ΔG 값을 나타내어 기능 최적화 효과를 입증합니다.

결론 및 논의

주요 결론

RADAb는 여러 항체 설계 작업에서 최첨단 성능 달성
검색 증강 메커니즘은 모델의 생성 품질 및 기능성을 크게 향상
이중 분기 아키텍처는 전역 컨텍스트와 국소 진화 정보를 효과적으로 통합

한계

실험 검증 부족: 습식 실험에서 충분히 검증되지 않음
계산 오버헤드: 구조 검색 및 ESM2 인코딩에 더 많은 계산 자원 필요
데이터 누출 위험: 서열-구조 협력 설계에서 현재 검색 메커니즘 적용 시 데이터 누출 위험

향후 방향

습식 실험 검증이 주요 작업 중 하나
다양한 단백질 모티프 설계로 모델 확장
데이터 누출 문제 해결을 위한 PPI 검색 탐색

심층 평가

장점

높은 혁신성: 검색 증강 기술을 항체 설계에 처음 적용하며, 새로운 이중 분기 아키텍처 제안
견고한 기술: 구조 정보 검색 메커니즘이 합리적으로 설계되어 서열 정보 누출 방지
충분한 실험: 여러 작업 및 지표에 대한 포괄적 평가, 절제 실험 포함
뛰어난 성능: 모든 평가 작업에서 최첨단 성능 달성

부족한 점

실용성 검증 필요: 습식 실험 검증 부족, 실제 응용 효과 미지수
높은 계산 복잡도: 검색 과정 및 이중 분기 네트워크로 인한 계산 부담 증가
적용 범위 제한: 주로 역방향 폴딩 작업에 초점, 전원자 설계에서 제약

영향력

학술적 기여: 생물 분자 생성 모델에 새로운 관점 제공, 단백질 설계에서 검색 증강 기술 적용 추진
실용적 가치: 항체 약물 설계 과정 가속화 및 실험 비용 절감 가능성
재현성: 상세한 구현 세부사항 및 오픈소스 코드 제공

적용 시나리오

알려진 항체 템플릿 기반 CDR 최적화 설계
구조 제약 유지가 필요한 항체 서열 개선
항체 친화성 성숙 및 기능 최적화

참고문헌

본 논문은 항체 설계, 확산 모델 및 검색 증강 생성 분야의 중요한 연구를 인용하여 RADAb 프레임워크에 견고한 이론적 기초 및 기술 지원을 제공합니다.

종합 평가: 이는 항체 설계 분야에서 혁신적인 검색 증강 확산 프레임워크를 제안한 고품질 연구 논문입니다. 기술 방안이 합리적으로 설계되었으며, 실험 평가가 포괄적이고, 결과가 설득력 있습니다. 실제 응용 검증 측면에서 아직 강화가 필요하지만, 단백질 설계 분야에 새로운 연구 방향을 개척했으며 중요한 학술적 가치와 응용 전망을 가지고 있습니다.