Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- 논문 ID: 2410.15040
- 제목: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- 저자: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- 분류: cs.AI
- 발표 학회: ICLR 2025
- 논문 링크: https://arxiv.org/abs/2410.15040
항체는 신체의 면역 반응을 담당하는 중요한 단백질로서 병원체의 항원 분자를 특이적으로 인식할 수 있습니다. 생성 모델의 최근 발전에도 불구하고 합리적 항체 설계 능력이 크게 향상되었지만, 기존 방법들은 주로 항체를 처음부터 생성하며 템플릿 제약이 부족하여 모델 최적화의 어려움과 비자연적 서열 문제를 야기합니다. 이러한 문제를 해결하기 위해 본 논문은 효율적인 항체 설계를 위한 검색 증강 확산 프레임워크 RADAb를 제안합니다. 본 방법은 쿼리 구조 제약과 정렬된 구조 동족 모티프 집합을 활용하여 생성 모델이 원하는 설계 기준에 따라 항체를 역방향으로 최적화하도록 안내합니다. 구체적으로, 구조 정보 검색 메커니즘을 도입하여 새로운 이중 분기 노이징 제거 모듈을 통해 이러한 예제 모티프를 입력 골격과 통합하면서 구조 및 진화 정보를 활용합니다. 또한 조건부 확산 모델을 개발하여 전역 컨텍스트와 국소 진화 조건을 결합함으로써 반복적 최적화 과정을 수행합니다. 본 방법은 생성 모델의 선택과 무관하며, 실험을 통해 여러 항체 역방향 폴딩 및 최적화 작업에서 최첨단 성능을 달성함을 입증합니다.
항체 설계가 직면한 핵심 과제는 사전 정의된 생화학적 특성을 가진 기능성 항체 서열을 생성하는 방법입니다. 전통적인 항체 개발은 동물 면역화 또는 대규모 항체 라이브러리 스크리닝과 같은 노동 집약적인 실험 방법에 의존하며, 치료 관련 에피토프를 표적으로 하는 항체를 효과적으로 생성하지 못하는 경우가 많습니다.
- 데이터 부족: 주로 SAbDab 데이터베이스에 의존하며, 1만 개 미만의 항원-항체 복합체 구조를 포함하고 있어 모델이 고차 상호작용 정보를 포착하는 능력을 제한합니다
- 처음부터의 설계 어려움: 기존 방법은 항체 서열을 처음부터 설계하려고 시도하며, 템플릿 기반 지침이 부족하여 대량의 데이터와 광범위한 훈련이 필요합니다
- 구조 제약 부재: 현재 생성 모델은 구조 제약을 준수하면서 원하는 생물학적 특성을 가진 항체를 설계하기 어렵습니다
본 논문은 템플릿 및 프래그먼트 기반 항체 설계에서 영감을 받아 다음을 목표로 합니다:
- 템플릿 인식 국소 및 전역 단백질 기하학 정보를 활용하여 모델 생성 능력 향상
- 모티프 진화 신호를 통합하여 과적합 방지
- 실제 응용에서 최소한의 훈련 또는 미세 조정 필요
- 최초 검색 증강 생성 프레임워크: 원하는 골격 구조 및 특성을 만족하는 기능성 CDR 유사 프래그먼트 집합으로 생성을 안내하는 합리적 항체 설계를 위한 최초의 검색 증강 생성 프레임워크 제안
- 새로운 검색 메커니즘: 이중 분기 노이징 제거 모듈을 통해 예제 모티프를 입력 골격과 통합하고 구조 및 진화 정보를 활용하는 구조 정보 검색 메커니즘 도입
- 현저한 성능 향상: 여러 항체 역방향 폴딩 작업에서 최첨단 방법 개선, 예를 들어 긴 CDRH3 역방향 폴딩 작업에서 AAR 8.08% 향상, 기능 최적화 작업에서 평균 절대 ΔΔG 7 cal/mol 개선
항체 프레임워크 복합체 Cab, 항원 Cag, 검색된 CDR 유사 프래그먼트 A가 주어졌을 때, 목표는 CDR 영역 R={sj∣j∈{a+1,...,a+m}}의 서열 분포를 예측하는 것입니다. 여기서 m은 CDR 길이, a는 시작 위치입니다.
MASTER 알고리즘을 사용한 구조 검색:
- 입력: CDR 골격 원자 좌표 집합 X={xk∣k∈{1,...,m}}
- 유사성 측정: 골격 원자의 제곱근 평균 제곱 편차(RMSD)
- 출력: 구조적으로 유사한 CDR 유사 프래그먼트 집합 A={Ai∣i∈{1,...,k}}
전역 기하학적 컨텍스트 분기:
- 컨텍스트 인코더: 단일 잔기 특성 zi 및 잔기 쌍 특성 yij 추출
- 진화 인코더: ESM2를 사용하여 항체 서열의 진화 임베딩 et 추출
- 구조 정보 네트워크: IPA 계층 스택을 통해 처리하여 전역 확률 표현 rglobal 출력
국소 CDR 초점 분기:
- CDR 초점 축방향 주의: 의사 MSA 행렬 P 구성:
P=concat((Sab∪Rgt),E)
여기서 E는 CDR 유사 서열 행렬
- 결합된 행 주의 메커니즘: 다중 행 주의 점수를 동시에 고려하여 구조 유사성 활용
- 정보 융합: 스킵 연결을 통해 rlocal과 rglobal 융합
전향 과정 노이즈 추가:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
역향 노이징 제거 과정:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- 구조 정보 검색: MASTER 알고리즘을 활용하여 골격 구조를 기반으로 CDR 유사 프래그먼트를 검색하여 서열 정보 누출 방지
- 이중 분기 아키텍처: 전역 분기는 항원-항체 복합체 컨텍스트를 포착하고, 국소 분기는 동족 진화 정보 학습
- 결합된 행 주의: 구조 유사성을 충분히 활용하도록 특별히 설계된 주의 메커니즘
- 모델 무관성: 프레임워크는 임의의 확산 생성 모델과 통합 가능
- 훈련 집합: SAbDab 데이터베이스, 분해능 4Å 이하의 구조 제거, CDRH3 영역 50% 서열 유사성 기반 클러스터링
- 테스트 집합: 50개 PDB 파일, 63개 항체-항원 복합체 구조 포함
- CDR 유사 프래그먼트 데이터베이스: 비중복 PDB에서 구성, 구조적으로 호환되는 CDR 유사 선형 기능 모티프 포함
- 아미노산 회복률(AAR): 설계 서열과 실제 CDR 서열이 동일한 아미노산 위치의 비율
- 자체 일관성 RMSD(scRMSD): 재폴딩된 항체 구조 후 CDR 영역 Cα 원자의 RMSD
- 타당성(Plausibility): AntiBERTy를 사용하여 계산한 의사 로그 우도
- 전통적 방법: Grafting(상위-1 검색 프래그먼트 직접 이식)
- 심층 학습 방법: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- 최적화기: Adam, 학습률 0.0001
- 배치 크기: 8
- CDRH3 별도 훈련 100,000 반복, 기타 CDR 영역 공동 훈련 250,000 반복
- 확산 시간 단계: 100 단계
항체 CDR 서열 역방향 폴딩 결과:
| 방법 | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
긴 CDRH3 서열 설계 결과(길이 >14):
| 방법 | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
결합 에너지 최적화 결과:
| 방법 | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| 구성 요소 | AAR(%) | scRMSD | Plausibility |
|---|
| 완전한 모델 | 57.02 | 2.23 | -0.530 |
| 검색 증강 없음 | 52.15 | 2.39 | -0.529 |
| 진화 임베딩 없음 | 51.36 | 2.23 | -0.538 |
| 기준선 Diffab | 49.17 | 2.24 | -0.541 |
SARS-CoV-2 중화 항체(PDB: 7d6i)를 예로 들어, 생성된 50개 CDRH3 서열 중 68%가 원본 복합체보다 낮은 ΔG 값을 나타내어 기능 최적화 효과를 입증합니다.
- 전통적 방법: 에너지 함수 최적화 및 서열 유사성 기반 방법
- 기계 학습 방법:
- 항체 서열 설계: 언어 모델 및 역방향 폴딩 모델
- 항원 특이성 서열-구조 협력 설계: 그래프 신경망 방법
단백질 설계에서 확산 모델의 응용, DDPM의 전향 노이즈 과정 및 역향 생성 과정 포함
NLP 분야에서 컴퓨터 비전 및 분자 생성 분야로 확장된 RAG 기술, 본 논문은 항체 설계에 처음 적용
- RADAb는 여러 항체 설계 작업에서 최첨단 성능 달성
- 검색 증강 메커니즘은 모델의 생성 품질 및 기능성을 크게 향상
- 이중 분기 아키텍처는 전역 컨텍스트와 국소 진화 정보를 효과적으로 통합
- 실험 검증 부족: 습식 실험에서 충분히 검증되지 않음
- 계산 오버헤드: 구조 검색 및 ESM2 인코딩에 더 많은 계산 자원 필요
- 데이터 누출 위험: 서열-구조 협력 설계에서 현재 검색 메커니즘 적용 시 데이터 누출 위험
- 습식 실험 검증이 주요 작업 중 하나
- 다양한 단백질 모티프 설계로 모델 확장
- 데이터 누출 문제 해결을 위한 PPI 검색 탐색
- 높은 혁신성: 검색 증강 기술을 항체 설계에 처음 적용하며, 새로운 이중 분기 아키텍처 제안
- 견고한 기술: 구조 정보 검색 메커니즘이 합리적으로 설계되어 서열 정보 누출 방지
- 충분한 실험: 여러 작업 및 지표에 대한 포괄적 평가, 절제 실험 포함
- 뛰어난 성능: 모든 평가 작업에서 최첨단 성능 달성
- 실용성 검증 필요: 습식 실험 검증 부족, 실제 응용 효과 미지수
- 높은 계산 복잡도: 검색 과정 및 이중 분기 네트워크로 인한 계산 부담 증가
- 적용 범위 제한: 주로 역방향 폴딩 작업에 초점, 전원자 설계에서 제약
- 학술적 기여: 생물 분자 생성 모델에 새로운 관점 제공, 단백질 설계에서 검색 증강 기술 적용 추진
- 실용적 가치: 항체 약물 설계 과정 가속화 및 실험 비용 절감 가능성
- 재현성: 상세한 구현 세부사항 및 오픈소스 코드 제공
- 알려진 항체 템플릿 기반 CDR 최적화 설계
- 구조 제약 유지가 필요한 항체 서열 개선
- 항체 친화성 성숙 및 기능 최적화
본 논문은 항체 설계, 확산 모델 및 검색 증강 생성 분야의 중요한 연구를 인용하여 RADAb 프레임워크에 견고한 이론적 기초 및 기술 지원을 제공합니다.
종합 평가: 이는 항체 설계 분야에서 혁신적인 검색 증강 확산 프레임워크를 제안한 고품질 연구 논문입니다. 기술 방안이 합리적으로 설계되었으며, 실험 평가가 포괄적이고, 결과가 설득력 있습니다. 실제 응용 검증 측면에서 아직 강화가 필요하지만, 단백질 설계 분야에 새로운 연구 방향을 개척했으며 중요한 학술적 가치와 응용 전망을 가지고 있습니다.