2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

잠재 검색 증강 생성을 통한 교차 도메인 단백질 결합자 설계

기본 정보

  • 논문 ID: 2510.10480
  • 제목: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • 저자: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • 분류: cs.LG cs.AI
  • 발표 시간/학회: 사전인쇄본. 검토 중 (2024년 10월)
  • 논문 링크: https://arxiv.org/abs/2510.10480

초록

특정 위치의 단백질 결합자 설계는 약물 발견의 기본적인 과제로, 현실적이고 기능적인 상호작용 패턴의 생성이 필요합니다. 현재의 구조 기반 생성 모델은 충분한 합리성과 해석 가능성을 갖춘 인터페이스 생성에 제한이 있습니다. 본 논문은 알려진 인터페이스를 활용하여 새로운 결합자 설계를 지도하는 검색 증강 확산 정렬 인터페이스 프레임워크(RADiAnce)를 제안합니다. 공유 대조 잠재 공간에서 검색과 생성을 통합함으로써, 이 모델은 주어진 결합 위치에 대한 관련 인터페이스를 효율적으로 식별하고, 조건부 잠재 확산 생성기를 통해 원활하게 통합하여 교차 도메인 인터페이스 전이를 실현합니다.

연구 배경 및 동기

핵심 문제

  1. 단백질 결합자 설계 과제: 특정 단백질 위치를 표적으로 하는 결합자 설계는 현실적이고 기능적인 분자 인터페이스 상호작용 패턴의 생성을 요구합니다
  2. 기존 방법의 한계: 현재 구조 생성 모델은 합리성과 해석 가능성이 부족하며, 알려진 구조 정보를 효과적으로 활용하지 못합니다

중요성

  • 약물 발견, 구조 생물학 등 다양한 분야에서 광범위한 응용 가치 보유
  • 전통적 방법은 물리적 또는 통계적 에너지 경관 샘플링 최적화에 의존하여 효율성이 낮음
  • 심층 생성 모델은 진전이 있지만 여전히 합리적인 분자 인터페이스 생성이 어려움

기존 방법의 한계

  1. 사전 지식 무시: 대부분의 방법은 목표 결합 위치만을 기반으로 생성하며, 기존 단백질 복합체의 풍부한 재사용 가능한 상호작용 패턴을 무시합니다
  2. 교차 도메인 일반화 부족: 펩타이드, 항체, 단백질 단편 등 다양한 유형의 결합자 간 공통 상호작용 모티프를 효과적으로 활용하지 못합니다
  3. 해석 가능성 부족: 생성 과정에 명확한 생물학적 지도 원칙이 부재합니다

핵심 기여

  1. RADiAnce 프레임워크 제안: 단백질 결합자 서열-구조 협력 설계에 검색 증강 생성을 적용한 첫 번째 방법
  2. 대조 잠재 공간 구축: 검색과 생성을 통합하는 공유 잠재 표현을 설계하여 교차 도메인 인터페이스 유사성 측정 지원
  3. 교차 도메인 인터페이스 전이 실현: 다양한 결합자 유형의 인터페이스 검색이 다른 도메인 결합자의 생성 성능을 향상시킬 수 있음을 검증
  4. 현저한 성능 향상: 결합 친화력, 기하학적 형태 및 상호작용 복구를 포함한 여러 평가 지표에서 기준 방법을 크게 능가

방법론 상세 설명

작업 정의

  • 입력: 목표 단백질의 결합 위치 Y (10Å 거리 내의 잔기)
  • 출력: 해당 위치와 특이적으로 결합할 수 있는 분자 결합자 X
  • 목표: 조건부 분포 p_θ(X | Y, T(Y|D)) 모델링, 여기서 T(Y|D)는 데이터베이스 D에서 검색된 관련 인터페이스

모델 아키텍처

1. 대조 변분 자동인코더(Contrastive VAE)

인코더: Zx = Eφ(X), Zy = Eφ(Y)
디코더: X̂ = Dξ(Zx, Zy, Y)

주요 설계:

  • 결합 위치 Y와 결합자 X를 독립적으로 잠재 포인트 클라우드로 인코딩
  • 잠재 변수는 스칼라 임베딩 zi와 3D 좌표 z⃗i 포함
  • 대조 학습을 통해 양성 샘플 쌍을 정렬하고 음성 샘플 쌍을 배제

손실 함수:

L(D) = Σ(Lrec + LKL + Lretrieval)

여기서:

  • Lrec: 재구성 손실 (교차 엔트로피 + MSE)
  • LKL: KL 발산 정규화
  • Lretrieval: 양방향 대조 손실

2. 검색 증강 잠재 확산

정방향 과정:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

역방향 과정:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

템플릿 통합 메커니즘:

  • E(3) 등변 Transformer를 노이즈 제거 핵심으로 사용
  • 교차 주의 메커니즘을 통해 검색된 템플릿 정보 통합
  • 쿼리-키-값 계산: Q = HWQ, K = TWK, V = TWV

기술 혁신점

  1. 통합 잠재 공간: 동일한 잠재 공간에서 검색과 생성을 통합하여 검색 결과가 생성 과정을 직접 지도할 수 있도록 보장
  2. 교차 도메인 유사성 측정: 대조 학습을 통해 학습된 잠재 표현이 다양한 유형의 결합자 간 공통 상호작용 모티프를 포착할 수 있음
  3. 조건부 확산 통합: 검색된 인터페이스 임베딩을 교차 주의 및 잔여 MLP를 통해 확산 과정에 혁신적으로 통합

실험 설정

데이터셋

  1. 펩타이드 설계: PepBench 데이터셋
    • 훈련: 4,157개 복합체
    • 검증: 114개 복합체
    • 테스트: 93개 LNR 벤치마크 사례
  2. 항체 설계: SAbDab 데이터셋
    • 훈련: 9,473개 항목
    • 검증: 400개 항목
    • 테스트: 60개 RAbD 벤치마크 사례
  3. 단백질 단편: ProtFrag 데이터셋
    • 70,498개 단량체 유래 단백질 단편

평가 지표

  • AAR (아미노산 복구율): 생성된 서열과 참조 서열의 일치 비율
  • RMSD: Cα 좌표의 제곱 평균 제곱근 편차
  • ISM (상호작용 위치 일치): 주요 물리화학 상호작용의 복구 정도
  • ∆∆G: 결합 자유 에너지 변화
  • IMP: 생성된 결합자가 천연 리간드를 능가하는 목표 비율

비교 방법

  • 펩타이드 설계: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • 항체 설계: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

실험 결과

주요 결과

펩타이드 서열-구조 협력 설계

모델AAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

항체 CDR 설계

RADiAnce는 모든 CDR 영역 (H1, H2, H3, L1, L2, L3)에서 기준 방법을 크게 능가합니다:

  • H1 영역: AAR이 90.83%로 향상, ∆∆G가 -8.221 kJ/mol로 개선
  • H3 영역 (가장 도전적): AAR이 54.66%에 도달, 다른 방법을 크게 능가

검색 신뢰성 검증

모델 구성ITO(%)RC-0.1%RC-0.5%RC-5%
항체 CVAE (완전)43.9366.6796.67100.0
펩타이드 CVAE (완전)61.4111.5822.5867.74

제거 실험

  1. 교차 도메인 훈련 효과: 다중 도메인 데이터 포함이 검색 및 생성 성능을 크게 향상시킵니다
  2. 결합 훈련의 필요성: VAE와 대조 손실을 동시에 최적화하는 것이 중요합니다
  3. 검색 수량의 영향: 적절한 검색 (10-20개 샘플)이 최적의 효과를 냅니다

사례 분석

GPIIb/IIIa 복합체 (PDB ID: 3NID)를 예로 들면:

  • 검색 지도 없음: 특징적인 다중 수소 결합 상호작용 재구성 어려움
  • 검색 증강: 주요 상호작용 모티프를 성공적으로 상속, 아르기닌과 타이로신 매개 수소 결합 패턴 복구

관련 연구

펩타이드 설계

  • 고전적 에너지 샘플링에서 심층 생성 모델링으로 전환
  • PepFlow/PPFlow는 다중 모드 흐름 일치 적용
  • PepGLAD는 기하학적 잠재 확산 적용

항체 설계

  • 전통적 물리 샘플링에서 심층 학습 프레임워크로 전환
  • DiffAb 등이 항원 조건 생성 도입
  • PALM-H3 같은 언어 모델 방법이 주목받음

검색 증강 생성

  • 초기에 NLP 작업에 적용
  • 분자 설계에서 f-RAG, IRDiff 등의 방법
  • 본 논문은 단백질 결합자 협력 설계에 처음 적용

결론 및 논의

주요 결론

  1. RADiAnce는 검색 증강 단백질 결합자 설계의 새로운 패러다임을 성공적으로 수립했습니다
  2. 교차 도메인 인터페이스 전이는 생성 성능을 크게 향상시키며, 공통 상호작용 모티프의 존재를 검증합니다
  3. 여러 벤치마크 테스트에서 현저한 성능 향상을 달성했습니다

한계

  1. 성능이 검색 품질에 의존: 검색 결과의 관련성이 생성 효과에 직접 영향을 미칩니다
  2. 구조 설명자 제한: 현재 유사성 측정이 복잡한 구조 관계를 완전히 포착하지 못할 수 있습니다
  3. 계산 복잡도: 대규모 인터페이스 데이터베이스 유지 및 실시간 검색이 필요합니다

향후 방향

  1. 구조 설명자 및 유사성 측정 개선
  2. 더욱 견고한 구조 인식 조건 통합 전략 탐색
  3. 더 많은 분자 유형 및 상호작용 패턴으로 확장

심층 평가

장점

  1. 높은 혁신성: RAG 패러다임을 단백질 결합자 설계에 처음 도입하며, 기술 경로가 새로움
  2. 충분한 실험: 다중 데이터셋, 다중 지표의 포괄적 평가, 상세한 제거 실험 포함
  3. 교차 도메인 일반화: 다양한 결합자 유형 간 지식 이전의 가능성을 검증
  4. 높은 실용 가치: HIV-1 CD4 수용체 항체 설계 등 실제 응용에서 잠재력 시연

부족한 점

  1. 이론적 분석 부족: 교차 도메인 유사성 측정 유효성에 대한 이론적 설명 부재
  2. 계산 효율성: 대규모 검색의 계산 오버헤드 및 저장 요구 사항 분석이 불충분
  3. 생물학적 검증 부재: 생성된 결합자의 실제 기능에 대한 실험실 검증 부족

영향력

  1. 학술 기여: 계산 구조 생물학에 새로운 방법론 프레임워크 제공
  2. 실용 가치: 약물 발견 및 단백질 공학 응용 가속화에 기여할 것으로 예상
  3. 재현성: 상세한 구현 세부 사항 및 코드 제공으로 재현 및 확장 용이

적용 시나리오

  • 신약 발견의 선도 화합물 설계
  • 항체 의약품의 계산 보조 설계
  • 단백질 상호작용 연구
  • 합성 생물학의 단백질 공학

참고 문헌

본 논문은 54편의 관련 문헌을 인용하며, 단백질 설계, 심층 생성 모델, 검색 증강 생성 등 다양한 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.