2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

কাঠামো-সংবেদনশীল অ্যান্টিবডি ডিজাইন এবং অপ্টিমাইজেশনের জন্য পুনরুদ্ধার বর্ধিত বিস্তার মডেল

মৌলিক তথ্য

পেপার আইডি: 2410.15040
শিরোনাম: কাঠামো-সংবেদনশীল অ্যান্টিবডি ডিজাইন এবং অপ্টিমাইজেশনের জন্য পুনরুদ্ধার বর্ধিত বিস্তার মডেল
লেখক: জিচেন ওয়াং, ইয়াওকুন জি, জিয়ানিং টিয়ান, শুয়াংজিয়া ঝেং
শ্রেণীবিভাগ: cs.AI
প্রকাশনা সম্মেলন: ICLR 2025
পেপার লিঙ্ক: https://arxiv.org/abs/2410.15040

সারসংক্ষেপ

অ্যান্টিবডি হল শরীরের প্রতিরক্ষা প্রতিক্রিয়ার জন্য দায়ী গুরুত্বপূর্ণ প্রোটিন যা রোগজনকের অ্যান্টিজেন অণুগুলিকে নির্দিষ্টভাবে চিনতে পারে। যদিও উৎপাদনশীল মডেলের সর্বশেষ অগ্রগতি যুক্তিসঙ্গত অ্যান্টিবডি ডিজাইনের ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে, বিদ্যমান পদ্ধতিগুলি প্রধানত শূন্য থেকে অ্যান্টিবডি তৈরি করে এবং টেমপ্লেট সীমাবদ্ধতার অভাব রয়েছে, যা মডেল অপ্টিমাইজেশন কঠিন এবং অপ্রাকৃত ক্রম সমস্যার দিকে পরিচালিত করে। এই সমস্যাগুলি সমাধান করার জন্য, এই পত্রটি দক্ষ অ্যান্টিবডি ডিজাইনের জন্য একটি পুনরুদ্ধার বর্ধিত বিস্তার কাঠামো RADAb প্রস্তাব করে। এই পদ্ধতিটি প্রশ্ন কাঠামো সীমাবদ্ধতার সাথে সংযুক্ত কাঠামোগত সমজাতীয় মোটিফের একটি সেট ব্যবহার করে উৎপাদনশীল মডেলকে পছন্দসই ডিজাইন মানদণ্ড অনুযায়ী অ্যান্টিবডি বিপরীত অপ্টিমাইজ করতে গাইড করে। বিশেষভাবে, একটি কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া চালু করা হয়েছে যা একটি উপন্যাস দ্বি-শাখা ডিনোইজিং মডিউলের মাধ্যমে এই উদাহরণ মোটিফগুলিকে ইনপুট কঙ্কালের সাথে একীভূত করে, একই সাথে কাঠামো এবং বিবর্তনীয় তথ্য ব্যবহার করে। উপরন্তু, একটি শর্তসাপেক্ষ বিস্তার মডেল বিকশিত করা হয়েছে যা বৈশ্বিক প্রসঙ্গ এবং স্থানীয় বিবর্তনীয় শর্তগুলি একত্রিত করে পুনরাবৃত্তিমূলক অপ্টিমাইজেশন প্রক্রিয়া। এই পদ্ধতিটি উৎপাদনশীল মডেলের পছন্দের সাথে স্বাধীন এবং পরীক্ষা-নিরীক্ষা প্রমাণ করে যে একাধিক অ্যান্টিবডি বিপরীত ভাঁজ এবং অপ্টিমাইজেশন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

অ্যান্টিবডি ডিজাইনের মূল চ্যালেঞ্জ হল পূর্বনির্ধারিত জৈব রাসায়নিক বৈশিষ্ট্য সহ কার্যকরী অ্যান্টিবডি ক্রম কীভাবে উৎপন্ন করা যায়। ঐতিহ্যবাহী অ্যান্টিবডি উন্নয়ন শ্রম-নিবিড় পরীক্ষামূলক পদ্ধতির উপর নির্ভর করে, যেমন প্রাণী প্রতিরক্ষা বা বৃহৎ-স্কেল অ্যান্টিবডি লাইব্রেরি স্ক্রীনিং, যা প্রায়শই চিকিৎসা-সম্পর্কিত এপিটোপের জন্য অ্যান্টিবডি কার্যকরভাবে উৎপাদন করতে পারে না।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ডেটা স্বল্পতা: প্রধানত SAbDab ডাটাবেসের উপর নির্ভর করে, যাতে দশ হাজারেরও কম অ্যান্টিজেন-অ্যান্টিবডি জটিল কাঠামো রয়েছে, যা মডেলের উচ্চ-ক্রম মিথস্ক্রিয়া তথ্য ক্যাপচার করার ক্ষমতা সীমিত করে
শূন্য থেকে ডিজাইনের অসুবিধা: বিদ্যমান পদ্ধতিগুলি শূন্য থেকে অ্যান্টিবডি ক্রম ডিজাইন করার চেষ্টা করে, টেমপ্লেট-ভিত্তিক নির্দেশনার অভাব রয়েছে এবং প্রচুর ডেটা এবং ব্যাপক প্রশিক্ষণের প্রয়োজন
কাঠামো সীমাবদ্ধতার অভাব: বর্তমান উৎপাদনশীল মডেলগুলি কাঠামো সীমাবদ্ধতা মেনে চলে এবং পছন্দসই জৈবিক বৈশিষ্ট্য সহ অ্যান্টিবডি ডিজাইন করা কঠিন

গবেষণা প্রেরণা

এই পত্রটি টেমপ্লেট এবং খণ্ড-ভিত্তিক অ্যান্টিবডি ডিজাইন দ্বারা অনুপ্রাণিত, যার লক্ষ্য:

টেমপ্লেট-সচেতন স্থানীয় এবং বৈশ্বিক প্রোটিন জ্যামিতিগত তথ্য ব্যবহার করে মডেল উৎপাদন ক্ষমতা বৃদ্ধি করা
অতিফিটিং প্রতিরোধ করতে মোটিফ বিবর্তনীয় সংকেত একীভূত করা
ব্যবহারিক প্রয়োগে ন্যূনতম প্রশিক্ষণ বা সূক্ষ্ম-সুর প্রয়োজন

মূল অবদান

প্রথম পুনরুদ্ধার বর্ধিত উৎপাদন কাঠামো: যুক্তিসঙ্গত অ্যান্টিবডি ডিজাইনের জন্য প্রথম পুনরুদ্ধার বর্ধিত উৎপাদন কাঠামো প্রস্তাব করা হয়েছে, যা পছন্দসই কঙ্কাল কাঠামো এবং বৈশিষ্ট্য পূরণকারী কার্যকরী CDR-সদৃশ খণ্ডের একটি সেট ব্যবহার করে উৎপাদন গাইড করে
উপন্যাস পুনরুদ্ধার প্রক্রিয়া: একটি কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া চালু করা হয়েছে যা একটি দ্বি-শাখা ডিনোইজিং মডিউলের মাধ্যমে উদাহরণ মোটিফগুলিকে ইনপুট কঙ্কালের সাথে একীভূত করে, কাঠামো এবং বিবর্তনীয় তথ্য ব্যবহার করে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: একাধিক অ্যান্টিবডি বিপরীত ভাঁজ কাজে অত্যাধুনিক পদ্ধতি উন্নত করা হয়েছে, যেমন দীর্ঘ CDRH3 বিপরীত ভাঁজ কাজে AAR 8.08% বৃদ্ধি, কার্যকরী অপ্টিমাইজেশন কাজে গড় পরম ΔΔG 7 cal/mol উন্নতি

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অ্যান্টিবডি কাঠামো জটিল $C_{ab}$ , অ্যান্টিজেন $C_{ag}$ এবং পুনরুদ্ধৃত CDR-সদৃশ খণ্ড $A$ দেওয়া, লক্ষ্য হল CDR অঞ্চল $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ এর ক্রম বিতরণ পূর্বাভাস দেওয়া, যেখানে $m$ হল CDR দৈর্ঘ্য এবং $a$ হল শুরুর অবস্থান।

মডেল স্থাপত্য

1. কাঠামোগত পুনরুদ্ধার মডিউল

MASTER অ্যালগরিদম ব্যবহার করে কাঠামোগত পুনরুদ্ধার:

ইনপুট: CDR কঙ্কাল পরমাণু সমন্বয় সেট $X = \{x_k | k \in \{1, ..., m\}\}$
সাদৃশ্য পরিমাপ: কঙ্কাল পরমাণুর মূল গড় বর্গ বিচ্যুতি (RMSD)
আউটপুট: কাঠামোগতভাবে সমান CDR-সদৃশ খণ্ড সেট $A = \{A_i | i \in \{1, ..., k\}\}$

2. দ্বি-শাখা ডিনোইজিং নেটওয়ার্ক

বৈশ্বিক জ্যামিতিক প্রসঙ্গ শাখা:

প্রসঙ্গ এনকোডার: একক অবশিষ্ট বৈশিষ্ট্য $z_i$ এবং অবশিষ্ট জোড়া বৈশিষ্ট্য $y_{ij}$ নিষ্কাশন করে
বিবর্তনীয় এনকোডার: অ্যান্টিবডি ক্রমের বিবর্তনীয় এম্বেডিং $e^t$ নিষ্কাশন করতে ESM2 ব্যবহার করে
কাঠামোগত তথ্য নেটওয়ার্ক: IPA স্তর স্ট্যাকিং এর মাধ্যমে প্রক্রিয়াকরণ, বৈশ্বিক সম্ভাব্যতা প্রতিনিধিত্ব $r_{global}$ আউটপুট করে

স্থানীয় CDR ফোকাস শাখা:

CDR ফোকাস অক্ষীয় মনোযোগ: সিউডো MSA ম্যাট্রিক্স $P$ তৈরি করে: $P = \text{concat}((S_{ab} \cup R^t_g), E)$ যেখানে $E$ হল CDR-সদৃশ ক্রম ম্যাট্রিক্স
বাঁধা সারি মনোযোগ প্রক্রিয়া: একযোগে একাধিক সারি মনোযোগ স্কোর বিবেচনা করে, কাঠামোগত সাদৃশ্য ব্যবহার করে
তথ্য সংমিশ্রণ: স্কিপ সংযোগের মাধ্যমে $r_{local}$ এবং $r_{global}$ সংমিশ্রণ করে

3. শর্তসাপেক্ষ বিস্তার প্রক্রিয়া

সামনের প্রক্রিয়া শব্দ যোগ করা: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

বিপরীত ডিনোইজিং প্রক্রিয়া: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

কাঠামোগত তথ্য পুনরুদ্ধার: MASTER অ্যালগরিদম ব্যবহার করে কঙ্কাল কাঠামোর উপর ভিত্তি করে CDR-সদৃশ খণ্ড পুনরুদ্ধার করে, ক্রম তথ্য ফাঁস এড়ায়
দ্বি-শাখা স্থাপত্য: বৈশ্বিক শাখা অ্যান্টিজেন-অ্যান্টিবডি জটিল প্রসঙ্গ ক্যাপচার করে, স্থানীয় শাখা সমজাতীয় বিবর্তনীয় তথ্য শিখে
বাঁধা সারি মনোযোগ: কাঠামোগত সাদৃশ্য সম্পূর্ণভাবে ব্যবহার করার জন্য বিশেষভাবে ডিজাইন করা মনোযোগ প্রক্রিয়া
মডেল স্বাধীনতা: কাঠামো যেকোনো বিস্তার উৎপাদন মডেলের সাথে একীভূত করা যায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ সেট: SAbDab ডাটাবেস, 4Å এর নিচে রেজোলিউশন সহ কাঠামো সরানো হয়েছে, CDRH3 অঞ্চল 50% ক্রম সাদৃশ্য ক্লাস্টারিং এর উপর ভিত্তি করে
পরীক্ষা সেট: 50টি PDB ফাইল, 63টি অ্যান্টিবডি-অ্যান্টিজেন জটিল কাঠামো সহ
CDR-সদৃশ খণ্ড ডাটাবেস: অ-অপ্রয়োজনীয় PDB থেকে নির্মিত, কাঠামোগতভাবে সামঞ্জস্যপূর্ণ CDR-সদৃশ রৈখিক কার্যকরী মোটিফ সহ

মূল্যায়ন মেট্রিক্স

অ্যামিনো অ্যাসিড পুনরুদ্ধার হার (AAR): ডিজাইন ক্রম এবং প্রকৃত CDR ক্রমের সমান অ্যামিনো অ্যাসিড অবস্থানের অনুপাত
স্ব-সামঞ্জস্যতা RMSD (scRMSD): পুনরায় ভাঁজ করা অ্যান্টিবডি কাঠামোর পরে CDR অঞ্চল Cα পরমাণুর RMSD
যুক্তিসঙ্গততা (Plausibility): AntiBERTy ব্যবহার করে গণনা করা সিউডো লগ সম্ভাবনা

তুলনামূলক পদ্ধতি

ঐতিহ্যবাহী পদ্ধতি: Grafting (সরাসরি শীর্ষ-1 পুনরুদ্ধৃত খণ্ড স্থানান্তর)
গভীর শেখার পদ্ধতি: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

বাস্তবায়ন বিবরণ

অপ্টিমাইজার: Adam, শেখার হার 0.0001
ব্যাচ আকার: 8
CDRH3 আলাদাভাবে 100,000 পুনরাবৃত্তির জন্য প্রশিক্ষিত, অন্যান্য CDR অঞ্চল যৌথভাবে 250,000 পুনরাবৃত্তির জন্য প্রশিক্ষিত
বিস্তার সময় পদক্ষেপ: 100 পদক্ষেপ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অ্যান্টিবডি CDR ক্রম বিপরীত ভাঁজ ফলাফল:

পদ্ধতি	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 যুক্তিসঙ্গততা
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

দীর্ঘ CDRH3 ক্রম ডিজাইন ফলাফল (দৈর্ঘ্য >14):

পদ্ধতি	AAR(%)	scRMSD	যুক্তিসঙ্গততা
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

কার্যকরী অপ্টিমাইজেশন ফলাফল

বাঁধাই শক্তি অপ্টিমাইজেশন ফলাফল:

পদ্ধতি	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

বিলোপন পরীক্ষা

উপাদান	AAR(%)	scRMSD	যুক্তিসঙ্গততা
সম্পূর্ণ মডেল	57.02	2.23	-0.530
পুনরুদ্ধার বর্ধন ছাড়া	52.15	2.39	-0.529
বিবর্তনীয় এম্বেডিং ছাড়া	51.36	2.23	-0.538
বেসলাইন Diffab	49.17	2.24	-0.541

কেস বিশ্লেষণ

SARS-CoV-2 নিরপেক্ষকারী অ্যান্টিবডি (PDB: 7d6i) এর উদাহরণ হিসাবে, উৎপাদিত 50টি CDRH3 ক্রমের মধ্যে 68% নমুনা মূল জটিলের চেয়ে কম ΔG মান প্রদর্শন করে, কার্যকরী অপ্টিমাইজেশন প্রভাব প্রমাণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

RADAb একাধিক অ্যান্টিবডি ডিজাইন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে
পুনরুদ্ধার বর্ধন প্রক্রিয়া উল্লেখযোগ্যভাবে মডেলের উৎপাদন গুণমান এবং কার্যকারিতা উন্নত করে
দ্বি-শাখা স্থাপত্য কার্যকরভাবে বৈশ্বিক প্রসঙ্গ এবং স্থানীয় বিবর্তনীয় তথ্য একীভূত করে

সীমাবদ্ধতা

পরীক্ষামূলক যাচাইকরণ অপর্যাপ্ত: ভেজা পরীক্ষায় সম্পূর্ণভাবে যাচাই করা হয়নি
গণনা ওভারহেড: কাঠামোগত পুনরুদ্ধার এবং ESM2 এনকোডিং আরও গণনা সম্পদ প্রয়োজন
ডেটা ফাঁস ঝুঁকি: ক্রম-কাঠামো সহ-ডিজাইনে বর্তমান পুনরুদ্ধার প্রক্রিয়া প্রয়োগ করার সময় ডেটা ফাঁস ঝুঁকি রয়েছে

ভবিষ্যত দিকনির্দেশনা

ভেজা পরীক্ষামূলক যাচাইকরণ প্রধান কাজগুলির মধ্যে একটি হবে
বিভিন্ন প্রোটিন মোটিফ ডিজাইনে মডেল প্রসারিত করা
ডেটা ফাঁস সমস্যা এড়াতে PPI পুনরুদ্ধার অন্বেষণ করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: প্রথমবার পুনরুদ্ধার বর্ধিত প্রযুক্তি অ্যান্টিবডি ডিজাইনে প্রয়োগ করা হয়েছে, উপন্যাস দ্বি-শাখা স্থাপত্য প্রস্তাব করা হয়েছে
দৃঢ় প্রযুক্তি: কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া যুক্তিসঙ্গতভাবে ডিজাইন করা হয়েছে, ক্রম তথ্য ফাঁস এড়ায়
ব্যাপক পরীক্ষা: একাধিক কাজ এবং মেট্রিক্সে ব্যাপক মূল্যায়ন পরিচালিত হয়েছে, বিলোপন পরীক্ষা সহ
উল্লেখযোগ্য কর্মক্ষমতা: সমস্ত মূল্যায়ন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে

অপূর্ণতা

ব্যবহারিক প্রয়োগযোগ্যতা যাচাইকরণ অপেক্ষা করছে: ভেজা পরীক্ষামূলক যাচাইকরণের অভাব, প্রকৃত প্রয়োগ প্রভাব অজানা
উচ্চ গণনা জটিলতা: পুনরুদ্ধার প্রক্রিয়া এবং দ্বি-শাখা নেটওয়ার্ক গণনা বোঝা বৃদ্ধি করে
প্রযোজ্য পরিসীমা সীমাবদ্ধ: প্রধানত বিপরীত ভাঁজ কাজের জন্য, সম্পূর্ণ পরমাণু ডিজাইনে সীমাবদ্ধতা রয়েছে

প্রভাব

একাডেমিক অবদান: জৈব অণু উৎপাদন মডেলের জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে, প্রোটিন ডিজাইনে পুনরুদ্ধার বর্ধিত প্রযুক্তির প্রয়োগ চালিত করে
ব্যবহারিক মূল্য: অ্যান্টিবডি ওষুধ ডিজাইন প্রক্রিয়া ত্বরান্বিত করতে এবং পরীক্ষামূলক খরচ হ্রাস করতে প্রত্যাশিত
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা উৎস কোড প্রদান করা হয়েছে

প্রযোজ্য পরিস্থিতি

পরিচিত অ্যান্টিবডি টেমপ্লেটের উপর ভিত্তি করে CDR অপ্টিমাইজেশন ডিজাইন
কাঠামো সীমাবদ্ধতা বজায় রাখার প্রয়োজন এমন অ্যান্টিবডি ক্রম উন্নতি
অ্যান্টিবডি সখ্যতা পরিপক্কতা এবং কার্যকরী অপ্টিমাইজেশন

সংদর্ভ

এই পত্রটি অ্যান্টিবডি ডিজাইন, বিস্তার মডেল এবং পুনরুদ্ধার বর্ধিত উৎপাদন ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি উদ্ধৃত করে, RADAb কাঠামোর জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি অ্যান্টিবডি ডিজাইন ক্ষেত্রে একটি উচ্চ-মানের গবেষণা পত্র যা একটি উদ্ভাবনী পুনরুদ্ধার বর্ধিত বিস্তার কাঠামো প্রস্তাব করে। প্রযুক্তিগত সমাধান যুক্তিসঙ্গতভাবে ডিজাইন করা হয়েছে, পরীক্ষামূলক মূল্যায়ন ব্যাপক, ফলাফল বিশ্বাসযোগ্য। যদিও ব্যবহারিক প্রয়োগ যাচাইকরণে আরও শক্তিশালী হওয়ার প্রয়োজন, এটি প্রোটিন ডিজাইন ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা খুলে দেয় এবং গুরুত্বপূর্ণ একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে।