Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- পেপার আইডি: 2410.15040
- শিরোনাম: কাঠামো-সংবেদনশীল অ্যান্টিবডি ডিজাইন এবং অপ্টিমাইজেশনের জন্য পুনরুদ্ধার বর্ধিত বিস্তার মডেল
- লেখক: জিচেন ওয়াং, ইয়াওকুন জি, জিয়ানিং টিয়ান, শুয়াংজিয়া ঝেং
- শ্রেণীবিভাগ: cs.AI
- প্রকাশনা সম্মেলন: ICLR 2025
- পেপার লিঙ্ক: https://arxiv.org/abs/2410.15040
অ্যান্টিবডি হল শরীরের প্রতিরক্ষা প্রতিক্রিয়ার জন্য দায়ী গুরুত্বপূর্ণ প্রোটিন যা রোগজনকের অ্যান্টিজেন অণুগুলিকে নির্দিষ্টভাবে চিনতে পারে। যদিও উৎপাদনশীল মডেলের সর্বশেষ অগ্রগতি যুক্তিসঙ্গত অ্যান্টিবডি ডিজাইনের ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে, বিদ্যমান পদ্ধতিগুলি প্রধানত শূন্য থেকে অ্যান্টিবডি তৈরি করে এবং টেমপ্লেট সীমাবদ্ধতার অভাব রয়েছে, যা মডেল অপ্টিমাইজেশন কঠিন এবং অপ্রাকৃত ক্রম সমস্যার দিকে পরিচালিত করে। এই সমস্যাগুলি সমাধান করার জন্য, এই পত্রটি দক্ষ অ্যান্টিবডি ডিজাইনের জন্য একটি পুনরুদ্ধার বর্ধিত বিস্তার কাঠামো RADAb প্রস্তাব করে। এই পদ্ধতিটি প্রশ্ন কাঠামো সীমাবদ্ধতার সাথে সংযুক্ত কাঠামোগত সমজাতীয় মোটিফের একটি সেট ব্যবহার করে উৎপাদনশীল মডেলকে পছন্দসই ডিজাইন মানদণ্ড অনুযায়ী অ্যান্টিবডি বিপরীত অপ্টিমাইজ করতে গাইড করে। বিশেষভাবে, একটি কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া চালু করা হয়েছে যা একটি উপন্যাস দ্বি-শাখা ডিনোইজিং মডিউলের মাধ্যমে এই উদাহরণ মোটিফগুলিকে ইনপুট কঙ্কালের সাথে একীভূত করে, একই সাথে কাঠামো এবং বিবর্তনীয় তথ্য ব্যবহার করে। উপরন্তু, একটি শর্তসাপেক্ষ বিস্তার মডেল বিকশিত করা হয়েছে যা বৈশ্বিক প্রসঙ্গ এবং স্থানীয় বিবর্তনীয় শর্তগুলি একত্রিত করে পুনরাবৃত্তিমূলক অপ্টিমাইজেশন প্রক্রিয়া। এই পদ্ধতিটি উৎপাদনশীল মডেলের পছন্দের সাথে স্বাধীন এবং পরীক্ষা-নিরীক্ষা প্রমাণ করে যে একাধিক অ্যান্টিবডি বিপরীত ভাঁজ এবং অপ্টিমাইজেশন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে।
অ্যান্টিবডি ডিজাইনের মূল চ্যালেঞ্জ হল পূর্বনির্ধারিত জৈব রাসায়নিক বৈশিষ্ট্য সহ কার্যকরী অ্যান্টিবডি ক্রম কীভাবে উৎপন্ন করা যায়। ঐতিহ্যবাহী অ্যান্টিবডি উন্নয়ন শ্রম-নিবিড় পরীক্ষামূলক পদ্ধতির উপর নির্ভর করে, যেমন প্রাণী প্রতিরক্ষা বা বৃহৎ-স্কেল অ্যান্টিবডি লাইব্রেরি স্ক্রীনিং, যা প্রায়শই চিকিৎসা-সম্পর্কিত এপিটোপের জন্য অ্যান্টিবডি কার্যকরভাবে উৎপাদন করতে পারে না।
- ডেটা স্বল্পতা: প্রধানত SAbDab ডাটাবেসের উপর নির্ভর করে, যাতে দশ হাজারেরও কম অ্যান্টিজেন-অ্যান্টিবডি জটিল কাঠামো রয়েছে, যা মডেলের উচ্চ-ক্রম মিথস্ক্রিয়া তথ্য ক্যাপচার করার ক্ষমতা সীমিত করে
- শূন্য থেকে ডিজাইনের অসুবিধা: বিদ্যমান পদ্ধতিগুলি শূন্য থেকে অ্যান্টিবডি ক্রম ডিজাইন করার চেষ্টা করে, টেমপ্লেট-ভিত্তিক নির্দেশনার অভাব রয়েছে এবং প্রচুর ডেটা এবং ব্যাপক প্রশিক্ষণের প্রয়োজন
- কাঠামো সীমাবদ্ধতার অভাব: বর্তমান উৎপাদনশীল মডেলগুলি কাঠামো সীমাবদ্ধতা মেনে চলে এবং পছন্দসই জৈবিক বৈশিষ্ট্য সহ অ্যান্টিবডি ডিজাইন করা কঠিন
এই পত্রটি টেমপ্লেট এবং খণ্ড-ভিত্তিক অ্যান্টিবডি ডিজাইন দ্বারা অনুপ্রাণিত, যার লক্ষ্য:
- টেমপ্লেট-সচেতন স্থানীয় এবং বৈশ্বিক প্রোটিন জ্যামিতিগত তথ্য ব্যবহার করে মডেল উৎপাদন ক্ষমতা বৃদ্ধি করা
- অতিফিটিং প্রতিরোধ করতে মোটিফ বিবর্তনীয় সংকেত একীভূত করা
- ব্যবহারিক প্রয়োগে ন্যূনতম প্রশিক্ষণ বা সূক্ষ্ম-সুর প্রয়োজন
- প্রথম পুনরুদ্ধার বর্ধিত উৎপাদন কাঠামো: যুক্তিসঙ্গত অ্যান্টিবডি ডিজাইনের জন্য প্রথম পুনরুদ্ধার বর্ধিত উৎপাদন কাঠামো প্রস্তাব করা হয়েছে, যা পছন্দসই কঙ্কাল কাঠামো এবং বৈশিষ্ট্য পূরণকারী কার্যকরী CDR-সদৃশ খণ্ডের একটি সেট ব্যবহার করে উৎপাদন গাইড করে
- উপন্যাস পুনরুদ্ধার প্রক্রিয়া: একটি কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া চালু করা হয়েছে যা একটি দ্বি-শাখা ডিনোইজিং মডিউলের মাধ্যমে উদাহরণ মোটিফগুলিকে ইনপুট কঙ্কালের সাথে একীভূত করে, কাঠামো এবং বিবর্তনীয় তথ্য ব্যবহার করে
- উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: একাধিক অ্যান্টিবডি বিপরীত ভাঁজ কাজে অত্যাধুনিক পদ্ধতি উন্নত করা হয়েছে, যেমন দীর্ঘ CDRH3 বিপরীত ভাঁজ কাজে AAR 8.08% বৃদ্ধি, কার্যকরী অপ্টিমাইজেশন কাজে গড় পরম ΔΔG 7 cal/mol উন্নতি
অ্যান্টিবডি কাঠামো জটিল Cab, অ্যান্টিজেন Cag এবং পুনরুদ্ধৃত CDR-সদৃশ খণ্ড A দেওয়া, লক্ষ্য হল CDR অঞ্চল R={sj∣j∈{a+1,...,a+m}} এর ক্রম বিতরণ পূর্বাভাস দেওয়া, যেখানে m হল CDR দৈর্ঘ্য এবং a হল শুরুর অবস্থান।
MASTER অ্যালগরিদম ব্যবহার করে কাঠামোগত পুনরুদ্ধার:
- ইনপুট: CDR কঙ্কাল পরমাণু সমন্বয় সেট X={xk∣k∈{1,...,m}}
- সাদৃশ্য পরিমাপ: কঙ্কাল পরমাণুর মূল গড় বর্গ বিচ্যুতি (RMSD)
- আউটপুট: কাঠামোগতভাবে সমান CDR-সদৃশ খণ্ড সেট A={Ai∣i∈{1,...,k}}
বৈশ্বিক জ্যামিতিক প্রসঙ্গ শাখা:
- প্রসঙ্গ এনকোডার: একক অবশিষ্ট বৈশিষ্ট্য zi এবং অবশিষ্ট জোড়া বৈশিষ্ট্য yij নিষ্কাশন করে
- বিবর্তনীয় এনকোডার: অ্যান্টিবডি ক্রমের বিবর্তনীয় এম্বেডিং et নিষ্কাশন করতে ESM2 ব্যবহার করে
- কাঠামোগত তথ্য নেটওয়ার্ক: IPA স্তর স্ট্যাকিং এর মাধ্যমে প্রক্রিয়াকরণ, বৈশ্বিক সম্ভাব্যতা প্রতিনিধিত্ব rglobal আউটপুট করে
স্থানীয় CDR ফোকাস শাখা:
- CDR ফোকাস অক্ষীয় মনোযোগ: সিউডো MSA ম্যাট্রিক্স P তৈরি করে:
P=concat((Sab∪Rgt),E)
যেখানে E হল CDR-সদৃশ ক্রম ম্যাট্রিক্স
- বাঁধা সারি মনোযোগ প্রক্রিয়া: একযোগে একাধিক সারি মনোযোগ স্কোর বিবেচনা করে, কাঠামোগত সাদৃশ্য ব্যবহার করে
- তথ্য সংমিশ্রণ: স্কিপ সংযোগের মাধ্যমে rlocal এবং rglobal সংমিশ্রণ করে
সামনের প্রক্রিয়া শব্দ যোগ করা:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
বিপরীত ডিনোইজিং প্রক্রিয়া:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- কাঠামোগত তথ্য পুনরুদ্ধার: MASTER অ্যালগরিদম ব্যবহার করে কঙ্কাল কাঠামোর উপর ভিত্তি করে CDR-সদৃশ খণ্ড পুনরুদ্ধার করে, ক্রম তথ্য ফাঁস এড়ায়
- দ্বি-শাখা স্থাপত্য: বৈশ্বিক শাখা অ্যান্টিজেন-অ্যান্টিবডি জটিল প্রসঙ্গ ক্যাপচার করে, স্থানীয় শাখা সমজাতীয় বিবর্তনীয় তথ্য শিখে
- বাঁধা সারি মনোযোগ: কাঠামোগত সাদৃশ্য সম্পূর্ণভাবে ব্যবহার করার জন্য বিশেষভাবে ডিজাইন করা মনোযোগ প্রক্রিয়া
- মডেল স্বাধীনতা: কাঠামো যেকোনো বিস্তার উৎপাদন মডেলের সাথে একীভূত করা যায়
- প্রশিক্ষণ সেট: SAbDab ডাটাবেস, 4Å এর নিচে রেজোলিউশন সহ কাঠামো সরানো হয়েছে, CDRH3 অঞ্চল 50% ক্রম সাদৃশ্য ক্লাস্টারিং এর উপর ভিত্তি করে
- পরীক্ষা সেট: 50টি PDB ফাইল, 63টি অ্যান্টিবডি-অ্যান্টিজেন জটিল কাঠামো সহ
- CDR-সদৃশ খণ্ড ডাটাবেস: অ-অপ্রয়োজনীয় PDB থেকে নির্মিত, কাঠামোগতভাবে সামঞ্জস্যপূর্ণ CDR-সদৃশ রৈখিক কার্যকরী মোটিফ সহ
- অ্যামিনো অ্যাসিড পুনরুদ্ধার হার (AAR): ডিজাইন ক্রম এবং প্রকৃত CDR ক্রমের সমান অ্যামিনো অ্যাসিড অবস্থানের অনুপাত
- স্ব-সামঞ্জস্যতা RMSD (scRMSD): পুনরায় ভাঁজ করা অ্যান্টিবডি কাঠামোর পরে CDR অঞ্চল Cα পরমাণুর RMSD
- যুক্তিসঙ্গততা (Plausibility): AntiBERTy ব্যবহার করে গণনা করা সিউডো লগ সম্ভাবনা
- ঐতিহ্যবাহী পদ্ধতি: Grafting (সরাসরি শীর্ষ-1 পুনরুদ্ধৃত খণ্ড স্থানান্তর)
- গভীর শেখার পদ্ধতি: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- অপ্টিমাইজার: Adam, শেখার হার 0.0001
- ব্যাচ আকার: 8
- CDRH3 আলাদাভাবে 100,000 পুনরাবৃত্তির জন্য প্রশিক্ষিত, অন্যান্য CDR অঞ্চল যৌথভাবে 250,000 পুনরাবৃত্তির জন্য প্রশিক্ষিত
- বিস্তার সময় পদক্ষেপ: 100 পদক্ষেপ
অ্যান্টিবডি CDR ক্রম বিপরীত ভাঁজ ফলাফল:
| পদ্ধতি | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 যুক্তিসঙ্গততা |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
দীর্ঘ CDRH3 ক্রম ডিজাইন ফলাফল (দৈর্ঘ্য >14):
| পদ্ধতি | AAR(%) | scRMSD | যুক্তিসঙ্গততা |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
বাঁধাই শক্তি অপ্টিমাইজেশন ফলাফল:
| পদ্ধতি | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| উপাদান | AAR(%) | scRMSD | যুক্তিসঙ্গততা |
|---|
| সম্পূর্ণ মডেল | 57.02 | 2.23 | -0.530 |
| পুনরুদ্ধার বর্ধন ছাড়া | 52.15 | 2.39 | -0.529 |
| বিবর্তনীয় এম্বেডিং ছাড়া | 51.36 | 2.23 | -0.538 |
| বেসলাইন Diffab | 49.17 | 2.24 | -0.541 |
SARS-CoV-2 নিরপেক্ষকারী অ্যান্টিবডি (PDB: 7d6i) এর উদাহরণ হিসাবে, উৎপাদিত 50টি CDRH3 ক্রমের মধ্যে 68% নমুনা মূল জটিলের চেয়ে কম ΔG মান প্রদর্শন করে, কার্যকরী অপ্টিমাইজেশন প্রভাব প্রমাণ করে।
- ঐতিহ্যবাহী পদ্ধতি: শক্তি ফাংশন অপ্টিমাইজেশন এবং ক্রম সাদৃশ্য-ভিত্তিক পদ্ধতি
- মেশিন লার্নিং পদ্ধতি:
- অ্যান্টিবডি ক্রম ডিজাইন: ভাষা মডেল এবং বিপরীত ভাঁজ মডেল
- অ্যান্টিজেন-নির্দিষ্ট ক্রম-কাঠামো সহ-ডিজাইন: গ্রাফ নিউরাল নেটওয়ার্ক পদ্ধতি
প্রোটিন ডিজাইনে বিস্তার মডেলের প্রয়োগ, DDPM এর সামনের শব্দ প্রক্রিয়া এবং বিপরীত উৎপাদন প্রক্রিয়া সহ।
RAG প্রযুক্তি NLP ক্ষেত্র থেকে কম্পিউটার দৃষ্টি এবং আণবিক উৎপাদন ক্ষেত্রে প্রসারিত, এই পত্রটি প্রথমবার এটি অ্যান্টিবডি ডিজাইনে প্রয়োগ করে।
- RADAb একাধিক অ্যান্টিবডি ডিজাইন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে
- পুনরুদ্ধার বর্ধন প্রক্রিয়া উল্লেখযোগ্যভাবে মডেলের উৎপাদন গুণমান এবং কার্যকারিতা উন্নত করে
- দ্বি-শাখা স্থাপত্য কার্যকরভাবে বৈশ্বিক প্রসঙ্গ এবং স্থানীয় বিবর্তনীয় তথ্য একীভূত করে
- পরীক্ষামূলক যাচাইকরণ অপর্যাপ্ত: ভেজা পরীক্ষায় সম্পূর্ণভাবে যাচাই করা হয়নি
- গণনা ওভারহেড: কাঠামোগত পুনরুদ্ধার এবং ESM2 এনকোডিং আরও গণনা সম্পদ প্রয়োজন
- ডেটা ফাঁস ঝুঁকি: ক্রম-কাঠামো সহ-ডিজাইনে বর্তমান পুনরুদ্ধার প্রক্রিয়া প্রয়োগ করার সময় ডেটা ফাঁস ঝুঁকি রয়েছে
- ভেজা পরীক্ষামূলক যাচাইকরণ প্রধান কাজগুলির মধ্যে একটি হবে
- বিভিন্ন প্রোটিন মোটিফ ডিজাইনে মডেল প্রসারিত করা
- ডেটা ফাঁস সমস্যা এড়াতে PPI পুনরুদ্ধার অন্বেষণ করা
- শক্তিশালী উদ্ভাবনী: প্রথমবার পুনরুদ্ধার বর্ধিত প্রযুক্তি অ্যান্টিবডি ডিজাইনে প্রয়োগ করা হয়েছে, উপন্যাস দ্বি-শাখা স্থাপত্য প্রস্তাব করা হয়েছে
- দৃঢ় প্রযুক্তি: কাঠামোগত তথ্য পুনরুদ্ধার প্রক্রিয়া যুক্তিসঙ্গতভাবে ডিজাইন করা হয়েছে, ক্রম তথ্য ফাঁস এড়ায়
- ব্যাপক পরীক্ষা: একাধিক কাজ এবং মেট্রিক্সে ব্যাপক মূল্যায়ন পরিচালিত হয়েছে, বিলোপন পরীক্ষা সহ
- উল্লেখযোগ্য কর্মক্ষমতা: সমস্ত মূল্যায়ন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে
- ব্যবহারিক প্রয়োগযোগ্যতা যাচাইকরণ অপেক্ষা করছে: ভেজা পরীক্ষামূলক যাচাইকরণের অভাব, প্রকৃত প্রয়োগ প্রভাব অজানা
- উচ্চ গণনা জটিলতা: পুনরুদ্ধার প্রক্রিয়া এবং দ্বি-শাখা নেটওয়ার্ক গণনা বোঝা বৃদ্ধি করে
- প্রযোজ্য পরিসীমা সীমাবদ্ধ: প্রধানত বিপরীত ভাঁজ কাজের জন্য, সম্পূর্ণ পরমাণু ডিজাইনে সীমাবদ্ধতা রয়েছে
- একাডেমিক অবদান: জৈব অণু উৎপাদন মডেলের জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে, প্রোটিন ডিজাইনে পুনরুদ্ধার বর্ধিত প্রযুক্তির প্রয়োগ চালিত করে
- ব্যবহারিক মূল্য: অ্যান্টিবডি ওষুধ ডিজাইন প্রক্রিয়া ত্বরান্বিত করতে এবং পরীক্ষামূলক খরচ হ্রাস করতে প্রত্যাশিত
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা উৎস কোড প্রদান করা হয়েছে
- পরিচিত অ্যান্টিবডি টেমপ্লেটের উপর ভিত্তি করে CDR অপ্টিমাইজেশন ডিজাইন
- কাঠামো সীমাবদ্ধতা বজায় রাখার প্রয়োজন এমন অ্যান্টিবডি ক্রম উন্নতি
- অ্যান্টিবডি সখ্যতা পরিপক্কতা এবং কার্যকরী অপ্টিমাইজেশন
এই পত্রটি অ্যান্টিবডি ডিজাইন, বিস্তার মডেল এবং পুনরুদ্ধার বর্ধিত উৎপাদন ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি উদ্ধৃত করে, RADAb কাঠামোর জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি অ্যান্টিবডি ডিজাইন ক্ষেত্রে একটি উচ্চ-মানের গবেষণা পত্র যা একটি উদ্ভাবনী পুনরুদ্ধার বর্ধিত বিস্তার কাঠামো প্রস্তাব করে। প্রযুক্তিগত সমাধান যুক্তিসঙ্গতভাবে ডিজাইন করা হয়েছে, পরীক্ষামূলক মূল্যায়ন ব্যাপক, ফলাফল বিশ্বাসযোগ্য। যদিও ব্যবহারিক প্রয়োগ যাচাইকরণে আরও শক্তিশালী হওয়ার প্রয়োজন, এটি প্রোটিন ডিজাইন ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা খুলে দেয় এবং গুরুত্বপূর্ণ একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে।