2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

ক্রস-ডোমেইন প্রোটিন বাইন্ডারের লেটেন্ট রিট্রিভাল অগমেন্টেড জেনারেশন

মৌলিক তথ্য

  • পেপার আইডি: 2510.10480
  • শিরোনাম: ক্রস-ডোমেইন প্রোটিন বাইন্ডারের লেটেন্ট রিট্রিভাল অগমেন্টেড জেনারেশন
  • লেখক: জিশেন ঝাং, জিয়াংঝে কং, ওয়েনবিং হুয়াং, ইয়াং লিউ
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনা সময়/সম্মেলন: প্রিপ্রিন্ট। পর্যালোচনাধীন (২০২৪ সালের অক্টোবর)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10480

সারসংক্ষেপ

নির্দিষ্ট সাইটের জন্য প্রোটিন বাইন্ডার ডিজাইন করা ওষুধ আবিষ্কারে একটি মৌলিক চ্যালেঞ্জ, যার জন্য বাস্তবসম্মত এবং কার্যকরী মিথস্ক্রিয়া প্যাটার্ন তৈরি করা প্রয়োজন। বর্তমান কাঠামো-ভিত্তিক জেনারেটিভ মডেলগুলি পর্যাপ্ত যুক্তিসঙ্গততা এবং ব্যাখ্যাযোগ্যতা সহ ইন্টারফেস তৈরিতে সীমাবদ্ধতা রয়েছে। এই পত্রটি রিট্রিভাল অগমেন্টেড ডিফিউশন অ্যালাইনমেন্ট ইন্টারফেস ফ্রেমওয়ার্ক (RADiAnce) প্রস্তাব করে, যা পরিচিত ইন্টারফেসগুলি ব্যবহার করে নতুন বাইন্ডার ডিজাইনকে গাইড করে। ভাগ করা কন্ট্রাস্টিভ লেটেন্ট স্পেসে রিট্রিভাল এবং জেনারেশনকে একীভূত করার মাধ্যমে, এই মডেলটি প্রদত্ত বাইন্ডিং সাইটের জন্য প্রাসঙ্গিক ইন্টারফেসগুলি দক্ষতার সাথে চিহ্নিত করতে পারে এবং শর্তসাপেক্ষ লেটেন্ট ডিফিউশন জেনারেটরের মাধ্যমে নির্বিঘ্নে একীভূত করে, ক্রস-ডোমেইন ইন্টারফেস ট্রান্সফার সক্ষম করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

১. প্রোটিন বাইন্ডার ডিজাইন চ্যালেঞ্জ: নির্দিষ্ট প্রোটিন সাইটকে লক্ষ্য করতে পারে এমন বাইন্ডার ডিজাইন করা, যা বাস্তবসম্মত এবং কার্যকরী আণবিক ইন্টারফেস মিথস্ক্রিয়া প্যাটার্ন তৈরির প্রয়োজন २. বিদ্যমান পদ্ধতির সীমাবদ্ধতা: বর্তমান কাঠামো জেনারেশন মডেলগুলি যুক্তিসঙ্গততা এবং ব্যাখ্যাযোগ্যতার অভাব রয়েছে এবং পরিচিত কাঠামো তথ্য কার্যকরভাবে ব্যবহার করতে পারে না

গুরুত্ব

  • ওষুধ আবিষ্কার, কাঠামোগত জীববিজ্ঞান এবং অন্যান্য ক্ষেত্রে ব্যাপক প্রয়োগ মূল্য রয়েছে
  • ঐতিহ্যবাহী পদ্ধতিগুলি শারীরিক বা পরিসংখ্যানগত শক্তি ল্যান্ডস্কেপ নমুনা অপ্টিমাইজেশনের উপর নির্ভর করে, দক্ষতা কম
  • গভীর জেনারেটিভ মডেলগুলি অগ্রগতি করেছে, তবে এখনও যুক্তিসঙ্গত আণবিক ইন্টারফেস তৈরি করা কঠিন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. পূর্ববর্তী জ্ঞান উপেক্ষা: বেশিরভাগ পদ্ধতি শুধুমাত্র লক্ষ্য বাইন্ডিং সাইটের উপর ভিত্তি করে জেনারেশন করে, বিদ্যমান প্রোটিন কমপ্লেক্সে পুনরায় ব্যবহারযোগ্য মিথস্ক্রিয়া প্যাটার্নের সমৃদ্ধি উপেক্ষা করে २. ক্রস-ডোমেইন সাধারণীকরণের অভাব: বিভিন্ন ধরনের বাইন্ডার (যেমন পেপটাইড, অ্যান্টিবডি, প্রোটিন খণ্ড) মধ্যে সাধারণ মিথস্ক্রিয়া মোটিফ কার্যকরভাবে ব্যবহার করতে পারে না ३. ব্যাখ্যাযোগ্যতা অপর্যাপ্ত: জেনারেশন প্রক্রিয়া স্পষ্ট জৈবিক নির্দেশনা নীতির অভাব রয়েছে

মূল অবদান

१. RADiAnce ফ্রেমওয়ার্ক প্রস্তাব: প্রোটিন বাইন্ডার সিকোয়েন্স-কাঠামো সহ-ডিজাইনে রিট্রিভাল অগমেন্টেড জেনারেশন প্রয়োগ করার প্রথম পদ্ধতি २. কন্ট্রাস্টিভ লেটেন্ট স্পেস নির্মাণ: রিট্রিভাল এবং জেনারেশন সমর্থন করে এমন ভাগ করা লেটেন্ট প্রতিনিধিত্ব ডিজাইন করা, ক্রস-ডোমেইন ইন্টারফেস সাদৃশ্য পরিমাপ সমর্থন করে ३. ক্রস-ডোমেইন ইন্টারফেস ট্রান্সফার বাস্তবায়ন: বিভিন্ন বাইন্ডার ধরনের রিট্রিভাল ইন্টারফেস অন্যান্য ডোমেইন বাইন্ডারের জেনারেশন কর্মক্ষমতা উন্নত করতে পারে তা যাচাই করা ४. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: একাধিক মূল্যায়ন মেট্রিক্সে বেসলাইন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত, যার মধ্যে বাইন্ডিং সখ্যতা, জ্যামিতি এবং মিথস্ক্রিয়া পুনরুদ্ধার অন্তর্ভুক্ত

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

  • ইনপুট: লক্ষ্য প্রোটিনের বাইন্ডিং সাইট Y (১০Å দূরত্বের মধ্যে অবশিষ্টাংশ)
  • আউটপুট: এই সাইটের সাথে নির্দিষ্টভাবে বাঁধতে পারে এমন আণবিক বাইন্ডার X
  • লক্ষ্য: শর্তসাপেক্ষ বিতরণ মডেল করা p_θ(X | Y, T(Y|D)), যেখানে T(Y|D) ডাটাবেস D থেকে পুনরুদ্ধৃত প্রাসঙ্গিক ইন্টারফেস

মডেল আর্কিটেকচার

१. কন্ট্রাস্টিভ ভেরিয়েশনাল অটোএনকোডার (Contrastive VAE)

এনকোডার: Zx = Eφ(X), Zy = Eφ(Y)
ডিকোডার: X̂ = Dξ(Zx, Zy, Y)

মূল ডিজাইন:

  • বাইন্ডিং সাইট Y এবং বাইন্ডার X কে স্বাধীনভাবে লেটেন্ট পয়েন্ট ক্লাউডে এনকোড করা
  • লেটেন্ট ভেরিয়েবলে স্কেলার এমবেডিং zi এবং 3D স্থানাঙ্ক z⃗i অন্তর্ভুক্ত
  • কন্ট্রাস্টিভ লার্নিং এর মাধ্যমে ইতিবাচক নমুনা জোড়া সারিবদ্ধ করা, নেতিবাচক নমুনা জোড়া বিকর্ষণ করা

ক্ষতি ফাংশন:

L(D) = Σ(Lrec + LKL + Lretrieval)

যেখানে:

  • Lrec: পুনর্নির্মাণ ক্ষতি (ক্রস-এন্ট্রপি+MSE)
  • LKL: KL ডাইভার্জেন্স নিয়মিতকরণ
  • Lretrieval: দ্বিমুখী কন্ট্রাস্টিভ ক্ষতি

२. রিট্রিভাল অগমেন্টেড লেটেন্ট ডিফিউশন

ফরওয়ার্ড প্রক্রিয়া:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

বিপরীত প্রক্রিয়া:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

টেমপ্লেট ইন্টিগ্রেশন মেকানিজম:

  • E(3) সমতুল্য ট্রান্সফর্মার ডিনোইজিং কোর হিসাবে ব্যবহার করা
  • ক্রস-অ্যাটেনশন মেকানিজমের মাধ্যমে রিট্রিভাল টেমপ্লেট তথ্য একীভূত করা
  • কোয়েরি-কী-মূল্য গণনা: Q = HWQ, K = TWK, V = TWV

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. একীভূত লেটেন্ট স্পেস: প্রথমবারের মতো একই লেটেন্ট স্পেসে রিট্রিভাল এবং জেনারেশনের একীকরণ অর্জন করা, নিশ্চিত করা যে রিট্রিভাল ফলাফল সরাসরি জেনারেশন প্রক্রিয়াকে গাইড করতে পারে

२. ক্রস-ডোমেইন সাদৃশ্য পরিমাপ: কন্ট্রাস্টিভ লার্নিং এর মাধ্যমে শেখা লেটেন্ট প্রতিনিধিত্ব বিভিন্ন ধরনের বাইন্ডার মধ্যে সাধারণ মিথস্ক্রিয়া মোটিফ ক্যাপচার করতে পারে

३. শর্তসাপেক্ষ ডিফিউশন ইন্টিগ্রেশন: সৃজনশীলভাবে রিট্রিভাল করা ইন্টারফেস এমবেডিং ক্রস-অ্যাটেনশন এবং অবশিষ্ট MLP এর মাধ্যমে ডিফিউশন প্রক্রিয়ায় একীভূত করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. পেপটাইড ডিজাইন: PepBench ডেটাসেট

  • প্রশিক্ষণ: ৪,१५७ কমপ্লেক্স
  • যাচাইকরণ: ११४ কমপ্লেক্স
  • পরীক্ষা: ९३ LNR বেঞ্চমার্ক কেস

२. অ্যান্টিবডি ডিজাইন: SAbDab ডেটাসেট

  • প্রশিক্ষণ: ९,४७३ এন্ট্রি
  • যাচাইকরণ: ४०० এন্ট্রি
  • পরীক্ষা: ६० RAbD বেঞ্চমার্ক কেস

३. প্রোটিন খণ্ড: ProtFrag ডেটাসেট

  • ७०,४९८ মনোমার-উদ্ভূত প্রোটিন খণ্ড

মূল্যায়ন মেট্রিক্স

  • AAR (অ্যামিনো অ্যাসিড পুনরুদ্ধার হার): উৎপাদিত সিকোয়েন্স এবং রেফারেন্স সিকোয়েন্সের ম্যাচিং অনুপাত
  • RMSD: Cα স্থানাঙ্কের মূল গড় বর্গ বিচ্যুতি
  • ISM (মিথস্ক্রিয়া সাইট ম্যাচিং): মূল ফিজিকোকেমিক্যাল মিথস্ক্রিয়া পুনরুদ্ধারের ডিগ্রি
  • ∆∆G: বাইন্ডিং মুক্ত শক্তি পরিবর্তন
  • IMP: উৎপাদিত বাইন্ডার প্রাকৃতিক লিগ্যান্ডের চেয়ে উন্নত লক্ষ্যের অনুপাত

তুলনামূলক পদ্ধতি

  • পেপটাইড ডিজাইন: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • অ্যান্টিবডি ডিজাইন: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পেপটাইড সিকোয়েন্স-কাঠামো সহ-ডিজাইন

মডেলAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

অ্যান্টিবডি CDR ডিজাইন

RADiAnce সমস্ত CDR অঞ্চলে (H1, H2, H3, L1, L2, L3) বেসলাইন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত:

  • H1 অঞ্চল: AAR ९०.८३% এ উন্নীত, ∆∆G -८.२२१ kJ/mol এ উন্নত
  • H3 অঞ্চল (সবচেয়ে চ্যালেঞ্জিং): AAR ५४.६६% এ পৌঁছেছে, অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত

রিট্রিভাল নির্ভরযোগ্যতা যাচাইকরণ

মডেল কনফিগারেশনITO(%)RC-0.1%RC-0.5%RC-5%
অ্যান্টিবডি CVAE (সম্পূর্ণ)43.9366.6796.67100.0
পেপটাইড CVAE (সম্পূর্ণ)61.4111.5822.5867.74

অ্যাবলেশন পরীক্ষা

१. ক্রস-ডোমেইন প্রশিক্ষণ প্রভাব: একাধিক ডোমেইন ডেটা অন্তর্ভুক্ত করা রিট্রিভাল এবং জেনারেশন কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে २. যৌথ প্রশিক্ষণের প্রয়োজনীয়তা: VAE এবং কন্ট্রাস্টিভ ক্ষতি একযোগে অপ্টিমাইজ করা অত্যন্ত গুরুত্বপূর্ণ ३. রিট্রিভাল সংখ্যার প্রভাব: উপযুক্ত রিট্রিভাল (१०-२० নমুনা) সর্বোত্তম ফলাফল দেয়

কেস বিশ্লেষণ

GPIIb/IIIa কমপ্লেক্স (PDB ID: 3NID) এর উদাহরণ হিসাবে:

  • রিট্রিভাল নির্দেশনা ছাড়া: বৈশিষ্ট্যপূর্ণ বহু-হাইড্রোজেন বন্ড মিথস্ক্রিয়া পুনর্নির্মাণ করা কঠিন
  • রিট্রিভাল অগমেন্টেড: সফলভাবে মূল মিথস্ক্রিয়া মোটিফ উত্তরাধিকার, আর্জিনাইন এবং টাইরোসিন-মধ্যস্থ হাইড্রোজেন বন্ড প্যাটার্ন পুনরুদ্ধার করা

সম্পর্কিত কাজ

পেপটাইড ডিজাইন

  • ক্লাসিক্যাল শক্তি নমুনা থেকে গভীর জেনারেটিভ মডেলিং এ রূপান্তর
  • PepFlow/PPFlow বহু-মোডাল প্রবাহ ম্যাচিং প্রয়োগ করে
  • PepGLAD জ্যামিতিক লেটেন্ট ডিফিউশন প্রয়োগ করে

অ্যান্টিবডি ডিজাইন

  • ঐতিহ্যবাহী শারীরিক নমুনা থেকে গভীর শেখার ফ্রেমওয়ার্ক পর্যন্ত
  • DiffAb ইত্যাদি অ্যান্টিজেন শর্তসাপেক্ষ জেনারেশন প্রবর্তন করে
  • PALM-H3 এর মতো ভাষা মডেল পদ্ধতি মনোযোগ পায়

রিট্রিভাল অগমেন্টেড জেনারেশন

  • প্রাথমিকভাবে NLP কাজে প্রয়োগ করা
  • আণবিক ডিজাইনে f-RAG, IRDiff ইত্যাদি পদ্ধতি
  • এই পত্রটি প্রোটিন বাইন্ডার সহ-ডিজাইনে প্রথমবার প্রয়োগ করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. RADiAnce সফলভাবে রিট্রিভাল অগমেন্টেড প্রোটিন বাইন্ডার ডিজাইনের নতুন প্যারাডাইম প্রতিষ্ঠা করেছে २. ক্রস-ডোমেইন ইন্টারফেস ট্রান্সফার উল্লেখযোগ্যভাবে জেনারেশন কর্মক্ষমতা উন্নত করে, সাধারণ মিথস্ক্রিয়া মোটিফের অস্তিত্ব যাচাই করে ३. একাধিক বেঞ্চমার্ক পরীক্ষায় উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করেছে

সীমাবদ্ধতা

१. কর্মক্ষমতা রিট্রিভাল গুণমানের উপর নির্ভরশীল: রিট্রিভাল ফলাফলের প্রাসঙ্গিকতা সরাসরি জেনারেশন প্রভাব প্রভাবিত করে २. কাঠামো বর্ণনাকারী সীমিত: বর্তমান সাদৃশ্য পরিমাপ জটিল কাঠামোগত সম্পর্ক সম্পূর্ণভাবে ক্যাপচার করতে পারে না ३. গণনামূলক জটিলতা: বড় আকারের ইন্টারফেস ডাটাবেস বজায় রাখা এবং রিয়েল-টাইম রিট্রিভাল প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. কাঠামো বর্ণনাকারী এবং সাদৃশ্য পরিমাপ উন্নত করা २. আরও শক্তিশালী কাঠামো-সচেতন শর্তসাপেক্ষ ইন্টিগ্রেশন কৌশল অন্বেষণ করা ३. আরও অনেক আণবিক ধরন এবং মিথস্ক্রিয়া প্যাটার্নে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

१. শক্তিশালী উদ্ভাবনী: প্রথমবার RAG প্যারাডাইম প্রোটিন বাইন্ডার ডিজাইনে প্রবর্তন করা, প্রযুক্তিগত রুট নতুন २. পরীক্ষা পর্যাপ্ত: একাধিক ডেটাসেট, একাধিক মেট্রিক্সের ব্যাপক মূল্যায়ন, বিস্তারিত অ্যাবলেশন পরীক্ষা অন্তর্ভুক্ত ३. ক্রস-ডোমেইন সাধারণীকরণ: বিভিন্ন বাইন্ডার ধরনের মধ্যে জ্ঞান স্থানান্তরের সম্ভাব্যতা যাচাই করা ४. উচ্চ ব্যবহারিক মূল্য: HIV-1 CD4 রিসেপ্টর অ্যান্টিবডি ডিজাইন ইত্যাদি বাস্তব প্রয়োগে সম্ভাবনা প্রদর্শন করা

অপর্যাপ্ততা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ক্রস-ডোমেইন সাদৃশ্য পরিমাপের কার্যকারিতার তাত্ত্বিক ব্যাখ্যার অভাব २. গণনামূলক দক্ষতা: বড় আকারের রিট্রিভালের গণনা খরচ এবং স্টোরেজ প্রয়োজন বিশ্লেষণ যথেষ্ট বিস্তারিত নয় ३. জৈবিক যাচাইকরণ অনুপস্থিত: উৎপাদিত বাইন্ডারের প্রকৃত কার্যকারিতা পরীক্ষাগার যাচাইকরণের অভাব

প্রভাব

१. একাডেমিক অবদান: গণনামূলক কাঠামোগত জীববিজ্ঞানের জন্য নতুন পদ্ধতিগত ফ্রেমওয়ার্ক প্রদান করা २. ব্যবহারিক মূল্য: ওষুধ আবিষ্কার এবং প্রোটিন প্রকৌশল প্রয়োগ ত্বরান্বিত করার সম্ভাবনা ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং কোড প্রদান করা, পুনরুৎপাদন এবং সম্প্রসারণ সুবিধাজনক করা

প্রযোজ্য পরিস্থিতি

  • নতুন ওষুধ আবিষ্কারে লিড যৌগ ডিজাইন
  • অ্যান্টিবডি ওষুধের গণনামূলক সহায়ক ডিজাইন
  • প্রোটিন মিথস্ক্রিয়া গবেষণা
  • সিন্থেটিক জীববিজ্ঞানে প্রোটিন প্রকৌশল

রেফারেন্স

পত্রটি ৫४টি সম্পর্কিত রেফারেন্স উদ্ধৃত করেছে, যা প্রোটিন ডিজাইন, গভীর জেনারেটিভ মডেল, রিট্রিভাল অগমেন্টেড জেনারেশন এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।