2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

توليد البروتينات الرابطة عبر المجالات المحسّن بالاسترجاع الكامن

المعلومات الأساسية

  • معرّف الورقة: 2510.10480
  • العنوان: توليد البروتينات الرابطة عبر المجالات المحسّن بالاسترجاع الكامن
  • المؤلفون: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر/المؤتمر: ورقة بحثية أولية. قيد المراجعة (أكتوبر 2024)
  • رابط الورقة: https://arxiv.org/abs/2510.10480

الملخص

يعتبر تصميم البروتينات الرابطة الموجهة لمواقع محددة تحديًا أساسيًا في اكتشاف الأدوية، حيث يتطلب توليد أنماط تفاعل واقعية وفعالة. تواجه نماذج التوليد الحالية القائمة على البنية قيودًا في توليد واجهات ذات معقولية وقابلية تفسير كافية. تقترح هذه الورقة إطار عمل RADiAnce (Retrieval Augmented Diffusion Aligned Interface)، الذي يستفيد من الواجهات المعروفة لتوجيه تصميم الرابطات الجديدة. من خلال توحيد الاسترجاع والتوليد في فضاء كامن متناقض مشترك، يمكن للنموذج تحديد الواجهات ذات الصلة بكفاءة لموقع ربط معين، والتكامل السلس مع مولد الانتشار الكامن المشروط، مما يحقق نقل الواجهات عبر المجالات.

خلفية البحث والدافع

المشاكل الأساسية

  1. تحديات تصميم البروتينات الرابطة: يتطلب تصميم رابطات قادرة على استهداف مواقع بروتينية محددة توليد أنماط تفاعل جزيئية واقعية وفعالة
  2. قيود الطرق الموجودة: تفتقر نماذج التوليد الهيكلي الحالية إلى المعقولية والقابلية للتفسير، وتفشل في الاستفادة الفعالة من معلومات البنية المعروفة

الأهمية

  • تطبيقات واسعة في اكتشاف الأدوية والبيولوجيا الهيكلية وغيرها
  • تعتمد الطرق التقليدية على أخذ العينات من المناظر الطبيعية للطاقة الفيزيائية أو الإحصائية، مما يؤدي إلى كفاءة منخفضة
  • على الرغم من التقدم في نماذج التوليد العميقة، لا تزال تواجه صعوبة في توليد واجهات جزيئية معقولة

قيود الطرق الموجودة

  1. تجاهل المعرفة السابقة: تركز معظم الطرق على التوليد بناءً على موقع الربط المستهدف فقط، متجاهلة أنماط التفاعل القابلة لإعادة الاستخدام الغنية في المعقدات البروتينية الموجودة
  2. نقص التعميم عبر المجالات: عدم القدرة على الاستفادة الفعالة من الوحدات التفاعلية المشتركة بين أنواع مختلفة من الرابطات (مثل الببتيدات والأجسام المضادة وأجزاء البروتين)
  3. قابلية التفسير غير كافية: تفتقر عملية التوليد إلى مبادئ توجيهية بيولوجية واضحة

المساهمات الأساسية

  1. اقتراح إطار عمل RADiAnce: أول طريقة تطبق التوليد المحسّن بالاسترجاع على التصميم المتزامن للتسلسل والبنية للبروتينات الرابطة
  2. بناء فضاء كامن متناقض: تصميم تمثيل كامن مشترك موحد يدعم الاسترجاع والتوليد وقياس التشابه عبر المجالات
  3. تحقيق نقل الواجهات عبر المجالات: التحقق من أن استرجاع الواجهات من أنواع رابطات مختلفة يحسّن أداء التوليد للرابطات في مجالات أخرى
  4. تحسين الأداء الملحوظ: تفوق كبير على طرق الأساس في مؤشرات تقييم متعددة، بما في ذلك تقاربية الربط والشكل الهندسي واسترجاع التفاعلات

شرح الطريقة

تعريف المهمة

  • الإدخال: موقع الربط للبروتين المستهدف Y (البقايا ضمن مسافة 10Å)
  • الإخراج: رابطة جزيئية قادرة على الربط بشكل محدد مع هذا الموقع X
  • الهدف: نمذجة التوزيع الشرطي p_θ(X | Y, T(Y|D))، حيث T(Y|D) هي الواجهات ذات الصلة المسترجعة من قاعدة البيانات D

معمارية النموذج

1. مشفر تلقائي متغير متناقض (Contrastive VAE)

المشفر: Zx = Eφ(X), Zy = Eφ(Y)
فاك التشفير: X̂ = Dξ(Zx, Zy, Y)

التصاميم الرئيسية:

  • ترميز موقع الربط Y والرابطة X بشكل مستقل إلى سحب نقاط كامنة
  • تتضمن المتغيرات الكامنة تضمينات عددية zi وإحداثيات ثلاثية الأبعاد z⃗i
  • محاذاة أزواج العينات الموجبة من خلال التعلم المتناقض، مع رفض أزواج العينات السالبة

دالة الخسارة:

L(D) = Σ(Lrec + LKL + Lretrieval)

حيث:

  • Lrec: خسارة إعادة البناء (الإنتروبيا المتقاطعة + MSE)
  • LKL: تنظيم تباعد كولباك-لايبلر
  • Lretrieval: خسارة التناقض ثنائية الاتجاه

2. الانتشار الكامن المحسّن بالاسترجاع

العملية الأمامية:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

العملية العكسية:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

آلية دمج القالب:

  • استخدام محول Transformer متساوي التباين E(3) كنواة إزالة الضوضاء
  • دمج معلومات القالب المسترجع من خلال آلية الانتباه المتقاطع
  • حساب الاستعلام-المفتاح-القيمة: Q = HWQ, K = TWK, V = TWV

نقاط الابتكار التقني

  1. فضاء كامن موحد: أول تحقيق للتوحيد بين الاسترجاع والتوليد في نفس الفضاء الكامن، مما يضمن أن نتائج الاسترجاع يمكنها توجيه عملية التوليد مباشرة
  2. قياس التشابه عبر المجالات: يمكن للتمثيل الكامن المتعلم من خلال التعلم المتناقض التقاط الوحدات التفاعلية المشتركة بين أنواع مختلفة من الرابطات
  3. تكامل الانتشار المشروط: دمج مبتكر للواجهات المسترجعة من خلال الانتباه المتقاطع وشبكات MLP المتبقية في عملية الانتشار

إعداد التجارب

مجموعات البيانات

  1. تصميم الببتيدات: مجموعة بيانات PepBench
    • التدريب: 4,157 معقد
    • التحقق: 114 معقد
    • الاختبار: 93 حالة اختبار معيار LNR
  2. تصميم الأجسام المضادة: مجموعة بيانات SAbDab
    • التدريب: 9,473 إدخال
    • التحقق: 400 إدخال
    • الاختبار: 60 حالة اختبار معيار RAbD
  3. أجزاء البروتين: مجموعة بيانات ProtFrag
    • 70,498 جزء بروتين مشتق من أحادي

مؤشرات التقييم

  • AAR (معدل استرجاع الحمض الأميني): نسبة تطابق التسلسل المولد مع التسلسل المرجعي
  • RMSD: جذر متوسط الانحراف التربيعي لإحداثيات Cα
  • ISM (مطابقة موقع التفاعل): درجة استرجاع التفاعلات الفيزيائية والكيميائية الحرجة
  • ∆∆G: التغير في الطاقة الحرة للربط
  • IMP: نسبة الهدف حيث يتفوق الرابط المولد على الرابط الطبيعي

الطرق المقارنة

  • تصميم الببتيدات: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • تصميم الأجسام المضادة: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

نتائج التجارب

النتائج الرئيسية

التصميم المتزامن للتسلسل والبنية للببتيدات

النموذجAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

تصميم CDR للأجسام المضادة

يتفوق RADiAnce بشكل ملحوظ على طرق الأساس في جميع مناطق CDR (H1, H2, H3, L1, L2, L3):

  • منطقة H1: ارتفاع AAR إلى 90.83%، تحسن ∆∆G إلى -8.221 kJ/mol
  • منطقة H3 (الأكثر تحديًا): وصول AAR إلى 54.66%، تفوق ملحوظ على الطرق الأخرى

التحقق من موثوقية الاسترجاع

تكوين النموذجITO(%)RC-0.1%RC-0.5%RC-5%
CVAE للأجسام المضادة (كامل)43.9366.6796.67100.0
CVAE للببتيدات (كامل)61.4111.5822.5867.74

تجارب الاستئصال

  1. تأثير التدريب عبر المجالات: يؤدي تضمين بيانات متعددة المجالات إلى تحسن ملحوظ في أداء الاسترجاع والتوليد
  2. ضرورة التدريب المشترك: التحسين المتزامن لخسارة VAE والخسارة المتناقضة حاسم
  3. تأثير عدد الاسترجاعات: يحقق الاسترجاع المعتدل (10-20 عينة) أفضل النتائج

تحليل الحالات

بمثال معقد GPIIb/IIIa (معرّف PDB: 3NID):

  • بدون توجيه الاسترجاع: صعوبة في إعادة بناء أنماط الروابط الهيدروجينية المميزة
  • مع تحسين الاسترجاع: نجاح في وراثة وحدات التفاعل الرئيسية، استرجاع أنماط الروابط الهيدروجينية الوسيطة بالأرجينين والتيروسين

الأعمال ذات الصلة

تصميم الببتيدات

  • الانتقال من أخذ العينات من الطاقة الكلاسيكية إلى نمذجة التوليد العميقة
  • تطبيق PepFlow/PPFlow لمطابقة التدفق متعدد الأنماط
  • تطبيق PepGLAD للانتشار الكامن الهندسي

تصميم الأجسام المضادة

  • الانتقال من أخذ العينات الفيزيائية التقليدية إلى أطر العمل التعليمية العميقة
  • تقديم DiffAb وغيرها للتوليد المشروط بالمستضد
  • الاهتمام بطرق نماذج اللغة مثل PALM-H3

التوليد المحسّن بالاسترجاع

  • التطبيق الأولي في مهام معالجة اللغات الطبيعية
  • طرق مثل f-RAG و IRDiff في تصميم الجزيئات
  • أول تطبيق في التصميم المتزامن للبروتينات الرابطة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. أسس RADiAnce نموذجًا جديدًا لتصميم البروتينات الرابطة المحسّن بالاسترجاع
  2. يحسّن نقل الواجهات عبر المجالات أداء التوليد بشكل ملحوظ، مما يتحقق من وجود وحدات تفاعل مشتركة
  3. تحقيق تحسن ملحوظ في الأداء في معايير اختبار متعددة

القيود

  1. اعتماد الأداء على جودة الاسترجاع: تؤثر صلة نتائج الاسترجاع بشكل مباشر على فعالية التوليد
  2. واصفات البنية محدودة: قد لا يتمكن قياس التشابه الحالي من التقاط العلاقات الهيكلية المعقدة بالكامل
  3. التعقيد الحسابي: يتطلب الحفاظ على قاعدة بيانات واجهات واسعة النطاق والاسترجاع في الوقت الفعلي

الاتجاهات المستقبلية

  1. تحسين واصفات البنية وقياسات التشابه
  2. استكشاف استراتيجيات تكامل شرطية أكثر قوة وتوعية بالبنية
  3. التوسع إلى أنواع جزيئية وأنماط تفاعل أكثر

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول تطبيق لنموذج RAG في تصميم البروتينات الرابطة، مع مسار تقني جديد
  2. تجارب شاملة: تقييم شامل عبر مجموعات بيانات متعددة ومؤشرات متعددة، مع تجارب استئصال مفصلة
  3. التعميم عبر المجالات: التحقق من جدوى نقل المعرفة بين أنواع رابطات مختلفة
  4. قيمة عملية عالية: إظهار إمكانات في التطبيقات الفعلية مثل تصميم الأجسام المضادة لمستقبل CD4 لفيروس HIV-1

أوجه القصور

  1. تحليل نظري غير كافٍ: نقص التفسير النظري لفعالية قياس التشابه عبر المجالات
  2. كفاءة حسابية: تحليل غير كافٍ للتكاليف الحسابية والمتطلبات التخزينية للاسترجاع على نطاق واسع
  3. نقص التحقق البيولوجي: غياب التحقق المخبري من الوظيفة الفعلية للرابطات المولدة

التأثير

  1. المساهمة الأكاديمية: توفير إطار منهجي جديد للبيولوجيا الهيكلية الحسابية
  2. القيمة العملية: من المتوقع أن تسرع اكتشاف الأدوية وتطبيقات الهندسة البروتينية
  3. قابلية التكرار: توفير تفاصيل تنفيذ شاملة وأكواد لتسهيل التكرار والتوسع

السيناريوهات المعمول بها

  • تصميم المركبات الرائدة في اكتشاف الأدوية الجديدة
  • التصميم الحسابي المساعد لأدوية الأجسام المضادة
  • أبحاث التفاعلات البروتينية
  • الهندسة البروتينية في البيولوجيا الاصطناعية

المراجع

تستشهد الورقة بـ 54 مرجعًا ذا صلة، تغطي أعمالًا مهمة في تصميم البروتينات والنماذج التوليدية العميقة والتوليد المحسّن بالاسترجاع وغيرها، مما يوفر أساسًا نظريًا قويًا للبحث.