Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- معرّف الورقة: 2410.15040
- العنوان: نموذج الانتشار المعزز بالاسترجاع لتصميم وتحسين الأجسام المضادة المستنير بالبنية
- المؤلفون: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- التصنيف: cs.AI
- المؤتمر المنشور: ICLR 2025
- رابط الورقة: https://arxiv.org/abs/2410.15040
الأجسام المضادة هي بروتينات حيوية مسؤولة عن الاستجابة المناعية في الجسم، وتتمتع بالقدرة على التعرف النوعي على جزيئات المستضدات المسببة للأمراض. على الرغم من التطورات الحديثة الملحوظة في نماذج التوليد التي حسّنت بشكل كبير قدرات تصميم الأجسام المضادة العقلانية، فإن الطرق الحالية تركز بشكل أساسي على إنشاء أجسام مضادة من الصفر وتفتقر إلى قيود القالب، مما يؤدي إلى صعوبات في تحسين النموذج ومشاكل التسلسل غير الطبيعي. لحل هذه المشاكل، تقترح هذه الورقة إطار عمل انتشار معزز بالاسترجاع يُدعى RADAb لتصميم الأجسام المضادة بكفاءة. تستخدم هذه الطريقة مجموعة من الحوافز البنيوية المتماثلة المحاذاة مع قيود الاستعلام البنيوي لتوجيه نموذج التوليد لتحسين الأجسام المضادة بشكل عكسي وفقاً لمعايير التصميم المطلوبة. بشكل محدد، تم إدخال آلية استرجاع المعلومات البنيوية، وتكامل هذه الحوافز النموذجية مع الهيكل العظمي للإدخال من خلال وحدة إزالة الضوضاء ثنائية الفرع جديدة، مع الاستفادة من المعلومات البنيوية والتطورية. بالإضافة إلى ذلك، تم تطوير نموذج انتشار مشروط يحسّن العملية بشكل متكرر من خلال دمج السياق العام والشروط التطورية المحلية. الطريقة مستقلة عن اختيار نموذج التوليد، وتثبت التجارب الأداء الأفضل حالياً على مهام طي الأجسام المضادة العكسي والتحسين المتعددة.
التحدي الأساسي في تصميم الأجسام المضادة هو كيفية توليد تسلسلات أجسام مضادة وظيفية ذات خصائص بيوكيميائية محددة مسبقاً. يعتمد تطوير الأجسام المضادة التقليدي على طرق تجريبية كثيفة العمالة، مثل التحصين الحيواني أو فحص مكتبات الأجسام المضادة الضخمة، والتي غالباً ما تفشل في إنتاج أجسام مضادة فعالة ضد الحتميات ذات الصلة العلاجية.
- ندرة البيانات: تعتمد بشكل أساسي على قاعدة بيانات SAbDab، التي تحتوي على أقل من عشرة آلاف هيكل معقد مستضد-جسم مضاد، مما يحد من قدرة النموذج على التقاط معلومات التفاعل من الدرجة الأعلى
- صعوبة التصميم من الصفر: تحاول الطرق الحالية تصميم تسلسلات الأجسام المضادة من البداية، وتفتقر إلى التوجيه القائم على القالب، وتتطلب كميات كبيرة من البيانات والتدريب الواسع
- غياب القيود البنيوية: يصعب على نماذج التوليد الحالية تصميم أجسام مضادة تتبع القيود البنيوية وتتمتع بالخصائص البيولوجية المطلوبة
تستلهم هذه الورقة من تصميم الأجسام المضادة القائم على القالب والأجزاء، وتهدف إلى:
- تعزيز قدرات توليد النموذج باستخدام معلومات الهندسة البروتينية المحلية والعامة الموجهة بالقالب
- دمج إشارات تطور الحافز لمنع الإفراط في التدريب
- تقليل الحاجة إلى التدريب أو الضبط الدقيق في التطبيقات العملية
- إطار عمل توليد معزز بالاسترجاع رائد: تقترح أول إطار عمل توليد معزز بالاسترجاع لتصميم الأجسام المضادة العقلانية، باستخدام مجموعة من أجزاء نمط CDR الوظيفية التي تلبي قيود الهيكل العظمي المطلوب والخصائص لتوجيه التوليد
- آلية استرجاع جديدة: إدخال آلية استرجاع المعلومات البنيوية، وتكامل الحوافز النموذجية مع الهيكل العظمي للإدخال من خلال وحدة إزالة الضوضاء ثنائية الفرع، مع الاستفادة من المعلومات البنيوية والتطورية
- تحسن الأداء الملحوظ: تحسين الطرق الأفضل حالياً في مهام طي الأجسام المضادة العكسي المتعددة، مثل تحسين AAR بنسبة 8.08% في مهمة طي CDRH3 الطويل، وتحسين متوسط ΔΔG المطلق بمقدار 7 سعرة حرارية/مول في مهام التحسين الوظيفي
بالنظر إلى معقد الهيكل العظمي للجسم المضاد Cab، والمستضد Cag، وأجزاء نمط CDR المسترجعة A، الهدف هو التنبؤ بتوزيع التسلسل لمنطقة CDR R={sj∣j∈{a+1,...,a+m}}، حيث m هو طول CDR و a هو موضع البداية.
استخدام خوارزمية MASTER للاسترجاع البنيوي:
- الإدخال: مجموعة إحداثيات ذرات الهيكل العظمي X={xk∣k∈{1,...,m}}
- مقياس التشابه: الانحراف المربع الجذري (RMSD) لذرات الهيكل العظمي
- الإخراج: مجموعة أجزاء نمط CDR المتشابهة بنيوياً A={Ai∣i∈{1,...,k}}
فرع السياق الهندسي العام:
- مشفر السياق: استخراج ميزات البقايا الفردية zi وميزات أزواج البقايا yij
- مشفر التطور: استخدام ESM2 لاستخراج التضمينات التطورية لتسلسل الجسم المضاد et
- شبكة المعلومات البنيوية: معالجة من خلال تراص طبقات IPA، إخراج التمثيل الاحتمالي العام rglobal
فرع التركيز المحلي على CDR:
- الانتباه المحوري الموجه نحو CDR: بناء مصفوفة MSA الزائفة P:
P=concat((Sab∪Rgt),E)
حيث E هي مصفوفة تسلسل أجزاء النمط
- آلية الانتباه المرتبطة للصفوف: النظر في درجات الانتباه متعددة الصفوف بشكل متزامن، مع الاستفادة من التشابه البنيوي
- دمج المعلومات: دمج rlocal و rglobal من خلال الاتصالات المتخطية
عملية الضوضاء الأمامية:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
عملية إزالة الضوضاء العكسية:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- استرجاع المعلومات البنيوية: استخدام خوارزمية MASTER لاسترجاع أجزاء نمط CDR بناءً على بنية الهيكل العظمي، مع تجنب تسرب المعلومات التسلسلية
- معمارية ثنائية الفرع: يلتقط الفرع العام السياق المعقد للمستضد-الجسم المضاد، بينما يتعلم الفرع المحلي معلومات التطور المتماثلة
- الانتباه المرتبط للصفوف: آلية انتباه مصممة خصيصاً للاستفادة الكاملة من التشابه البنيوي
- استقلالية النموذج: يمكن دمج الإطار مع أي نموذج انتشار توليدي
- مجموعة التدريب: قاعدة بيانات SAbDab، مع إزالة الهياكل ذات الدقة المنخفضة عن 4Å، التجميع بناءً على 50% تشابه التسلسل في منطقة CDRH3
- مجموعة الاختبار: 50 ملف PDB، يحتوي على 63 هيكل معقد جسم مضاد-مستضد
- قاعدة بيانات أجزاء نمط CDR: مبنية من PDB غير المكرر، تحتوي على حوافز وظيفية خطية متوافقة بنيوياً من CDR
- معدل استرجاع الأحماض الأمينية (AAR): نسبة المواضع التي يكون فيها تسلسل التصميم مطابقاً لتسلسل CDR الحقيقي
- RMSD الاتساق الذاتي (scRMSD): RMSD لذرات Cα في منطقة CDR بعد إعادة طي هيكل الجسم المضاد
- المعقولية (Plausibility): احتمالية السجل الزائفة المحسوبة باستخدام AntiBERTy
- الطرق التقليدية: Grafting (نقل أعلى جزء نمط مسترجع مباشرة)
- طرق التعلم العميق: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- المحسّن: Adam، معدل التعلم 0.0001
- حجم الدفعة: 8
- تدريب CDRH3 منفصل لـ 100,000 تكرار، مناطق CDR الأخرى تدريب مشترك لـ 250,000 تكرار
- خطوات وقت الانتشار: 100 خطوة
نتائج طي تسلسل CDR للجسم المضاد العكسي:
| الطريقة | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
نتائج تصميم تسلسل CDRH3 الطويل (الطول > 14):
| الطريقة | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
نتائج تحسين طاقة الربط:
| الطريقة | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| المكون | AAR(%) | scRMSD | Plausibility |
|---|
| النموذج الكامل | 57.02 | 2.23 | -0.530 |
| بدون تعزيز الاسترجاع | 52.15 | 2.39 | -0.529 |
| بدون التضمينات التطورية | 51.36 | 2.23 | -0.538 |
| خط أساس Diffab | 49.17 | 2.24 | -0.541 |
باستخدام جسم مضاد محايد SARS-CoV-2 (PDB: 7d6i) كمثال، أظهرت 68% من 50 تسلسل CDRH3 المولد قيم ΔG أقل من المعقد الأصلي، مما يثبت فعالية التحسين الوظيفي.
- الطرق التقليدية: طرق التحسين القائمة على دوال الطاقة والتشابه التسلسلي
- طرق التعلم الآلي:
- تصميم تسلسل الجسم المضاد: نماذج اللغة ونماذج الطي العكسي
- تصميم التسلسل-البنية المتزامن الخاص بالمستضد: طرق الشبكات العصبية الرسومية
تطبيق نماذج الانتشار في تصميم البروتينات، بما في ذلك عملية الضوضاء الأمامية والعملية العكسية للتوليد من DDPM.
تقنية RAG الممتدة من مجال معالجة اللغات الطبيعية إلى رؤية الحاسوب والتوليد الجزيئي، تطبق هذه الورقة لأول مرة على تصميم الأجسام المضادة.
- يحقق RADAb أداءً أفضل حالياً على مهام تصميم الأجسام المضادة المتعددة
- تحسّن آلية التعزيز بالاسترجاع بشكل كبير جودة التوليد والوظيفية للنموذج
- تدمج معمارية ثنائية الفرع بفعالية السياق العام والمعلومات التطورية المحلية
- عدم كفاية التحقق التجريبي: لم يتم التحقق بشكل كامل في التجارب الرطبة
- النفقات الحسابية: يتطلب استرجاع البنية وترميز ESM2 موارد حسابية أكثر
- خطر تسرب البيانات: وجود خطر تسرب البيانات عند تطبيق آلية الاسترجاع الحالية في تصميم التسلسل-البنية المتزامن
- سيكون التحقق التجريبي أحد المهام الرئيسية
- توسيع النموذج إلى تصميم أنماط بروتينية متنوعة
- استكشاف استرجاع التفاعل البروتيني-البروتيني لتجنب مشاكل تسرب البيانات
- ابتكار قوي: أول تطبيق لتقنية التعزيز بالاسترجاع في تصميم الأجسام المضادة، مع اقتراح معمارية ثنائية الفرع جديدة
- تقنية متينة: تصميم معقول لآلية استرجاع المعلومات البنيوية، مع تجنب تسرب المعلومات التسلسلية
- تجارب شاملة: تقييم شامل على مهام ومؤشرات متعددة، بما في ذلك تجارب الاستبدال
- أداء متميز: تحقيق أداء أفضل حالياً على جميع مهام التقييم
- الجدوى العملية قيد الانتظار: افتقار التحقق التجريبي، والتأثير الفعلي للتطبيق غير معروف
- التعقيد الحسابي العالي: تزيد عملية الاسترجاع والشبكة ثنائية الفرع من العبء الحسابي
- تقييد نطاق التطبيق: يركز بشكل أساسي على مهام الطي العكسي، مع وجود قيود في التصميم الذري الكامل
- المساهمة الأكاديمية: توفير منظور جديد لنماذج توليد الجزيئات البيولوجية، وتعزيز تطبيق تقنية التعزيز بالاسترجاع في تصميم البروتينات
- القيمة العملية: من المتوقع أن تسرع عملية تصميم أدوية الأجسام المضادة وتقلل التكاليف التجريبية
- قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر
- تحسين وتصميم CDR بناءً على قوالب الأجسام المضادة المعروفة
- تحسين تسلسل الجسم المضاد الذي يتطلب الحفاظ على القيود البنيوية
- نضج الألفة والتحسين الوظيفي للأجسام المضادة
تستشهد هذه الورقة بأعمال مهمة في مجالات تصميم الأجسام المضادة ونماذج الانتشار والتوليد المعزز بالاسترجاع، مما يوفر أساساً نظرياً وتقنياً متيناً لإطار عمل RADAb.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح إطار عمل انتشار معزز بالاسترجاع مبتكراً في مجال تصميم الأجسام المضادة. يتم تصميم الحل التقني بشكل معقول، والتقييم التجريبي شامل، والنتائج مقنعة. على الرغم من أن التحقق من التطبيق العملي لا يزال يحتاج إلى تعزيز، فإنه يفتح اتجاهاً بحثياً جديداً في مجال تصميم البروتينات، ويتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.