2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

نموذج الانتشار المعزز بالاسترجاع لتصميم وتحسين الأجسام المضادة المستنير بالبنية

المعلومات الأساسية

معرّف الورقة: 2410.15040
العنوان: نموذج الانتشار المعزز بالاسترجاع لتصميم وتحسين الأجسام المضادة المستنير بالبنية
المؤلفون: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
التصنيف: cs.AI
المؤتمر المنشور: ICLR 2025
رابط الورقة: https://arxiv.org/abs/2410.15040

الملخص

الأجسام المضادة هي بروتينات حيوية مسؤولة عن الاستجابة المناعية في الجسم، وتتمتع بالقدرة على التعرف النوعي على جزيئات المستضدات المسببة للأمراض. على الرغم من التطورات الحديثة الملحوظة في نماذج التوليد التي حسّنت بشكل كبير قدرات تصميم الأجسام المضادة العقلانية، فإن الطرق الحالية تركز بشكل أساسي على إنشاء أجسام مضادة من الصفر وتفتقر إلى قيود القالب، مما يؤدي إلى صعوبات في تحسين النموذج ومشاكل التسلسل غير الطبيعي. لحل هذه المشاكل، تقترح هذه الورقة إطار عمل انتشار معزز بالاسترجاع يُدعى RADAb لتصميم الأجسام المضادة بكفاءة. تستخدم هذه الطريقة مجموعة من الحوافز البنيوية المتماثلة المحاذاة مع قيود الاستعلام البنيوي لتوجيه نموذج التوليد لتحسين الأجسام المضادة بشكل عكسي وفقاً لمعايير التصميم المطلوبة. بشكل محدد، تم إدخال آلية استرجاع المعلومات البنيوية، وتكامل هذه الحوافز النموذجية مع الهيكل العظمي للإدخال من خلال وحدة إزالة الضوضاء ثنائية الفرع جديدة، مع الاستفادة من المعلومات البنيوية والتطورية. بالإضافة إلى ذلك، تم تطوير نموذج انتشار مشروط يحسّن العملية بشكل متكرر من خلال دمج السياق العام والشروط التطورية المحلية. الطريقة مستقلة عن اختيار نموذج التوليد، وتثبت التجارب الأداء الأفضل حالياً على مهام طي الأجسام المضادة العكسي والتحسين المتعددة.

الخلفية البحثية والدافع

تعريف المشكلة

التحدي الأساسي في تصميم الأجسام المضادة هو كيفية توليد تسلسلات أجسام مضادة وظيفية ذات خصائص بيوكيميائية محددة مسبقاً. يعتمد تطوير الأجسام المضادة التقليدي على طرق تجريبية كثيفة العمالة، مثل التحصين الحيواني أو فحص مكتبات الأجسام المضادة الضخمة، والتي غالباً ما تفشل في إنتاج أجسام مضادة فعالة ضد الحتميات ذات الصلة العلاجية.

قيود الطرق الحالية

ندرة البيانات: تعتمد بشكل أساسي على قاعدة بيانات SAbDab، التي تحتوي على أقل من عشرة آلاف هيكل معقد مستضد-جسم مضاد، مما يحد من قدرة النموذج على التقاط معلومات التفاعل من الدرجة الأعلى
صعوبة التصميم من الصفر: تحاول الطرق الحالية تصميم تسلسلات الأجسام المضادة من البداية، وتفتقر إلى التوجيه القائم على القالب، وتتطلب كميات كبيرة من البيانات والتدريب الواسع
غياب القيود البنيوية: يصعب على نماذج التوليد الحالية تصميم أجسام مضادة تتبع القيود البنيوية وتتمتع بالخصائص البيولوجية المطلوبة

الدافع البحثي

تستلهم هذه الورقة من تصميم الأجسام المضادة القائم على القالب والأجزاء، وتهدف إلى:

تعزيز قدرات توليد النموذج باستخدام معلومات الهندسة البروتينية المحلية والعامة الموجهة بالقالب
دمج إشارات تطور الحافز لمنع الإفراط في التدريب
تقليل الحاجة إلى التدريب أو الضبط الدقيق في التطبيقات العملية

المساهمات الأساسية

إطار عمل توليد معزز بالاسترجاع رائد: تقترح أول إطار عمل توليد معزز بالاسترجاع لتصميم الأجسام المضادة العقلانية، باستخدام مجموعة من أجزاء نمط CDR الوظيفية التي تلبي قيود الهيكل العظمي المطلوب والخصائص لتوجيه التوليد
آلية استرجاع جديدة: إدخال آلية استرجاع المعلومات البنيوية، وتكامل الحوافز النموذجية مع الهيكل العظمي للإدخال من خلال وحدة إزالة الضوضاء ثنائية الفرع، مع الاستفادة من المعلومات البنيوية والتطورية
تحسن الأداء الملحوظ: تحسين الطرق الأفضل حالياً في مهام طي الأجسام المضادة العكسي المتعددة، مثل تحسين AAR بنسبة 8.08% في مهمة طي CDRH3 الطويل، وتحسين متوسط ΔΔG المطلق بمقدار 7 سعرة حرارية/مول في مهام التحسين الوظيفي

شرح الطريقة

تعريف المهمة

بالنظر إلى معقد الهيكل العظمي للجسم المضاد $C_{ab}$ ، والمستضد $C_{ag}$ ، وأجزاء نمط CDR المسترجعة $A$ ، الهدف هو التنبؤ بتوزيع التسلسل لمنطقة CDR $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ ، حيث $m$ هو طول CDR و $a$ هو موضع البداية.

معمارية النموذج

1. وحدة الاسترجاع البنيوي

استخدام خوارزمية MASTER للاسترجاع البنيوي:

الإدخال: مجموعة إحداثيات ذرات الهيكل العظمي $X = \{x_k | k \in \{1, ..., m\}\}$
مقياس التشابه: الانحراف المربع الجذري (RMSD) لذرات الهيكل العظمي
الإخراج: مجموعة أجزاء نمط CDR المتشابهة بنيوياً $A = \{A_i | i \in \{1, ..., k\}\}$

2. شبكة إزالة الضوضاء ثنائية الفرع

فرع السياق الهندسي العام:

مشفر السياق: استخراج ميزات البقايا الفردية $z_i$ وميزات أزواج البقايا $y_{ij}$
مشفر التطور: استخدام ESM2 لاستخراج التضمينات التطورية لتسلسل الجسم المضاد $e^t$
شبكة المعلومات البنيوية: معالجة من خلال تراص طبقات IPA، إخراج التمثيل الاحتمالي العام $r_{global}$

فرع التركيز المحلي على CDR:

الانتباه المحوري الموجه نحو CDR: بناء مصفوفة MSA الزائفة $P$ : $P = \text{concat}((S_{ab} \cup R^t_g), E)$ حيث $E$ هي مصفوفة تسلسل أجزاء النمط
آلية الانتباه المرتبطة للصفوف: النظر في درجات الانتباه متعددة الصفوف بشكل متزامن، مع الاستفادة من التشابه البنيوي
دمج المعلومات: دمج $r_{local}$ و $r_{global}$ من خلال الاتصالات المتخطية

3. عملية الانتشار المشروط

عملية الضوضاء الأمامية: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

عملية إزالة الضوضاء العكسية: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

نقاط الابتكار التقني

استرجاع المعلومات البنيوية: استخدام خوارزمية MASTER لاسترجاع أجزاء نمط CDR بناءً على بنية الهيكل العظمي، مع تجنب تسرب المعلومات التسلسلية
معمارية ثنائية الفرع: يلتقط الفرع العام السياق المعقد للمستضد-الجسم المضاد، بينما يتعلم الفرع المحلي معلومات التطور المتماثلة
الانتباه المرتبط للصفوف: آلية انتباه مصممة خصيصاً للاستفادة الكاملة من التشابه البنيوي
استقلالية النموذج: يمكن دمج الإطار مع أي نموذج انتشار توليدي

إعداد التجارب

مجموعات البيانات

مجموعة التدريب: قاعدة بيانات SAbDab، مع إزالة الهياكل ذات الدقة المنخفضة عن 4Å، التجميع بناءً على 50% تشابه التسلسل في منطقة CDRH3
مجموعة الاختبار: 50 ملف PDB، يحتوي على 63 هيكل معقد جسم مضاد-مستضد
قاعدة بيانات أجزاء نمط CDR: مبنية من PDB غير المكرر، تحتوي على حوافز وظيفية خطية متوافقة بنيوياً من CDR

مؤشرات التقييم

معدل استرجاع الأحماض الأمينية (AAR): نسبة المواضع التي يكون فيها تسلسل التصميم مطابقاً لتسلسل CDR الحقيقي
RMSD الاتساق الذاتي (scRMSD): RMSD لذرات Cα في منطقة CDR بعد إعادة طي هيكل الجسم المضاد
المعقولية (Plausibility): احتمالية السجل الزائفة المحسوبة باستخدام AntiBERTy

طرق المقارنة

الطرق التقليدية: Grafting (نقل أعلى جزء نمط مسترجع مباشرة)
طرق التعلم العميق: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

تفاصيل التنفيذ

المحسّن: Adam، معدل التعلم 0.0001
حجم الدفعة: 8
تدريب CDRH3 منفصل لـ 100,000 تكرار، مناطق CDR الأخرى تدريب مشترك لـ 250,000 تكرار
خطوات وقت الانتشار: 100 خطوة

نتائج التجارب

النتائج الرئيسية

نتائج طي تسلسل CDR للجسم المضاد العكسي:

الطريقة	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibility
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

نتائج تصميم تسلسل CDRH3 الطويل (الطول > 14):

الطريقة	AAR(%)	scRMSD	Plausibility
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

نتائج التحسين الوظيفي

نتائج تحسين طاقة الربط:

الطريقة	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

تجارب الاستبدال

المكون	AAR(%)	scRMSD	Plausibility
النموذج الكامل	57.02	2.23	-0.530
بدون تعزيز الاسترجاع	52.15	2.39	-0.529
بدون التضمينات التطورية	51.36	2.23	-0.538
خط أساس Diffab	49.17	2.24	-0.541

تحليل الحالات

باستخدام جسم مضاد محايد SARS-CoV-2 (PDB: 7d6i) كمثال، أظهرت 68% من 50 تسلسل CDRH3 المولد قيم ΔG أقل من المعقد الأصلي، مما يثبت فعالية التحسين الوظيفي.

الأعمال ذات الصلة

طرق تصميم الأجسام المضادة

الطرق التقليدية: طرق التحسين القائمة على دوال الطاقة والتشابه التسلسلي
طرق التعلم الآلي:
- تصميم تسلسل الجسم المضاد: نماذج اللغة ونماذج الطي العكسي
- تصميم التسلسل-البنية المتزامن الخاص بالمستضد: طرق الشبكات العصبية الرسومية

نماذج الانتشار التوليدية

تطبيق نماذج الانتشار في تصميم البروتينات، بما في ذلك عملية الضوضاء الأمامية والعملية العكسية للتوليد من DDPM.

التوليد المعزز بالاسترجاع

تقنية RAG الممتدة من مجال معالجة اللغات الطبيعية إلى رؤية الحاسوب والتوليد الجزيئي، تطبق هذه الورقة لأول مرة على تصميم الأجسام المضادة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق RADAb أداءً أفضل حالياً على مهام تصميم الأجسام المضادة المتعددة
تحسّن آلية التعزيز بالاسترجاع بشكل كبير جودة التوليد والوظيفية للنموذج
تدمج معمارية ثنائية الفرع بفعالية السياق العام والمعلومات التطورية المحلية

القيود

عدم كفاية التحقق التجريبي: لم يتم التحقق بشكل كامل في التجارب الرطبة
النفقات الحسابية: يتطلب استرجاع البنية وترميز ESM2 موارد حسابية أكثر
خطر تسرب البيانات: وجود خطر تسرب البيانات عند تطبيق آلية الاسترجاع الحالية في تصميم التسلسل-البنية المتزامن

الاتجاهات المستقبلية

سيكون التحقق التجريبي أحد المهام الرئيسية
توسيع النموذج إلى تصميم أنماط بروتينية متنوعة
استكشاف استرجاع التفاعل البروتيني-البروتيني لتجنب مشاكل تسرب البيانات

التقييم المتعمق

المميزات

ابتكار قوي: أول تطبيق لتقنية التعزيز بالاسترجاع في تصميم الأجسام المضادة، مع اقتراح معمارية ثنائية الفرع جديدة
تقنية متينة: تصميم معقول لآلية استرجاع المعلومات البنيوية، مع تجنب تسرب المعلومات التسلسلية
تجارب شاملة: تقييم شامل على مهام ومؤشرات متعددة، بما في ذلك تجارب الاستبدال
أداء متميز: تحقيق أداء أفضل حالياً على جميع مهام التقييم

أوجه القصور

الجدوى العملية قيد الانتظار: افتقار التحقق التجريبي، والتأثير الفعلي للتطبيق غير معروف
التعقيد الحسابي العالي: تزيد عملية الاسترجاع والشبكة ثنائية الفرع من العبء الحسابي
تقييد نطاق التطبيق: يركز بشكل أساسي على مهام الطي العكسي، مع وجود قيود في التصميم الذري الكامل

التأثير

المساهمة الأكاديمية: توفير منظور جديد لنماذج توليد الجزيئات البيولوجية، وتعزيز تطبيق تقنية التعزيز بالاسترجاع في تصميم البروتينات
القيمة العملية: من المتوقع أن تسرع عملية تصميم أدوية الأجسام المضادة وتقلل التكاليف التجريبية
قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر

السيناريوهات المطبقة

تحسين وتصميم CDR بناءً على قوالب الأجسام المضادة المعروفة
تحسين تسلسل الجسم المضاد الذي يتطلب الحفاظ على القيود البنيوية
نضج الألفة والتحسين الوظيفي للأجسام المضادة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات تصميم الأجسام المضادة ونماذج الانتشار والتوليد المعزز بالاسترجاع، مما يوفر أساساً نظرياً وتقنياً متيناً لإطار عمل RADAb.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح إطار عمل انتشار معزز بالاسترجاع مبتكراً في مجال تصميم الأجسام المضادة. يتم تصميم الحل التقني بشكل معقول، والتقييم التجريبي شامل، والنتائج مقنعة. على الرغم من أن التحقق من التطبيق العملي لا يزال يحتاج إلى تعزيز، فإنه يفتح اتجاهاً بحثياً جديداً في مجال تصميم البروتينات، ويتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.