2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.
Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
academic

الضبط الدقيق متعدد المهام وتسريع نماذج ما قبل التدريب الكيميائية للتنبؤ بخصائص الأدوية الجزيئية الصغيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.12719
  • العنوان: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
  • المؤلفون: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
  • المؤسسات: Merck & Co., Inc. و NVIDIA BioNeMo
  • التصنيف: cs.LG (تعلم الآلة)، q-bio.QM (أساليب البيولوجيا الكمية)
  • تاريخ النشر: 14 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12719v1

الملخص

تحظى نماذج ما قبل التدريب الكيميائية (المعروفة أيضاً بالنماذج الأساسية) باهتمام واسع في تطبيقات اكتشاف الأدوية. تتمتع المعرفة الكيميائية العامة المستخرجة من خلال التدريب غير الموجه بإمكانية تحسين التنبؤ بنقاط نهاية اكتشاف الأدوية الحرجة، بما في ذلك فعالية الهدف وخصائص ADMET. تُظهر هذه الدراسة أن تفعيل التعلم متعدد المهام في الضبط الدقيق لنماذج الشبكات العصبية الرسومية ما قبل التدريب الكيميائية (مثل KERMT و KPGT) يحسّن الأداء بشكل كبير مقارنة بنماذج الشبكات العصبية الرسومية غير المدربة مسبقاً. بشكل مثير للدهشة، يكون تحسن الأداء في الضبط الدقيق متعدد المهام لـ KERMT أكثر وضوحاً على نطاقات بيانات أكبر. بالإضافة إلى ذلك، يُصدر المؤلفون مجموعتي بيانات ADMET متعددة المهام ويوفران تطبيقاً معجلاً لنموذج KERMT.

خلفية البحث والحافز

المشاكل الأساسية

  1. تحدي ندرة البيانات: في اكتشاف الأدوية، خاصة في مهام مثل التنبؤ بفعالية الهدف، تكون البيانات المُصنّفة محدودة عادة (10¹ إلى 10⁶ جزيء)، بينما يُقدّر أن المساحة الكيميائية الكاملة تحتوي على حوالي 10⁶⁰ جزيء
  2. قيود الطرق التقليدية: تتمتع الشبكات العصبية الرسومية المراقبة بأداء محدودة في سيناريوهات البيانات الصغيرة، وعادة ما تعتمد على الطرق الكلاسيكية مثل الغابات العشوائية
  3. إمكانية التعلم متعدد المهام: توجد علاقات بين خصائص ADMET، مما يوفر فرصة للتعلم متعدد المهام، لكن لم يتم استكشافه بشكل كافٍ في الضبط الدقيق لنماذج ما قبل التدريب الكيميائية

حافز البحث

  • الاستفادة من بيانات كيميائية غير مصنفة واسعة النطاق للتدريب المسبق لتعلم المعرفة والأنماط الكيميائية العامة
  • استكشاف إمكانية التعلم متعدد المهام في الضبط الدقيق لنماذج ما قبل التدريب الكيميائية
  • معالجة مشاكل الكفاءة الحسابية في عمليات اكتشاف الأدوية على مستوى الصناعة

المساهمات الأساسية

  1. أول دراسة منهجية: إدخال أساليب التعلم متعدد المهام في الضبط الدقيق لنماذج ما قبل التدريب الكيميائية
  2. تحسين نموذج KERMT: تقديم نسخة محسّنة من GROVER تدعم التدريب الموزع والاستدلال المعجل
  3. اكتشاف مثير للدهشة: إثبات أن KERMT يحقق أداء أفضل على نطاقات بيانات أكبر، مما يطعن في الافتراض بأن نماذج ما قبل التدريب تتفوق بشكل أساسي في سيناريوهات البيانات الصغيرة
  4. مجموعات بيانات معيارية: إصدار مجموعتي بيانات ADMET متعددة المهام لتسهيل المقارنة بين الطرق
  5. تحسينات هندسية: توفير تطبيق معجل يدعم التطبيقات على مستوى الصناعة

شرح الطريقة

تعريف المهام

الإدخال: سلاسل SMILES للجزيء أو تمثيل الرسم البياني الجزيئي الإخراج: قيم التنبؤ بخصائص ADMET أو فعالية الهدف المتعددة الهدف: تحسين أداء نماذج ما قبل التدريب الكيميائية في مهام التنبؤ بخصائص الأدوية من خلال التعلم متعدد المهام

معمارية النموذج

KERMT (Kinetic GROVER Multi-Task)

  • المعمارية الأساسية: نموذج محول الرسم البياني القائم على GROVER
  • مهام التدريب المسبق:
    • تصنيف على مستوى العقدة/الحافة: تحديد الرسوم البيانية الفرعية المحلية k-hop من تضمينات العقدة/الحافة
    • تصنيف متعدد التسميات على مستوى الرسم البياني: تحديد المجموعات الوظيفية الموجودة في الجزيء من تضمين الرسم البياني
  • حجم المعاملات: حوالي 51 مليون معامل (نسخة أساسية)
  • بيانات التدريب المسبق: 11 مليون مركب (من ZINC15 و ChEMBL)

KPGT (Knowledge-guided Pre-training of Graph Transformer)

  • الميزات: استخدام تمثيل الخط الجزيئي + عقد المعرفة (K-node)
  • مهام التدريب المسبق:
    • التنبؤ بميزات العقدة والعقدة K المقنعة
    • التنبؤ ببصمات RDKit
    • التنبؤ بـ 200 واصف جزيئي
  • حجم المعاملات: حوالي 100 مليون معامل
  • بيانات التدريب المسبق: مليونا جزيء (ChEMBL29)

استراتيجية الضبط الدقيق متعدد المهام

  • الضبط الدقيق أحادي المهام: تحديث أوزان المشفر والشبكة الأمامية فقط للتنبؤ بخاصية واحدة
  • الضبط الدقيق متعدد المهام: تُخرج الشبكة الأمامية n قيمة تقابل n خاصية، مع تحديث أوزان المشفر في نفس الوقت

نقاط الابتكار التقني

  1. التدريب الموزع المسبق: استخدام PyTorch DDP لتطبيق التدريب المسبق المتوازي على عدة وحدات معالجة رسومية، مع تحقيق كفاءة توسع بنسبة 86% على 8 وحدات معالجة رسومية
  2. الاستدلال المعجل: دمج حزمة cuik-molmaker لتحقيق تسريع بنسبة 2.2 مرة في الضبط الدقيق وتسريع بنسبة 2.9 مرة في الاستدلال
  3. تحسين المعاملات الفائقة التلقائي: دمج Optuna للبحث عن المعاملات الفائقة
  4. تحسين الذاكرة: توليد الرسوم البيانية الجزيئية والواصفات ديناميكياً، مما يقلل استخدام الذاكرة بنسبة 34%

إعداد التجارب

مجموعات البيانات

مجموعات البيانات الداخلية (Merck)

  • بيانات ADMET: 30 نقطة نهاية، 800,733 مركب (اعتباراً من 2024)
  • فعالية الهدف: الهدف 1 (744 مركب)، الهدف 2 (1,163 مركب)
  • طريقة التقسيم: تقسيم زمني 80-20 (نقطة الفصل في 14 أبريل 2018)

مجموعات البيانات العامة

  • بيانات ADMET من الأدبيات: 25 نقطة نهاية، 114,112 مركب
  • مجموعة بيانات Biogen: 6 نقاط نهاية، 3,521 مركب
  • BindingDB: EGFR (9,462 مركب)، BTK (9,337 مركب) وغيرها
  • طريقة التقسيم: تقسيم التجميع بناءً على بصمات Morgan المخفضة بـ PCA

مقاييس التقييم

  • المقياس الأساسي: معامل الارتباط Pearson r²
  • المقاييس المساعدة: معامل التحديد R²، متوسط الخطأ المطلق (MAE)، جذر متوسط الخطأ التربيعي (RMSE)
  • تقييم التصنيف: مخطط إثراء التصنيف، تقييم معدل التصنيف الصحيح للجزيئات عالية الفعالية

طرق المقارنة

  • الخط الأساسي: Chemprop (D-MPNN)
  • نماذج ما قبل التدريب: MoLFormer, KPGT, KERMT
  • أنماط التقييم: متغيرات أحادية المهام (ST) ومتعددة المهام (MT)

نتائج التجارب

النتائج الرئيسية

أداء ADMET الداخلية

في اختبار التقسيم الزمني على بيانات Merck الداخلية:

  • KERMT MT: تحقق أفضل أداء أو أداء متساوية في 5 نقاط نهاية رئيسية
  • تحسن الأداء: تفوقت على Chemprop MT في 18 من 30 نقطة نهاية
  • التحسن المتوسط: تحسن معامل Pearson r² بمقدار 0.02 (مقارنة بـ Chemprop) و 0.04 (مقارنة بـ KPGT)

النتائج المحددة (معامل Pearson r²):

  • Papp: KERMT MT (0.712) مقابل Chemprop MT (0.657)
  • EPSA: KERMT MT (0.822) مقابل Chemprop MT (0.805)
  • Fu,p human: KERMT MT (0.666) مقابل Chemprop MT (0.641)

الأداء على مجموعات البيانات العامة

  • بيانات ADMET العامة: تفوقت KPGT (أفضل في 9/25 نقطة نهاية)، حققت KERMT MT أفضل أداء في 3/25 فقط
  • بيانات Biogen: ثقة النتائج منخفضة نسبياً بسبب صغر حجم العينة
  • الاعتماد على حجم البيانات: تتفوق KERMT على مجموعات البيانات الكبيرة (>10k عينة)، بينما تتفوق KPGT على مجموعات البيانات الصغيرة (<3k عينة)

تحليل حجم البيانات

الاكتشاف الرئيسي: تكون مزايا KERMT أكثر وضوحاً على نطاقات بيانات أكبر

  • النقطة الحرجة: عندما يكون مجموعة التدريب >60k نقطة بيانات، تتفوق KERMT بشكل كبير على Chemprop
  • تأثير حجم المعاملات: KERMT (51 مليون معامل) أكثر عرضة للإفراط في التدريب على البيانات الصغيرة مقارنة بـ Chemprop (5 ملايين معامل)
  • فائدة التعلم متعدد المهام: مع زيادة عدد المهام (1→30 مهمة)، تستمر أداء KERMT في التحسن

القدرة على التعميم في الفضاء الكيميائي

من خلال تحليل تشابه Tanimoto:

  • الميزة المتسقة: تتفوق KERMT على Chemprop في جميع فترات التشابه (0.35-0.7)
  • القدرة على التعميم: على الرغم من عدم التخصص للجزيئات منخفضة التشابه، تتمتع بقدرة تعميم أقوى بشكل عام
  • التنبؤ بالببتيدات الحلقية: تحقق كلا النموذجين أداء متساوية على مجموعة الببتيدات الحلقية (معامل Pearson r² = 0.36)

تأثير بيانات التدريب المسبق

أظهرت التجارب باستخدام إعادة التدريب المسبق ببيانات داخلية:

  • تحسن محدود: حتى عندما تكون بيانات التدريب المسبق أكثر تشابهاً مع المهام النهائية، يكون التحسن محدوداً
  • أداء الببتيدات الحلقية: يحقق نموذج KERMT الأساسي أداء أفضل من النموذج المدرب مسبقاً بشكل داخلي على مهام الببتيدات الحلقية (5/12 مقابل 1/12 مهمة)
  • الدرس المستفاد: هناك حاجة لتحسين مهام التدريب المسبق لالتقاط المعلومات ذات الصلة بشكل أفضل

الأعمال ذات الصلة

نماذج ما قبل التدريب الكيميائية

  • GROVER: محول الرسم البياني، يستخدم نقل الرسائل على مستوى الذرة والحافة
  • MoLFormer: نموذج لغة قائم على SMILES، ترميز موضعي دوراني
  • KPGT: محول الرسم البياني الموجه بالمعرفة، يدمج الواصفات الجزيئية

التعلم متعدد المهام

  • التطبيقات التقليدية: تُستخدم بشكل أساسي في معماريات التعلم العميق المدربة من الصفر
  • مساهمة هذه الورقة: أول تطبيق منهجي للتعلم متعدد المهام في الضبط الدقيق لنماذج ما قبل التدريب الكيميائية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. فعالية الضبط الدقيق متعدد المهام: يحسّن الضبط الدقيق متعدد المهام لـ KERMT الأداء بشكل كبير، خاصة في سيناريوهات البيانات الكبيرة
  2. الاعتماد على حجم البيانات: يطعن في الرأي التقليدي بأن نماذج ما قبل التدريب تتفوق بشكل أساسي على البيانات الصغيرة
  3. إرشادات اختيار النموذج: يوصي باستخدام KERMT MT للبيانات الكبيرة والمتوسطة، و KPGT ST للبيانات الصغيرة
  4. الجدوى الهندسية: يجعل التطبيق المعجل التطبيقات على مستوى الصناعة ممكنة

القيود

  1. تحسين مهام التدريب المسبق: قد لا تلتقط مهام التدريب المسبق الحالية المعلومات ذات الصلة بالمهام النهائية بشكل كافٍ
  2. التنبؤ بالببتيدات الحلقية: التحسن محدود على أنواع جزيئية خاصة مثل الببتيدات الحلقية
  3. اختلاف مجموعات البيانات: عدم التطابق بين نتائج البيانات الداخلية والعامة يؤثر على تقييم تعميم الطريقة
  4. متطلبات الموارد الحسابية: تتطلب النماذج الكبيرة المعاملات موارد حسابية أكثر

الاتجاهات المستقبلية

  1. تحسين مهام التدريب المسبق: تصميم أهداف تدريب مسبق أكثر ملاءمة للتعلم متعدد المهام النهائي
  2. الضبط الدقيق المعياري: دراسة تأثير تجميد جزء من المشفر على أحجام البيانات المختلفة
  3. التوسع عبر الأنماط: استكشاف التدريب المسبق المشترك للبروتين والجزيئات الصغيرة
  4. مجموعات البيانات المعيارية: تطوير المزيد من مجموعات البيانات المعيارية عالية الجودة متعددة المهام

التقييم المتعمق

المزايا

  1. قيمة عملية عالية: تحل مشاكل فعلية في اكتشاف الأدوية الصناعي
  2. تجارب شاملة: تغطي مجموعات بيانات وطرق وأبعاد تقييم متعددة
  3. اكتشافات مثيرة للدهشة: تطعن في الافتراضات المجالية وتوفر رؤى جديدة
  4. مساهمات هندسية: توفر تطبيق مفتوح المصدر كامل وتحسينات تسريع
  5. مساهمات البيانات: إصدار مجموعات بيانات معيارية موحدة متعددة المهام

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب تفوق KERMT على البيانات الكبيرة
  2. استراتيجية التدريب المسبق: لم يتم استكشاف طرق التدريب المسبق المحسّنة للتعلم متعدد المهام بشكل كافٍ
  3. الدلالة الإحصائية: يمكن أن يكون تحليل الدلالة الإحصائية لبعض النتائج أكثر صرامة
  4. تحليل التكاليف الحسابية: يفتقد إلى تحليل مقارن مفصل للتكاليف الحسابية

التأثير

  1. التأثير الأكاديمي: يوفر مرجعاً مهماً لمجال التقاطع بين المعلوماتية الكيميائية والتعلم متعدد المهام
  2. التطبيقات الصناعية: قابل للتطبيق المباشر على عمليات التنبؤ بـ ADMET في شركات الأدوية
  3. المساهمات مفتوحة المصدر: يعزز الكود والبيانات المفتوحة تطور المجال
  4. المساهمات المنهجية: ينشئ معايير جديدة لتقييم نماذج ما قبل التدريب الكيميائية

السيناريوهات المناسبة

  1. شركات الأدوية الكبيرة: المنظمات التي تمتلك مجموعات بيانات ADMET واسعة النطاق
  2. تحسين الخصائص المتعددة: السيناريوهات التي تتطلب التنبؤ المتزامن بخصائص جزيئية متعددة
  3. العمليات الصناعية: البيئات التي تتطلب استدلال عالي الكفاءة
  4. المعايير البحثية: كخط أساس معياري للتنبؤ بخصائص كيميائية متعددة المهام

المراجع

تستشهد الورقة بـ 47 مرجعاً مهماً، تغطي:

  • الأعمال الأساسية لنماذج ما قبل التدريب الكيميائية (GROVER, MoLFormer, KPGT)
  • الطرق الكلاسيكية ومجموعات البيانات للتنبؤ بـ ADMET
  • الأسس النظرية للتعلم متعدد المهام
  • تعلم التمثيل الجزيئي والشبكات العصبية الرسومية
  • الدراسات الاستقصائية لتطبيقات التعلم الآلي في اكتشاف الأدوية

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال البحث التطبيقي، تتمتع بقيمة كبيرة من حيث المساهمات النظرية والتحقق التجريبي والتطبيق الهندسي. خاصة اكتشافاتها المثيرة للدهشة والمساهمات الشاملة مفتوحة المصدر، لها أهمية كبيرة في تعزيز تطور مجال المعلوماتية الكيميائية.