2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.
Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
academic

Affinage multitâche et accélération des modèles chimiques préentraînés pour la prédiction des propriétés de petites molécules médicamenteuses

Informations de base

  • ID de l'article: 2510.12719
  • Titre: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
  • Auteurs: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
  • Institutions: Merck & Co., Inc. et NVIDIA BioNeMo
  • Classification: cs.LG (apprentissage automatique), q-bio.QM (méthodes de biologie quantitative)
  • Date de publication: 14 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.12719v1

Résumé

Les modèles chimiques préentraînés (également appelés modèles de base) suscitent un intérêt considérable dans les applications de découverte de médicaments. Les connaissances chimiques générales extraites par l'entraînement autosupervisé ont le potentiel d'améliorer les prédictions des points terminaux critiques de la découverte de médicaments, notamment l'efficacité des cibles et les propriétés ADMET. Cette étude démontre que l'activation de l'apprentissage multitâche lors de l'affinage des modèles de réseaux de neurones graphiques chimiques préentraînés (tels que KERMT et KPGT) améliore considérablement les performances par rapport aux modèles de réseaux de neurones graphiques non préentraînés. Remarquablement, l'amélioration des performances de l'affinage multitâche KERMT est la plus significative à plus grande échelle de données. De plus, les auteurs publient deux divisions d'ensembles de données ADMET multitâche et fournissent une implémentation accélérée du modèle KERMT.

Contexte et motivation de la recherche

Problèmes fondamentaux

  1. Défi de la rareté des données: En découverte de médicaments, particulièrement pour les tâches de prédiction d'efficacité des cibles, les données annotées sont généralement limitées (10¹ à 10⁶ molécules), tandis que l'espace chimique total est estimé à environ 10⁶⁰ molécules
  2. Limitations des méthodes traditionnelles: Les réseaux de neurones graphiques supervisés présentent des performances limitées dans les scénarios de petites données, nécessitant généralement de s'appuyer sur des méthodes classiques comme les forêts aléatoires
  3. Potentiel de l'apprentissage multitâche: Les propriétés ADMET présentent des corrélations, offrant des opportunités pour l'apprentissage multitâche, mais cela n'a pas été suffisamment exploré lors de l'affinage des modèles chimiques préentraînés

Motivation de la recherche

  • Exploiter les données chimiques non annotées à grande échelle pour le préentraînement et apprendre les connaissances et motifs chimiques généraux
  • Explorer le potentiel de l'apprentissage multitâche lors de l'affinage des modèles chimiques préentraînés
  • Résoudre les problèmes d'efficacité computationnelle dans les processus de découverte de médicaments au niveau industriel

Contributions principales

  1. Première étude systématique: Introduction des méthodes d'apprentissage multitâche lors de l'affinage des modèles chimiques préentraînés
  2. Amélioration du modèle KERMT: Proposition d'une version améliorée de GROVER, supportant le préentraînement distribué et l'inférence accélérée
  3. Découverte contre-intuitive: Démonstration que KERMT fonctionne mieux à plus grande échelle de données, remettant en question l'hypothèse selon laquelle les modèles préentraînés seraient principalement avantageux dans les scénarios de petites données
  4. Ensembles de données de référence: Publication de deux divisions d'ensembles de données ADMET multitâche, facilitant l'évaluation comparative des méthodes
  5. Optimisations d'ingénierie: Fourniture d'une implémentation accélérée supportant les applications au niveau industriel

Détails méthodologiques

Définition des tâches

Entrée: Chaîne SMILES ou représentation graphique moléculaire Sortie: Prédictions de plusieurs propriétés ADMET ou d'efficacité des cibles Objectif: Améliorer les performances des modèles chimiques préentraînés sur les tâches de prédiction des propriétés médicamenteuses par l'apprentissage multitâche

Architecture du modèle

KERMT (Kinetic GROVER Multi-Task)

  • Architecture de base: Modèle de transformateur graphique basé sur GROVER
  • Tâches de préentraînement:
    • Classification au niveau des nœuds/arêtes: identification des sous-graphes locaux k-hop à partir des plongements de nœuds/arêtes
    • Classification multi-étiquettes au niveau des graphes: identification des groupes fonctionnels présents dans les molécules à partir des plongements graphiques
  • Échelle de paramètres: ~51 millions de paramètres (version de base)
  • Données de préentraînement: 11 millions de composés (provenant de ZINC15 et ChEMBL)

KPGT (Knowledge-guided Pre-training of Graph Transformer)

  • Caractéristiques: Utilisation de la représentation en graphe linéaire moléculaire + nœuds de connaissance (K-node)
  • Tâches de préentraînement:
    • Prédiction des caractéristiques de nœuds et K-node masqués
    • Prédiction des empreintes RDKit
    • Prédiction de 200 descripteurs moléculaires
  • Échelle de paramètres: ~100 millions de paramètres
  • Données de préentraînement: 2 millions de molécules (ChEMBL29)

Stratégie d'affinage multitâche

  • Affinage monotâche: Mise à jour uniquement de l'encodeur et des poids du réseau de neurones à propagation directe pour prédire une seule propriété
  • Affinage multitâche: Le réseau de neurones à propagation directe produit n valeurs correspondant à n propriétés, les poids de l'encodeur étant mis à jour simultanément

Points d'innovation technique

  1. Préentraînement distribué: Utilisation de PyTorch DDP pour le préentraînement parallèle multi-GPU, atteignant 86% d'efficacité d'échelle avec 8 GPU
  2. Inférence accélérée: Intégration du paquet cuik-molmaker, réalisant une accélération de 2,2× lors de l'affinage et de 2,9× lors de l'inférence
  3. Optimisation automatique des hyperparamètres: Intégration d'Optuna pour la recherche d'hyperparamètres
  4. Optimisation de la mémoire: Génération dynamique de graphes moléculaires et de descripteurs, réduisant l'utilisation de mémoire de 34%

Configuration expérimentale

Ensembles de données

Ensemble de données interne (Merck)

  • Données ADMET: 30 points terminaux, 800 733 composés (à partir de 2024)
  • Efficacité des cibles: Cible 1 (744 composés), Cible 2 (1 163 composés)
  • Mode de division: Division temporelle 80-20 (point de division: avril 2018)

Ensembles de données publics

  • Données ADMET de la littérature: 25 points terminaux, 114 112 composés
  • Ensemble de données Biogen: 6 points terminaux, 3 521 composés
  • BindingDB: EGFR (9 462 composés), BTK (9 337 composés), etc.
  • Mode de division: Division basée sur le clustering des empreintes Morgan réduites par PCA

Métriques d'évaluation

  • Métrique principale: Coefficient de corrélation Pearson r²
  • Métriques auxiliaires: Coefficient de détermination R², erreur absolue moyenne (MAE), erreur quadratique moyenne (RMSE)
  • Évaluation de classification: Graphiques d'enrichissement de classification, évaluation du taux de classification correcte des molécules hautement efficaces

Méthodes de comparaison

  • Ligne de base: Chemprop (D-MPNN)
  • Modèles préentraînés: MoLFormer, KPGT, KERMT
  • Modes d'évaluation: Variantes monotâche (ST) et multitâche (MT)

Résultats expérimentaux

Résultats principaux

Performance ADMET interne

Dans le test de division temporelle sur les données ADMET internes de Merck:

  • KERMT MT: Performance optimale ou égale sur 5 points terminaux clés
  • Amélioration des performances: Supérieur à Chemprop MT sur 18 des 30 points terminaux
  • Amélioration moyenne: Augmentation du coefficient Pearson r² de 0,02 (par rapport à Chemprop) et 0,04 (par rapport à KPGT)

Résultats spécifiques (Pearson r²):

  • Papp: KERMT MT (0,712) vs Chemprop MT (0,657)
  • EPSA: KERMT MT (0,822) vs Chemprop MT (0,805)
  • Fu,p humain: KERMT MT (0,666) vs Chemprop MT (0,641)

Performance sur les ensembles de données publics

  • Données ADMET publiques: KPGT fonctionne mieux (9/25 points terminaux optimaux), KERMT MT seulement 3/25 optimaux
  • Données Biogen: Confiance réduite des résultats en raison de la petite taille de l'échantillon
  • Dépendance à l'échelle des données: KERMT fonctionne mieux sur les grands ensembles de données (>10k échantillons), KPGT supérieur sur les petits ensembles de données (<3k échantillons)

Analyse de l'échelle des données

Découverte clé: L'avantage de KERMT est plus évident à plus grande échelle de données

  • Point critique: Lorsque l'ensemble d'entraînement >60k points de données, KERMT est significativement supérieur à Chemprop
  • Impact de l'échelle de paramètres: KERMT (51 millions de paramètres) est plus susceptible de surapprentissage sur les petites données que Chemprop (5 millions de paramètres)
  • Bénéfice multitâche: Avec l'augmentation du nombre de tâches (1→30 tâches), les performances de KERMT s'améliorent continuellement

Capacité de généralisation de l'espace chimique

Par analyse de similarité Tanimoto:

  • Avantage cohérent: KERMT surpasse Chemprop dans tous les intervalles de similarité (0,35-0,7)
  • Capacité de généralisation: Bien que non spécifiquement ciblée sur les composés à faible similarité, la capacité de généralisation globale est plus forte
  • Prédiction de cyclopeptides: Les deux modèles ont des performances comparables sur le sous-ensemble de cyclopeptides (Pearson r² = 0,36)

Impact des données de préentraînement

Les expériences utilisant le préentraînement sur les données internes montrent:

  • Amélioration limitée: Même avec des données de préentraînement plus similaires aux tâches en aval, l'amélioration des performances est limitée
  • Performance des cyclopeptides: Le modèle KERMT de base surpasse toujours le modèle préentraîné en interne sur les tâches de cyclopeptides (5/12 vs 1/12 tâches)
  • Enseignement: Il est nécessaire d'améliorer les tâches de préentraînement pour mieux capturer les informations pertinentes

Travaux connexes

Modèles chimiques préentraînés

  • GROVER: Transformateur graphique, utilisant la transmission de messages d'atomes et de liaisons
  • MoLFormer: Modèle de langage basé sur SMILES, codage de position rotatif
  • KPGT: Transformateur graphique guidé par les connaissances, intégrant les descripteurs moléculaires

Apprentissage multitâche

  • Applications traditionnelles: Principalement utilisé pour les architectures d'apprentissage profond entraînées à partir de zéro
  • Contribution de cet article: Première application systématique de l'apprentissage multitâche à l'affinage des modèles chimiques préentraînés

Conclusions et discussion

Conclusions principales

  1. Efficacité de l'affinage multitâche: L'affinage multitâche KERMT améliore considérablement les performances, particulièrement dans les scénarios de grandes données
  2. Dépendance à l'échelle des données: Remet en question le point de vue traditionnel selon lequel les modèles préentraînés seraient principalement avantageux avec de petites données
  3. Orientation du choix de modèle: Recommandation d'utiliser KERMT MT pour les données de taille moyenne à grande, KPGT ST pour les petites données
  4. Faisabilité d'ingénierie: L'implémentation accélérée rend les applications au niveau industriel possibles

Limitations

  1. Optimisation des tâches de préentraînement: Les tâches de préentraînement actuelles peuvent ne pas capturer suffisamment les informations pertinentes pour les tâches en aval
  2. Prédiction de cyclopeptides: Améliorations limitées sur les types de molécules spéciales comme les cyclopeptides
  3. Divergence des ensembles de données: Résultats incohérents entre les ensembles de données internes et publics, affectant l'évaluation de la généralisation des méthodes
  4. Exigences en ressources de calcul: Les modèles à grand nombre de paramètres nécessitent plus de ressources de calcul

Directions futures

  1. Amélioration des tâches de préentraînement: Conception d'objectifs de préentraînement plus adaptés à l'apprentissage multitâche en aval
  2. Affinage modulaire: Étude de l'impact du gel partiel de l'encodeur sur différentes échelles de données
  3. Extension multimodale: Exploration du préentraînement conjoint protéine-petite molécule
  4. Ensembles de données de référence: Développement de plus de repères multitâche de haute qualité

Évaluation approfondie

Points forts

  1. Valeur pratique élevée: Résout directement les problèmes réels de la découverte de médicaments industrielle
  2. Expériences complètes: Couvre plusieurs ensembles de données, modèles et dimensions d'évaluation
  3. Découvertes contre-intuitives: Remet en question les hypothèses du domaine, fournissant de nouvelles perspectives
  4. Contributions d'ingénierie: Fournit une implémentation open-source complète et des optimisations d'accélération
  5. Contributions de données: Publication d'ensembles de données de référence multitâche standardisés

Insuffisances

  1. Analyse théorique insuffisante: Manque d'explication théorique approfondie sur les raisons pour lesquelles KERMT fonctionne mieux avec de grandes données
  2. Stratégie de préentraînement: Exploration insuffisante des méthodes de préentraînement optimisées pour l'apprentissage multitâche
  3. Signification statistique: L'analyse de la signification statistique de certains résultats pourrait être plus rigoureuse
  4. Analyse des coûts de calcul: Manque d'analyse détaillée des coûts de calcul comparatifs

Impact

  1. Impact académique: Fournit une référence importante pour le domaine interdisciplinaire de l'informatique chimique et de l'apprentissage multitâche
  2. Applications industrielles: Directement applicable aux processus de prédiction ADMET des sociétés pharmaceutiques
  3. Contributions open-source: L'ouverture du code et des données favorise le développement du domaine
  4. Contributions méthodologiques: Établit de nouvelles normes pour l'évaluation des modèles chimiques préentraînés

Scénarios d'application

  1. Grandes sociétés pharmaceutiques: Organisations possédant de grands ensembles de données ADMET
  2. Optimisation multiples propriétés: Scénarios nécessitant la prédiction simultanée de plusieurs propriétés moléculaires
  3. Processus industriels: Environnements de production nécessitant une inférence efficace
  4. Repères de recherche: Ligne de base standard pour la prédiction multitâche des propriétés chimiques

Références

L'article cite 47 références importantes, couvrant:

  • Travaux fondamentaux sur les modèles chimiques préentraînés (GROVER, MoLFormer, KPGT)
  • Méthodes classiques et ensembles de données pour la prédiction ADMET
  • Fondements théoriques de l'apprentissage multitâche
  • Apprentissage de représentations moléculaires et réseaux de neurones graphiques
  • Synthèses des applications d'apprentissage automatique en découverte de médicaments

Évaluation globale: Cet article est une recherche appliquée de haute qualité avec une valeur significative en termes de contributions théoriques, de validation expérimentale et de mise en œuvre d'ingénierie. En particulier, ses découvertes contre-intuitives et ses contributions open-source complètes sont d'une importance considérable pour faire progresser le développement du domaine de l'informatique chimique.