Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
- Papier-ID: 2510.12719
- Titel: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
- Autoren: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
- Institutionen: Merck & Co., Inc. und NVIDIA BioNeMo
- Klassifizierung: cs.LG (Maschinelles Lernen), q-bio.QM (Quantitative Biologie-Methoden)
- Veröffentlichungsdatum: 14. Oktober 2025
- Papier-Link: https://arxiv.org/abs/2510.12719v1
Chemische vortrainierte Modelle (auch als Grundmodelle bezeichnet) erhalten in Arzneimittelentwicklungsanwendungen breite Aufmerksamkeit. Allgemeines chemisches Wissen, das durch selbstüberwachtes Training extrahiert wird, hat das Potenzial, die Vorhersage kritischer Arzneimittelentwicklungs-Endpunkte zu verbessern, einschließlich Zielaffinität und ADMET-Eigenschaften. Diese Forschung zeigt, dass die Aktivierung von Multi-Task-Learning bei der Feinabstimmung von chemischen vortrainierten Graphen-Neuronalen-Netzwerk-Modellen (wie KERMT und KPGT) die Leistung im Vergleich zu nicht-vortrainierten Graphen-Neuronalen-Netzwerk-Modellen erheblich verbessert. Überraschenderweise ist die Leistungssteigerung der KERMT-Multi-Task-Feinabstimmung bei größeren Datenmengen am deutlichsten. Darüber hinaus veröffentlichen die Autoren zwei Multi-Task-ADMET-Datensatz-Aufteilungen und stellen eine beschleunigte Implementierung des KERMT-Modells bereit.
- Herausforderung der Datenmangel: In der Arzneimittelentwicklung, insbesondere bei Aufgaben wie der Zielaffinitätsvorhersage, sind annotierte Daten typischerweise begrenzt (10¹ bis 10⁶ Moleküle), während der gesamte chemische Raum auf etwa 10⁶⁰ Moleküle geschätzt wird
- Einschränkungen traditioneller Methoden: Überwachte Graphen-Neuronale-Netzwerke zeigen begrenzte Leistung in Szenarien mit kleinen Datenmengen und verlassen sich normalerweise auf klassische Methoden wie Zufallswälder
- Potenzial des Multi-Task-Learning: ADMET-Eigenschaften weisen Korrelationen auf, die Möglichkeiten für Multi-Task-Learning bieten, wurden aber bei der Feinabstimmung von chemischen vortrainierten Modellen noch nicht vollständig erforscht
- Nutzung großer nicht-annotierter chemischer Daten für das Vortraining zur Erlernung allgemeinen chemischen Wissens und Muster
- Erforschung des Potenzials von Multi-Task-Learning bei der Feinabstimmung von chemischen vortrainierten Modellen
- Lösung von Recheneffizienzproblemen in industriellen Arzneimittelentwicklungsprozessen
- Erste systematische Untersuchung: Einführung von Multi-Task-Learning-Methoden bei der Feinabstimmung von chemischen vortrainierten Modellen
- KERMT-Modell-Verbesserung: Vorschlag einer verbesserten Version von GROVER mit Unterstützung für verteiltes Vortraining und beschleunigte Inferenz
- Kontraintuitive Entdeckung: Nachweis, dass KERMT bei großen Datenmengen besser abschneidet, was die Annahme in Frage stellt, dass vortrainierte Modelle hauptsächlich in Szenarien mit kleinen Datenmengen von Vorteil sind
- Benchmark-Datensätze: Veröffentlichung von zwei Multi-Task-ADMET-Datensatz-Aufteilungen zur Förderung des Methodenvergleichs
- Technische Optimierung: Bereitstellung beschleunigter Implementierungen zur Unterstützung industrieller Anwendungen
Eingabe: SMILES-Zeichenketten oder Molekülgraph-Darstellungen von Molekülen
Ausgabe: Vorhersagewerte für mehrere ADMET-Eigenschaften oder Zielaffinität
Ziel: Verbesserung der Leistung von chemischen vortrainierten Modellen bei Arzneistoffeigenschaften-Vorhersageaufgaben durch Multi-Task-Learning
- Grundarchitektur: Graphen-Transformer-Modell basierend auf GROVER
- Vortraining-Aufgaben:
- Knoten-/Kanten-Klassifizierung: Identifizierung von k-Hop-lokalen Subgraphen aus Knoten-/Kanten-Einbettungen
- Graph-Level-Multi-Label-Klassifizierung: Identifizierung funktioneller Gruppen in Molekülen aus Graph-Einbettungen
- Parametergröße: ~51 Millionen Parameter (Basis-Version)
- Vortraining-Daten: 11 Millionen Verbindungen (aus ZINC15 und ChEMBL)
- Besonderheit: Verwendung von Molekül-Liniengraph-Darstellung + Wissensknoten (K-node)
- Vortraining-Aufgaben:
- Vorhersage maskierter Knoten- und K-Node-Merkmale
- Vorhersage von RDKit-Fingerabdrücken
- Vorhersage von 200 Moleküldeskriptoren
- Parametergröße: ~100 Millionen Parameter
- Vortraining-Daten: 2 Millionen Moleküle (ChEMBL29)
- Single-Task-Feinabstimmung: Nur Encoder- und Feedforward-Netzwerk-Gewichte zur Vorhersage einer einzelnen Eigenschaft aktualisieren
- Multi-Task-Feinabstimmung: Feedforward-Netzwerk gibt n Werte für n Eigenschaften aus, Encoder-Gewichte werden gleichzeitig aktualisiert
- Verteiltes Vortraining: Verwendung von PyTorch DDP für Multi-GPU-paralleles Vortraining mit 86% Skalierungseffizienz auf 8 GPUs
- Beschleunigte Inferenz: Integration des cuik-molmaker-Pakets, Erreichung von 2,2-facher Feinabstimmungs- und 2,9-facher Inferenzbeschleunigung
- Automatische Hyperparameter-Optimierung: Integration von Optuna für Hyperparameter-Suche
- Speicheroptimierung: Dynamische Generierung von Molekülgraphen und Deskriptoren, Reduktion des Speicherverbrauchs um 34%
- ADMET-Daten: 30 Endpunkte, 800.733 Verbindungen (Stand 2024)
- Zielaffinität: Target 1 (744 Verbindungen), Target 2 (1.163 Verbindungen)
- Aufteilungsmethode: 80-20 zeitliche Aufteilung (Trennpunkt: 14. April 2018)
- Literatur-ADMET-Daten: 25 Endpunkte, 114.112 Verbindungen
- Biogen-Datensatz: 6 Endpunkte, 3.521 Verbindungen
- BindingDB: EGFR (9.462 Verbindungen), BTK (9.337 Verbindungen) usw.
- Aufteilungsmethode: Cluster-basierte Aufteilung auf Grundlage von PCA-reduziertem Morgan-Fingerabdruck
- Primäre Metrik: Pearson-r²-Korrelationskoeffizient
- Sekundäre Metriken: Bestimmtheitsmaß R², mittlerer absoluter Fehler (MAE), Wurzelmittleres Fehlerquadrat (RMSE)
- Klassifizierungsbewertung: Klassifizierungs-Anreicherungsdiagramme zur Bewertung der korrekten Klassifizierungsrate hochaffiner Moleküle
- Baseline: Chemprop (D-MPNN)
- Vortrainierte Modelle: MoLFormer, KPGT, KERMT
- Bewertungsmodi: Single-Task (ST) und Multi-Task (MT) Varianten
Bei zeitlicher Aufteilung-Tests auf internen Merck-Daten:
- KERMT MT: Beste oder gleichwertig beste Leistung bei 5 kritischen Endpunkten
- Leistungssteigerung: Übertrifft Chemprop MT bei 18 von 30 Endpunkten
- Durchschnittliche Verbesserung: Pearson-r²-Steigerung um 0,02 (gegenüber Chemprop) und 0,04 (gegenüber KPGT)
Spezifische Ergebnisse (Pearson r²):
- Papp: KERMT MT (0,712) vs. Chemprop MT (0,657)
- EPSA: KERMT MT (0,822) vs. Chemprop MT (0,805)
- Fu,p human: KERMT MT (0,666) vs. Chemprop MT (0,641)
- Öffentliche ADMET-Daten: KPGT zeigt bessere Leistung (9/25 Endpunkte beste), KERMT MT nur 3/25 beste
- Biogen-Daten: Aufgrund kleiner Stichprobengröße niedrigere Konfidenz der Ergebnisse
- Datengröße-Abhängigkeit: KERMT zeigt bessere Leistung bei großen Datensätzen (>10k Proben), KPGT bei kleinen Datensätzen (<3k Proben) überlegen
Schlüsselfund: Der Vorteil von KERMT ist bei größeren Datenmengen deutlicher
- Kritischer Punkt: Bei Trainingssätzen >60k Datenpunkte deutlich überlegen gegenüber Chemprop
- Parametergröße-Einfluss: KERMT (51 Millionen Parameter) neigt bei kleinen Daten stärker zu Überanpassung als Chemprop (5 Millionen Parameter)
- Multi-Task-Gewinn: Mit zunehmender Aufgabenzahl (1→30 Aufgaben) verbessert sich die KERMT-Leistung kontinuierlich
Durch Tanimoto-Ähnlichkeitsanalyse:
- Konsistenter Vorteil: KERMT übertrifft Chemprop in allen Ähnlichkeitsbereichen (0,35-0,7)
- Generalisierungsfähigkeit: Obwohl nicht speziell für Verbindungen mit niedriger Ähnlichkeit optimiert, zeigt sich insgesamt stärkere Generalisierungsfähigkeit
- Zyklische Peptid-Vorhersage: Auf der zyklischen Peptid-Teilmenge zeigen beide Modelle vergleichbare Leistung (Pearson r² = 0,36)
Experimente mit internem Neuvortraining zeigen:
- Begrenzte Verbesserung: Auch mit Vortraining-Daten, die ähnlicher zu Downstream-Aufgaben sind, ist die Leistungssteigerung begrenzt
- Zyklische Peptid-Leistung: Basis-KERMT-Modell übertrifft internes vortrainiertes Modell bei zyklischen Peptid-Aufgaben (5/12 vs. 1/12 Aufgaben)
- Erkenntnisse: Verbesserung von Vortraining-Aufgaben erforderlich, um relevante Informationen besser zu erfassen
- GROVER: Graphen-Transformer mit Atom- und Bindungs-Nachrichtenübertragung
- MoLFormer: SMILES-basiertes Sprachmodell mit rotierender Positionscodierung
- KPGT: Wissensgesteuerter Graphen-Transformer mit integrierten Moleküldeskriptoren
- Traditionelle Anwendungen: Hauptsächlich bei von Grund auf trainierten Deep-Learning-Architekturen
- Beitrag dieses Papiers: Erste systematische Anwendung von Multi-Task-Learning auf Feinabstimmung von chemischen vortrainierten Modellen
- Effektivität der Multi-Task-Feinabstimmung: KERMT-Multi-Task-Feinabstimmung verbessert die Leistung erheblich, besonders in großen Datenszenarien
- Datengröße-Abhängigkeit: Hinterfragt die traditionelle Ansicht, dass vortrainierte Modelle hauptsächlich bei kleinen Datenmengen von Vorteil sind
- Modellauswahlrichtlinie: Empfehlung von KERMT MT für mittlere bis große Datenmengen und KPGT ST für kleine Datenmengen
- Technische Machbarkeit: Beschleunigte Implementierung ermöglicht industrielle Anwendungen
- Optimierung von Vortraining-Aufgaben: Aktuelle Vortraining-Aufgaben erfassen möglicherweise nicht vollständig Downstream-Task-relevante Informationen
- Zyklische Peptid-Vorhersage: Begrenzte Verbesserungen bei speziellen Molekültypen wie zyklischen Peptiden
- Datensatz-Unterschiede: Inkonsistente Ergebnisse zwischen internen und öffentlichen Datensätzen beeinflussen die Bewertung der Methodengeneralisierung
- Rechenressourcen-Anforderungen: Große Parametermodelle erfordern mehr Rechenressourcen
- Verbesserung von Vortraining-Aufgaben: Entwicklung von Vortraining-Zielen, die besser für Downstream-Multi-Task-Learning geeignet sind
- Modulare Feinabstimmung: Untersuchung der Auswirkungen teilweise gefrorener Encoder auf verschiedene Datengrößen
- Cross-Modal-Erweiterung: Erforschung von gemeinsamen Protein-Kleinmolekül-Vortraining
- Benchmark-Datensätze: Entwicklung weiterer hochqualitativer Multi-Task-Benchmarks
- Hoher praktischer Wert: Direkte Lösung praktischer Probleme in der industriellen Arzneimittelentwicklung
- Umfassende Experimente: Abdeckung mehrerer Datensätze, Modelle und Bewertungsdimensionen
- Kontraintuitive Entdeckungen: Hinterfragt Annahmen im Bereich und bietet neue Erkenntnisse
- Technische Beiträge: Bereitstellung vollständiger Open-Source-Implementierung und Beschleunigungsoptimierungen
- Datenbeiträge: Veröffentlichung standardisierter Multi-Task-Benchmark-Datensätze
- Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum KERMT bei großen Datenmengen besser abschneidet
- Vortraining-Strategie: Unzureichende Erforschung von Vortraining-Methoden, die für Multi-Task-Learning optimiert sind
- Statistische Signifikanz: Statistische Signifikanztests könnten bei einigen Ergebnissen strenger sein
- Rechenkosten-Analyse: Fehlende detaillierte Rechenkosten-Vergleichsanalyse
- Akademische Auswirkungen: Wichtige Referenz für das Schnittstellengebiet von Chemieinformatik und Multi-Task-Learning
- Industrielle Anwendungen: Direkt anwendbar auf ADMET-Vorhersage-Prozesse von Pharmaunternehmen
- Open-Source-Beiträge: Offene Code- und Datenverfügbarkeit fördert Feldentwicklung
- Methodologische Beiträge: Etablierung neuer Standards für die Bewertung von chemischen vortrainierten Modellen
- Große Pharmaunternehmen: Organisationen mit großen ADMET-Datensätzen
- Multi-Eigenschafts-Optimierung: Szenarien, die gleichzeitige Vorhersage mehrerer Moleküleigenschaften erfordern
- Industrielle Prozesse: Produktionsumgebungen, die effiziente Inferenz erfordern
- Forschungs-Benchmarks: Standard-Baseline für Multi-Task-Arzneistoffeigenschaften-Vorhersage
Das Papier zitiert 47 wichtige Referenzen, die Folgendes abdecken:
- Grundlegende Arbeiten zu chemischen vortrainierten Modellen (GROVER, MoLFormer, KPGT)
- Klassische Methoden und Datensätze zur ADMET-Vorhersage
- Theoretische Grundlagen des Multi-Task-Learning
- Moleküldarstellungslernen und Graphen-Neuronale-Netzwerke
- Übersichten über Anwendungen von maschinellem Lernen in der Arzneimittelentwicklung
Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier mit signifikanten Beiträgen in theoretischer Grundlage, experimenteller Validierung und technischer Implementierung. Besonders die kontraintuitive Entdeckung und die umfassenden Open-Source-Beiträge sind von großer Bedeutung für die Förderung der Entwicklung im Bereich der Chemieinformatik.