2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.

Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.

academic

Multitask-Feinabstimmung und Beschleunigung von chemischen vortrainierten Modellen zur Vorhersage von Arzneistoffeigenschaften

Grundlegende Informationen

Papier-ID: 2510.12719
Titel: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
Autoren: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
Institutionen: Merck & Co., Inc. und NVIDIA BioNeMo
Klassifizierung: cs.LG (Maschinelles Lernen), q-bio.QM (Quantitative Biologie-Methoden)
Veröffentlichungsdatum: 14. Oktober 2025
Papier-Link: https://arxiv.org/abs/2510.12719v1

Zusammenfassung

Chemische vortrainierte Modelle (auch als Grundmodelle bezeichnet) erhalten in Arzneimittelentwicklungsanwendungen breite Aufmerksamkeit. Allgemeines chemisches Wissen, das durch selbstüberwachtes Training extrahiert wird, hat das Potenzial, die Vorhersage kritischer Arzneimittelentwicklungs-Endpunkte zu verbessern, einschließlich Zielaffinität und ADMET-Eigenschaften. Diese Forschung zeigt, dass die Aktivierung von Multi-Task-Learning bei der Feinabstimmung von chemischen vortrainierten Graphen-Neuronalen-Netzwerk-Modellen (wie KERMT und KPGT) die Leistung im Vergleich zu nicht-vortrainierten Graphen-Neuronalen-Netzwerk-Modellen erheblich verbessert. Überraschenderweise ist die Leistungssteigerung der KERMT-Multi-Task-Feinabstimmung bei größeren Datenmengen am deutlichsten. Darüber hinaus veröffentlichen die Autoren zwei Multi-Task-ADMET-Datensatz-Aufteilungen und stellen eine beschleunigte Implementierung des KERMT-Modells bereit.

Forschungshintergrund und Motivation

Kernprobleme

Herausforderung der Datenmangel: In der Arzneimittelentwicklung, insbesondere bei Aufgaben wie der Zielaffinitätsvorhersage, sind annotierte Daten typischerweise begrenzt (10¹ bis 10⁶ Moleküle), während der gesamte chemische Raum auf etwa 10⁶⁰ Moleküle geschätzt wird
Einschränkungen traditioneller Methoden: Überwachte Graphen-Neuronale-Netzwerke zeigen begrenzte Leistung in Szenarien mit kleinen Datenmengen und verlassen sich normalerweise auf klassische Methoden wie Zufallswälder
Potenzial des Multi-Task-Learning: ADMET-Eigenschaften weisen Korrelationen auf, die Möglichkeiten für Multi-Task-Learning bieten, wurden aber bei der Feinabstimmung von chemischen vortrainierten Modellen noch nicht vollständig erforscht

Forschungsmotivation

Nutzung großer nicht-annotierter chemischer Daten für das Vortraining zur Erlernung allgemeinen chemischen Wissens und Muster
Erforschung des Potenzials von Multi-Task-Learning bei der Feinabstimmung von chemischen vortrainierten Modellen
Lösung von Recheneffizienzproblemen in industriellen Arzneimittelentwicklungsprozessen

Kernbeiträge

Erste systematische Untersuchung: Einführung von Multi-Task-Learning-Methoden bei der Feinabstimmung von chemischen vortrainierten Modellen
KERMT-Modell-Verbesserung: Vorschlag einer verbesserten Version von GROVER mit Unterstützung für verteiltes Vortraining und beschleunigte Inferenz
Kontraintuitive Entdeckung: Nachweis, dass KERMT bei großen Datenmengen besser abschneidet, was die Annahme in Frage stellt, dass vortrainierte Modelle hauptsächlich in Szenarien mit kleinen Datenmengen von Vorteil sind
Benchmark-Datensätze: Veröffentlichung von zwei Multi-Task-ADMET-Datensatz-Aufteilungen zur Förderung des Methodenvergleichs
Technische Optimierung: Bereitstellung beschleunigter Implementierungen zur Unterstützung industrieller Anwendungen

Methodische Details

Aufgabendefinition

Eingabe: SMILES-Zeichenketten oder Molekülgraph-Darstellungen von Molekülen Ausgabe: Vorhersagewerte für mehrere ADMET-Eigenschaften oder Zielaffinität Ziel: Verbesserung der Leistung von chemischen vortrainierten Modellen bei Arzneistoffeigenschaften-Vorhersageaufgaben durch Multi-Task-Learning

Modellarchitektur

KERMT (Kinetic GROVER Multi-Task)

Grundarchitektur: Graphen-Transformer-Modell basierend auf GROVER
Vortraining-Aufgaben:
- Knoten-/Kanten-Klassifizierung: Identifizierung von k-Hop-lokalen Subgraphen aus Knoten-/Kanten-Einbettungen
- Graph-Level-Multi-Label-Klassifizierung: Identifizierung funktioneller Gruppen in Molekülen aus Graph-Einbettungen
Parametergröße: ~51 Millionen Parameter (Basis-Version)
Vortraining-Daten: 11 Millionen Verbindungen (aus ZINC15 und ChEMBL)

KPGT (Knowledge-guided Pre-training of Graph Transformer)

Besonderheit: Verwendung von Molekül-Liniengraph-Darstellung + Wissensknoten (K-node)
Vortraining-Aufgaben:
- Vorhersage maskierter Knoten- und K-Node-Merkmale
- Vorhersage von RDKit-Fingerabdrücken
- Vorhersage von 200 Moleküldeskriptoren
Parametergröße: ~100 Millionen Parameter
Vortraining-Daten: 2 Millionen Moleküle (ChEMBL29)

Multi-Task-Feinabstimmungsstrategie

Single-Task-Feinabstimmung: Nur Encoder- und Feedforward-Netzwerk-Gewichte zur Vorhersage einer einzelnen Eigenschaft aktualisieren
Multi-Task-Feinabstimmung: Feedforward-Netzwerk gibt n Werte für n Eigenschaften aus, Encoder-Gewichte werden gleichzeitig aktualisiert

Technische Innovationen

Verteiltes Vortraining: Verwendung von PyTorch DDP für Multi-GPU-paralleles Vortraining mit 86% Skalierungseffizienz auf 8 GPUs
Beschleunigte Inferenz: Integration des cuik-molmaker-Pakets, Erreichung von 2,2-facher Feinabstimmungs- und 2,9-facher Inferenzbeschleunigung
Automatische Hyperparameter-Optimierung: Integration von Optuna für Hyperparameter-Suche
Speicheroptimierung: Dynamische Generierung von Molekülgraphen und Deskriptoren, Reduktion des Speicherverbrauchs um 34%

Experimentelle Einrichtung

Datensätze

Interne Datensätze (Merck)

ADMET-Daten: 30 Endpunkte, 800.733 Verbindungen (Stand 2024)
Zielaffinität: Target 1 (744 Verbindungen), Target 2 (1.163 Verbindungen)
Aufteilungsmethode: 80-20 zeitliche Aufteilung (Trennpunkt: 14. April 2018)

Öffentliche Datensätze

Literatur-ADMET-Daten: 25 Endpunkte, 114.112 Verbindungen
Biogen-Datensatz: 6 Endpunkte, 3.521 Verbindungen
BindingDB: EGFR (9.462 Verbindungen), BTK (9.337 Verbindungen) usw.
Aufteilungsmethode: Cluster-basierte Aufteilung auf Grundlage von PCA-reduziertem Morgan-Fingerabdruck

Bewertungsmetriken

Primäre Metrik: Pearson-r²-Korrelationskoeffizient
Sekundäre Metriken: Bestimmtheitsmaß R², mittlerer absoluter Fehler (MAE), Wurzelmittleres Fehlerquadrat (RMSE)
Klassifizierungsbewertung: Klassifizierungs-Anreicherungsdiagramme zur Bewertung der korrekten Klassifizierungsrate hochaffiner Moleküle

Vergleichsmethoden

Baseline: Chemprop (D-MPNN)
Vortrainierte Modelle: MoLFormer, KPGT, KERMT
Bewertungsmodi: Single-Task (ST) und Multi-Task (MT) Varianten

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei internen ADMET-Daten

Bei zeitlicher Aufteilung-Tests auf internen Merck-Daten:

KERMT MT: Beste oder gleichwertig beste Leistung bei 5 kritischen Endpunkten
Leistungssteigerung: Übertrifft Chemprop MT bei 18 von 30 Endpunkten
Durchschnittliche Verbesserung: Pearson-r²-Steigerung um 0,02 (gegenüber Chemprop) und 0,04 (gegenüber KPGT)

Spezifische Ergebnisse (Pearson r²):

Papp: KERMT MT (0,712) vs. Chemprop MT (0,657)
EPSA: KERMT MT (0,822) vs. Chemprop MT (0,805)
Fu,p human: KERMT MT (0,666) vs. Chemprop MT (0,641)

Leistung bei öffentlichen Datensätzen

Öffentliche ADMET-Daten: KPGT zeigt bessere Leistung (9/25 Endpunkte beste), KERMT MT nur 3/25 beste
Biogen-Daten: Aufgrund kleiner Stichprobengröße niedrigere Konfidenz der Ergebnisse
Datengröße-Abhängigkeit: KERMT zeigt bessere Leistung bei großen Datensätzen (>10k Proben), KPGT bei kleinen Datensätzen (<3k Proben) überlegen

Datengröße-Analyse

Schlüsselfund: Der Vorteil von KERMT ist bei größeren Datenmengen deutlicher

Kritischer Punkt: Bei Trainingssätzen >60k Datenpunkte deutlich überlegen gegenüber Chemprop
Parametergröße-Einfluss: KERMT (51 Millionen Parameter) neigt bei kleinen Daten stärker zu Überanpassung als Chemprop (5 Millionen Parameter)
Multi-Task-Gewinn: Mit zunehmender Aufgabenzahl (1→30 Aufgaben) verbessert sich die KERMT-Leistung kontinuierlich

Generalisierungsfähigkeit im chemischen Raum

Durch Tanimoto-Ähnlichkeitsanalyse:

Konsistenter Vorteil: KERMT übertrifft Chemprop in allen Ähnlichkeitsbereichen (0,35-0,7)
Generalisierungsfähigkeit: Obwohl nicht speziell für Verbindungen mit niedriger Ähnlichkeit optimiert, zeigt sich insgesamt stärkere Generalisierungsfähigkeit
Zyklische Peptid-Vorhersage: Auf der zyklischen Peptid-Teilmenge zeigen beide Modelle vergleichbare Leistung (Pearson r² = 0,36)

Einfluss von Vortraining-Daten

Experimente mit internem Neuvortraining zeigen:

Begrenzte Verbesserung: Auch mit Vortraining-Daten, die ähnlicher zu Downstream-Aufgaben sind, ist die Leistungssteigerung begrenzt
Zyklische Peptid-Leistung: Basis-KERMT-Modell übertrifft internes vortrainiertes Modell bei zyklischen Peptid-Aufgaben (5/12 vs. 1/12 Aufgaben)
Erkenntnisse: Verbesserung von Vortraining-Aufgaben erforderlich, um relevante Informationen besser zu erfassen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität der Multi-Task-Feinabstimmung: KERMT-Multi-Task-Feinabstimmung verbessert die Leistung erheblich, besonders in großen Datenszenarien
Datengröße-Abhängigkeit: Hinterfragt die traditionelle Ansicht, dass vortrainierte Modelle hauptsächlich bei kleinen Datenmengen von Vorteil sind
Modellauswahlrichtlinie: Empfehlung von KERMT MT für mittlere bis große Datenmengen und KPGT ST für kleine Datenmengen
Technische Machbarkeit: Beschleunigte Implementierung ermöglicht industrielle Anwendungen

Einschränkungen

Optimierung von Vortraining-Aufgaben: Aktuelle Vortraining-Aufgaben erfassen möglicherweise nicht vollständig Downstream-Task-relevante Informationen
Zyklische Peptid-Vorhersage: Begrenzte Verbesserungen bei speziellen Molekültypen wie zyklischen Peptiden
Datensatz-Unterschiede: Inkonsistente Ergebnisse zwischen internen und öffentlichen Datensätzen beeinflussen die Bewertung der Methodengeneralisierung
Rechenressourcen-Anforderungen: Große Parametermodelle erfordern mehr Rechenressourcen

Zukünftige Richtungen

Verbesserung von Vortraining-Aufgaben: Entwicklung von Vortraining-Zielen, die besser für Downstream-Multi-Task-Learning geeignet sind
Modulare Feinabstimmung: Untersuchung der Auswirkungen teilweise gefrorener Encoder auf verschiedene Datengrößen
Cross-Modal-Erweiterung: Erforschung von gemeinsamen Protein-Kleinmolekül-Vortraining
Benchmark-Datensätze: Entwicklung weiterer hochqualitativer Multi-Task-Benchmarks

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Direkte Lösung praktischer Probleme in der industriellen Arzneimittelentwicklung
Umfassende Experimente: Abdeckung mehrerer Datensätze, Modelle und Bewertungsdimensionen
Kontraintuitive Entdeckungen: Hinterfragt Annahmen im Bereich und bietet neue Erkenntnisse
Technische Beiträge: Bereitstellung vollständiger Open-Source-Implementierung und Beschleunigungsoptimierungen
Datenbeiträge: Veröffentlichung standardisierter Multi-Task-Benchmark-Datensätze

Schwächen

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum KERMT bei großen Datenmengen besser abschneidet
Vortraining-Strategie: Unzureichende Erforschung von Vortraining-Methoden, die für Multi-Task-Learning optimiert sind
Statistische Signifikanz: Statistische Signifikanztests könnten bei einigen Ergebnissen strenger sein
Rechenkosten-Analyse: Fehlende detaillierte Rechenkosten-Vergleichsanalyse

Auswirkungen

Akademische Auswirkungen: Wichtige Referenz für das Schnittstellengebiet von Chemieinformatik und Multi-Task-Learning
Industrielle Anwendungen: Direkt anwendbar auf ADMET-Vorhersage-Prozesse von Pharmaunternehmen
Open-Source-Beiträge: Offene Code- und Datenverfügbarkeit fördert Feldentwicklung
Methodologische Beiträge: Etablierung neuer Standards für die Bewertung von chemischen vortrainierten Modellen

Anwendungsszenarien

Große Pharmaunternehmen: Organisationen mit großen ADMET-Datensätzen
Multi-Eigenschafts-Optimierung: Szenarien, die gleichzeitige Vorhersage mehrerer Moleküleigenschaften erfordern
Industrielle Prozesse: Produktionsumgebungen, die effiziente Inferenz erfordern
Forschungs-Benchmarks: Standard-Baseline für Multi-Task-Arzneistoffeigenschaften-Vorhersage

Literaturverzeichnis

Das Papier zitiert 47 wichtige Referenzen, die Folgendes abdecken:

Grundlegende Arbeiten zu chemischen vortrainierten Modellen (GROVER, MoLFormer, KPGT)
Klassische Methoden und Datensätze zur ADMET-Vorhersage
Theoretische Grundlagen des Multi-Task-Learning
Moleküldarstellungslernen und Graphen-Neuronale-Netzwerke
Übersichten über Anwendungen von maschinellem Lernen in der Arzneimittelentwicklung

Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier mit signifikanten Beiträgen in theoretischer Grundlage, experimenteller Validierung und technischer Implementierung. Besonders die kontraintuitive Entdeckung und die umfassenden Open-Source-Beiträge sind von großer Bedeutung für die Förderung der Entwicklung im Bereich der Chemieinformatik.