Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
- ID Articolo: 2510.12719
- Titolo: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
- Autori: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
- Istituzioni: Merck & Co., Inc. e NVIDIA BioNeMo
- Classificazione: cs.LG (Apprendimento Automatico), q-bio.QM (Metodi di Biologia Quantitativa)
- Data di Pubblicazione: 14 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.12719v1
I modelli chimici preaddestrati (noti anche come modelli fondamentali) hanno attirato ampia attenzione nelle applicazioni di scoperta farmacologica. La conoscenza chimica generale estratta attraverso l'addestramento auto-supervisionato ha il potenziale di migliorare le previsioni dei punti terminali critici della scoperta farmacologica, inclusa l'efficacia del bersaglio e le proprietà ADMET. Questo studio dimostra che l'abilitazione dell'apprendimento multitask nell'ottimizzazione fine di modelli di reti neurali grafiche chimiche preaddestrate (come KERMT e KPGT) migliora significativamente le prestazioni rispetto ai modelli di reti neurali grafiche non preaddestrate. Sorprendentemente, il miglioramento delle prestazioni dell'ottimizzazione fine multitask di KERMT è più pronunciato su scale di dati più grandi. Inoltre, gli autori hanno rilasciato due divisioni di dataset ADMET multitask e fornito un'implementazione accelerata del modello KERMT.
- Sfida della Scarsità di Dati: Nella scoperta farmacologica, in particolare per compiti come la predizione dell'efficacia del bersaglio, i dati annotati sono tipicamente limitati (10¹ a 10⁶ molecole), mentre l'intero spazio chimico è stimato contenere circa 10⁶⁰ molecole
- Limitazioni dei Metodi Tradizionali: Le reti neurali grafiche con apprendimento supervisionato mostrano prestazioni limitate in scenari con pochi dati, richiedendo tipicamente dipendenza da metodi classici come le foreste casuali
- Potenziale dell'Apprendimento Multitask: Esiste correlazione tra le proprietà ADMET, offrendo opportunità per l'apprendimento multitask, ma questo non è stato ancora sufficientemente esplorato nell'ottimizzazione fine di modelli chimici preaddestrati
- Sfruttare dati chimici non annotati su larga scala per il preaddestramento, apprendendo conoscenze e modelli chimici generali
- Esplorare il potenziale dell'apprendimento multitask nell'ottimizzazione fine di modelli chimici preaddestrati
- Affrontare i problemi di efficienza computazionale nei processi di scoperta farmacologica a livello industriale
- Studio Sistematico Pionieristico: Introduzione di metodi di apprendimento multitask nell'ottimizzazione fine di modelli chimici preaddestrati
- Potenziamento del Modello KERMT: Proposta di una versione migliorata di GROVER, supportando preaddestramento distribuito e inferenza accelerata
- Scoperta Controintuitiva: Dimostrazione che KERMT mostra prestazioni superiori su scale di dati più grandi, sfidando l'ipotesi che i modelli preaddestrati siano principalmente vantaggiosi in scenari con pochi dati
- Dataset di Riferimento: Rilascio di due divisioni di dataset ADMET multitask, promuovendo la valutazione comparativa dei metodi
- Ottimizzazione Ingegneristica: Fornitura di implementazione accelerata, supportando applicazioni a livello industriale
Input: Stringhe SMILES di molecole o rappresentazioni grafiche molecolari
Output: Valori predetti di multiple proprietà ADMET o efficacia del bersaglio
Obiettivo: Migliorare le prestazioni dei modelli chimici preaddestrati nei compiti di predizione delle proprietà farmacologiche attraverso l'apprendimento multitask
- Architettura di Base: Modello trasformatore grafico basato su GROVER
- Compiti di Preaddestramento:
- Classificazione a livello di nodo/bordo: identificazione di sottografi locali k-hop dagli embedding di nodo/bordo
- Classificazione multietichetta a livello di grafo: identificazione di gruppi funzionali presenti nella molecola dall'embedding del grafo
- Scala di Parametri: ~51 milioni di parametri (versione base)
- Dati di Preaddestramento: 11 milioni di composti (da ZINC15 e ChEMBL)
- Caratteristiche Distintive: Utilizzo della rappresentazione del grafo lineare molecolare + nodi di conoscenza (K-node)
- Compiti di Preaddestramento:
- Predizione di caratteristiche di nodi e K-node mascherati
- Predizione di impronte digitali RDKit
- Predizione di 200 descrittori molecolari
- Scala di Parametri: ~100 milioni di parametri
- Dati di Preaddestramento: 2 milioni di molecole (ChEMBL29)
- Ottimizzazione Fine Monotask: Aggiornamento solo dell'encoder e dei pesi della rete feed-forward per la predizione di una singola proprietà
- Ottimizzazione Fine Multitask: La rete feed-forward produce n valori corrispondenti a n proprietà, con aggiornamento simultaneo dei pesi dell'encoder
- Preaddestramento Distribuito: Implementazione del preaddestramento parallelo multi-GPU utilizzando PyTorch DDP, raggiungendo un'efficienza di scalabilità del 86% con 8 GPU
- Inferenza Accelerata: Integrazione del pacchetto cuik-molmaker, realizzando un'accelerazione di 2,2 volte nell'ottimizzazione fine e 2,9 volte nell'inferenza
- Ottimizzazione Automatica degli Iperparametri: Integrazione di Optuna per la ricerca degli iperparametri
- Ottimizzazione della Memoria: Generazione dinamica di grafi molecolari e descrittori, riducendo l'utilizzo di memoria del 34%
- Dati ADMET: 30 endpoint, 800.733 composti (al 2024)
- Efficacia del Bersaglio: Target 1 (744 composti), Target 2 (1.163 composti)
- Metodo di Divisione: Divisione temporale 80-20 (punto di demarcazione: aprile 2018)
- Dati ADMET da Letteratura: 25 endpoint, 114.112 composti
- Dataset Biogen: 6 endpoint, 3.521 composti
- BindingDB: EGFR (9.462 composti), BTK (9.337 composti) e altri
- Metodo di Divisione: Divisione basata su clustering di impronte digitali Morgan ridotte con PCA
- Metrica Principale: Coefficiente di correlazione Pearson r²
- Metriche Ausiliarie: Coefficiente di determinazione R², errore assoluto medio (MAE), errore quadratico medio (RMSE)
- Valutazione della Classificazione: Grafici di arricchimento della classificazione, valutazione del tasso di corretta classificazione delle molecole ad alta efficacia
- Baseline: Chemprop (D-MPNN)
- Modelli Preaddestrati: MoLFormer, KPGT, KERMT
- Modalità di Valutazione: Varianti monotask (ST) e multitask (MT)
Nei test di divisione temporale sui dati ADMET interni di Merck:
- KERMT MT: Prestazioni migliori o pari nei 5 endpoint critici
- Miglioramento delle Prestazioni: Prestazioni superiori a Chemprop MT in 18 su 30 endpoint
- Miglioramento Medio: Aumento del coefficiente Pearson r² di 0,02 (rispetto a Chemprop) e 0,04 (rispetto a KPGT)
Risultati Specifici (Coefficiente Pearson r²):
- Papp: KERMT MT (0,712) vs Chemprop MT (0,657)
- EPSA: KERMT MT (0,822) vs Chemprop MT (0,805)
- Fu,p human: KERMT MT (0,666) vs Chemprop MT (0,641)
- Dati ADMET Pubblici: KPGT mostra prestazioni superiori (migliore in 9/25 endpoint), KERMT MT migliore solo in 3/25
- Dati Biogen: Affidabilità dei risultati inferiore a causa della piccola dimensione del campione
- Dipendenza dalla Scala dei Dati: KERMT mostra prestazioni migliori su dataset grandi (>10k campioni), KPGT migliore su dataset piccoli (<3k campioni)
Scoperta Chiave: Il vantaggio di KERMT è più evidente su scale di dati più grandi
- Punto Critico: Quando il set di addestramento contiene >60k punti dati, KERMT è significativamente superiore a Chemprop
- Impatto della Scala dei Parametri: KERMT (51 milioni di parametri) è più soggetto a overfitting su dati piccoli rispetto a Chemprop (5 milioni di parametri)
- Benefici Multitask: Le prestazioni di KERMT migliorano continuamente con l'aumento del numero di compiti (1→30 compiti)
Attraverso l'analisi della similarità di Tanimoto:
- Vantaggio Coerente: KERMT è superiore a Chemprop in tutti gli intervalli di similarità (0,35-0,7)
- Capacità di Generalizzazione: Sebbene non specificamente ottimizzato per composti a bassa similarità, mostra una capacità di generalizzazione complessivamente più forte
- Predizione di Peptidi Ciclici: I due modelli mostrano prestazioni comparabili sul sottoinsieme di peptidi ciclici (Pearson r² = 0,36)
Esperimenti di preaddestramento con dati interni mostrano:
- Miglioramento Limitato: Anche con dati di preaddestramento più simili ai compiti downstream, il miglioramento delle prestazioni è limitato
- Prestazioni di Peptidi Ciclici: Il modello KERMT base rimane superiore al modello preaddestrato internamente nei compiti di peptidi ciclici (5/12 vs 1/12 compiti)
- Implicazioni: È necessario migliorare i compiti di preaddestramento per catturare meglio le informazioni rilevanti
- GROVER: Trasformatore grafico, utilizza passaggio di messaggi atomici e di bordo
- MoLFormer: Modello linguistico basato su SMILES, codifica posizionale rotante
- KPGT: Trasformatore grafico con preaddestramento guidato dalla conoscenza, integra descrittori molecolari
- Applicazioni Tradizionali: Principalmente utilizzate in architetture di apprendimento profondo addestrate da zero
- Contributo di questo Articolo: Prima applicazione sistematica dell'apprendimento multitask all'ottimizzazione fine di modelli chimici preaddestrati
- Efficacia dell'Ottimizzazione Fine Multitask: L'ottimizzazione fine multitask di KERMT migliora significativamente le prestazioni, in particolare in scenari con dati grandi
- Dipendenza dalla Scala dei Dati: Sfida il punto di vista tradizionale che i modelli preaddestrati siano principalmente vantaggiosi con pochi dati
- Guida alla Selezione del Modello: Raccomandazione di utilizzare KERMT MT per dati di medie-grandi dimensioni e KPGT ST per dati piccoli
- Fattibilità Ingegneristica: L'implementazione accelerata rende possibile l'applicazione a livello industriale
- Ottimizzazione dei Compiti di Preaddestramento: I compiti di preaddestramento attuali potrebbero non catturare sufficientemente le informazioni rilevanti per i compiti downstream
- Predizione di Peptidi Ciclici: Miglioramenti limitati su tipi di molecole speciali come i peptidi ciclici
- Discrepanze nei Dataset: Risultati incoerenti tra dataset interni e pubblici, influenzando la valutazione della generalizzabilità del metodo
- Requisiti di Risorse Computazionali: I modelli con parametri grandi richiedono più risorse computazionali
- Miglioramento dei Compiti di Preaddestramento: Progettazione di obiettivi di preaddestramento più adatti all'apprendimento multitask downstream
- Ottimizzazione Fine Modulare: Ricerca sull'impatto del congelamento parziale dell'encoder su diverse scale di dati
- Estensione Multimodale: Esplorazione del preaddestramento congiunto proteina-piccola molecola
- Dataset di Riferimento: Sviluppo di più benchmark di alta qualità multitask
- Alto Valore Pratico: Affronta direttamente problemi reali nella scoperta farmacologica industriale
- Esperimenti Completi: Copertura di multiple dataset, modelli e dimensioni di valutazione
- Scoperte Controintuitive: Sfida le ipotesi del settore, fornendo nuove intuizioni
- Contributi Ingegneristici: Fornitura di implementazione open-source completa e ottimizzazioni accelerate
- Contributi ai Dati: Rilascio di dataset di riferimento multitask standardizzati
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché KERMT mostra prestazioni migliori su dati grandi
- Strategia di Preaddestramento: Esplorazione insufficiente di metodi di preaddestramento ottimizzati per l'apprendimento multitask
- Significatività Statistica: L'analisi della significatività statistica di alcuni risultati potrebbe essere più rigorosa
- Analisi dei Costi Computazionali: Manca un'analisi dettagliata del confronto dei costi computazionali
- Impatto Accademico: Fornisce riferimento importante per il campo interdisciplinare dell'informatica chimica e dell'apprendimento multitask
- Applicazione Industriale: Direttamente applicabile ai processi di predizione ADMET delle aziende farmaceutiche
- Contributi Open-Source: L'apertura di codice e dati promuove lo sviluppo del settore
- Contributi Metodologici: Stabilisce nuovi standard per la valutazione dei modelli chimici preaddestrati
- Grandi Aziende Farmaceutiche: Organizzazioni con dati ADMET su larga scala
- Ottimizzazione di Proprietà Multiple: Scenari che richiedono la predizione simultanea di multiple proprietà molecolari
- Processi Industriali: Ambienti di produzione che richiedono inferenza efficiente
- Benchmark di Ricerca: Come baseline standard per la predizione multitask di proprietà chimiche
L'articolo cita 47 importanti riferimenti, coprendo:
- Lavori fondamentali su modelli chimici preaddestrati (GROVER, MoLFormer, KPGT)
- Metodi classici e dataset per la predizione ADMET
- Fondamenti teorici dell'apprendimento multitask
- Apprendimento della rappresentazione molecolare e reti neurali grafiche
- Revisioni dell'applicazione dell'apprendimento automatico nella scoperta farmacologica
Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità con valore significativo nei contributi teorici, nella verifica sperimentale e nell'implementazione ingegneristica. In particolare, le scoperte controintuitive e i contributi open-source completi hanno importanza significativa nel promuovere lo sviluppo del settore dell'informatica chimica.