2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.

Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.

academic

Ottimizzazione multitask e accelerazione di modelli chimici preaddestrati per la predizione delle proprietà di piccole molecole farmacologiche

Informazioni Fondamentali

ID Articolo: 2510.12719
Titolo: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
Autori: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
Istituzioni: Merck & Co., Inc. e NVIDIA BioNeMo
Classificazione: cs.LG (Apprendimento Automatico), q-bio.QM (Metodi di Biologia Quantitativa)
Data di Pubblicazione: 14 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.12719v1

Riassunto

I modelli chimici preaddestrati (noti anche come modelli fondamentali) hanno attirato ampia attenzione nelle applicazioni di scoperta farmacologica. La conoscenza chimica generale estratta attraverso l'addestramento auto-supervisionato ha il potenziale di migliorare le previsioni dei punti terminali critici della scoperta farmacologica, inclusa l'efficacia del bersaglio e le proprietà ADMET. Questo studio dimostra che l'abilitazione dell'apprendimento multitask nell'ottimizzazione fine di modelli di reti neurali grafiche chimiche preaddestrate (come KERMT e KPGT) migliora significativamente le prestazioni rispetto ai modelli di reti neurali grafiche non preaddestrate. Sorprendentemente, il miglioramento delle prestazioni dell'ottimizzazione fine multitask di KERMT è più pronunciato su scale di dati più grandi. Inoltre, gli autori hanno rilasciato due divisioni di dataset ADMET multitask e fornito un'implementazione accelerata del modello KERMT.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Sfida della Scarsità di Dati: Nella scoperta farmacologica, in particolare per compiti come la predizione dell'efficacia del bersaglio, i dati annotati sono tipicamente limitati (10¹ a 10⁶ molecole), mentre l'intero spazio chimico è stimato contenere circa 10⁶⁰ molecole
Limitazioni dei Metodi Tradizionali: Le reti neurali grafiche con apprendimento supervisionato mostrano prestazioni limitate in scenari con pochi dati, richiedendo tipicamente dipendenza da metodi classici come le foreste casuali
Potenziale dell'Apprendimento Multitask: Esiste correlazione tra le proprietà ADMET, offrendo opportunità per l'apprendimento multitask, ma questo non è stato ancora sufficientemente esplorato nell'ottimizzazione fine di modelli chimici preaddestrati

Motivazione della Ricerca

Sfruttare dati chimici non annotati su larga scala per il preaddestramento, apprendendo conoscenze e modelli chimici generali
Esplorare il potenziale dell'apprendimento multitask nell'ottimizzazione fine di modelli chimici preaddestrati
Affrontare i problemi di efficienza computazionale nei processi di scoperta farmacologica a livello industriale

Contributi Fondamentali

Studio Sistematico Pionieristico: Introduzione di metodi di apprendimento multitask nell'ottimizzazione fine di modelli chimici preaddestrati
Potenziamento del Modello KERMT: Proposta di una versione migliorata di GROVER, supportando preaddestramento distribuito e inferenza accelerata
Scoperta Controintuitiva: Dimostrazione che KERMT mostra prestazioni superiori su scale di dati più grandi, sfidando l'ipotesi che i modelli preaddestrati siano principalmente vantaggiosi in scenari con pochi dati
Dataset di Riferimento: Rilascio di due divisioni di dataset ADMET multitask, promuovendo la valutazione comparativa dei metodi
Ottimizzazione Ingegneristica: Fornitura di implementazione accelerata, supportando applicazioni a livello industriale

Dettagli Metodologici

Definizione dei Compiti

Input: Stringhe SMILES di molecole o rappresentazioni grafiche molecolari Output: Valori predetti di multiple proprietà ADMET o efficacia del bersaglio Obiettivo: Migliorare le prestazioni dei modelli chimici preaddestrati nei compiti di predizione delle proprietà farmacologiche attraverso l'apprendimento multitask

Architettura del Modello

KERMT (Kinetic GROVER Multi-Task)

Architettura di Base: Modello trasformatore grafico basato su GROVER
Compiti di Preaddestramento:
- Classificazione a livello di nodo/bordo: identificazione di sottografi locali k-hop dagli embedding di nodo/bordo
- Classificazione multietichetta a livello di grafo: identificazione di gruppi funzionali presenti nella molecola dall'embedding del grafo
Scala di Parametri: ~51 milioni di parametri (versione base)
Dati di Preaddestramento: 11 milioni di composti (da ZINC15 e ChEMBL)

KPGT (Knowledge-guided Pre-training of Graph Transformer)

Caratteristiche Distintive: Utilizzo della rappresentazione del grafo lineare molecolare + nodi di conoscenza (K-node)
Compiti di Preaddestramento:
- Predizione di caratteristiche di nodi e K-node mascherati
- Predizione di impronte digitali RDKit
- Predizione di 200 descrittori molecolari
Scala di Parametri: ~100 milioni di parametri
Dati di Preaddestramento: 2 milioni di molecole (ChEMBL29)

Strategia di Ottimizzazione Fine Multitask

Ottimizzazione Fine Monotask: Aggiornamento solo dell'encoder e dei pesi della rete feed-forward per la predizione di una singola proprietà
Ottimizzazione Fine Multitask: La rete feed-forward produce n valori corrispondenti a n proprietà, con aggiornamento simultaneo dei pesi dell'encoder

Punti di Innovazione Tecnica

Preaddestramento Distribuito: Implementazione del preaddestramento parallelo multi-GPU utilizzando PyTorch DDP, raggiungendo un'efficienza di scalabilità del 86% con 8 GPU
Inferenza Accelerata: Integrazione del pacchetto cuik-molmaker, realizzando un'accelerazione di 2,2 volte nell'ottimizzazione fine e 2,9 volte nell'inferenza
Ottimizzazione Automatica degli Iperparametri: Integrazione di Optuna per la ricerca degli iperparametri
Ottimizzazione della Memoria: Generazione dinamica di grafi molecolari e descrittori, riducendo l'utilizzo di memoria del 34%

Configurazione Sperimentale

Dataset

Dataset Interno (Merck)

Dati ADMET: 30 endpoint, 800.733 composti (al 2024)
Efficacia del Bersaglio: Target 1 (744 composti), Target 2 (1.163 composti)
Metodo di Divisione: Divisione temporale 80-20 (punto di demarcazione: aprile 2018)

Dataset Pubblici

Dati ADMET da Letteratura: 25 endpoint, 114.112 composti
Dataset Biogen: 6 endpoint, 3.521 composti
BindingDB: EGFR (9.462 composti), BTK (9.337 composti) e altri
Metodo di Divisione: Divisione basata su clustering di impronte digitali Morgan ridotte con PCA

Metriche di Valutazione

Metrica Principale: Coefficiente di correlazione Pearson r²
Metriche Ausiliarie: Coefficiente di determinazione R², errore assoluto medio (MAE), errore quadratico medio (RMSE)
Valutazione della Classificazione: Grafici di arricchimento della classificazione, valutazione del tasso di corretta classificazione delle molecole ad alta efficacia

Metodi di Confronto

Baseline: Chemprop (D-MPNN)
Modelli Preaddestrati: MoLFormer, KPGT, KERMT
Modalità di Valutazione: Varianti monotask (ST) e multitask (MT)

Risultati Sperimentali

Risultati Principali

Prestazioni ADMET Interne

Nei test di divisione temporale sui dati ADMET interni di Merck:

KERMT MT: Prestazioni migliori o pari nei 5 endpoint critici
Miglioramento delle Prestazioni: Prestazioni superiori a Chemprop MT in 18 su 30 endpoint
Miglioramento Medio: Aumento del coefficiente Pearson r² di 0,02 (rispetto a Chemprop) e 0,04 (rispetto a KPGT)

Risultati Specifici (Coefficiente Pearson r²):

Papp: KERMT MT (0,712) vs Chemprop MT (0,657)
EPSA: KERMT MT (0,822) vs Chemprop MT (0,805)
Fu,p human: KERMT MT (0,666) vs Chemprop MT (0,641)

Prestazioni su Dataset Pubblici

Dati ADMET Pubblici: KPGT mostra prestazioni superiori (migliore in 9/25 endpoint), KERMT MT migliore solo in 3/25
Dati Biogen: Affidabilità dei risultati inferiore a causa della piccola dimensione del campione
Dipendenza dalla Scala dei Dati: KERMT mostra prestazioni migliori su dataset grandi (>10k campioni), KPGT migliore su dataset piccoli (<3k campioni)

Analisi della Scala dei Dati

Scoperta Chiave: Il vantaggio di KERMT è più evidente su scale di dati più grandi

Punto Critico: Quando il set di addestramento contiene >60k punti dati, KERMT è significativamente superiore a Chemprop
Impatto della Scala dei Parametri: KERMT (51 milioni di parametri) è più soggetto a overfitting su dati piccoli rispetto a Chemprop (5 milioni di parametri)
Benefici Multitask: Le prestazioni di KERMT migliorano continuamente con l'aumento del numero di compiti (1→30 compiti)

Capacità di Generalizzazione dello Spazio Chimico

Attraverso l'analisi della similarità di Tanimoto:

Vantaggio Coerente: KERMT è superiore a Chemprop in tutti gli intervalli di similarità (0,35-0,7)
Capacità di Generalizzazione: Sebbene non specificamente ottimizzato per composti a bassa similarità, mostra una capacità di generalizzazione complessivamente più forte
Predizione di Peptidi Ciclici: I due modelli mostrano prestazioni comparabili sul sottoinsieme di peptidi ciclici (Pearson r² = 0,36)

Impatto dei Dati di Preaddestramento

Esperimenti di preaddestramento con dati interni mostrano:

Miglioramento Limitato: Anche con dati di preaddestramento più simili ai compiti downstream, il miglioramento delle prestazioni è limitato
Prestazioni di Peptidi Ciclici: Il modello KERMT base rimane superiore al modello preaddestrato internamente nei compiti di peptidi ciclici (5/12 vs 1/12 compiti)
Implicazioni: È necessario migliorare i compiti di preaddestramento per catturare meglio le informazioni rilevanti

Lavori Correlati

Modelli Chimici Preaddestrati

GROVER: Trasformatore grafico, utilizza passaggio di messaggi atomici e di bordo
MoLFormer: Modello linguistico basato su SMILES, codifica posizionale rotante
KPGT: Trasformatore grafico con preaddestramento guidato dalla conoscenza, integra descrittori molecolari

Apprendimento Multitask

Applicazioni Tradizionali: Principalmente utilizzate in architetture di apprendimento profondo addestrate da zero
Contributo di questo Articolo: Prima applicazione sistematica dell'apprendimento multitask all'ottimizzazione fine di modelli chimici preaddestrati

Conclusioni e Discussione

Conclusioni Principali

Efficacia dell'Ottimizzazione Fine Multitask: L'ottimizzazione fine multitask di KERMT migliora significativamente le prestazioni, in particolare in scenari con dati grandi
Dipendenza dalla Scala dei Dati: Sfida il punto di vista tradizionale che i modelli preaddestrati siano principalmente vantaggiosi con pochi dati
Guida alla Selezione del Modello: Raccomandazione di utilizzare KERMT MT per dati di medie-grandi dimensioni e KPGT ST per dati piccoli
Fattibilità Ingegneristica: L'implementazione accelerata rende possibile l'applicazione a livello industriale

Limitazioni

Ottimizzazione dei Compiti di Preaddestramento: I compiti di preaddestramento attuali potrebbero non catturare sufficientemente le informazioni rilevanti per i compiti downstream
Predizione di Peptidi Ciclici: Miglioramenti limitati su tipi di molecole speciali come i peptidi ciclici
Discrepanze nei Dataset: Risultati incoerenti tra dataset interni e pubblici, influenzando la valutazione della generalizzabilità del metodo
Requisiti di Risorse Computazionali: I modelli con parametri grandi richiedono più risorse computazionali

Direzioni Future

Miglioramento dei Compiti di Preaddestramento: Progettazione di obiettivi di preaddestramento più adatti all'apprendimento multitask downstream
Ottimizzazione Fine Modulare: Ricerca sull'impatto del congelamento parziale dell'encoder su diverse scale di dati
Estensione Multimodale: Esplorazione del preaddestramento congiunto proteina-piccola molecola
Dataset di Riferimento: Sviluppo di più benchmark di alta qualità multitask

Valutazione Approfondita

Punti di Forza

Alto Valore Pratico: Affronta direttamente problemi reali nella scoperta farmacologica industriale
Esperimenti Completi: Copertura di multiple dataset, modelli e dimensioni di valutazione
Scoperte Controintuitive: Sfida le ipotesi del settore, fornendo nuove intuizioni
Contributi Ingegneristici: Fornitura di implementazione open-source completa e ottimizzazioni accelerate
Contributi ai Dati: Rilascio di dataset di riferimento multitask standardizzati

Insufficienze

Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché KERMT mostra prestazioni migliori su dati grandi
Strategia di Preaddestramento: Esplorazione insufficiente di metodi di preaddestramento ottimizzati per l'apprendimento multitask
Significatività Statistica: L'analisi della significatività statistica di alcuni risultati potrebbe essere più rigorosa
Analisi dei Costi Computazionali: Manca un'analisi dettagliata del confronto dei costi computazionali

Impatto

Impatto Accademico: Fornisce riferimento importante per il campo interdisciplinare dell'informatica chimica e dell'apprendimento multitask
Applicazione Industriale: Direttamente applicabile ai processi di predizione ADMET delle aziende farmaceutiche
Contributi Open-Source: L'apertura di codice e dati promuove lo sviluppo del settore
Contributi Metodologici: Stabilisce nuovi standard per la valutazione dei modelli chimici preaddestrati

Scenari Applicabili

Grandi Aziende Farmaceutiche: Organizzazioni con dati ADMET su larga scala
Ottimizzazione di Proprietà Multiple: Scenari che richiedono la predizione simultanea di multiple proprietà molecolari
Processi Industriali: Ambienti di produzione che richiedono inferenza efficiente
Benchmark di Ricerca: Come baseline standard per la predizione multitask di proprietà chimiche

Bibliografia

L'articolo cita 47 importanti riferimenti, coprendo:

Lavori fondamentali su modelli chimici preaddestrati (GROVER, MoLFormer, KPGT)
Metodi classici e dataset per la predizione ADMET
Fondamenti teorici dell'apprendimento multitask
Apprendimento della rappresentazione molecolare e reti neurali grafiche
Revisioni dell'applicazione dell'apprendimento automatico nella scoperta farmacologica

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità con valore significativo nei contributi teorici, nella verifica sperimentale e nell'implementazione ingegneristica. In particolare, le scoperte controintuitive e i contributi open-source completi hanno importanza significativa nel promuovere lo sviluppo del settore dell'informatica chimica.