2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.

Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.

academic

소분자 약물 성질 예측을 위한 화학 사전학습 모델의 다중작업 미세조정 및 가속화

기본 정보

논문 ID: 2510.12719
제목: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
저자: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
기관: Merck & Co., Inc. 및 NVIDIA BioNeMo
분류: cs.LG (기계학습), q-bio.QM (정량생물학 방법론)
발표 시간: 2025년 10월 14일
논문 링크: https://arxiv.org/abs/2510.12719v1

초록

화학 사전학습 모델(기초 모델이라고도 함)은 약물 발견 응용에서 광범위한 관심을 받고 있습니다. 자기지도 학습을 통해 추출한 일반적인 화학 지식은 표적 효능 및 ADMET 성질을 포함한 주요 약물 발견 종점의 예측 성능을 향상시킬 수 있는 잠재력을 가지고 있습니다. 본 연구는 화학 사전학습 그래프 신경망 모델(예: KERMT 및 KPGT)의 미세조정에서 다중작업 학습을 활성화하면 사전학습되지 않은 그래프 신경망 모델에 비해 성능이 크게 향상됨을 보여줍니다. 놀랍게도, KERMT 다중작업 미세조정의 성능 향상은 더 큰 데이터 규모에서 가장 두드러집니다. 또한 저자들은 두 개의 다중작업 ADMET 데이터셋 분할을 공개하고 KERMT 모델의 가속화된 구현을 제공합니다.

연구 배경 및 동기

핵심 문제

데이터 부족 문제: 약물 발견에서, 특히 표적 효능 예측 같은 작업에서 주석이 달린 데이터는 일반적으로 제한적입니다(10¹~10⁶개 분자). 반면 전체 화학 공간은 약 10⁶⁰개 분자로 추정됩니다.
기존 방법의 한계: 지도 학습 그래프 신경망은 소규모 데이터 시나리오에서 성능이 제한적이며, 일반적으로 랜덤 포레스트 같은 고전적 방법에 의존해야 합니다.
다중작업 학습의 잠재력: ADMET 성질들 사이에 상관관계가 존재하여 다중작업 학습의 기회를 제공하지만, 화학 사전학습 모델 미세조정에서는 아직 충분히 탐색되지 않았습니다.

연구 동기

대규모 미표지 화학 데이터를 활용한 사전학습으로 일반적인 화학 지식과 패턴 학습
화학 사전학습 모델 미세조정에서 다중작업 학습의 잠재력 탐색
산업 수준의 약물 발견 프로세스에서의 계산 효율성 문제 해결

핵심 기여

최초 체계적 연구: 화학 사전학습 모델 미세조정에 다중작업 학습 방법 도입
KERMT 모델 개선: GROVER의 개선된 버전 제안, 분산 사전학습 및 가속화된 추론 지원
반직관적 발견: KERMT가 대규모 데이터에서 더 우수한 성능을 보임을 증명하여, 사전학습 모델이 주로 소규모 데이터 시나리오에서 우수하다는 가정에 도전
벤치마크 데이터셋: 두 개의 다중작업 ADMET 데이터셋 분할 공개로 방법론 비교 평가 촉진
공학적 최적화: 산업 수준의 응용을 지원하는 가속화된 구현 제공

방법론 상세 설명

작업 정의

입력: 분자의 SMILES 문자열 또는 분자 그래프 표현 출력: 여러 ADMET 성질 또는 표적 효능의 예측값 목표: 다중작업 학습을 통해 약물 성질 예측 작업에서 화학 사전학습 모델의 성능 향상

모델 아키텍처

KERMT (Kinetic GROVER Multi-Task)

기본 아키텍처: GROVER 기반 그래프 트랜스포머 모델
사전학습 작업:
- 노드/엣지 수준 분류: 노드/엣지 임베딩에서 k-hop 로컬 부분그래프 식별
- 그래프 수준 다중 레이블 분류: 그래프 임베딩에서 분자의 관능기 식별
매개변수 규모: ~5,100만 개 매개변수(기본 버전)
사전학습 데이터: 1,100만 화합물(ZINC15 및 ChEMBL에서)