Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
academic- 논문 ID: 2510.12719
- 제목: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
- 저자: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
- 기관: Merck & Co., Inc. 및 NVIDIA BioNeMo
- 분류: cs.LG (기계학습), q-bio.QM (정량생물학 방법론)
- 발표 시간: 2025년 10월 14일
- 논문 링크: https://arxiv.org/abs/2510.12719v1
화학 사전학습 모델(기초 모델이라고도 함)은 약물 발견 응용에서 광범위한 관심을 받고 있습니다. 자기지도 학습을 통해 추출한 일반적인 화학 지식은 표적 효능 및 ADMET 성질을 포함한 주요 약물 발견 종점의 예측 성능을 향상시킬 수 있는 잠재력을 가지고 있습니다. 본 연구는 화학 사전학습 그래프 신경망 모델(예: KERMT 및 KPGT)의 미세조정에서 다중작업 학습을 활성화하면 사전학습되지 않은 그래프 신경망 모델에 비해 성능이 크게 향상됨을 보여줍니다. 놀랍게도, KERMT 다중작업 미세조정의 성능 향상은 더 큰 데이터 규모에서 가장 두드러집니다. 또한 저자들은 두 개의 다중작업 ADMET 데이터셋 분할을 공개하고 KERMT 모델의 가속화된 구현을 제공합니다.
- 데이터 부족 문제: 약물 발견에서, 특히 표적 효능 예측 같은 작업에서 주석이 달린 데이터는 일반적으로 제한적입니다(10¹~10⁶개 분자). 반면 전체 화학 공간은 약 10⁶⁰개 분자로 추정됩니다.
- 기존 방법의 한계: 지도 학습 그래프 신경망은 소규모 데이터 시나리오에서 성능이 제한적이며, 일반적으로 랜덤 포레스트 같은 고전적 방법에 의존해야 합니다.
- 다중작업 학습의 잠재력: ADMET 성질들 사이에 상관관계가 존재하여 다중작업 학습의 기회를 제공하지만, 화학 사전학습 모델 미세조정에서는 아직 충분히 탐색되지 않았습니다.
- 대규모 미표지 화학 데이터를 활용한 사전학습으로 일반적인 화학 지식과 패턴 학습
- 화학 사전학습 모델 미세조정에서 다중작업 학습의 잠재력 탐색
- 산업 수준의 약물 발견 프로세스에서의 계산 효율성 문제 해결
- 최초 체계적 연구: 화학 사전학습 모델 미세조정에 다중작업 학습 방법 도입
- KERMT 모델 개선: GROVER의 개선된 버전 제안, 분산 사전학습 및 가속화된 추론 지원
- 반직관적 발견: KERMT가 대규모 데이터에서 더 우수한 성능을 보임을 증명하여, 사전학습 모델이 주로 소규모 데이터 시나리오에서 우수하다는 가정에 도전
- 벤치마크 데이터셋: 두 개의 다중작업 ADMET 데이터셋 분할 공개로 방법론 비교 평가 촉진
- 공학적 최적화: 산업 수준의 응용을 지원하는 가속화된 구현 제공
입력: 분자의 SMILES 문자열 또는 분자 그래프 표현
출력: 여러 ADMET 성질 또는 표적 효능의 예측값
목표: 다중작업 학습을 통해 약물 성질 예측 작업에서 화학 사전학습 모델의 성능 향상
- 기본 아키텍처: GROVER 기반 그래프 트랜스포머 모델
- 사전학습 작업:
- 노드/엣지 수준 분류: 노드/엣지 임베딩에서 k-hop 로컬 부분그래프 식별
- 그래프 수준 다중 레이블 분류: 그래프 임베딩에서 분자의 관능기 식별
- 매개변수 규모: ~5,100만 개 매개변수(기본 버전)
- 사전학습 데이터: 1,100만 화합물(ZINC15 및 ChEMBL에서)
- 특징: 분자 선 그래프 표현 + 지식 노드(K-node) 사용
- 사전학습 작업:
- 마스크된 노드 및 K-node 특성 예측
- RDKit 지문 예측
- 200개 분자 기술자 예측
- 매개변수 규모: ~1억 개 매개변수
- 사전학습 데이터: 200만 분자(ChEMBL29)
- 단일작업 미세조정: 단일 성질 예측을 위해 인코더 및 피드포워드 네트워크 가중치만 업데이트
- 다중작업 미세조정: 피드포워드 네트워크가 n개 성질에 해당하는 n개 값을 출력하며, 인코더 가중치가 동시에 업데이트됨
- 분산 사전학습: PyTorch DDP를 사용한 다중 GPU 병렬 사전학습, 8개 GPU에서 86% 확장 효율 달성
- 가속화된 추론: cuik-molmaker 패키지 통합으로 2.2배 미세조정 가속 및 2.9배 추론 가속 실현
- 자동 하이퍼매개변수 최적화: Optuna를 통한 하이퍼매개변수 탐색 통합
- 메모리 최적화: 분자 그래프 및 기술자의 동적 생성으로 34% 메모리 사용량 감소
- ADMET 데이터: 30개 종점, 800,733개 화합물(2024년 기준)
- 표적 효능: Target 1 (744개 화합물), Target 2 (1,163개 화합물)
- 분할 방식: 80-20 시간 분할(2018년 4월을 기준점)
- 문헌 ADMET 데이터: 25개 종점, 114,112개 화합물
- Biogen 데이셋: 6개 종점, 3,521개 화합물
- BindingDB: EGFR (9,462개 화합물), BTK (9,337개 화합물) 등
- 분할 방식: PCA 차원 축소 Morgan 지문 기반 클러스터링 분할
- 주요 지표: Pearson r² 상관계수
- 보조 지표: 결정계수 R², 평균 절대 오차(MAE), 제곱근 평균 제곱 오차(RMSE)
- 분류 평가: 분류 농축 그래프, 고효능 분자의 올바른 분류율 평가
- 기준선: Chemprop (D-MPNN)
- 사전학습 모델: MoLFormer, KPGT, KERMT
- 평가 모드: 단일작업(ST) 및 다중작업(MT) 변형
Merck 내부 데이터의 시간 분할 테스트에서:
- KERMT MT: 5개 주요 종점 중 최고 또는 동등 최고 성능
- 성능 향상: Chemprop MT 대비 30개 종점 중 18개에서 더 우수한 성능
- 평균 개선: Pearson r² 0.02 향상(Chemprop 대비) 및 0.04 향상(KPGT 대비)
구체적 결과(Pearson r²):
- Papp: KERMT MT (0.712) vs Chemprop MT (0.657)
- EPSA: KERMT MT (0.822) vs Chemprop MT (0.805)
- Fu,p human: KERMT MT (0.666) vs Chemprop MT (0.641)
- 공개 ADMET 데이터: KPGT가 더 우수한 성능(25개 종점 중 9개 최고), KERMT MT는 25개 중 3개만 최고
- Biogen 데이터: 샘플 크기가 작아 결과 신뢰도 낮음
- 데이터 규모 의존성: KERMT는 대규모 데이터셋(>10k 샘플)에서 더 우수, KPGT는 소규모 데이터셋(<3k 샘플)에서 더 우수
핵심 발견: KERMT의 우위는 대규모 데이터에서 더 명확함
- 임계점: 훈련셋 >60k 데이터 포인트일 때 KERMT가 Chemprop을 크게 능가
- 매개변수 규모 영향: KERMT(5,100만 매개변수)는 Chemprop(500만 매개변수)보다 소규모 데이터에서 과적합하기 쉬움
- 다중작업 이득: 작업 수 증가(1→30개 작업)에 따라 KERMT 성능이 지속적으로 향상
Tanimoto 유사성 분석을 통해:
- 일관된 우위: KERMT는 모든 유사성 구간(0.35-0.7)에서 Chemprop을 능가
- 일반화 능력: 저유사성 화합물을 특별히 대상으로 하지 않았지만 전반적인 일반화 능력이 더 강함
- 환형 펩타이드 예측: 환형 펩타이드 부분집합에서 두 모델의 성능이 동등(Pearson r² = 0.36)
내부 데이터로 재사전학습한 실험 결과:
- 제한된 개선: 사전학습 데이터가 하위 작업과 더 유사해도 성능 향상이 제한적
- 환형 펩타이드 성능: 기본 KERMT 모델이 환형 펩타이드 작업에서 내부 사전학습 모델보다 우수(5/12 vs 1/12 작업)
- 시사점: 관련 정보를 더 잘 포착하기 위해 사전학습 작업 개선 필요
- GROVER: 그래프 트랜스포머, 원자 및 결합 메시지 전달 사용
- MoLFormer: SMILES 기반 언어 모델, 회전 위치 인코딩
- KPGT: 지식 유도 그래프 트랜스포머, 분자 기술자 통합
- 기존 응용: 주로 처음부터 학습하는 심층 학습 아키텍처에 사용
- 본 논문의 기여: 화학 사전학습 모델 미세조정에 다중작업 학습을 최초로 체계적으로 적용
- 다중작업 미세조정의 효과성: KERMT 다중작업 미세조정은 성능을 크게 향상시키며, 특히 대규모 데이터 시나리오에서 효과적
- 데이터 규모 의존성: 사전학습 모델이 주로 소규모 데이터에서 우수하다는 전통적 관점에 도전
- 모델 선택 지침: 중대형 데이터는 KERMT MT 사용, 소규모 데이터는 KPGT ST 사용 권장
- 공학적 실현 가능성: 가속화된 구현으로 산업 수준의 응용이 가능해짐
- 사전학습 작업 최적화: 현재 사전학습 작업이 하위 작업 관련 정보를 충분히 포착하지 못할 수 있음
- 환형 펩타이드 예측: 환형 펩타이드 같은 특수 분자 유형에서의 개선이 제한적
- 데이터셋 차이: 내부 및 공개 데이터셋 결과의 불일치로 방법론의 일반화 가능성 평가에 영향
- 계산 자원 요구: 대규모 매개변수 모델은 더 많은 계산 자원 필요
- 사전학습 작업 개선: 하위 다중작업 학습에 더 적합한 사전학습 목표 설계
- 모듈식 미세조정: 다양한 데이터 규모에서 부분 인코더 동결의 영향 연구
- 교차 모달 확장: 단백질-소분자 공동 사전학습 탐색
- 벤치마크 데이터셋: 더 많은 고품질 다중작업 벤치마크 개발
- 높은 실용 가치: 산업 약물 발견의 실제 문제를 직접 해결
- 포괄적 실험: 여러 데이터셋, 모델 및 평가 차원 포함
- 반직관적 발견: 영역 가정에 도전하여 새로운 통찰력 제공
- 공학적 기여: 완전한 오픈소스 구현 및 가속화 최적화 제공
- 데이터 기여: 표준화된 다중작업 벤치마크 데이터셋 공개
- 이론적 분석 부족: KERMT가 대규모 데이터에서 더 우수한 이유에 대한 심층적 이론적 설명 부재
- 사전학습 전략: 다중작업 학습 최적화를 위한 사전학습 방법 충분히 탐색되지 않음
- 통계적 유의성: 일부 결과의 통계적 유의성 분석이 더 엄격할 수 있음
- 계산 비용 분석: 상세한 계산 비용 비교 분석 부재
- 학술적 영향: 화학정보학과 다중작업 학습 교차 영역에 중요한 참고 자료 제공
- 산업 응용: 제약회사의 ADMET 예측 프로세스에 직접 적용 가능
- 오픈소스 기여: 코드 및 데이터 공개로 영역 발전 촉진
- 방법론적 기여: 화학 사전학습 모델 평가의 새로운 표준 수립
- 대형 제약회사: 대규모 ADMET 데이터를 보유한 조직
- 다중 성질 최적화: 여러 분자 성질을 동시에 예측해야 하는 시나리오
- 산업 프로세스: 고효율 추론이 필요한 생산 환경
- 연구 벤치마크: 다중작업 화학 성질 예측의 표준 기준선
논문은 47개의 중요 문헌을 인용하며, 다음을 포함합니다:
- 화학 사전학습 모델의 기초 연구(GROVER, MoLFormer, KPGT)
- ADMET 예측의 고전적 방법 및 데이터셋
- 다중작업 학습의 이론적 기초
- 분자 표현 학습 및 그래프 신경망
- 약물 발견에서의 기계학습 응용 종합
종합 평가: 이는 이론적 기여, 실험 검증 및 공학적 구현 측면에서 모두 상당한 가치를 지닌 고품질의 응용 연구 논문입니다. 특히 반직관적 발견과 완전한 오픈소스 기여는 화학정보학 영역의 발전을 추진하는 데 중요한 의미를 가집니다.