2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.
Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
academic

Многозадачная тонкая настройка и ускорение химических предварительно обученных моделей для предсказания свойств малых молекул лекарств

Основная информация

  • ID статьи: 2510.12719
  • Название: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
  • Авторы: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
  • Учреждения: Merck & Co., Inc. и NVIDIA BioNeMo
  • Классификация: cs.LG (машинное обучение), q-bio.QM (методы количественной биологии)
  • Дата публикации: 14 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.12719v1

Аннотация

Химические предварительно обученные модели (также называемые фундаментальными моделями) привлекают значительное внимание в приложениях открытия лекарств. Общие химические знания, извлеченные посредством самоконтролируемого обучения, имеют потенциал для улучшения предсказания ключевых конечных точек открытия лекарств, включая эффективность в отношении мишени и свойства ADMET. Данное исследование демонстрирует, что включение многозадачного обучения при тонкой настройке химических предварительно обученных графовых нейронных сетей (таких как KERMT и KPGT) значительно повышает производительность по сравнению с непредварительно обученными графовыми нейронными сетями. Примечательно, что повышение производительности многозадачной тонкой настройки KERMT наиболее значительно при больших объемах данных. Кроме того, авторы выпустили два разделения многозадачного набора данных ADMET и предоставили ускоренную реализацию модели KERMT.

Исследовательский контекст и мотивация

Основные проблемы

  1. Проблема нехватки данных: В открытии лекарств, особенно в задачах предсказания эффективности в отношении мишени, аннотированные данные обычно ограничены (10¹ до 10⁶ молекул), тогда как общее химическое пространство оценивается примерно в 10⁶⁰ молекул
  2. Ограничения традиционных методов: Контролируемые графовые нейронные сети показывают ограниченную производительность в сценариях с малым объемом данных и обычно требуют использования классических методов, таких как случайные леса
  3. Потенциал многозадачного обучения: Существует корреляция между свойствами ADMET, что предоставляет возможности для многозадачного обучения, но это еще не полностью изучено при тонкой настройке химических предварительно обученных моделей

Исследовательская мотивация

  • Использование крупномасштабных немаркированных химических данных для предварительного обучения и изучения общих химических знаний и закономерностей
  • Исследование потенциала многозадачного обучения при тонкой настройке химических предварительно обученных моделей
  • Решение проблем вычислительной эффективности в промышленных процессах открытия лекарств

Основные вклады

  1. Первое систематическое исследование: Введение методов многозадачного обучения при тонкой настройке химических предварительно обученных моделей
  2. Улучшение модели KERMT: Предложена улучшенная версия GROVER, поддерживающая распределенное предварительное обучение и ускоренный вывод
  3. Контринтуитивное открытие: Доказано, что KERMT показывает лучшую производительность при больших объемах данных, что противоречит предположению о том, что предварительно обученные модели имеют преимущество в основном в сценариях с малым объемом данных
  4. Эталонные наборы данных: Выпущены два разделения многозадачного набора данных ADMET для содействия сравнительной оценке методов
  5. Инженерная оптимизация: Предоставлена ускоренная реализация, поддерживающая промышленные приложения

Подробное описание методов

Определение задач

Входные данные: SMILES-строки молекул или представления молекулярных графов Выходные данные: Предсказанные значения множественных свойств ADMET или эффективности в отношении мишени Цель: Повышение производительности химических предварительно обученных моделей при предсказании свойств лекарств посредством многозадачного обучения

Архитектура модели

KERMT (Kinetic GROVER Multi-Task)

  • Базовая архитектура: Модель графового трансформатора на основе GROVER
  • Задачи предварительного обучения:
    • Классификация на уровне узлов/ребер: определение k-hop локальных подграфов из вложений узлов/ребер
    • Многоклассовая классификация на уровне графа: определение функциональных групп, присутствующих в молекуле, из вложения графа
  • Масштаб параметров: ~51 млн параметров (базовая версия)
  • Данные предварительного обучения: 11 млн соединений (из ZINC15 и ChEMBL)

KPGT (Knowledge-guided Pre-training of Graph Transformer)

  • Особенность: Использование представления молекулярного линейного графа + узлы знаний (K-node)
  • Задачи предварительного обучения:
    • Предсказание замаскированных признаков узлов и K-node
    • Предсказание отпечатков RDKit
    • Предсказание 200 молекулярных дескрипторов
  • Масштаб параметров: ~100 млн параметров
  • Данные предварительного обучения: 2 млн молекул (ChEMBL29)

Стратегия многозадачной тонкой настройки

  • Однозадачная тонкая настройка: Обновление только весов кодировщика и прямой сети для предсказания одного свойства
  • Многозадачная тонкая настройка: Выходы прямой сети соответствуют n значениям для n свойств, веса кодировщика обновляются одновременно

Технические инновации

  1. Распределенное предварительное обучение: Использование PyTorch DDP для параллельного предварительного обучения на нескольких GPU, достижение 86% эффективности масштабирования на 8 GPU
  2. Ускоренный вывод: Интеграция пакета cuik-molmaker, достижение 2,2-кратного ускорения тонкой настройки и 2,9-кратного ускорения вывода
  3. Автоматическая оптимизация гиперпараметров: Интеграция Optuna для поиска гиперпараметров
  4. Оптимизация памяти: Динамическое создание молекулярных графов и дескрипторов, снижение использования памяти на 34%

Экспериментальная установка

Наборы данных

Внутренние наборы данных (Merck)

  • Данные ADMET: 30 конечных точек, 800 733 соединения (по состоянию на 2024 г.)
  • Эффективность в отношении мишени: Target 1 (744 соединения), Target 2 (1 163 соединения)
  • Метод разделения: Временное разделение 80-20 (точка разделения — апрель 2018 г.)

Открытые наборы данных

  • Литературные данные ADMET: 25 конечных точек, 114 112 соединений
  • Набор данных Biogen: 6 конечных точек, 3 521 соединение
  • BindingDB: EGFR (9 462 соединения), BTK (9 337 соединений) и др.
  • Метод разделения: Разделение на основе кластеризации отпечатков Morgan с уменьшением размерности PCA

Метрики оценки

  • Основная метрика: Коэффициент корреляции Пирсона r²
  • Вспомогательные метрики: Коэффициент детерминации R², средняя абсолютная ошибка (MAE), среднеквадратическая ошибка (RMSE)
  • Оценка классификации: Графики обогащения классификации, оценка правильности классификации молекул с высокой эффективностью

Методы сравнения

  • Базовый уровень: Chemprop (D-MPNN)
  • Предварительно обученные модели: MoLFormer, KPGT, KERMT
  • Режимы оценки: Варианты однозадачной (ST) и многозадачной (MT)

Результаты экспериментов

Основные результаты

Производительность внутренних данных ADMET

При временном разделении тестирования на внутренних данных Merck:

  • KERMT MT: Показывает лучшую или совместно лучшую производительность на 5 ключевых конечных точках
  • Повышение производительности: Превосходит Chemprop MT на 18 из 30 конечных точек
  • Среднее улучшение: Повышение коэффициента корреляции Пирсона r² на 0,02 (по сравнению с Chemprop) и 0,04 (по сравнению с KPGT)

Конкретные результаты (коэффициент корреляции Пирсона r²):

  • Papp: KERMT MT (0,712) vs Chemprop MT (0,657)
  • EPSA: KERMT MT (0,822) vs Chemprop MT (0,805)
  • Fu,p human: KERMT MT (0,666) vs Chemprop MT (0,641)

Производительность на открытых наборах данных

  • Открытые данные ADMET: KPGT показывает лучшую производительность (9/25 конечных точек лучше всего), KERMT MT только 3/25 лучше всего
  • Данные Biogen: Из-за небольшого размера выборки надежность результатов ниже
  • Зависимость от масштаба данных: KERMT показывает лучшую производительность на больших наборах данных (>10k образцов), KPGT лучше на малых наборах данных (<3k образцов)

Анализ масштаба данных

Ключевое открытие: Преимущество KERMT более выражено при больших объемах данных

  • Критическая точка: При наборе обучающих данных >60k точек KERMT значительно превосходит Chemprop
  • Влияние масштаба параметров: KERMT (51 млн параметров) более подвержен переобучению на малых данных, чем Chemprop (5 млн параметров)
  • Выгода многозадачности: По мере увеличения количества задач (1→30 задач) производительность KERMT продолжает улучшаться

Способность к обобщению в химическом пространстве

Посредством анализа сходства Танимото:

  • Последовательное преимущество: KERMT превосходит Chemprop во всех диапазонах сходства (0,35-0,7)
  • Способность к обобщению: Хотя не специально оптимизирована для соединений с низким сходством, обладает лучшей общей способностью к обобщению
  • Предсказание циклических пептидов: На подмножестве циклических пептидов обе модели показывают сопоставимую производительность (коэффициент корреляции Пирсона r² = 0,36)

Влияние данных предварительного обучения

Эксперименты с переобучением на внутренних данных показывают:

  • Ограниченное улучшение: Даже при более релевантных данных предварительного обучения для нижестоящих задач улучшение ограничено
  • Производительность циклических пептидов: Базовая модель KERMT все еще превосходит модель с внутренним предварительным обучением на задачах циклических пептидов (5/12 vs 1/12 задач)
  • Вывод: Необходимо улучшение задач предварительного обучения для лучшего захвата релевантной информации

Связанные работы

Химические предварительно обученные модели

  • GROVER: Графовый трансформатор, использующий передачу сообщений на уровне атомов и связей
  • MoLFormer: Языковая модель на основе SMILES с кодированием ротационной позиции
  • KPGT: Знаниями направляемый графовый трансформатор, интегрирующий молекулярные дескрипторы

Многозадачное обучение

  • Традиционные приложения: Главным образом используется в архитектурах глубокого обучения, обучаемых с нуля
  • Вклад данной работы: Первое систематическое применение многозадачного обучения при тонкой настройке химических предварительно обученных моделей

Выводы и обсуждение

Основные выводы

  1. Эффективность многозадачной тонкой настройки: Многозадачная тонкая настройка KERMT значительно повышает производительность, особенно в сценариях с большим объемом данных
  2. Зависимость от масштаба данных: Оспаривает традиционное мнение о том, что предварительно обученные модели имеют преимущество в основном при малых объемах данных
  3. Руководство по выбору модели: Рекомендуется использовать KERMT MT для данных среднего и большого размера, KPGT ST для малых данных
  4. Инженерная осуществимость: Ускоренная реализация делает промышленные приложения возможными

Ограничения

  1. Оптимизация задач предварительного обучения: Текущие задачи предварительного обучения могут недостаточно полно захватывать информацию, релевантную нижестоящим задачам
  2. Предсказание циклических пептидов: Ограниченное улучшение на специальных типах молекул, таких как циклические пептиды
  3. Различия в наборах данных: Несогласованность результатов между внутренними и открытыми наборами данных влияет на оценку обобщаемости метода
  4. Требования к вычислительным ресурсам: Модели с большим количеством параметров требуют больше вычислительных ресурсов

Будущие направления

  1. Улучшение задач предварительного обучения: Разработка целей предварительного обучения, более подходящих для многозадачного обучения нижестоящих задач
  2. Модульная тонкая настройка: Исследование влияния частичного замораживания кодировщика на различные масштабы данных
  3. Расширение на кросс-модальность: Исследование совместного предварительного обучения белков и малых молекул
  4. Эталонные наборы данных: Разработка дополнительных высококачественных многозадачных эталонов

Глубокая оценка

Преимущества

  1. Высокая практическая ценность: Прямое решение практических проблем в промышленном открытии лекарств
  2. Комплексные эксперименты: Охватывают множество наборов данных, моделей и аспектов оценки
  3. Контринтуитивные открытия: Оспаривают предположения в области, предоставляя новые идеи
  4. Инженерный вклад: Предоставляют полную реализацию с открытым исходным кодом и оптимизацию ускорения
  5. Вклад данных: Выпущены стандартизированные многозадачные эталонные наборы данных

Недостатки

  1. Недостаток теоретического анализа: Отсутствует глубокое теоретическое объяснение того, почему KERMT показывает лучшую производительность при больших объемах данных
  2. Стратегия предварительного обучения: Недостаточное исследование методов предварительного обучения, оптимизированных для многозадачного обучения
  3. Статистическая значимость: Анализ статистической значимости некоторых результатов может быть более строгим
  4. Анализ вычислительных затрат: Отсутствует подробный сравнительный анализ вычислительных затрат

Влияние

  1. Академическое влияние: Предоставляет важный справочный материал для пересечения химической информатики и многозадачного обучения
  2. Промышленные приложения: Непосредственно применимо к процессам предсказания ADMET в фармацевтических компаниях
  3. Вклад в открытый исходный код: Открытие кода и данных способствует развитию области
  4. Методологический вклад: Устанавливает новые стандарты для оценки химических предварительно обученных моделей

Применимые сценарии

  1. Крупные фармацевтические компании: Организации, обладающие крупномасштабными данными ADMET
  2. Оптимизация множественных свойств: Сценарии, требующие одновременного предсказания нескольких молекулярных свойств
  3. Промышленные процессы: Производственные среды, требующие эффективного вывода
  4. Исследовательские эталоны: Использование в качестве стандартной базовой линии для многозадачного предсказания химических свойств

Список литературы

Статья цитирует 47 важных работ, охватывающих:

  • Фундаментальные работы по химическим предварительно обученным моделям (GROVER, MoLFormer, KPGT)
  • Классические методы и наборы данных для предсказания ADMET
  • Теоретические основы многозадачного обучения
  • Изучение молекулярных представлений и графовые нейронные сети
  • Обзоры применения машинного обучения в открытии лекарств

Общая оценка: Это высококачественная прикладная исследовательская работа со значительной ценностью в теоретическом вкладе, экспериментальной проверке и инженерной реализации. В частности, контринтуитивные открытия и полный вклад в открытый исходный код имеют важное значение для продвижения развития области химической информатики.