Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- ID статьи: 2510.12617
- Название: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- Авторы: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
- Классификация: q-bio.GN cs.LG
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12617
Большие языковые модели становятся все более популярными в геномике благодаря их потенциалу для декодирования сложных биологических последовательностей. Следовательно, исследователям требуются стандартизированные бенчмарки для оценки возможностей моделей языков ДНК (DNA LMs). Однако оценка DNA LMs является сложной задачей, связанной с пересечением специфичных для геномики вызовов и методологии машинного обучения, где кажущиеся незначительными детали реализации могут существенно повредить валидности бенчмарка. Авторы демонстрируют это на примере BEND (бенчмарк для моделей языков ДНК), где связанные с оборудованием гиперпараметры — количество рабочих процессов загрузки данных и размер буфера — создают вплоть до 4% ложных вариаций производительности для одной и той же модели. Проблема возникает из взаимодействия неадекватного перемешивания данных со специфичными для области характеристиками данных. Эксперименты с тремя моделями языков ДНК (HyenaDNA, DNABERT-2, ResNet-LM) показывают, что эти артефакты влияют как на абсолютную производительность, так и на относительный рейтинг моделей. Авторы предлагают простое решение: предварительное перемешивание данных перед сохранением может устранить аппаратную зависимость при сохранении эффективности.
Основная проблема, которую решает это исследование, — это проблема смещения реализации при бенчмаркинге моделей языков ДНК. В частности:
- Аппаратная зависимость: результаты бенчмарка зависят от связанных с оборудованием гиперпараметров (количество рабочих процессов, размер буфера)
- Неадекватное перемешивание данных: из-за специальной природы геномных данных (пространственная зависимость, перекрытие последовательностей) стандартные практики машинного обучения могут привести к неожиданным смещениям
- Справедливость оценки: исследователи с различными вычислительными ресурсами могут получить различные результаты бенчмарка, что ущемляет справедливость оценки
- Основа научного прогресса: стандартизированные бенчмарки являются основой научного прогресса в машинном обучении, позволяя исследователям сравнивать методы и отслеживать улучшения
- Вызовы в развивающихся областях: в развивающихся областях, таких как геномика, знания, специфичные для области, редки, а принципы проектирования бенчмарков все еще формируются
- Справедливость ресурсов: обеспечение того, чтобы бенчмарки не отдавали предпочтение исследователям с лучшими вычислительными ресурсами
Хотя фреймворк бенчмарка BEND предоставляет комплексный набор контролируемых геномных задач, он имеет следующие проблемы:
- Использует сложный механизм загрузки данных с двухуровневой стратегией перемешивания для обработки крупномасштабных наборов данных
- Вводит зависимость от специфичных для оборудования гиперпараметров
- При взаимодействии с присущими геномным данным характеристиками (значительное перекрытие между образцами непрерывных последовательностей ДНК) приводит к неадекватному перемешиванию данных
- Обнаружение и количественная оценка систематического смещения в бенчмаркинге: доказано, что связанные с оборудованием гиперпараметры могут привести к вариациям производительности до 4% для одной и той же модели
- Предоставление конкретного анализа проблемы: глубокий анализ взаимодействия между механизмом перемешивания данных в фреймворке WebDataset и характеристиками геномных данных
- Предложение простого и эффективного решения: метод предварительного перемешивания может устранить аппаратную зависимость при сохранении или улучшении производительности на всех задачах
- Проверка на различных архитектурах: валидация универсальности проблемы и эффективности решения на трех различных архитектурах моделей языков ДНК
- Предоставление лучших практик для проектирования бенчмарков: конкретные эмпирические рекомендации и советы для проектирования бенчмарков в специализированных областях
- Генерация встраиваний: извлечение последовательностей ДНК из эталонного генома и генерация встраиваний с использованием языковой модели
- Обучение нисходящей модели: обучение нисходящей модели с использованием сгенерированных встраиваний в паре с метками
- Оценка: нисходящая модель обрабатывает встраивания последовательностей ДНК тестового набора и сравнивает с истинными метками
BEND использует фреймворк WebDataset для хранения, загрузки и перемешивания встраиваний:
- Хранение в фрагментах: встраивания хранятся в файлах .tar (фрагменты)
- Распределение рабочих процессов: каждый фрагмент назначается одному рабочему процессу
- Перемешивание буфера: каждый рабочий процесс имеет собственный буфер, перемешивая только образцы из фрагментов, назначенных этому рабочему процессу
Статья анализирует паттерны доступа к данным при различных конфигурациях посредством визуализации:
- Без перемешивания: последовательный доступ к данным
- BEND (1 рабочий процесс): фрагменты доступны последовательно, внутренний последовательный доступ
- BEND (максимальное количество рабочих процессов): параллельный доступ к нескольким фрагментам, повышение разнообразия образцов между батчами, но не влияет на разнообразие внутри батча
- Предварительное перемешивание: гарантирует хорошее разнообразие образцов независимо от количества рабочих процессов
Перемешивание аннотаций данных перед сохранением в фрагменты гарантирует, что образцы из любой части набора данных могут быть сохранены в любом фрагменте.
- Этап предварительной обработки: перемешивание аннотаций последовательностей перед генерацией встраиваний
- Этап хранения: сохранение перемешанных данных в фрагменты
- Этап загрузки: обычный процесс загрузки WebDataset, но поскольку данные уже предварительно перемешаны, количество рабочих процессов больше не влияет на разнообразие образцов
- Независимость от оборудования: устранение зависимости от количества рабочих процессов и размера буфера
- Сохранение эффективности: отсутствие изменений в деталях реализации BEND, сохранение исходной эффективности
- Улучшение производительности: сохранение или улучшение производительности на всех задачах
Использованы семь задач из фреймворка бенчмарка BEND:
- Контролируемые задачи: метилирование CpG, модификация гистонов, доступность хроматина, обнаружение генов, аннотирование энхансеров
- Неконтролируемые задачи: предсказание эффектов некодирующих вариантов на экспрессию и заболевание
Протестированы три модели языков ДНК различных архитектур:
- HyenaDNA-tiny-1k: модель на основе архитектуры Hyena
- DNABERT-2: языковая модель ДНК на основе BERT
- ResNet-LM: базовая модель, предложенная BEND
- AUROC: для задач метилирования CpG и модификации гистонов
- MCC: для задачи обнаружения генов
- Эксперименты влияния гиперпараметров: сравнение влияния различного количества рабочих процессов и размеров буферов на производительность
- Проверка на различных архитектурах: валидация эффективности метода предварительного перемешивания на трех архитектурах моделей
- Анализ характеристик данных: анализ перекрытия непрерывных последовательностей в различных задачах
Таблица 1: Результаты тестирования HyenaDNA-tiny-1k при различных конфигурациях гиперпараметров
| Задача | Метрика | Макс. рабочих | 1 рабочий | 1000 буфер | Без буфера |
|---|
| Метилирование CpG | AUROC | 0.878 | 0.868 | - | - |
| Модификация гистонов | AUROC | 0.766 | 0.756 | - | - |
| Обнаружение генов | MCC | - | - | 0.115 | 0.076 |
Результаты предварительного перемешивания: все конфигурации достигают оптимальной или близкой к оптимальной производительности, устраняя аппаратную зависимость.
Таблица 2: Сравнение трех моделей на задаче метилирования CpG (AUROC)
| Модель | BEND | Предварительное перемешивание | Улучшение |
|---|
| HyenaDNA-tiny-1k | 0.868 | 0.900 | +3.2% |
| DNABERT-2 | 0.893 | 0.910 | +1.7% |
| ResNet-LM | 0.890 | 0.919 | +2.9% |
Таблица 3: Перекрытие непрерывных последовательностей в различных задачах
| Задача | Процент перекрывающихся последовательностей | Медианный процент перекрывающихся нуклеотидов | Взвешенный процент перекрытия |
|---|
| Метилирование CpG | 51.88% | 87.70% | 45.50% |
| Модификация гистонов | 17.03% | 19.92% | 3.39% |
| Обнаружение генов | 7.09% | 12.39% | 0.88% |
| Аннотирование энхансеров | 1.75% | 49.27% | 0.86% |
| Доступность хроматина | 28.29% | 20.31% | 5.75% |
Задача метилирования CpG показывает наибольшую степень перекрытия последовательностей, что объясняет, почему эта задача получает наибольшую пользу от предварительного перемешивания.
Предварительное перемешивание не только улучшает абсолютную производительность, но и изменяет относительный рейтинг моделей:
- При конфигурации BEND: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
- После предварительного перемешивания: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k
- BEND: первый комплексный бенчмарк, специально разработанный для моделей языков ДНК
- WebDataset: фреймворк для высокопроизводительного ввода-вывода при глубоком обучении в большом масштабе
- HyenaDNA: моделирование длинных геномных последовательностей с разрешением на уровне одного нуклеотида
- DNABERT-2: эффективная базовая модель для геномов нескольких видов
- ResNet-LM: базовая модель на основе остаточных сетей
Статья вносит вклад в область практического опыта проектирования бенчмарков, особенно в специализированных областях, где стандартные практики ML могут привести к неожиданным последствиям.
- Проблема аппаратной зависимости: гиперпараметры, выбираемые на основе вычислительных ресурсов (количество рабочих процессов и размер буфера), непреднамеренно влияют на результаты бенчмарка
- Независимость от архитектуры: модели различных базовых архитектур получают пользу от надлежащего перемешивания, с улучшением производительности до 4%
- Влияние на рейтинг: неадлежащее перемешивание не только влияет на абсолютную производительность, но и изменяет относительный рейтинг между моделями
- Простое и эффективное решение: предварительное перемешивание данных является простым способом развязать производительность бенчмарка от специфичных для оборудования гиперпараметров
- Специфичность фреймворка: исследование в основном сосредоточено на фреймворке BEND, другие фреймворки бенчмарков могут иметь различные проблемы
- Охват задач: хотя протестировано несколько задач, они ограничены набором задач, предоставляемым BEND
- Диапазон моделей: протестированы только три архитектуры моделей, что может не охватывать все типы моделей языков ДНК
- Расширение на другие бенчмарки: применение обнаруженных проблем и решений к другим бенчмаркам биоинформатики
- Автоматическое обнаружение: разработка инструментов для автоматического обнаружения потенциальных смещений в реализации бенчмарков
- Руководство по лучшим практикам: разработка более комплексных руководящих принципов для проектирования бенчмарков в специализированных областях
- Высокая практическая ценность: обнаружение важной проблемы в практическом бенчмаркинге с предоставлением немедленно применимого решения
- Глубокий анализ: четкое демонстрирование корня проблемы посредством визуализации и количественного анализа
- Достаточная валидация: валидация универсальности проблемы и эффективности решения на нескольких моделях и задачах
- Ясное изложение: четкая структура статьи, легко понимаемые описание проблемы и решение
- Вклад в открытый исходный код: предоставление открытой реализации кода
- Случайность обнаружения проблемы: статья не предоставляет систематический метод для предотвращения или обнаружения подобных проблем
- Недостаточный теоретический анализ: отсутствие теоретического объяснения того, почему некоторые задачи более подвержены влиянию, чем другие
- Ограничения решения: хотя предварительное перемешивание эффективно, оно может быть неприменимо ко всем типам данных последовательностей
- Отсутствие анализа вычислительных затрат: отсутствие детального анализа вычислительных затрат метода предварительного перемешивания
- Вклад в область: важное методологическое улучшение для оценки моделей языков ДНК
- Практическая ценность: прямое улучшение надежности бенчмарка BEND, приносящее пользу всему исследовательскому сообществу
- Воспроизводимость: предоставление детальной реализации и открытого кода, облегчающее воспроизведение и применение
- Вдохновляющее значение: предоставление ценного опыта для проектирования бенчмарков в других специализированных областях
- Геномные исследования: все исследования моделей языков ДНК, использующие бенчмарк BEND
- Моделирование последовательностей: другие задачи моделирования временных рядов или последовательностей, связанные с перекрытием последовательностей
- Проектирование бенчмарков: проектирование фреймворков бенчмарков, требующих обработки крупномасштабных наборов данных
- Распределенное обучение: системы распределенного машинного обучения, требующие рассмотрения стратегий загрузки и перемешивания данных
- Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
- Aizman et al. (2020). High performance I/O for large scale deep learning.
- Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
- Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.
Резюме: Эта статья обнаруживает и решает важную практическую проблему при бенчмаркинге моделей языков ДНК. Хотя сама проблема относительно проста, ее влияние глубоко. Ценность статьи заключается в напоминании исследовательскому сообществу о том, что кажущиеся незначительными детали реализации могут оказать значительное влияние на результаты бенчмарков, и в предоставлении практического решения. Это имеет важное значение для обеспечения справедливости и надежности бенчмаркинга.