2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.

academic

Одна модель, лучшая производительность: влияние перемешивания на бенчмаркинг моделей языков ДНК

Основная информация

ID статьи: 2510.12617
Название: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
Авторы: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
Классификация: q-bio.GN cs.LG
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12617

Аннотация

Большие языковые модели становятся все более популярными в геномике благодаря их потенциалу для декодирования сложных биологических последовательностей. Следовательно, исследователям требуются стандартизированные бенчмарки для оценки возможностей моделей языков ДНК (DNA LMs). Однако оценка DNA LMs является сложной задачей, связанной с пересечением специфичных для геномики вызовов и методологии машинного обучения, где кажущиеся незначительными детали реализации могут существенно повредить валидности бенчмарка. Авторы демонстрируют это на примере BEND (бенчмарк для моделей языков ДНК), где связанные с оборудованием гиперпараметры — количество рабочих процессов загрузки данных и размер буфера — создают вплоть до 4% ложных вариаций производительности для одной и той же модели. Проблема возникает из взаимодействия неадекватного перемешивания данных со специфичными для области характеристиками данных. Эксперименты с тремя моделями языков ДНК (HyenaDNA, DNABERT-2, ResNet-LM) показывают, что эти артефакты влияют как на абсолютную производительность, так и на относительный рейтинг моделей. Авторы предлагают простое решение: предварительное перемешивание данных перед сохранением может устранить аппаратную зависимость при сохранении эффективности.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает это исследование, — это проблема смещения реализации при бенчмаркинге моделей языков ДНК. В частности:

Аппаратная зависимость: результаты бенчмарка зависят от связанных с оборудованием гиперпараметров (количество рабочих процессов, размер буфера)
Неадекватное перемешивание данных: из-за специальной природы геномных данных (пространственная зависимость, перекрытие последовательностей) стандартные практики машинного обучения могут привести к неожиданным смещениям
Справедливость оценки: исследователи с различными вычислительными ресурсами могут получить различные результаты бенчмарка, что ущемляет справедливость оценки

Важность проблемы

Основа научного прогресса: стандартизированные бенчмарки являются основой научного прогресса в машинном обучении, позволяя исследователям сравнивать методы и отслеживать улучшения
Вызовы в развивающихся областях: в развивающихся областях, таких как геномика, знания, специфичные для области, редки, а принципы проектирования бенчмарков все еще формируются
Справедливость ресурсов: обеспечение того, чтобы бенчмарки не отдавали предпочтение исследователям с лучшими вычислительными ресурсами

Ограничения существующих методов

Хотя фреймворк бенчмарка BEND предоставляет комплексный набор контролируемых геномных задач, он имеет следующие проблемы:

Использует сложный механизм загрузки данных с двухуровневой стратегией перемешивания для обработки крупномасштабных наборов данных
Вводит зависимость от специфичных для оборудования гиперпараметров
При взаимодействии с присущими геномным данным характеристиками (значительное перекрытие между образцами непрерывных последовательностей ДНК) приводит к неадекватному перемешиванию данных

Основные вклады

Обнаружение и количественная оценка систематического смещения в бенчмаркинге: доказано, что связанные с оборудованием гиперпараметры могут привести к вариациям производительности до 4% для одной и той же модели
Предоставление конкретного анализа проблемы: глубокий анализ взаимодействия между механизмом перемешивания данных в фреймворке WebDataset и характеристиками геномных данных
Предложение простого и эффективного решения: метод предварительного перемешивания может устранить аппаратную зависимость при сохранении или улучшении производительности на всех задачах
Проверка на различных архитектурах: валидация универсальности проблемы и эффективности решения на трех различных архитектурах моделей языков ДНК
Предоставление лучших практик для проектирования бенчмарков: конкретные эмпирические рекомендации и советы для проектирования бенчмарков в специализированных областях

Детальное описание методов

Анализ проблемы

Процесс обработки данных в фреймворке BEND

Генерация встраиваний: извлечение последовательностей ДНК из эталонного генома и генерация встраиваний с использованием языковой модели
Обучение нисходящей модели: обучение нисходящей модели с использованием сгенерированных встраиваний в паре с метками
Оценка: нисходящая модель обрабатывает встраивания последовательностей ДНК тестового набора и сравнивает с истинными метками

Механизм хранения и загрузки WebDataset

BEND использует фреймворк WebDataset для хранения, загрузки и перемешивания встраиваний:

Хранение в фрагментах: встраивания хранятся в файлах .tar (фрагменты)
Распределение рабочих процессов: каждый фрагмент назначается одному рабочему процессу
Перемешивание буфера: каждый рабочий процесс имеет собственный буфер, перемешивая только образцы из фрагментов, назначенных этому рабочему процессу

Анализ паттернов доступа к данным

Статья анализирует паттерны доступа к данным при различных конфигурациях посредством визуализации:

Без перемешивания: последовательный доступ к данным
BEND (1 рабочий процесс): фрагменты доступны последовательно, внутренний последовательный доступ
BEND (максимальное количество рабочих процессов): параллельный доступ к нескольким фрагментам, повышение разнообразия образцов между батчами, но не влияет на разнообразие внутри батча
Предварительное перемешивание: гарантирует хорошее разнообразие образцов независимо от количества рабочих процессов

Решение: метод предварительного перемешивания

Основная идея

Перемешивание аннотаций данных перед сохранением в фрагменты гарантирует, что образцы из любой части набора данных могут быть сохранены в любом фрагменте.

Детали реализации

Этап предварительной обработки: перемешивание аннотаций последовательностей перед генерацией встраиваний
Этап хранения: сохранение перемешанных данных в фрагменты
Этап загрузки: обычный процесс загрузки WebDataset, но поскольку данные уже предварительно перемешаны, количество рабочих процессов больше не влияет на разнообразие образцов

Преимущества

Независимость от оборудования: устранение зависимости от количества рабочих процессов и размера буфера
Сохранение эффективности: отсутствие изменений в деталях реализации BEND, сохранение исходной эффективности
Улучшение производительности: сохранение или улучшение производительности на всех задачах

Экспериментальная установка

Наборы данных

Использованы семь задач из фреймворка бенчмарка BEND:

Контролируемые задачи: метилирование CpG, модификация гистонов, доступность хроматина, обнаружение генов, аннотирование энхансеров
Неконтролируемые задачи: предсказание эффектов некодирующих вариантов на экспрессию и заболевание

Модели

Протестированы три модели языков ДНК различных архитектур:

HyenaDNA-tiny-1k: модель на основе архитектуры Hyena
DNABERT-2: языковая модель ДНК на основе BERT
ResNet-LM: базовая модель, предложенная BEND

Метрики оценки

AUROC: для задач метилирования CpG и модификации гистонов
MCC: для задачи обнаружения генов

Дизайн экспериментов

Эксперименты влияния гиперпараметров: сравнение влияния различного количества рабочих процессов и размеров буферов на производительность
Проверка на различных архитектурах: валидация эффективности метода предварительного перемешивания на трех архитектурах моделей
Анализ характеристик данных: анализ перекрытия непрерывных последовательностей в различных задачах

Результаты экспериментов

Основные результаты

Влияние гиперпараметров

Таблица 1: Результаты тестирования HyenaDNA-tiny-1k при различных конфигурациях гиперпараметров

Задача	Метрика	Макс. рабочих	1 рабочий	1000 буфер	Без буфера
Метилирование CpG	AUROC	0.878	0.868	-	-
Модификация гистонов	AUROC	0.766	0.756	-	-
Обнаружение генов	MCC	-	-	0.115	0.076

Результаты предварительного перемешивания: все конфигурации достигают оптимальной или близкой к оптимальной производительности, устраняя аппаратную зависимость.

Проверка на различных архитектурах

Таблица 2: Сравнение трех моделей на задаче метилирования CpG (AUROC)

Модель	BEND	Предварительное перемешивание	Улучшение
HyenaDNA-tiny-1k	0.868	0.900	+3.2%
DNABERT-2	0.893	0.910	+1.7%
ResNet-LM	0.890	0.919	+2.9%

Ключевые находки

Анализ перекрытия данных

Таблица 3: Перекрытие непрерывных последовательностей в различных задачах

Задача	Процент перекрывающихся последовательностей	Медианный процент перекрывающихся нуклеотидов	Взвешенный процент перекрытия
Метилирование CpG	51.88%	87.70%	45.50%
Модификация гистонов	17.03%	19.92%	3.39%
Обнаружение генов	7.09%	12.39%	0.88%
Аннотирование энхансеров	1.75%	49.27%	0.86%
Доступность хроматина	28.29%	20.31%	5.75%

Задача метилирования CpG показывает наибольшую степень перекрытия последовательностей, что объясняет, почему эта задача получает наибольшую пользу от предварительного перемешивания.

Изменения в рейтинге моделей

Предварительное перемешивание не только улучшает абсолютную производительность, но и изменяет относительный рейтинг моделей:

При конфигурации BEND: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
После предварительного перемешивания: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

Связанные работы

Фреймворки бенчмаркинга

BEND: первый комплексный бенчмарк, специально разработанный для моделей языков ДНК
WebDataset: фреймворк для высокопроизводительного ввода-вывода при глубоком обучении в большом масштабе

Модели языков ДНК

HyenaDNA: моделирование длинных геномных последовательностей с разрешением на уровне одного нуклеотида
DNABERT-2: эффективная базовая модель для геномов нескольких видов
ResNet-LM: базовая модель на основе остаточных сетей

Лучшие практики проектирования бенчмарков

Статья вносит вклад в область практического опыта проектирования бенчмарков, особенно в специализированных областях, где стандартные практики ML могут привести к неожиданным последствиям.

Выводы и обсуждение

Основные выводы

Проблема аппаратной зависимости: гиперпараметры, выбираемые на основе вычислительных ресурсов (количество рабочих процессов и размер буфера), непреднамеренно влияют на результаты бенчмарка
Независимость от архитектуры: модели различных базовых архитектур получают пользу от надлежащего перемешивания, с улучшением производительности до 4%
Влияние на рейтинг: неадлежащее перемешивание не только влияет на абсолютную производительность, но и изменяет относительный рейтинг между моделями
Простое и эффективное решение: предварительное перемешивание данных является простым способом развязать производительность бенчмарка от специфичных для оборудования гиперпараметров

Ограничения

Специфичность фреймворка: исследование в основном сосредоточено на фреймворке BEND, другие фреймворки бенчмарков могут иметь различные проблемы
Охват задач: хотя протестировано несколько задач, они ограничены набором задач, предоставляемым BEND
Диапазон моделей: протестированы только три архитектуры моделей, что может не охватывать все типы моделей языков ДНК

Направления будущих исследований

Расширение на другие бенчмарки: применение обнаруженных проблем и решений к другим бенчмаркам биоинформатики
Автоматическое обнаружение: разработка инструментов для автоматического обнаружения потенциальных смещений в реализации бенчмарков
Руководство по лучшим практикам: разработка более комплексных руководящих принципов для проектирования бенчмарков в специализированных областях

Глубокая оценка

Преимущества

Высокая практическая ценность: обнаружение важной проблемы в практическом бенчмаркинге с предоставлением немедленно применимого решения
Глубокий анализ: четкое демонстрирование корня проблемы посредством визуализации и количественного анализа
Достаточная валидация: валидация универсальности проблемы и эффективности решения на нескольких моделях и задачах
Ясное изложение: четкая структура статьи, легко понимаемые описание проблемы и решение
Вклад в открытый исходный код: предоставление открытой реализации кода

Недостатки

Случайность обнаружения проблемы: статья не предоставляет систематический метод для предотвращения или обнаружения подобных проблем
Недостаточный теоретический анализ: отсутствие теоретического объяснения того, почему некоторые задачи более подвержены влиянию, чем другие
Ограничения решения: хотя предварительное перемешивание эффективно, оно может быть неприменимо ко всем типам данных последовательностей
Отсутствие анализа вычислительных затрат: отсутствие детального анализа вычислительных затрат метода предварительного перемешивания

Влияние

Вклад в область: важное методологическое улучшение для оценки моделей языков ДНК
Практическая ценность: прямое улучшение надежности бенчмарка BEND, приносящее пользу всему исследовательскому сообществу
Воспроизводимость: предоставление детальной реализации и открытого кода, облегчающее воспроизведение и применение
Вдохновляющее значение: предоставление ценного опыта для проектирования бенчмарков в других специализированных областях

Применимые сценарии

Геномные исследования: все исследования моделей языков ДНК, использующие бенчмарк BEND
Моделирование последовательностей: другие задачи моделирования временных рядов или последовательностей, связанные с перекрытием последовательностей
Проектирование бенчмарков: проектирование фреймворков бенчмарков, требующих обработки крупномасштабных наборов данных
Распределенное обучение: системы распределенного машинного обучения, требующие рассмотрения стратегий загрузки и перемешивания данных

Библиография

Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
Aizman et al. (2020). High performance I/O for large scale deep learning.
Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

Резюме: Эта статья обнаруживает и решает важную практическую проблему при бенчмаркинге моделей языков ДНК. Хотя сама проблема относительно проста, ее влияние глубоко. Ценность статьи заключается в напоминании исследовательскому сообществу о том, что кажущиеся незначительными детали реализации могут оказать значительное влияние на результаты бенчмарков, и в предоставлении практического решения. Это имеет важное значение для обеспечения справедливости и надежности бенчмаркинга.