Miniature DNA sequencing hardware has begun to succeed in mobile contexts, driving demand for efficient machine learning at the edge. This domain leverages deep learning techniques familiar from speech and time-series analysis for both low-level signal processing and high-level genomic interpretation. Unlike audio, however, nanopore sequencing presents raw data rates over 100X higher, requiring more aggressive compute and memory handling. In this paper, we present a CMOS system-on-chip (SoC) designed for mobile genetic analysis. Our approach combines a multi-core RISC-V processor with tightly coupled accelerators for deep learning and bioinformatics. A hardware/software co-design strategy enables energy-efficient operation across a heterogeneous compute fabric, targeting real-time, on-device genome analysis. This work exemplifies the integration of deep learning, edge computing, and domain-specific hardware to advance next-generation mobile genomics.
- ID статьи: 2510.09339
- Название: Sequencing on Silicon: AI SoC Design for Mobile Genomics at the Edge
- Авторы: Sebastian Magierowski, Zhongpan Wu, Abel Beyene, Karim Hammad
- Категория: cs.AR (компьютерная архитектура), cs.ET (новые технологии)
- Дата публикации: 10 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.09339
Миниатюризированное оборудование для секвенирования ДНК начинает добиваться успеха в мобильной среде, что стимулирует спрос на эффективное машинное обучение на периферии. Эта область использует знакомые методы глубокого обучения из анализа речи и временных рядов для низкоуровневой обработки сигналов и высокоуровневой геномной интерпретации. Однако, в отличие от аудио, наносеквенирование представляет скорость передачи исходных данных, превышающую более чем в 100 раз, что требует более агрессивной обработки вычислений и памяти. В данной статье предлагается система на кристалле (SoC) CMOS, специально разработанная для мобильного геномного анализа. Подход сочетает многоядерный процессор RISC-V с плотно связанными ускорителями глубокого обучения и биоинформатики. Стратегия аппаратно-программного совместного проектирования обеспечивает энергоэффективное выполнение на гетерогенной вычислительной архитектуре с целью достижения геномного анализа на устройстве в реальном времени.
- Вызовы масштаба данных: Геномные данные растут экспоненциально; база данных GenBank удваивается каждые 17 месяцев за последние 5 лет, средний размер последовательности увеличился в 20 раз
- Требования обработки в реальном времени: Миниатюризированные секвенаторы ДНК генерируют результаты измерений в реальном времени с потоком данных до 30 Мбит/с, что в 100 раз выше, чем речевые данные (256 кбит/с)
- Ограничения мобильных вычислений: Традиционный геномный анализ требует больших серверов и кластеров GPU, что непригодно для мобильных и периферийных устройств
- Развитие мобильной геномики: Миниатюрные секвенаторы ДНК (как показано на рисунке 2) делают возможным анализ генома на месте
- Потребность в периферийном ИИ: Необходимость проведения анализа генома в реальном времени на устройствах с ограниченными ресурсами
- Перспективы применения: Обнаружение патогенов, персонализированная медицина, диагностика на месте и другие сценарии применения
- Требования к вычислительным ресурсам: Традиционный basecalling требует примерно 50 GFLOP/сек/датчик ДНК
- Редкость исследований ASIC: В литературе найдено очень мало проектов CMOS ASIC, специализированных на мобильном секвенировании
- Проблемы энергоэффективности: Существующие решения потребляют слишком много энергии для мобильных приложений
- Предложена систематическая структура для периферийной геномики: На основе набора тестов MLCommons периферийные устройства разделены на три уровня: Tiny, Mobile и Edge
- Разработана и реализована специализированная SoC: Гетерогенная SoC на технологии 22 нм CMOS, интегрирующая процессор RISC-V и специализированные ускорители
- Реализовано аппаратно-программное совместное проектирование: Стратегии оптимизации для рабочих нагрузок геномного анализа
- Проверена осуществимость мобильного геномного анализа: Достижение возможности обнаружения патогенов в реальном времени при мощности 50 мВт
Данная статья рассматривает полный конвейер мобильного геномного анализа, включающий:
- Basecalling: Преобразование электрохимических сигналов в последовательности нуклеотидов
- Alignment: Сопоставление считываний с эталонным геномом
- Variant Calling: Идентификация геномных вариаций
Как показано на рисунке 4, SoC содержит следующие основные компоненты:
- Двухъядерный процессор RISC-V (CORE1, CORE2): 64-битный, совместимый с Linux, с блоком с плавающей точкой
- Ускоритель матричных вычислений (MAT): Систолический массив 4×4 для вывода глубокого обучения
- Модуль расстояния редактирования (ED): Специализирован для динамического программирования сравнения последовательностей
- Встроенная память: 700 КБ SRAM, распределённая между кэшем и ускорителями
- Технология: GlobalFoundries 22 нм CMOS FDSOI
- Площадь: 5 мм² (включая площадку ввода-вывода)
- Мощность: Примерно 50 мВт пиковой мощности при 250 МГц
- Операционная система: Поддержка системы Linux
- Структура сети: 6-слойная CNN с функциями активации ReLU
- Количество параметров: Примерно 450K параметров, 80% весов сосредоточено в двух слоях
- Функциональность: Деконволюция вклада исходного сигнала в окне из 8 оснований
- Точность: 85% (подходит для обнаружения патогенов, но недостаточна для клинического применения)
- Метод расширения затравки: На основе преобразования Барроуза-Уилера и индекса FM
- Реализация DP: Аппаратно-ускоренное приблизительное выравнивание динамического программирования
- Производительность: Результаты FPGA показывают ускорение в 40 раз по сравнению с чистой реализацией на CPU
- Гетерогенная вычислительная архитектура: Первая тесная интеграция универсального процессора со специализированными ускорителями биоинформатики
- Оптимизация энергоэффективности: 200-кратное улучшение энергоэффективности по сравнению с реализацией ARM Cortex-A53
- Возможность обработки в реальном времени: Оптимизация для анализа генома в реальном времени на мобильных устройствах
- Открытая экосистема: Архитектура на основе RISC-V с открытым исходным кодом, удобная для разработчиков
- Технология производства: GlobalFoundries 22 нм CMOS FDSOI
- Рабочая частота: 250 МГц
- Бюджет мощности: 50 мВт пиковой мощности
- Тесты MLCommons: Оценка производительности по трём уровням: Tiny, Mobile, Edge
- Эталонные системы: ARM Cortex-A53 SoC (16 нм технология)
- Обнаружение патогенов: Для вирусных геномов (например, 30K оснований SARS-CoV-2)
- Basecalling в реальном времени: Скорость обработки, соответствующая потоку данных датчика ДНК
- Ускорение: В 15 раз быстрее, чем чистая реализация на CPU
- Улучшение энергоэффективности: 13-кратное улучшение энергоэффективности
- Скорость обработки: Примерно 30 Кбаз/сек (при 20 мВт, 200 МГц)
- Точность: 85%
- Ускорение: Тесты FPGA показывают ускорение в 40 раз по сравнению с CPU
- Скорость обработки: Примерно 900K оснований/сек при 250 МГц
- Энергоэффективность: 70-кратное улучшение энергоэффективности по сравнению с реализацией FPGA
- Общая мощность: 50 мВт пиковой мощности в системе Linux
- Обработка в реальном времени: Поддержка анализа вирусного генома в реальном времени
- Масштабируемость: Дальнейшее повышение производительности возможно путём увеличения тактовой частоты и расширения ускорителя MAT
- Проблемы связи: Ошибка связи, вызванная системой Linux, привела к взаимной блокировке связи CORE2-ED
- Разрыв в обработке в реальном времени: Текущая скорость basecalling всё ещё ниже возможности реального времени секвенатора ДНК
- Ограничения точности: 85% точность недостаточна для поддержки глубоких клинических приложений
- Basecalling ASIC: Найден только один произведённый basecalling ASIC 16
- Ускорители выравнивания: Проектирование CMOS 55 нм, обеспечивающее масштабируемость 0,25 Гбаз/сек 19
- Обнаружение вариаций: Чип CMOS 28 нм, обеспечивающий скорость обработки 95 Мбаз/сек 24
- Тесты MLCommons: Предоставляет стандартизированную структуру оценки для трёх уровней: Edge, Mobile, Tiny
- Мобильные ИИ-чипы: Решения NPU/GPU для устройств уровня смартфонов
- TinyML: Реализация сверхнизкой мощности ИИ на уровне микроконтроллеров
- Приложения глубокого обучения: Инструменты обнаружения вариаций на основе глубокого обучения, такие как DeepVariant, Clair3
- Традиционные алгоритмы: Классические методы биоинформатики, такие как расширение затравки и динамическое программирование
- Сравнение последовательностей: Обзорное исследование 107 методов выравнивания последовательностей 17
- Проверка осуществимости: Доказана техническая осуществимость анализа генома в реальном времени на мобильных устройствах
- Преимущества энергоэффективности: Специализированное оборудование демонстрирует значительные преимущества в энергоэффективности по сравнению с универсальными процессорами
- Потенциал применения: Особенно подходит для специфических сценариев применения, таких как обнаружение патогенов
- Ограничения точности: Текущая точность basecalling 85% ограничивает область применения
- Разрыв в обработке в реальном времени: Скорость обработки всё ещё не может полностью соответствовать скорости генерации данных датчиком ДНК
- Стабильность системы: Интеграция системы Linux имеет проблемы связи, требующие решения
- Оптимизация производительности: Повышение тактовой частоты и расширение масштаба ускорителя
- Улучшение алгоритмов: Разработка более точных лёгких моделей basecalling
- Интеграция системы: Решение проблем связи и планирования на уровне операционной системы
- Расширение приложений: Исследование дополнительных сценариев применения мобильной геномики
- Сильная инновационность: Первый систематический подход к решению требований оборудования для мобильного геномного анализа
- Высокая практическая ценность: Разработано в соответствии с реальными потребностями приложений с явными перспективами применения
- Полнота технологии: Охватывает полный технологический стек от алгоритмов до реализации оборудования
- Значительная энергоэффективность: Достижение энергоэффективности на порядок выше, чем традиционные решения
- Необходимость повышения точности: 85% точность ограничивает потенциал клинического применения
- Неполные эксперименты: Модуль ED не завершил тестирование на чипе из-за системных ошибок
- Ограниченные сравнения: Отсутствие прямого сравнения с другими специализированными процессорами геномики
- Узкая область применения: Главным образом ориентирован на обнаружение патогенов с ограниченной универсальностью
- Академический вклад: Предоставляет важный справочный материал для проектирования оборудования мобильной геномики
- Промышленная ценность: Указывает направление развития портативных устройств для секвенирования генов
- Технологическая демонстрация: Демонстрирует потенциал применения периферийного ИИ в биомедицинской области
- Обнаружение патогенов на месте: Особенно подходит для мониторинга эпидемий и быстрой диагностики
- Среды с ограниченными ресурсами: Подходит для удалённых районов или сценариев мобильной медицины
- Анализ генома в реальном времени: Приложения, требующие быстрого получения результатов геномного анализа
- Мониторинг личного здоровья: Потенциально может использоваться в будущих устройствах для персонализированного управления здоровьем
Статья цитирует 24 важные справочные работы, охватывающие передовые исследования в нескольких областях, включая биоинформатику, периферийные вычисления и аппаратное ускорение, обеспечивая прочную теоретическую основу и техническую поддержку для данной работы.
Общая оценка: Это новаторская статья в области проектирования оборудования для мобильной геномики. Хотя в отношении точности и стабильности системы ещё есть место для улучшения, её инновационный дизайн архитектуры и значительное улучшение энергоэффективности предоставляют важный технологический путь для развития этой области. Данная работа успешно объединяет глубокое обучение, периферийные вычисления и проектирование специализированного оборудования, представляя собой успешную практику междисциплинарных исследований.