Miniature DNA sequencing hardware has begun to succeed in mobile contexts, driving demand for efficient machine learning at the edge. This domain leverages deep learning techniques familiar from speech and time-series analysis for both low-level signal processing and high-level genomic interpretation. Unlike audio, however, nanopore sequencing presents raw data rates over 100X higher, requiring more aggressive compute and memory handling. In this paper, we present a CMOS system-on-chip (SoC) designed for mobile genetic analysis. Our approach combines a multi-core RISC-V processor with tightly coupled accelerators for deep learning and bioinformatics. A hardware/software co-design strategy enables energy-efficient operation across a heterogeneous compute fabric, targeting real-time, on-device genome analysis. This work exemplifies the integration of deep learning, edge computing, and domain-specific hardware to advance next-generation mobile genomics.
- Paper-ID: 2510.09339
- Titel: Sequencing on Silicon: AI SoC Design for Mobile Genomics at the Edge
- Autoren: Sebastian Magierowski, Zhongpan Wu, Abel Beyene, Karim Hammad
- Klassifizierung: cs.AR (Computerarchitektur), cs.ET (Aufstrebende Technologien)
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.09339
Miniaturisierte DNA-Sequenzierungshardware zeigt zunehmenden Erfolg in mobilen Umgebungen und treibt den Bedarf nach effizienter maschineller Lernverarbeitung am Edge voran. Dieses Feld nutzt bewährte Deep-Learning-Techniken aus der Sprach- und Zeitreihenanalyse für niederstufige Signalverarbeitung und hochstufige genomische Interpretation. Im Gegensatz zu Audio präsentiert Nanoporen-Sequenzierung jedoch Rohdatenraten, die über 100-mal höher sind, was aggressivere Rechen- und Speicherverarbeitung erfordert. Diese Arbeit präsentiert ein speziell für mobile Genomanalyse entworfenes CMOS-System-on-Chip (SoC). Der Ansatz kombiniert Multi-Core-RISC-V-Prozessoren mit eng gekoppelten Deep-Learning- und Bioinformatik-Beschleunigern. Eine Hardware-/Software-Codesign-Strategie ermöglicht energieeffiziente Ausführung auf heterogenen Rechenstrukturen mit dem Ziel der Echtzeit-Genomanalyse auf dem Gerät.
- Datenskalierungsherausforderungen: Genomische Daten wachsen exponentiell; die GenBank-Datenbank verdoppelt sich alle 17 Monate, und die durchschnittliche Sequenzgröße ist um das 20-fache gewachsen
- Echtzeit-Verarbeitungsanforderungen: Miniaturisierte DNA-Sequenzierer erzeugen Echtzeitmessungen mit Datenraten bis zu 30 Mbps, 100-mal höher als Sprachdaten (256 kbps)
- Einschränkungen der mobilen Datenverarbeitung: Herkömmliche Genomanalyse erfordert große Server und GPU-Cluster, nicht geeignet für mobile und Edge-Geräte
- Aufstieg der mobilen Genomik: Miniaturisierte DNA-Sequenzierer (wie in Abbildung 2 gezeigt) ermöglichen Vor-Ort-Genomanalyse
- Edge-AI-Anforderungen: Echtzeit-Genomanalyse auf ressourcenbeschränkten mobilen Geräten erforderlich
- Anwendungsperspektiven: Pathogenerkennung, personalisierte Medizin, Vor-Ort-Diagnostik und weitere Anwendungsszenarien
- Rechenressourcenbedarf: Herkömmliches Basecalling erfordert etwa 50 GFLOP/sec pro DNA-Sensor
- Mangel an ASIC-Forschung: Nur sehr wenige spezialisierte CMOS-ASIC-Designs für mobile Sequenzierung in der Literatur
- Energieeffizienzprobleme: Bestehende Lösungen verbrauchen zu viel Energie für mobile Anwendungen
- Systematisches Framework für Edge-Genomik: Basierend auf der MLCommons-Benchmark-Suite, Klassifizierung von Edge-Geräten in Tiny-, Mobile- und Edge-Ebenen
- Design und Implementierung eines spezialisierten SoC: Heterogenes SoC in 22nm CMOS-Technologie mit integrierten RISC-V-Prozessoren und spezialisierten Beschleunigern
- Realisierung von Hardware-/Software-Codesign: Optimierungsstrategien für Genomanalyse-Workloads
- Validierung der Machbarkeit mobiler Genomanalyse: Echtzeit-Pathogenerkennung bei 50mW Stromverbrauch
Diese Arbeit behandelt die vollständige Pipeline der mobilen Genomanalyse, hauptsächlich bestehend aus:
- Basecalling: Umwandlung elektrochemischer Signale in Nukleotidsequenzen
- Alignment: Abgleich von Reads mit dem Referenzgenom
- Variant Calling: Identifikation genomischer Unterschiede
Wie in Abbildung 4 gezeigt, umfasst das SoC folgende Kernkomponenten:
- Dual-Core-RISC-V-Prozessor (CORE1, CORE2): 64-Bit Linux-kompatibel mit Gleitkommaeinheit
- Matrix-Rechenaccelerator (MAT): 4×4 systolisches Array für Deep-Learning-Inferenz
- Edit-Distance-Engine (ED): Spezialisiert auf dynamische Programmierung für Sequenzvergleich
- On-Chip-Speicher: 700KB SRAM, verteilt zwischen Cache und Beschleunigern
- Technologie: GlobalFoundries 22nm CMOS FDSOI
- Fläche: 5mm² (einschließlich I/O-Pads)
- Stromverbrauch: Etwa 50mW Spitzenstromverbrauch bei 250MHz
- Betriebssystem: Linux-Systemunterstützung
- Netzwerkstruktur: 6-schichtiges CNN mit ReLU-Aktivierungsfunktion
- Parameteranzahl: Etwa 450K Parameter, 80% der Gewichte in zwei Schichten konzentriert
- Funktionalität: Dekonvolution von Rohsignalbeiträgen innerhalb eines 8-Basen-Fensters
- Genauigkeit: 85% (geeignet für Pathogenerkennung, aber unzureichend für klinische Anwendungen)
- Seed-Extension-Methode: Basierend auf Burrows-Wheeler-Transformation und FM-Index
- DP-Implementierung: Hardwarebeschleunigtes approximatives dynamisches Programmier-Alignment
- Leistung: FPGA-Ergebnisse zeigen 40-fache Beschleunigung gegenüber reiner CPU-Implementierung
- Heterogene Rechenarchitektur: Erstmalige enge Integration von Universalprozessoren mit spezialisierten Bioinformatik-Beschleunigern
- Energieeffizienz-Optimierung: 200-fache Energieeffizienzverbesserung gegenüber ARM Cortex-A53-Implementierung
- Echtzeit-Verarbeitungsfähigkeit: Optimierung für Echtzeit-Genomanalyse auf mobilen Geräten
- Open-Source-Ökosystem: RISC-V-basierte Open-Source-Architektur für einfachere Entwickleradoption
- Fertigungstechnologie: GlobalFoundries 22nm CMOS FDSOI
- Betriebsfrequenz: 250MHz
- Strombudget: 50mW Spitzenwert
- MLCommons-Benchmark: Leistungsbewertung nach Tiny-, Mobile- und Edge-Ebenen
- Vergleichsbenchmark: ARM Cortex-A53 SoC (16nm Technologie)
- Pathogenerkennung: Für Virusgenom (z.B. SARS-CoV-2 mit 30K Basen)
- Echtzeit-Basecalling: Verarbeitungsgeschwindigkeit abgestimmt auf DNA-Sensor-Datenstrom
- Beschleunigungsfaktor: 15-fach schneller als reine CPU-Implementierung
- Energieeffizienzverbesserung: 13-fache Verbesserung
- Verarbeitungsrate: Etwa 30 Kbasen/Sekunde (bei 20mW, 200MHz)
- Genauigkeit: 85%
- Beschleunigungsfaktor: FPGA-Tests zeigen 40-fache Beschleunigung gegenüber CPU
- Verarbeitungsrate: Etwa 900K Basen/Sekunde bei 250MHz
- Energieeffizienz: 70-fache Energieeffizienzverbesserung gegenüber FPGA-Implementierung
- Gesamtstromverbrauch: 50mW Spitzenwert unter Linux-System
- Echtzeit-Fähigkeit: Unterstützt Echtzeit-Analyse von Virusgenom
- Skalierbarkeit: Weitere Leistungssteigerung durch Erhöhung der Taktfrequenz und Erweiterung des MAT-Beschleunigers möglich
- Kommunikationsprobleme: Linux-System-Kommunikationsfehler führt zu Deadlock zwischen CORE2-ED
- Echtzeit-Verarbeitungslücke: Aktuelle Basecalling-Rate bleibt unter der Echtzeit-Messfähigkeit des DNA-Sequenzierers
- Genauigkeitsbeschränkung: 85% Genauigkeit unzureichend für tiefe klinische Anwendungen
- Basecalling-ASIC: Nur ein hergestelltes Basecalling-ASIC gefunden 16
- Alignment-Beschleuniger: 55nm CMOS-Design mit 0,25 Gbases/Sekunde Durchsatzfähigkeit 19
- Variantendetection: 28nm CMOS-Chip mit 95 Mbases/Sekunde Verarbeitungsgeschwindigkeit 24
- MLCommons-Benchmark: Standardisiertes Bewertungsframework für Edge-, Mobile- und Tiny-Ebenen
- Mobile-AI-Chips: NPU/GPU-Lösungen für Smartphone-Geräte
- TinyML: Ultraniedriger Stromverbrauch AI-Implementierung auf Mikrocontroller-Ebene
- Deep-Learning-Anwendungen: DeepVariant, Clair3 und andere Deep-Learning-basierte Variantendetektionstools
- Klassische Algorithmen: Seed-Extension, dynamische Programmierung und andere klassische Bioinformatik-Methoden
- Sequenzvergleich: Übersichtsforschung zu 107 Sequenzalignment-Methoden 17
- Machbarkeitsvalidierung: Beweis der technischen Machbarkeit von Echtzeit-Genomanalyse auf mobilen Geräten
- Energieeffizienz-Vorteile: Spezialisierte Hardware zeigt signifikante Energieeffizienzvorteile gegenüber Universalprozessoren
- Anwendungspotenzial: Besonders geeignet für spezifische Anwendungsszenarien wie Pathogenerkennung
- Genauigkeitsbeschränkung: Aktuelle 85% Basecalling-Genauigkeit begrenzt Anwendungsbereich
- Echtzeit-Verarbeitungslücke: Verarbeitungsgeschwindigkeit kann DNA-Sensor-Datenerzeugungsrate nicht vollständig abgleichen
- Systemstabilität: Linux-Systemintegration weist Kommunikationsprobleme auf, die gelöst werden müssen
- Leistungsoptimierung: Erhöhung der Taktfrequenz und Erweiterung der Beschleunigergröße
- Algorithmus-Verbesserung: Entwicklung präziserer leichtgewichtiger Basecalling-Modelle
- Systemintegration: Lösung von Betriebssystem-Kommunikations- und Planungsproblemen
- Anwendungserweiterung: Erkundung weiterer mobiler Genomik-Anwendungsszenarien
- Starke Innovativität: Erstmalige systematische Lösung der Hardwareanforderungen für mobile Genomanalyse
- Hoher praktischer Wert: Auf echte Anwendungsanforderungen ausgerichtet mit klaren Anwendungsperspektiven
- Umfassende Technologie: Abdeckung des vollständigen Technologie-Stacks von Algorithmen bis Hardwareimplementierung
- Signifikante Energieeffizienz: Größenordnungs-Energieeffizienzverbesserung gegenüber herkömmlichen Lösungen
- Genauigkeit zu verbessern: 85% Genauigkeit begrenzt klinisches Anwendungspotenzial
- Unvollständige Experimente: ED-Modul konnte aufgrund von Systemfehlern nicht auf dem Chip getestet werden
- Begrenzte Vergleiche: Mangel an direktem Vergleich mit anderen spezialisierten Genomik-Prozessoren
- Enge Anwendungsbereich: Hauptsächlich auf Pathogenerkennung ausgerichtet, begrenzte Universalität
- Akademischer Beitrag: Wichtige Referenz für Hardware-Design in mobiler Genomik
- Industrieller Wert: Weist Richtung für Entwicklung tragbarer Gensequenzierungsgeräte
- Technologische Demonstration: Zeigt Anwendungspotenzial von Edge-AI in biomedizinischen Bereichen
- Vor-Ort-Pathogenerkennung: Besonders geeignet für Epidemieüberwachung und schnelle Diagnostik
- Ressourcenbeschränkte Umgebungen: Geeignet für abgelegene Gebiete oder mobile Medizinszenarien
- Echtzeit-Genomanalyse: Anwendungen, die schnelle Genomanalyseergebnisse benötigen
- Persönliche Gesundheitsüberwachung: Zukünftige Verwendung in personalisierten Gesundheitsmanagementsystemen
Das Papier zitiert 24 wichtige Referenzen, die Forschungen aus mehreren Bereichen wie Bioinformatik, Edge-Computing und Hardware-Beschleunigung abdecken und eine solide theoretische Grundlage und technische Unterstützung für diese Arbeit bieten.
Gesamtbewertung: Dies ist ein bahnbrechendes Papier im Bereich des Hardware-Designs für mobile Genomik. Obwohl es noch Verbesserungen in Genauigkeit und Systemstabilität gibt, bietet sein innovatives Architektur-Design und signifikante Energieeffizienzverbesserungen einen wichtigen technischen Weg für die Entwicklung dieses Feldes. Diese Arbeit kombiniert erfolgreich Deep Learning, Edge-Computing und spezialisiertes Hardware-Design und stellt eine erfolgreiche Praxis interdisziplinärer Forschung dar.