The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.
- Paper-ID: 2510.13362
- Titel: Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks
- Autoren: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
- Institutionen: ¹Aristoteles-Universität Thessaloniki, ²Internationale Hellenische Universität
- Klassifizierung: cs.AR (Computerarchitektur)
- Paper-Link: https://arxiv.org/abs/2510.13362
Mit dem wachsenden Bedarf an Echtzeitverarbeitung in KI-Anwendungen, insbesondere bei Anwendungen mit Faltungsneuronalen Netzen (CNNs), wird die Nachfrage nach effizienten Rechenlösungen immer dringlicher. Herkömmliche Prozessoren zeigen oft Schwächen beim Ausgleich von Leistung, Stromverbrauch und Latenz, besonders auf eingebetteten Systemen und Edge-Computing-Plattformen. Feldprogrammierbare Gate-Arrays (FPGAs) bieten eine vielversprechende Alternative, die hohe Leistung, Energieeffizienz und Rekonfigurierbarkeit kombiniert. Das in diesem Artikel vorgestellte Framework verarbeitet die komplexen Rechnanforderungen von CNNs auf FPGAs, während gleichzeitig die vollständige Präzision aller Netzwerkparameter beibehalten wird. Das Framework basiert auf dem weit verbreiteten Darknet-CNN-Designframework und ermöglicht es Designern, Eingaben ähnlich wie Darknet zu verwenden, um CNNs in heterogenen Systemen mit CPU und FPGA effizient zu implementieren. Im Vergleich zu FPGA-Frameworks, die Quantisierung unterstützen, zielt diese Lösung darauf ab, ähnliche Leistung und/oder Energieeffizienz zu bieten, ohne die Genauigkeit des neuronalen Netzes zu beeinträchtigen.
Das Kernproblem dieser Forschung ist die effiziente Implementierung nicht quantisierter Faltungsneuronaler Netze auf FPGAs, wobei gleichzeitig hohe Leistung und Energieeffizienz erreicht werden, während die vollständige Präzision der Parameter erhalten bleibt.
- Wachsender Echtzeitverarbeitungsbedarf: KI-Anwendungen, insbesondere CNN-Anwendungen, erfordern zunehmend Echtzeitverarbeitung
- Einschränkungen herkömmlicher Prozessoren: Herkömmliche CPUs weisen Unzulänglichkeiten beim Ausgleich von Leistung, Stromverbrauch und Latenz auf
- Herausforderungen bei eingebetteten und Edge-Computing-Systemen: Ressourcenbegrenzte Geräte benötigen effizientere Rechenlösungen
- Genauigkeitsverlust durch Quantisierungsmethoden: Bestehende FPGA-Frameworks konzentrieren sich hauptsächlich auf quantisierte Modelle, die zwar Ressourcennutzung und Stromverbrauch reduzieren, aber oft auf Kosten der Genauigkeit
- Designkomplexität: Mangel an benutzerfreundlichen und effizienten Designprozessen
- Kompromiss zwischen Leistung und Präzision: Schwierigkeit, hohe Leistung und Energieeffizienz zu erreichen und gleichzeitig vollständige Präzision beizubehalten
Entwicklung eines Frameworks, das nicht quantisierte CNNs auf FPGAs implementieren kann, während es sowohl die hohe Genauigkeit des Modells als auch hervorragende Leistungs- und Energieeffizienzleistungen beibehält.
- Beibehaltung der Genauigkeit: Durch Vermeidung von Quantisierung und Beibehaltung vollständiger Präzision zielt das Framework darauf ab, die Genauigkeit des CNN-Modells zu bewahren
- Hohe Designproduktivität und Flexibilität: Basierend auf dem weit verbreiteten DarkNet-CNN-Designframework mit reiner C/C++-Implementierung, unterstützt eine vollständige Serie von FPGAs von klein bis groß
- Hohe Leistung: Vollständige Nutzung der Parallelität jeder FPGA zur Beschleunigung des CNN-Inferenzprozesses, um zeitnahe und effiziente Verarbeitung zu gewährleisten
- Energieeffizienzoptimierung: Optimierung der Stromverbrauchseffizienz für CNN-Inferenz auf FPGAs, geeignet für stromverbrauchssensitive Anwendungen
Die in diesem Artikel untersuchte Aufgabe ist die Implementierung effizienter nicht quantisierter CNN-Inferenz auf FPGAs, wobei die Eingabe CNN-Modellkonfigurationsdateien (ähnlich dem Darknet-Format) sind und die Ausgabe eine hochleistungsfähige CNN-Implementierung auf heterogenen CPU-FPGA-Systemen ist.
Wie in Abbildung 1 dargestellt, folgt das Framework dem folgenden Architekturdesign:
- Eingabeverarbeitung: Importieren neuer cfg-Dateien in das Tool
- Vorverarbeitung: Parallele Vorverarbeitung mit OpenMP
- Parser: Analyse der Netzwerkstruktur, Identifikation von Faltungsschichten, Entfaltungsschichten und anderen Schichten
- Rechenmodul: Innovatives HLS-Rechenmodul als Kernkomponente
- Parallele Verarbeitung: Parallele Verarbeitung mit OpenMP
- FPGA-Implementierung: Endgültige Implementierung des neuronalen Netzes auf der FPGA
Das innovative Rechenmodul nutzt High-Level-Synthesis (HLS)-Technologie, um mehrere mathematische Operationen in einem einzelnen Taktzyklus auszuführen und dadurch relativ hohen Durchsatz und Leistung zu erreichen.
Wie in Abbildung 2 dargestellt, befasst sich der HLS-FPGA-Kern hauptsächlich mit Matrixmultiplikationsaufgaben, die das Fundament fast aller CNN-Implementierungen bilden:
- Speicheroptimierung: Nutzung des internen BRAM in Kombination mit HLS-Streams zur Optimierung der Zugriffsmuster des On-Chip-Speichers
- Stream-Verarbeitungsmechanismus:
- Implementierung kontinuierlicher Datenströme zwischen Verarbeitungselementen ohne Zwischenspeicherung in BRAM
- Reduzierung von Latenz und Ressourcenaufwand
- Unterstützung von Pipeline-Ausführung und Verbesserung der Parallelität
- Direkte Datenübertragung zwischen Produzenten- und Konsumentenprozessen
- Nutzung mehrerer Speicherkanäle:
- Nutzung mehrerer Speicherbänke und dedizierter Kanäle, die mit modernen FPGAs verbunden sind
- Einfügung geeigneter HLS-Direktiven zur Verteilung der Datenübertragung auf eine parametrisierbare Anzahl von Speicherbänken/Kanälen
- Vollständige Nutzung der verfügbaren Bandbreite jeder Speicherschnittstelle
- Hochbandbreiten-Datenübertragung: Die Datenübertragung zwischen CPU und FPGA erfolgt mit voller Datenbreite (512 Bit) pro Taktzyklus, um hochdurchsätzige Kommunikation zwischen Verarbeitungselementen und Speichersubsystem zu gewährleisten
- Beibehaltung vollständiger Präzision: Im Gegensatz zu bestehenden Quantisierungsmethoden behält dieses Framework die vollständige Präzision aller Parameter bei
- Stream-Verarbeitungsoptimierung: Innovativer Stream-Verarbeitungsmechanismus reduziert die Abhängigkeit von BRAM und verbessert die Ressourcennutzungseffizienz
- Multi-Channel-Speicherzugriff: Vollständige Nutzung der Multi-Channel-Speichereigenschaften moderner FPGAs
- Darknet-basierter Designprozess: Bereitstellung einer vertrauten und benutzerfreundlichen Designschnittstelle
- High-End-FPGA: AMD Alveo U55C
- Embedded-FPGA: Kria KR260
- Vergleichs-CPUs: Intel Xeon E5-2620 v4 (8 Kerne) und ARM Cortex-A53 (4 Kerne)
- Vergleichs-GPU: NVIDIA T4
- Matrixdimensionen: M=2048, K=4096, N=16384
- Datentyp: FP32 (32-Bit-Gleitkomma)
- Testzweck: Auswahl von Matrixdimensionen außerhalb der Spitzenleistung zur Demonstration der Flexibilität der Methode
- Leistung: GFLOPS (Milliarden Gleitkommaoperationen pro Sekunde)
- Energieeffizienz: GFLOPS/Watt
- Beschleunigungsfaktor: Leistungssteigerung relativ zu Referenzimplementierung und paralleler CPU-Implementierung
- Relativ zur Referenzimplementierung: Leistungssteigerung um zwei Größenordnungen
- Relativ zu ARM 4-Kern-CPU: 9-fache Leistungssteigerung
- Energieeffizienzsteigerung: 9-fache Verbesserung gegenüber der besten parallelen CPU-Implementierung
- Relativ zur Referenzimplementierung: Leistungssteigerung um etwa drei Größenordnungen
- Relativ zu Intel Xeon CPU: 10-fache Leistungssteigerung
- Energieeffizienzsteigerung: 34-fache Verbesserung gegenüber der besten parallelen CPU-Implementierung
- Relativ zu NVIDIA T4 GPU: 3-fache Energieeffizienzsteigerung (obwohl T4 eine fortschrittlichere 12-nm-Technologie nutzt, während U55C 16 nm verwendet)
- Signifikante Leistungssteigerung: Größenordnungsverbesserungen auf allen Testplattformen erreicht
- Hervorragende Energieeffizienzleistung: Besonders auf Alveo U55C 34-fache Energieeffizienzsteigerung erreicht
- Technologischer Vorteil: Übertreffung der GPU-Energieeffizienz trotz Prozessknoten-Nachteils
- Konsistenzvalidierung: Experimentelle Ergebnisse bei verschiedenen Matrixdimensionen vollständig konsistent mit in Abbildung 3 gezeigten Ergebnissen
Das Papier zitiert die folgenden verwandten Arbeiten:
- Xu et al. (2024): FLARE - FPGA-basierter Vollpräzisions-Niedrigleistungs-CNN-Beschleuniger mit rekonfigurierbarer Struktur
- Chen et al. (2021): Lernframework für n-Bit-quantisierte neuronale Netze für FPGAs
- Latotzke et al. (2022): Design hochdurchsätziger Mixed-Precision-CNN-Beschleuniger auf FPGAs
Der Hauptunterschied dieses Papiers zu verwandten Arbeiten liegt in der Konzentration auf nicht quantisierte Implementierungen, die hohe Leistung und Energieeffizienz erreichen, während vollständige Präzision beibehalten wird.
- Erfolgreiche Lösung kritischer Anforderungen: Diese Forschung löst erfolgreich die kritischen Anforderungen für effiziente CNN-Implementierung in stromverbrauchsbeschränkten Umgebungen
- Gleichgewicht zwischen Leistung und Energieeffizienz: Das vorgeschlagene nicht quantisierte FPGA-CNN-Framework kombiniert erfolgreich hohe Leistung und Energieeffizienz
- Genauigkeitsgarantie: Durch Beibehaltung vollständiger Präzision der Netzwerkparameter wird hohe Genauigkeit erreicht, ohne Ressourcennutzung oder Stromverbrauch zu beeinträchtigen
- Experimentelle Validierung der Wirksamkeit: Experimentelle Ergebnisse validieren die Wirksamkeit des Frameworks und zeigen signifikante Beschleunigung der Inferenzverarbeitung und erhebliche Reduzierung der Stromverbrauchsnutzung
- Begrenzte Testabdeckung: Experimente konzentrieren sich hauptsächlich auf Matrixmultiplikationsoperationen, detaillierte Testergebnisse für vollständige CNN-Netzwerke fehlen
- Genauigkeitsvalidierung: Obwohl Genauigkeitsbeibehaltung behauptet wird, fehlen konkrete Genauigkeitsvergleichsdaten
- Anwendungsbereich: Die Anwendbarkeit des Frameworks kann durch FPGA-Ressourcen und spezifische Anwendungsanforderungen begrenzt sein
Das Papier erwähnt keine spezifischen zukünftigen Forschungsrichtungen, aber es kann abgeleitet werden, dass diese Folgendes umfassen:
- Umfassendere CNN-Netzwerktests und Validierung
- Weitere Energieeffizienzoptimierung
- Unterstützung für mehr Arten von neuronalen Netzwerkschichten
- Technische Innovativität:
- Erreichung hochleistungsfähiger FPGA-CNN-Implementierung unter Beibehaltung vollständiger Präzision
- Innovatives HLS-Rechenmodul-Design mit effektiver Nutzung von Stream-Verarbeitung und Multi-Channel-Speicher
- Experimentelle Vollständigkeit:
- Umfassende Tests auf mehreren Hardware-Plattformen durchgeführt
- Vergleichsexperimente mit CPU und GPU enthalten
- Detaillierte Messungen von Leistungs- und Energieeffizienzmetriken
- Praktischer Wert:
- Basierend auf dem weit verbreiteten Darknet-Framework, leicht zu übernehmen
- Unterstützung für vollständige Serie von FPGAs von klein bis groß
- Geeignet für stromverbrauchssensitive Anwendungsszenarien
- Überzeugungskraft der Ergebnisse:
- Größenordnungsleistungssteigerungen erreicht
- Hervorragende Leistung bei mehreren Metriken
- GPU-Energieeffizienz sogar unter Prozessknoten-Nachteil übertroffen
- Unzureichende Vollständigkeitsvalidierung:
- Mangel an End-to-End-Testergebnissen für vollständige CNN-Netzwerke
- Fehlende konkrete Validierungsdaten zur Genauigkeitsbeibehaltung
- Haupttests konzentrieren sich auf Matrixmultiplikationsebene
- Auswahl der Vergleichsmaßstäbe:
- Referenzimplementierung möglicherweise nicht ausreichend optimiert
- Mangel an Vergleichen mit anderen fortschrittlichen FPGA-CNN-Frameworks
- Unzureichende technische Details:
- Beschreibung spezifischer HLS-Optimierungsstrategien nicht ausreichend detailliert
- Fehlende Ressourcennutzungsdaten
- Unzureichende Analyse der Speicherbandbreitennutzungseffizienz
- Anwendbarkeitanalyse:
- Unzureichende Diskussion der Methodenlimitierungen und des Anwendungsbereichs
- Unzureichende Skalierbarkeitsanalyse für verschiedene CNN-Größen
- Akademischer Beitrag:
- Bereitstellung neuer Lösungen für nicht quantisierte FPGA-CNN-Implementierung
- Erreichung hoher Leistung und Energieeffizienz unter Beibehaltung der Genauigkeit mit wichtigem theoretischen Wert
- Praktischer Wert:
- Basierend auf ausgereifter Toolchain, leicht für technische Implementierung
- Geeignet für Edge-Computing- und Embedded-AI-Anwendungen
- Reproduzierbarkeit:
- Basierend auf Standard-HLS-Tools und Open-Source-Darknet-Framework
- Relativ klare technische Route mit gewisser Reproduzierbarkeit
- Edge-AI-Anwendungen: Stromverbrauchssensitive Szenarien mit hohen Genauigkeitsanforderungen
- Echtzeit-Bildverarbeitung: Visuelles Verarbeitungsaufgaben, die niedrige Latenz und hohe Leistung erfordern
- Eingebettete Systeme: Ressourcenbegrenzte Geräte, die KI-Fähigkeiten benötigen
- Industrielle Automatisierung: Industrie-KI-Anwendungen mit hohen Zuverlässigkeits- und Genauigkeitsanforderungen
1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24
2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.
3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.
Gesamtbewertung: Dies ist ein Papier mit praktischem Wert im Bereich der FPGA-CNN-Beschleuniger, das eine innovative Lösung zur Beibehaltung vollständiger Präzision vorschlägt und beeindruckende experimentelle Ergebnisse zeigt. Das Papier hat jedoch Raum für Verbesserungen bei der Vollständigkeitsvalidierung und der Beschreibung technischer Details. Für KI-Anwendungsszenarien, die hohe Genauigkeit erfordern, hat dieses Framework wichtige Anwendungsperspektiven.