The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.
- ID del Artículo: 2510.13362
- Título: Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks
- Autores: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
- Instituciones: ¹Universidad Aristóteles de Tesalónica, ²Universidad Helénica Internacional
- Clasificación: cs.AR (Arquitectura de Computadoras)
- Enlace del Artículo: https://arxiv.org/abs/2510.13362
Con el crecimiento continuo de las demandas de procesamiento en tiempo real en aplicaciones de inteligencia artificial, particularmente en aplicaciones que involucran redes neuronales convolucionales (CNN), la necesidad de soluciones computacionales eficientes es cada vez más evidente. Los procesadores tradicionales a menudo muestran un desempeño insuficiente al equilibrar rendimiento, consumo de energía y latencia, especialmente en sistemas embebidos y plataformas de computación perimetral. Los arreglos de puertas programables en campo (FPGA) ofrecen una alternativa prometedora que combina alto rendimiento, eficiencia energética y reconfigurabilidad. El marco propuesto en este artículo aborda los complejos requisitos computacionales del procesamiento de CNN en FPGA, manteniendo simultáneamente la precisión completa de todos los parámetros de la red neuronal. El marco se basa en el ampliamente utilizado marco de diseño CNN Darknet, permitiendo a los diseñadores utilizar entradas similares a Darknet para implementar eficientemente CNN en sistemas heterogéneos que contienen CPU y FPGA. En comparación con marcos FPGA que soportan cuantización, esta solución tiene como objetivo proporcionar rendimiento y/o eficiencia energética similar sin sacrificar la precisión de la red neuronal.
El problema central que aborda esta investigación es cómo implementar eficientemente redes neuronales convolucionales no cuantizadas en FPGA, logrando alto rendimiento y eficiencia energética mientras se mantienen parámetros de precisión completa.
- Crecimiento de Demandas de Procesamiento en Tiempo Real: Las aplicaciones de IA, particularmente las aplicaciones CNN, requieren cada vez más procesamiento en tiempo real
- Limitaciones de Procesadores Tradicionales: Los CPU tradicionales presentan deficiencias al equilibrar rendimiento, consumo de energía y latencia
- Desafíos en Computación Embebida y Perimetral: Los dispositivos con recursos limitados requieren soluciones computacionales más eficientes
- Pérdida de Precisión en Métodos de Cuantización: Los marcos FPGA existentes se enfocaban principalmente en modelos cuantizados, que aunque reducen el uso de recursos y consumo de energía, a menudo sacrifican la precisión
- Complejidad de Diseño: Falta de procesos de diseño fáciles de usar y eficientes
- Equilibrio entre Rendimiento y Precisión: Dificultad para lograr alto rendimiento y eficiencia energética mientras se mantiene la precisión completa
Desarrollar un marco capaz de implementar CNN no cuantizadas en FPGA que mantenga la alta precisión del modelo mientras logra un rendimiento y eficiencia energética excepcionales.
- Preservación de Precisión: Al evitar la cuantización y mantener la precisión completa, el marco tiene como objetivo preservar la precisión del modelo CNN
- Alta Productividad de Diseño y Flexibilidad: Basado en el ampliamente utilizado marco de diseño CNN DarkNet, implementado en C/C++ puro, soportando FPGA de todos los tamaños, desde pequeños hasta grandes
- Alto Rendimiento: Aprovecha plenamente el paralelismo de cualquier FPGA para acelerar el proceso de inferencia CNN, asegurando procesamiento oportuno y eficiente
- Optimización de Eficiencia Energética: Optimizado para la eficiencia de potencia en la inferencia CNN en FPGA, aplicable a aplicaciones sensibles al consumo de energía
La tarea investigada en este artículo es implementar inferencia CNN no cuantizada eficiente en FPGA, con entrada de archivos de configuración de modelos CNN (formato similar a Darknet) y salida de implementación CNN de alto rendimiento en sistemas heterogéneos CPU-FPGA.
Según se muestra en la Figura 1, el marco adopta el siguiente diseño arquitectónico:
- Procesamiento de Entrada: Importar nuevo archivo cfg a la herramienta
- Preprocesamiento: Preprocesamiento paralelo utilizando OpenMP
- Analizador: Analizar la estructura de la red, identificar capas convolucionales, capas de deconvolución y otras capas
- Motor de Cálculo: Motor de cálculo HLS innovador como componente central
- Procesamiento Paralelo: Procesamiento paralelo utilizando OpenMP
- Implementación FPGA: Implementación final de la red neuronal en FPGA
El motor de cálculo innovador utiliza tecnología de síntesis de alto nivel (HLS), capaz de ejecutar múltiples operaciones matemáticas en un único ciclo de reloj, logrando un rendimiento y desempeño relativamente altos.
Como se muestra en la Figura 2, el núcleo FPGA HLS maneja principalmente tareas de multiplicación de matrices, que es la piedra angular de casi todas las implementaciones CNN:
- Optimización de Memoria: Utiliza BRAM interno combinado con flujos HLS para optimizar patrones de acceso a memoria en chip
- Mecanismo de Procesamiento de Flujos:
- Implementa flujo de datos continuo entre elementos de procesamiento sin necesidad de almacenamiento intermedio en BRAM
- Reduce latencia y sobrecarga de recursos
- Soporta ejecución de canalización y mejora el paralelismo
- Transmite datos directamente entre procesos productor y consumidor
- Utilización de Múltiples Canales de Memoria:
- Aprovecha múltiples bancos de memoria y canales dedicados conectados a FPGA modernas
- Inserta instrucciones HLS apropiadas para asignar transferencias de datos a una cantidad parametrizable de bancos/canales de memoria
- Utiliza plenamente el ancho de banda disponible de cada interfaz de memoria
- Transferencia de Datos de Alto Ancho de Banda: La transferencia de datos entre CPU y FPGA se realiza con ancho de datos completo (512 bits) por ciclo de reloj, asegurando comunicación de alto rendimiento entre elementos de procesamiento y subsistemas de memoria
- Preservación de Precisión Completa: A diferencia de métodos de cuantización existentes, este marco mantiene la precisión completa de todos los parámetros
- Optimización de Procesamiento de Flujos: Mecanismo innovador de procesamiento de flujos que reduce la dependencia de BRAM y mejora la eficiencia de utilización de recursos
- Acceso a Memoria Multicanal: Aprovecha plenamente las características de múltiples canales de memoria de FPGA modernas
- Proceso de Diseño Basado en Darknet: Proporciona una interfaz de diseño familiar y fácil de usar
- FPGA de Alto Rendimiento: AMD Alveo U55C
- FPGA Embebida: Kria KR260
- CPU de Comparación: Intel Xeon E5-2620 v4 (8 núcleos) y ARM Cortex-A53 (4 núcleos)
- GPU de Comparación: NVIDIA T4
- Dimensiones de Matriz: M=2048, K=4096, N=16384
- Tipo de Datos: FP32 (punto flotante de 32 bits)
- Propósito de Prueba: Seleccionar dimensiones de matriz de rendimiento no pico para demostrar la flexibilidad del método
- Rendimiento: GFLOPS (mil millones de operaciones de punto flotante por segundo)
- Eficiencia Energética: GFLOPS/Watt
- Razón de Aceleración: Mejora de rendimiento relativa a implementación de referencia e implementación CPU paralela
- Relativo a Implementación de Referencia: Mejora de rendimiento de 2 órdenes de magnitud
- Relativo a CPU ARM de 4 Núcleos: Mejora de rendimiento de 9 veces
- Mejora de Eficiencia Energética: 9 veces superior a la mejor implementación CPU paralela
- Relativo a Implementación de Referencia: Mejora de rendimiento de aproximadamente 3 órdenes de magnitud
- Relativo a CPU Intel Xeon: Mejora de rendimiento de 10 veces
- Mejora de Eficiencia Energética: 34 veces superior a la mejor implementación CPU paralela
- Relativo a GPU NVIDIA T4: Mejora de eficiencia energética de 3 veces (aunque T4 utiliza proceso de 12nm más avanzado, mientras que U55C es de 16nm)
- Mejora Significativa de Rendimiento: Se logró mejora de rendimiento de órdenes de magnitud en todas las plataformas de prueba
- Desempeño Excepcional de Eficiencia Energética: Particularmente en Alveo U55C se logró mejora de eficiencia energética de 34 veces
- Ventaja Técnica: Incluso bajo desventaja de proceso tecnológico, aún supera el desempeño de eficiencia energética de GPU
- Validación de Consistencia: Los resultados experimentales con diferentes dimensiones de matriz son completamente consistentes con los resultados mostrados en la Figura 3
El artículo cita el siguiente trabajo relacionado:
- Xu et al. (2024): FLARE - Acelerador CNN de precisión completa y bajo consumo basado en FPGA con estructura reconfigurable
- Chen et al. (2021): Marco de aprendizaje de redes neuronales cuantizadas de n bits para FPGA
- Latotzke et al. (2022): Diseño de acelerador CNN de precisión mixta de alto rendimiento en FPGA
La principal diferencia de este artículo con el trabajo relacionado radica en el enfoque en implementación no cuantizada, logrando alto rendimiento y eficiencia energética mientras se mantiene la precisión completa.
- Resolución Exitosa de Necesidades Críticas: Esta investigación resuelve exitosamente la necesidad crítica de implementación CNN eficiente en entornos con restricciones de potencia
- Énfasis en Rendimiento y Eficiencia Energética: El marco FPGA CNN no cuantizado propuesto combina exitosamente alto rendimiento y eficiencia energética
- Garantía de Precisión: Logra alta precisión manteniendo la precisión completa de los parámetros de la red, sin obstaculizar la utilización de recursos o consumo de energía
- Validación Experimental de Efectividad: Los resultados experimentales validan la efectividad del marco, mostrando aceleración significativa del procesamiento de inferencia y reducción sustancial del uso de energía
- Alcance de Pruebas: Los experimentos se concentran principalmente en operaciones de multiplicación de matrices, con resultados de pruebas de redes CNN completas no mostrados en detalle
- Validación de Precisión: Aunque se afirma mantener la precisión, faltan datos específicos de comparación de precisión
- Rango de Aplicabilidad: La aplicabilidad del marco puede estar limitada por recursos FPGA y requisitos de aplicaciones específicas
El artículo no menciona explícitamente direcciones de investigación futuras específicas, pero se puede inferir que incluyen:
- Pruebas y validación de redes CNN más amplias
- Optimización adicional de eficiencia energética
- Soporte para más tipos de capas de redes neuronales
- Innovación Técnica:
- Logra implementación FPGA CNN de alto rendimiento manteniendo precisión completa
- Diseño innovador del motor de cálculo HLS que utiliza efectivamente procesamiento de flujos y múltiples canales de memoria
- Suficiencia Experimental:
- Pruebas exhaustivas en múltiples plataformas de hardware
- Incluye experimentos de comparación con CPU y GPU
- Mediciones detalladas de métricas de rendimiento y eficiencia energética
- Valor Práctico:
- Basado en el ampliamente utilizado marco Darknet, fácil de adoptar
- Soporta FPGA de todos los tamaños, desde pequeños hasta grandes
- Aplicable a escenarios de aplicaciones sensibles al consumo de energía
- Convincencia de Resultados:
- Logra mejora de rendimiento de órdenes de magnitud
- Desempeño excepcional en múltiples métricas
- Supera la eficiencia energética de GPU incluso bajo desventaja de proceso
- Verificación Incompleta:
- Falta de resultados de pruebas de extremo a extremo de redes CNN completas
- Ausencia de datos específicos de verificación de preservación de precisión
- Pruebas principalmente concentradas en nivel de multiplicación de matrices
- Selección de Puntos de Referencia:
- La implementación de referencia puede no estar suficientemente optimizada
- Falta de comparación con otros marcos FPGA CNN avanzados
- Insuficiencia de Detalles Técnicos:
- Descripción insuficiente de estrategias de optimización específicas de implementación HLS
- Datos de utilización de recursos faltantes
- Análisis insuficiente de eficiencia de utilización de ancho de banda de memoria
- Análisis de Aplicabilidad:
- Discusión insuficiente de limitaciones del método y rango de aplicabilidad
- Análisis insuficiente de escalabilidad para CNN de diferentes tamaños
- Contribución Académica:
- Proporciona nueva solución para implementación FPGA CNN no cuantizada
- Logra alto rendimiento manteniendo precisión, con valor teórico importante
- Valor Práctico:
- Basado en cadena de herramientas madura, conveniente para implementación de ingeniería
- Aplicable a aplicaciones de IA en computación perimetral e sistemas embebidos
- Reproducibilidad:
- Basado en herramientas HLS estándar y marco Darknet de código abierto
- Ruta técnica relativamente clara, con cierta reproducibilidad
- Aplicaciones de IA Perimetral: Escenarios sensibles al consumo de energía con altos requisitos de precisión
- Procesamiento de Imágenes en Tiempo Real: Tareas de procesamiento visual que requieren baja latencia y alto rendimiento
- Sistemas Embebidos: Dispositivos con recursos limitados pero que requieren capacidades de IA
- Automatización Industrial: Aplicaciones de IA industrial con altos requisitos de confiabilidad y precisión
1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24
2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.
3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.
Evaluación General: Este es un artículo con valor práctico en el campo de aceleradores CNN basados en FPGA, que propone una solución innovadora de preservación de precisión completa con resultados experimentales impresionantes. Sin embargo, el artículo tiene espacio para mejora en verificación de completitud y descripción de detalles técnicos. Para escenarios de aplicaciones de IA que requieren alta precisión, este marco tiene perspectivas de aplicación importantes.