2025-11-13T15:25:11.338171

Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks

Athanasiadis, Tampouratzis, Papaefstathiou

The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.

academic

Marco de Trabajo FPGA Eficiente en Energía para Redes Neuronales Convolucionales No Cuantizadas

Información Básica

ID del Artículo: 2510.13362
Título: Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks
Autores: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
Instituciones: ¹Universidad Aristóteles de Tesalónica, ²Universidad Helénica Internacional
Clasificación: cs.AR (Arquitectura de Computadoras)
Enlace del Artículo: https://arxiv.org/abs/2510.13362

Resumen

Con el crecimiento continuo de las demandas de procesamiento en tiempo real en aplicaciones de inteligencia artificial, particularmente en aplicaciones que involucran redes neuronales convolucionales (CNN), la necesidad de soluciones computacionales eficientes es cada vez más evidente. Los procesadores tradicionales a menudo muestran un desempeño insuficiente al equilibrar rendimiento, consumo de energía y latencia, especialmente en sistemas embebidos y plataformas de computación perimetral. Los arreglos de puertas programables en campo (FPGA) ofrecen una alternativa prometedora que combina alto rendimiento, eficiencia energética y reconfigurabilidad. El marco propuesto en este artículo aborda los complejos requisitos computacionales del procesamiento de CNN en FPGA, manteniendo simultáneamente la precisión completa de todos los parámetros de la red neuronal. El marco se basa en el ampliamente utilizado marco de diseño CNN Darknet, permitiendo a los diseñadores utilizar entradas similares a Darknet para implementar eficientemente CNN en sistemas heterogéneos que contienen CPU y FPGA. En comparación con marcos FPGA que soportan cuantización, esta solución tiene como objetivo proporcionar rendimiento y/o eficiencia energética similar sin sacrificar la precisión de la red neuronal.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es cómo implementar eficientemente redes neuronales convolucionales no cuantizadas en FPGA, logrando alto rendimiento y eficiencia energética mientras se mantienen parámetros de precisión completa.

Importancia del Problema

Crecimiento de Demandas de Procesamiento en Tiempo Real: Las aplicaciones de IA, particularmente las aplicaciones CNN, requieren cada vez más procesamiento en tiempo real
Limitaciones de Procesadores Tradicionales: Los CPU tradicionales presentan deficiencias al equilibrar rendimiento, consumo de energía y latencia
Desafíos en Computación Embebida y Perimetral: Los dispositivos con recursos limitados requieren soluciones computacionales más eficientes

Limitaciones de Métodos Existentes

Pérdida de Precisión en Métodos de Cuantización: Los marcos FPGA existentes se enfocaban principalmente en modelos cuantizados, que aunque reducen el uso de recursos y consumo de energía, a menudo sacrifican la precisión
Complejidad de Diseño: Falta de procesos de diseño fáciles de usar y eficientes
Equilibrio entre Rendimiento y Precisión: Dificultad para lograr alto rendimiento y eficiencia energética mientras se mantiene la precisión completa

Motivación de la Investigación

Desarrollar un marco capaz de implementar CNN no cuantizadas en FPGA que mantenga la alta precisión del modelo mientras logra un rendimiento y eficiencia energética excepcionales.

Contribuciones Principales

Preservación de Precisión: Al evitar la cuantización y mantener la precisión completa, el marco tiene como objetivo preservar la precisión del modelo CNN
Alta Productividad de Diseño y Flexibilidad: Basado en el ampliamente utilizado marco de diseño CNN DarkNet, implementado en C/C++ puro, soportando FPGA de todos los tamaños, desde pequeños hasta grandes
Alto Rendimiento: Aprovecha plenamente el paralelismo de cualquier FPGA para acelerar el proceso de inferencia CNN, asegurando procesamiento oportuno y eficiente
Optimización de Eficiencia Energética: Optimizado para la eficiencia de potencia en la inferencia CNN en FPGA, aplicable a aplicaciones sensibles al consumo de energía

Explicación Detallada del Método

Definición de la Tarea

La tarea investigada en este artículo es implementar inferencia CNN no cuantizada eficiente en FPGA, con entrada de archivos de configuración de modelos CNN (formato similar a Darknet) y salida de implementación CNN de alto rendimiento en sistemas heterogéneos CPU-FPGA.

Arquitectura del Marco

Según se muestra en la Figura 1, el marco adopta el siguiente diseño arquitectónico:

Procesamiento de Entrada: Importar nuevo archivo cfg a la herramienta
Preprocesamiento: Preprocesamiento paralelo utilizando OpenMP
Analizador: Analizar la estructura de la red, identificar capas convolucionales, capas de deconvolución y otras capas
Motor de Cálculo: Motor de cálculo HLS innovador como componente central
Procesamiento Paralelo: Procesamiento paralelo utilizando OpenMP
Implementación FPGA: Implementación final de la red neuronal en FPGA

Motor de Cálculo HLS Innovador

Concepto de Diseño Central

El motor de cálculo innovador utiliza tecnología de síntesis de alto nivel (HLS), capaz de ejecutar múltiples operaciones matemáticas en un único ciclo de reloj, logrando un rendimiento y desempeño relativamente altos.

Detalles de Implementación Técnica

Como se muestra en la Figura 2, el núcleo FPGA HLS maneja principalmente tareas de multiplicación de matrices, que es la piedra angular de casi todas las implementaciones CNN:

Optimización de Memoria: Utiliza BRAM interno combinado con flujos HLS para optimizar patrones de acceso a memoria en chip
Mecanismo de Procesamiento de Flujos:
- Implementa flujo de datos continuo entre elementos de procesamiento sin necesidad de almacenamiento intermedio en BRAM
- Reduce latencia y sobrecarga de recursos
- Soporta ejecución de canalización y mejora el paralelismo
- Transmite datos directamente entre procesos productor y consumidor
Utilización de Múltiples Canales de Memoria:
- Aprovecha múltiples bancos de memoria y canales dedicados conectados a FPGA modernas
- Inserta instrucciones HLS apropiadas para asignar transferencias de datos a una cantidad parametrizable de bancos/canales de memoria
- Utiliza plenamente el ancho de banda disponible de cada interfaz de memoria
Transferencia de Datos de Alto Ancho de Banda: La transferencia de datos entre CPU y FPGA se realiza con ancho de datos completo (512 bits) por ciclo de reloj, asegurando comunicación de alto rendimiento entre elementos de procesamiento y subsistemas de memoria

Puntos de Innovación Técnica

Preservación de Precisión Completa: A diferencia de métodos de cuantización existentes, este marco mantiene la precisión completa de todos los parámetros
Optimización de Procesamiento de Flujos: Mecanismo innovador de procesamiento de flujos que reduce la dependencia de BRAM y mejora la eficiencia de utilización de recursos
Acceso a Memoria Multicanal: Aprovecha plenamente las características de múltiples canales de memoria de FPGA modernas
Proceso de Diseño Basado en Darknet: Proporciona una interfaz de diseño familiar y fácil de usar

Configuración Experimental

Plataforma de Hardware

FPGA de Alto Rendimiento: AMD Alveo U55C
FPGA Embebida: Kria KR260
CPU de Comparación: Intel Xeon E5-2620 v4 (8 núcleos) y ARM Cortex-A53 (4 núcleos)
GPU de Comparación: NVIDIA T4

Configuración de Pruebas

Dimensiones de Matriz: M=2048, K=4096, N=16384
Tipo de Datos: FP32 (punto flotante de 32 bits)
Propósito de Prueba: Seleccionar dimensiones de matriz de rendimiento no pico para demostrar la flexibilidad del método

Métricas de Evaluación

Rendimiento: GFLOPS (mil millones de operaciones de punto flotante por segundo)
Eficiencia Energética: GFLOPS/Watt
Razón de Aceleración: Mejora de rendimiento relativa a implementación de referencia e implementación CPU paralela

Resultados Experimentales

Resultados Principales de Rendimiento

FPGA Embebida (Kria KR260)

Relativo a Implementación de Referencia: Mejora de rendimiento de 2 órdenes de magnitud
Relativo a CPU ARM de 4 Núcleos: Mejora de rendimiento de 9 veces
Mejora de Eficiencia Energética: 9 veces superior a la mejor implementación CPU paralela

FPGA de Alto Rendimiento (Alveo U55C)

Relativo a Implementación de Referencia: Mejora de rendimiento de aproximadamente 3 órdenes de magnitud
Relativo a CPU Intel Xeon: Mejora de rendimiento de 10 veces
Mejora de Eficiencia Energética: 34 veces superior a la mejor implementación CPU paralela
Relativo a GPU NVIDIA T4: Mejora de eficiencia energética de 3 veces (aunque T4 utiliza proceso de 12nm más avanzado, mientras que U55C es de 16nm)

Hallazgos Clave

Mejora Significativa de Rendimiento: Se logró mejora de rendimiento de órdenes de magnitud en todas las plataformas de prueba
Desempeño Excepcional de Eficiencia Energética: Particularmente en Alveo U55C se logró mejora de eficiencia energética de 34 veces
Ventaja Técnica: Incluso bajo desventaja de proceso tecnológico, aún supera el desempeño de eficiencia energética de GPU
Validación de Consistencia: Los resultados experimentales con diferentes dimensiones de matriz son completamente consistentes con los resultados mostrados en la Figura 3

Trabajo Relacionado

El artículo cita el siguiente trabajo relacionado:

Xu et al. (2024): FLARE - Acelerador CNN de precisión completa y bajo consumo basado en FPGA con estructura reconfigurable
Chen et al. (2021): Marco de aprendizaje de redes neuronales cuantizadas de n bits para FPGA
Latotzke et al. (2022): Diseño de acelerador CNN de precisión mixta de alto rendimiento en FPGA

La principal diferencia de este artículo con el trabajo relacionado radica en el enfoque en implementación no cuantizada, logrando alto rendimiento y eficiencia energética mientras se mantiene la precisión completa.

Conclusiones y Discusión

Conclusiones Principales

Resolución Exitosa de Necesidades Críticas: Esta investigación resuelve exitosamente la necesidad crítica de implementación CNN eficiente en entornos con restricciones de potencia
Énfasis en Rendimiento y Eficiencia Energética: El marco FPGA CNN no cuantizado propuesto combina exitosamente alto rendimiento y eficiencia energética
Garantía de Precisión: Logra alta precisión manteniendo la precisión completa de los parámetros de la red, sin obstaculizar la utilización de recursos o consumo de energía
Validación Experimental de Efectividad: Los resultados experimentales validan la efectividad del marco, mostrando aceleración significativa del procesamiento de inferencia y reducción sustancial del uso de energía

Limitaciones

Alcance de Pruebas: Los experimentos se concentran principalmente en operaciones de multiplicación de matrices, con resultados de pruebas de redes CNN completas no mostrados en detalle
Validación de Precisión: Aunque se afirma mantener la precisión, faltan datos específicos de comparación de precisión
Rango de Aplicabilidad: La aplicabilidad del marco puede estar limitada por recursos FPGA y requisitos de aplicaciones específicas

Direcciones Futuras

El artículo no menciona explícitamente direcciones de investigación futuras específicas, pero se puede inferir que incluyen:

Pruebas y validación de redes CNN más amplias
Optimización adicional de eficiencia energética
Soporte para más tipos de capas de redes neuronales

Evaluación Profunda

Fortalezas

Innovación Técnica:
- Logra implementación FPGA CNN de alto rendimiento manteniendo precisión completa
- Diseño innovador del motor de cálculo HLS que utiliza efectivamente procesamiento de flujos y múltiples canales de memoria
Suficiencia Experimental:
- Pruebas exhaustivas en múltiples plataformas de hardware
- Incluye experimentos de comparación con CPU y GPU
- Mediciones detalladas de métricas de rendimiento y eficiencia energética
Valor Práctico:
- Basado en el ampliamente utilizado marco Darknet, fácil de adoptar
- Soporta FPGA de todos los tamaños, desde pequeños hasta grandes
- Aplicable a escenarios de aplicaciones sensibles al consumo de energía
Convincencia de Resultados:
- Logra mejora de rendimiento de órdenes de magnitud
- Desempeño excepcional en múltiples métricas
- Supera la eficiencia energética de GPU incluso bajo desventaja de proceso

Deficiencias

Verificación Incompleta:
- Falta de resultados de pruebas de extremo a extremo de redes CNN completas
- Ausencia de datos específicos de verificación de preservación de precisión
- Pruebas principalmente concentradas en nivel de multiplicación de matrices
Selección de Puntos de Referencia:
- La implementación de referencia puede no estar suficientemente optimizada
- Falta de comparación con otros marcos FPGA CNN avanzados
Insuficiencia de Detalles Técnicos:
- Descripción insuficiente de estrategias de optimización específicas de implementación HLS
- Datos de utilización de recursos faltantes
- Análisis insuficiente de eficiencia de utilización de ancho de banda de memoria
Análisis de Aplicabilidad:
- Discusión insuficiente de limitaciones del método y rango de aplicabilidad
- Análisis insuficiente de escalabilidad para CNN de diferentes tamaños

Evaluación de Impacto

Contribución Académica:
- Proporciona nueva solución para implementación FPGA CNN no cuantizada
- Logra alto rendimiento manteniendo precisión, con valor teórico importante
Valor Práctico:
- Basado en cadena de herramientas madura, conveniente para implementación de ingeniería
- Aplicable a aplicaciones de IA en computación perimetral e sistemas embebidos
Reproducibilidad:
- Basado en herramientas HLS estándar y marco Darknet de código abierto
- Ruta técnica relativamente clara, con cierta reproducibilidad

Escenarios de Aplicación

Aplicaciones de IA Perimetral: Escenarios sensibles al consumo de energía con altos requisitos de precisión
Procesamiento de Imágenes en Tiempo Real: Tareas de procesamiento visual que requieren baja latencia y alto rendimiento
Sistemas Embebidos: Dispositivos con recursos limitados pero que requieren capacidades de IA
Automatización Industrial: Aplicaciones de IA industrial con altos requisitos de confiabilidad y precisión

Referencias

1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24

2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.

3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.

Evaluación General: Este es un artículo con valor práctico en el campo de aceleradores CNN basados en FPGA, que propone una solución innovadora de preservación de precisión completa con resultados experimentales impresionantes. Sin embargo, el artículo tiene espacio para mejora en verificación de completitud y descripción de detalles técnicos. Para escenarios de aplicaciones de IA que requieren alta precisión, este marco tiene perspectivas de aplicación importantes.