2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.

In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.

academic

FFT Híbrido Adaptativo: Una Arquitectura Novedosa Basada en Canalización y Memoria para FFT Radix- $2^k$ en Procesamiento de Gran Escala

Información Básica

ID del Artículo: 2501.01259
Título: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix- $2^k$ FFT in Large Size Processing
Autores: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
Clasificación: cs.AR (Arquitectura de Computadores)
Fecha de Publicación/Conferencia: Enviado a IEEE, enero de 2025
Enlace del Artículo: https://arxiv.org/abs/2501.01259

Resumen

En el campo del procesamiento digital de señales, la Transformada Rápida de Fourier (FFT) es un algoritmo fundamental. Las implementaciones de procesadores generalmente adoptan dos arquitecturas: arquitectura de canalización (adecuada para aplicaciones de alto rendimiento pero con baja utilización de hardware) y arquitectura basada en memoria (adecuada para escenarios limitados por área pero incapaz de satisfacer requisitos estrictos de rendimiento). Este artículo propone una arquitectura FFT híbrida adaptativa que combina las ventajas de ambas arquitecturas. Esta arquitectura se caracteriza por: el desarrollo de un conjunto de unidades conmutadoras de múltiples caminos con retardo (MDC) radix- $2^k$ para soportar procesamiento de alto rendimiento a gran escala; la formulación de un esquema de acceso a memoria sin conflictos que garantiza flujo de datos continuo; y la demostración de la existencia de una serie de permutaciones de dimensión de bits que satisfacen amplios requisitos de adaptabilidad para longitudes variables, radix alto y grado de paralelismo arbitrario.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Las arquitecturas tradicionales de procesadores FFT presentan deficiencias inherentes
- Arquitectura de canalización: alto rendimiento pero baja utilización de hardware, con gran cantidad de hardware inactivo durante operaciones FFT de pequeña escala
- Arquitectura basada en memoria: alta utilización de hardware pero aumento de ciclos de cálculo, afectando el rendimiento del procesamiento en tiempo real
Importancia del Problema:
- La FFT se aplica ampliamente en comunicaciones inalámbricas, procesamiento de imágenes, procesamiento de señales de radar y otros campos
- La demanda creciente de procesamiento de datos a gran escala requiere procesadores FFT que sean tanto eficientes como flexibles
- Las arquitecturas existentes no pueden satisfacer simultáneamente los requisitos de alto rendimiento y alta utilización de hardware
Limitaciones de Métodos Existentes:
- La utilización de hardware en arquitecturas de canalización puede ser tan baja como 15% al procesar FFT de pequeña escala
- Las arquitecturas basadas en memoria requieren múltiples iteraciones, aumentando la latencia de cálculo
- Los esquemas de evitación de conflictos existentes se limitan principalmente al algoritmo radix-2, sin soportar cálculos de radix alto
Motivación de la Investigación:
- Combinar las ventajas de ambas arquitecturas para lograr reconfiguración adaptativa
- Soportar procesamiento FFT a gran escala (máximo 512K puntos)
- Mejorar la utilización de hardware mientras se garantiza alto rendimiento

Contribuciones Principales

Propuesta de Arquitectura de Procesador FFT Híbrido Adaptativo: Soporta dos modos de canalización y basado en memoria, capaz de procesar FFT de hasta 512K puntos
Desarrollo de Conmutador de Múltiples Caminos con Retardo Radix- $2^k$ (MDC): Soporta algoritmo radix- $2^5$ , reduciendo significativamente el número de etapas de cálculo
Diseño de Técnica de Acceso a Memoria sin Conflictos: Implementa cálculo FFT de flujo continuo con transformación de memoria completamente in situ
Construcción de Método de Permutación de Bits Universal: Se adapta a restricciones de hardware para diferentes longitudes FFT, radix y grados de paralelismo

Explicación Detallada del Método

Definición de la Tarea

Diseñar un procesador FFT reconfigurable capaz de:

Entrada: Secuencia compleja de N puntos (N = 2^n, máximo 512K)
Salida: Representación correspondiente en el dominio de frecuencia
Restricciones: Soportar algoritmo radix- $2^k$ (k≤5), grado de paralelismo P configurable, implementar acceso a memoria sin conflictos

Arquitectura del Modelo

1. Diseño de Arquitectura de Nivel Superior

Datos de Entrada → Módulo de Reordenamiento de Datos → Procesador Núcleo FFT → Datos de Salida
                 ↑                                    ↑
            Grupo de Bancos de Memoria          Grupo de Unidades MDC
            Unidad Generadora de Direcciones    (P en paralelo)
            Circuito de Permutación de Ramas Paralelas
            Circuito de Reordenamiento

2. Explicación Detallada de Componentes Clave

Unidad Conmutadora de Múltiples Caminos con Retardo (MDC):

Soporta cálculo mixto radix- $2^5$ /24/23/22
Adopta algoritmo radix- $2^5$ $2^{5}$ modificado, clasificando factores de rotación como:
- Constante (C): Prealmacenado en ROM
- No trivial (NT): Requiere multiplicador complejo
- Trivial (T): Operaciones simples ±1, ±j

Estrategia de Reordenamiento de Datos: Implementa transformación de tres niveles basada en permutación de dimensión de bits: $\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}$

Donde:

$\sigma^{s,k,P}_{N,1}$ : Permutación de dimensión de bits en serie
$\sigma^{s,k,P}_{N,2}$ : Intercambio de ramas paralelas
$\sigma^{s,k,P}_{N,3}$ : Ajuste de índice fino

3. Esquema de Acceso a Memoria sin Conflictos

Modo de Canalización:

Utiliza patrón de dirección intercalada: orden natural y orden invertido
Relación de dirección de lectura/escritura: $\sigma^i_W = \sigma^{i-1}_R$
Garantiza flujo de datos continuo sin conflictos

Modo Basado en Memoria:

Introduce permutación adicional $\tilde{\sigma}^{s,k,P}_{N,1}$ para almacenamiento in situ
Aplicable para procesamiento a gran escala N ∈ (2^{2k}, 2^{3k}]

Puntos de Innovación Técnica

Arquitectura Radix- $2^k$ Unificada: Implementa reutilización de hardware a través de algoritmo modificado, soportando múltiples radix con el mismo conjunto de hardware
Capacidad de Reconfiguración Adaptativa: Selecciona dinámicamente el modo de funcionamiento según el tamaño FFT y requisitos de rendimiento
Teoría de Permutación de Bits Universal: Extiende métodos existentes, soportando radix arbitrario, longitud y grado de paralelismo
Patrón de Acceso a Memoria Optimizado: Diseña estrategias de acceso sin conflictos especializadas para diferentes modos

Configuración Experimental

Plataforma de Hardware

FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
Herramientas de Desarrollo: Chisel HDL, Xilinx Vivado 2019.2
Implementación de Almacenamiento:
- Almacenamiento de datos: Ultra RAMs (URAMs), 256K direcciones × 32 bits por memoria
- Almacenamiento de factores de rotación: Block RAMs (BRAMs)

Métricas de Evaluación

Utilización de Hardware: Proporción promedio de unidades mariposa activas
Número de Ciclos de Cálculo: Ciclos de reloj requeridos para completar FFT
Tiempo de Procesamiento: Número de iteraciones × ciclos por iteración
Consumo de Recursos: Uso de recursos de hardware DSP48E2, LUT, FF, etc.

Métodos de Comparación

Arquitectura Basada en Memoria: Tsai'11, Kaya'23, Wang'20
Arquitectura de Canalización: Garrido'13

Resultados Experimentales

Resultados Principales

1. Comparación con Arquitectura Basada en Memoria

Arquitectura	Radix	Longitud FFT	Grado de Paralelismo	Número de Iteraciones	Reducción de Tiempo de Procesamiento
Tsai'11	radix-2³	64~4K	2	⌈n/3⌉	70%+
Kaya'23	radix-2	2K~16K	2	⌈n/2⌉	70%+
Wang'20	radix-2³	32~32K	4	⌈n/3⌉	70%+
Este Artículo	radix-2⁵	32~512K	8	⌈n/5⌉	Referencia

2. Comparación con Arquitectura de Canalización

Configuración	Longitud FFT	Utilización Promedio de Hardware	Magnitud de Mejora
Garrido'13 (P=1)	2K~512K	75%	-
Garrido'13 (P=1)	64~1K	40%	-
Garrido'13 (P=1)	2~32	15%	-
Este Artículo (P=1)	2K~512K	75%	Equivalente
Este Artículo (P=2)	64~1K	80%	2 veces
Este Artículo (P=4)	2~32	60%	4 veces

3. Resultados de Implementación en FPGA (N=512K, P=1)

DSP48E2: 45,365 unidades
LUT: 76,183 unidades
FF: 1,500 unidades
Block RAMs: 444 unidades
Ultra RAMs: 768 unidades
Frecuencia de Funcionamiento: 196.8 MHz

Hallazgos Clave

Mejora de Eficiencia de Cálculo: A través del algoritmo radix- $2^5$ , el número de iteraciones se reduce a ⌈n/5⌉, reduciendo más del 40% en comparación con métodos tradicionales
Optimización de Utilización de Hardware: A través del grado de paralelismo adaptativo, la utilización de hardware para FFT de pequeña escala mejora 2-4 veces
Escalabilidad Mejorada: Soporta procesamiento FFT en amplio rango de 32 puntos a 512K puntos

Trabajo Relacionado

Direcciones Principales de Investigación

Arquitectura FFT de Canalización: Representada por Groginsky & Works (1970), persiguiendo alto rendimiento
Arquitectura FFT Basada en Memoria: Con el objetivo de reducir recursos de hardware, adecuada para aplicaciones limitadas por área
Algoritmo FFT de Radix Alto: El algoritmo radix- $2^k$ equilibra la complejidad de cálculo y la dificultad de implementación de hardware

Ventajas Relativas de Este Artículo

Fusión de Arquitectura: Primera implementación de conmutación adaptativa entre arquitectura de canalización y basada en memoria
Extensión de Radix: Soporta hasta radix- $2^5$ , superando la limitación radix- $2^3$ existente
Teoría Perfeccionada: Proporciona marco teórico universal de permutación de bits

Conclusiones y Discusión

Conclusiones Principales

La arquitectura híbrida adaptativa combina exitosamente las ventajas de arquitecturas de canalización y basadas en memoria
El diseño MDC radix- $2^5$ mejora significativamente la eficiencia de cálculo de FFT a gran escala
El método de permutación de bits universal proporciona garantía teórica para diferentes configuraciones
La verificación experimental demuestra mejoras significativas en utilización de hardware y eficiencia de cálculo

Limitaciones

Restricción de Rango de Aplicación: El modo basado en memoria solo es aplicable para N ∈ (2^{2k}, 2^{3k}]
Complejidad de Hardware: Soportar múltiples radix aumenta la complejidad de la lógica de control
Análisis de Consumo de Energía Faltante: No proporciona análisis de comparación detallado de consumo de energía

Direcciones Futuras

Extender el soporte para procesamiento FFT de escala aún mayor
Optimizar la eficiencia energética
Explorar aplicaciones en aceleradores de IA

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera propuesta de arquitectura FFT híbrida adaptativa, resolviendo la contradicción inherente de arquitecturas tradicionales
Teoría Completa: Proporciona marco teórico completo de permutación de bits con fuerte universalidad
Experimentación Suficiente: Desde análisis teórico hasta implementación en FPGA, verificando la efectividad del método
Alto Valor Práctico: Soporta FFT de 512K puntos, satisfaciendo necesidades de procesamiento de datos grandes moderno

Deficiencias

Aumento de Complejidad: El mecanismo adaptativo aumenta la complejidad de diseño y dificultad de verificación
Comparación Incompleta: Falta comparación de rendimiento con núcleos FFT comerciales más recientes
Análisis de Consumo de Energía Faltante: En aplicaciones móviles e integradas, el consumo de energía es factor importante de consideración

Impacto

Contribución Académica: Proporciona nuevo paradigma de arquitectura para diseño de procesadores FFT
Valor de Ingeniería: Puede aplicarse directamente en procesamiento de señales de comunicación 5G, radar y otros campos
Reproducibilidad: Proporciona parámetros de diseño detallados y detalles de implementación

Escenarios Aplicables

Computación de Alto Rendimiento: Aplicaciones de computación científica que requieren procesamiento FFT a gran escala
Sistemas de Comunicación: Unidades de procesamiento de señales en estaciones base 5G/6G
Sistemas de Radar: Procesamiento de señales en tiempo real y detección de objetivos
Procesamiento de Imágenes: Análisis en dominio de frecuencia de imágenes de alta resolución

Referencias

El artículo cita 17 referencias relacionadas, cubriendo múltiples aspectos incluyendo algoritmos FFT, implementación en FPGA, optimización de acceso a memoria, etc., proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad en el campo de la arquitectura de computadores, con importante valor teórico y práctico en el diseño de procesadores FFT. A través de diseño de arquitectura ingenioso y análisis teórico riguroso, los autores resuelven exitosamente problemas inherentes de arquitecturas FFT tradicionales, proporcionando nuevas ideas y direcciones para el desarrollo del campo.

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

FFT Híbrido Adaptativo: Una Arquitectura Novedosa Basada en Canalización y Memoria para FFT Radix-2k2^k2k en Procesamiento de Gran Escala

FFT Híbrido Adaptativo: Una Arquitectura Novedosa Basada en Canalización y Memoria para FFT Radix- $2^k$ en Procesamiento de Gran Escala