Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing
Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic
FFT Híbrido Adaptativo: Una Arquitectura Novedosa Basada en Canalización y Memoria para FFT Radix-2k en Procesamiento de Gran Escala
En el campo del procesamiento digital de señales, la Transformada Rápida de Fourier (FFT) es un algoritmo fundamental. Las implementaciones de procesadores generalmente adoptan dos arquitecturas: arquitectura de canalización (adecuada para aplicaciones de alto rendimiento pero con baja utilización de hardware) y arquitectura basada en memoria (adecuada para escenarios limitados por área pero incapaz de satisfacer requisitos estrictos de rendimiento). Este artículo propone una arquitectura FFT híbrida adaptativa que combina las ventajas de ambas arquitecturas. Esta arquitectura se caracteriza por: el desarrollo de un conjunto de unidades conmutadoras de múltiples caminos con retardo (MDC) radix-2k para soportar procesamiento de alto rendimiento a gran escala; la formulación de un esquema de acceso a memoria sin conflictos que garantiza flujo de datos continuo; y la demostración de la existencia de una serie de permutaciones de dimensión de bits que satisfacen amplios requisitos de adaptabilidad para longitudes variables, radix alto y grado de paralelismo arbitrario.
Problema Central: Las arquitecturas tradicionales de procesadores FFT presentan deficiencias inherentes
Arquitectura de canalización: alto rendimiento pero baja utilización de hardware, con gran cantidad de hardware inactivo durante operaciones FFT de pequeña escala
Arquitectura basada en memoria: alta utilización de hardware pero aumento de ciclos de cálculo, afectando el rendimiento del procesamiento en tiempo real
Importancia del Problema:
La FFT se aplica ampliamente en comunicaciones inalámbricas, procesamiento de imágenes, procesamiento de señales de radar y otros campos
La demanda creciente de procesamiento de datos a gran escala requiere procesadores FFT que sean tanto eficientes como flexibles
Las arquitecturas existentes no pueden satisfacer simultáneamente los requisitos de alto rendimiento y alta utilización de hardware
Limitaciones de Métodos Existentes:
La utilización de hardware en arquitecturas de canalización puede ser tan baja como 15% al procesar FFT de pequeña escala
Las arquitecturas basadas en memoria requieren múltiples iteraciones, aumentando la latencia de cálculo
Los esquemas de evitación de conflictos existentes se limitan principalmente al algoritmo radix-2, sin soportar cálculos de radix alto
Motivación de la Investigación:
Combinar las ventajas de ambas arquitecturas para lograr reconfiguración adaptativa
Soportar procesamiento FFT a gran escala (máximo 512K puntos)
Mejorar la utilización de hardware mientras se garantiza alto rendimiento
Propuesta de Arquitectura de Procesador FFT Híbrido Adaptativo: Soporta dos modos de canalización y basado en memoria, capaz de procesar FFT de hasta 512K puntos
Desarrollo de Conmutador de Múltiples Caminos con Retardo Radix-2k (MDC): Soporta algoritmo radix-25, reduciendo significativamente el número de etapas de cálculo
Diseño de Técnica de Acceso a Memoria sin Conflictos: Implementa cálculo FFT de flujo continuo con transformación de memoria completamente in situ
Construcción de Método de Permutación de Bits Universal: Se adapta a restricciones de hardware para diferentes longitudes FFT, radix y grados de paralelismo
Datos de Entrada → Módulo de Reordenamiento de Datos → Procesador Núcleo FFT → Datos de Salida
↑ ↑
Grupo de Bancos de Memoria Grupo de Unidades MDC
Unidad Generadora de Direcciones (P en paralelo)
Circuito de Permutación de Ramas Paralelas
Circuito de Reordenamiento
Unidad Conmutadora de Múltiples Caminos con Retardo (MDC):
Soporta cálculo mixto radix-25/24/23/22
Adopta algoritmo radix-25 modificado, clasificando factores de rotación como:
Constante (C): Prealmacenado en ROM
No trivial (NT): Requiere multiplicador complejo
Trivial (T): Operaciones simples ±1, ±j
Estrategia de Reordenamiento de Datos:
Implementa transformación de tres niveles basada en permutación de dimensión de bits:
σNs,k,P=σN,3s,k,P∘σN,2s,k,P∘σN,1s,k,P
Donde:
σN,1s,k,P: Permutación de dimensión de bits en serie
Arquitectura Radix-2k Unificada: Implementa reutilización de hardware a través de algoritmo modificado, soportando múltiples radix con el mismo conjunto de hardware
Capacidad de Reconfiguración Adaptativa: Selecciona dinámicamente el modo de funcionamiento según el tamaño FFT y requisitos de rendimiento
Teoría de Permutación de Bits Universal: Extiende métodos existentes, soportando radix arbitrario, longitud y grado de paralelismo
Patrón de Acceso a Memoria Optimizado: Diseña estrategias de acceso sin conflictos especializadas para diferentes modos
Mejora de Eficiencia de Cálculo: A través del algoritmo radix-25, el número de iteraciones se reduce a ⌈n/5⌉, reduciendo más del 40% en comparación con métodos tradicionales
Optimización de Utilización de Hardware: A través del grado de paralelismo adaptativo, la utilización de hardware para FFT de pequeña escala mejora 2-4 veces
Escalabilidad Mejorada: Soporta procesamiento FFT en amplio rango de 32 puntos a 512K puntos
El artículo cita 17 referencias relacionadas, cubriendo múltiples aspectos incluyendo algoritmos FFT, implementación en FPGA, optimización de acceso a memoria, etc., proporcionando base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en el campo de la arquitectura de computadores, con importante valor teórico y práctico en el diseño de procesadores FFT. A través de diseño de arquitectura ingenioso y análisis teórico riguroso, los autores resuelven exitosamente problemas inherentes de arquitecturas FFT tradicionales, proporcionando nuevas ideas y direcciones para el desarrollo del campo.