2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic

FFT Híbrido Adaptativo: Una Arquitectura Novedosa Basada en Canalización y Memoria para FFT Radix-2k2^k en Procesamiento de Gran Escala

Información Básica

  • ID del Artículo: 2501.01259
  • Título: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing
  • Autores: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
  • Clasificación: cs.AR (Arquitectura de Computadores)
  • Fecha de Publicación/Conferencia: Enviado a IEEE, enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.01259

Resumen

En el campo del procesamiento digital de señales, la Transformada Rápida de Fourier (FFT) es un algoritmo fundamental. Las implementaciones de procesadores generalmente adoptan dos arquitecturas: arquitectura de canalización (adecuada para aplicaciones de alto rendimiento pero con baja utilización de hardware) y arquitectura basada en memoria (adecuada para escenarios limitados por área pero incapaz de satisfacer requisitos estrictos de rendimiento). Este artículo propone una arquitectura FFT híbrida adaptativa que combina las ventajas de ambas arquitecturas. Esta arquitectura se caracteriza por: el desarrollo de un conjunto de unidades conmutadoras de múltiples caminos con retardo (MDC) radix-2k2^k para soportar procesamiento de alto rendimiento a gran escala; la formulación de un esquema de acceso a memoria sin conflictos que garantiza flujo de datos continuo; y la demostración de la existencia de una serie de permutaciones de dimensión de bits que satisfacen amplios requisitos de adaptabilidad para longitudes variables, radix alto y grado de paralelismo arbitrario.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Las arquitecturas tradicionales de procesadores FFT presentan deficiencias inherentes
    • Arquitectura de canalización: alto rendimiento pero baja utilización de hardware, con gran cantidad de hardware inactivo durante operaciones FFT de pequeña escala
    • Arquitectura basada en memoria: alta utilización de hardware pero aumento de ciclos de cálculo, afectando el rendimiento del procesamiento en tiempo real
  2. Importancia del Problema:
    • La FFT se aplica ampliamente en comunicaciones inalámbricas, procesamiento de imágenes, procesamiento de señales de radar y otros campos
    • La demanda creciente de procesamiento de datos a gran escala requiere procesadores FFT que sean tanto eficientes como flexibles
    • Las arquitecturas existentes no pueden satisfacer simultáneamente los requisitos de alto rendimiento y alta utilización de hardware
  3. Limitaciones de Métodos Existentes:
    • La utilización de hardware en arquitecturas de canalización puede ser tan baja como 15% al procesar FFT de pequeña escala
    • Las arquitecturas basadas en memoria requieren múltiples iteraciones, aumentando la latencia de cálculo
    • Los esquemas de evitación de conflictos existentes se limitan principalmente al algoritmo radix-2, sin soportar cálculos de radix alto
  4. Motivación de la Investigación:
    • Combinar las ventajas de ambas arquitecturas para lograr reconfiguración adaptativa
    • Soportar procesamiento FFT a gran escala (máximo 512K puntos)
    • Mejorar la utilización de hardware mientras se garantiza alto rendimiento

Contribuciones Principales

  1. Propuesta de Arquitectura de Procesador FFT Híbrido Adaptativo: Soporta dos modos de canalización y basado en memoria, capaz de procesar FFT de hasta 512K puntos
  2. Desarrollo de Conmutador de Múltiples Caminos con Retardo Radix-2k2^k (MDC): Soporta algoritmo radix-252^5, reduciendo significativamente el número de etapas de cálculo
  3. Diseño de Técnica de Acceso a Memoria sin Conflictos: Implementa cálculo FFT de flujo continuo con transformación de memoria completamente in situ
  4. Construcción de Método de Permutación de Bits Universal: Se adapta a restricciones de hardware para diferentes longitudes FFT, radix y grados de paralelismo

Explicación Detallada del Método

Definición de la Tarea

Diseñar un procesador FFT reconfigurable capaz de:

  • Entrada: Secuencia compleja de N puntos (N = 2^n, máximo 512K)
  • Salida: Representación correspondiente en el dominio de frecuencia
  • Restricciones: Soportar algoritmo radix-2k2^k (k≤5), grado de paralelismo P configurable, implementar acceso a memoria sin conflictos

Arquitectura del Modelo

1. Diseño de Arquitectura de Nivel Superior

Datos de Entrada → Módulo de Reordenamiento de Datos → Procesador Núcleo FFT → Datos de Salida
                 ↑                                    ↑
            Grupo de Bancos de Memoria          Grupo de Unidades MDC
            Unidad Generadora de Direcciones    (P en paralelo)
            Circuito de Permutación de Ramas Paralelas
            Circuito de Reordenamiento

2. Explicación Detallada de Componentes Clave

Unidad Conmutadora de Múltiples Caminos con Retardo (MDC):

  • Soporta cálculo mixto radix-252^5/24/23/22
  • Adopta algoritmo radix-252^5 modificado, clasificando factores de rotación como:
    • Constante (C): Prealmacenado en ROM
    • No trivial (NT): Requiere multiplicador complejo
    • Trivial (T): Operaciones simples ±1, ±j

Estrategia de Reordenamiento de Datos: Implementa transformación de tres niveles basada en permutación de dimensión de bits: σNs,k,P=σN,3s,k,PσN,2s,k,PσN,1s,k,P\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}

Donde:

  • σN,1s,k,P\sigma^{s,k,P}_{N,1}: Permutación de dimensión de bits en serie
  • σN,2s,k,P\sigma^{s,k,P}_{N,2}: Intercambio de ramas paralelas
  • σN,3s,k,P\sigma^{s,k,P}_{N,3}: Ajuste de índice fino

3. Esquema de Acceso a Memoria sin Conflictos

Modo de Canalización:

  • Utiliza patrón de dirección intercalada: orden natural y orden invertido
  • Relación de dirección de lectura/escritura: σWi=σRi1\sigma^i_W = \sigma^{i-1}_R
  • Garantiza flujo de datos continuo sin conflictos

Modo Basado en Memoria:

  • Introduce permutación adicional σ~N,1s,k,P\tilde{\sigma}^{s,k,P}_{N,1} para almacenamiento in situ
  • Aplicable para procesamiento a gran escala N ∈ (2^{2k}, 2^{3k}]

Puntos de Innovación Técnica

  1. Arquitectura Radix-2k2^k Unificada: Implementa reutilización de hardware a través de algoritmo modificado, soportando múltiples radix con el mismo conjunto de hardware
  2. Capacidad de Reconfiguración Adaptativa: Selecciona dinámicamente el modo de funcionamiento según el tamaño FFT y requisitos de rendimiento
  3. Teoría de Permutación de Bits Universal: Extiende métodos existentes, soportando radix arbitrario, longitud y grado de paralelismo
  4. Patrón de Acceso a Memoria Optimizado: Diseña estrategias de acceso sin conflictos especializadas para diferentes modos

Configuración Experimental

Plataforma de Hardware

  • FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
  • Herramientas de Desarrollo: Chisel HDL, Xilinx Vivado 2019.2
  • Implementación de Almacenamiento:
    • Almacenamiento de datos: Ultra RAMs (URAMs), 256K direcciones × 32 bits por memoria
    • Almacenamiento de factores de rotación: Block RAMs (BRAMs)

Métricas de Evaluación

  1. Utilización de Hardware: Proporción promedio de unidades mariposa activas
  2. Número de Ciclos de Cálculo: Ciclos de reloj requeridos para completar FFT
  3. Tiempo de Procesamiento: Número de iteraciones × ciclos por iteración
  4. Consumo de Recursos: Uso de recursos de hardware DSP48E2, LUT, FF, etc.

Métodos de Comparación

  1. Arquitectura Basada en Memoria: Tsai'11, Kaya'23, Wang'20
  2. Arquitectura de Canalización: Garrido'13

Resultados Experimentales

Resultados Principales

1. Comparación con Arquitectura Basada en Memoria

ArquitecturaRadixLongitud FFTGrado de ParalelismoNúmero de IteracionesReducción de Tiempo de Procesamiento
Tsai'11radix-2³64~4K2⌈n/3⌉70%+
Kaya'23radix-22K~16K2⌈n/2⌉70%+
Wang'20radix-2³32~32K4⌈n/3⌉70%+
Este Artículoradix-2⁵32~512K8⌈n/5⌉Referencia

2. Comparación con Arquitectura de Canalización

ConfiguraciónLongitud FFTUtilización Promedio de HardwareMagnitud de Mejora
Garrido'13 (P=1)2K~512K75%-
Garrido'13 (P=1)64~1K40%-
Garrido'13 (P=1)2~3215%-
Este Artículo (P=1)2K~512K75%Equivalente
Este Artículo (P=2)64~1K80%2 veces
Este Artículo (P=4)2~3260%4 veces

3. Resultados de Implementación en FPGA (N=512K, P=1)

  • DSP48E2: 45,365 unidades
  • LUT: 76,183 unidades
  • FF: 1,500 unidades
  • Block RAMs: 444 unidades
  • Ultra RAMs: 768 unidades
  • Frecuencia de Funcionamiento: 196.8 MHz

Hallazgos Clave

  1. Mejora de Eficiencia de Cálculo: A través del algoritmo radix-252^5, el número de iteraciones se reduce a ⌈n/5⌉, reduciendo más del 40% en comparación con métodos tradicionales
  2. Optimización de Utilización de Hardware: A través del grado de paralelismo adaptativo, la utilización de hardware para FFT de pequeña escala mejora 2-4 veces
  3. Escalabilidad Mejorada: Soporta procesamiento FFT en amplio rango de 32 puntos a 512K puntos

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Arquitectura FFT de Canalización: Representada por Groginsky & Works (1970), persiguiendo alto rendimiento
  2. Arquitectura FFT Basada en Memoria: Con el objetivo de reducir recursos de hardware, adecuada para aplicaciones limitadas por área
  3. Algoritmo FFT de Radix Alto: El algoritmo radix-2k2^k equilibra la complejidad de cálculo y la dificultad de implementación de hardware

Ventajas Relativas de Este Artículo

  1. Fusión de Arquitectura: Primera implementación de conmutación adaptativa entre arquitectura de canalización y basada en memoria
  2. Extensión de Radix: Soporta hasta radix-252^5, superando la limitación radix-232^3 existente
  3. Teoría Perfeccionada: Proporciona marco teórico universal de permutación de bits

Conclusiones y Discusión

Conclusiones Principales

  1. La arquitectura híbrida adaptativa combina exitosamente las ventajas de arquitecturas de canalización y basadas en memoria
  2. El diseño MDC radix-252^5 mejora significativamente la eficiencia de cálculo de FFT a gran escala
  3. El método de permutación de bits universal proporciona garantía teórica para diferentes configuraciones
  4. La verificación experimental demuestra mejoras significativas en utilización de hardware y eficiencia de cálculo

Limitaciones

  1. Restricción de Rango de Aplicación: El modo basado en memoria solo es aplicable para N ∈ (2^{2k}, 2^{3k}]
  2. Complejidad de Hardware: Soportar múltiples radix aumenta la complejidad de la lógica de control
  3. Análisis de Consumo de Energía Faltante: No proporciona análisis de comparación detallado de consumo de energía

Direcciones Futuras

  1. Extender el soporte para procesamiento FFT de escala aún mayor
  2. Optimizar la eficiencia energética
  3. Explorar aplicaciones en aceleradores de IA

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera propuesta de arquitectura FFT híbrida adaptativa, resolviendo la contradicción inherente de arquitecturas tradicionales
  2. Teoría Completa: Proporciona marco teórico completo de permutación de bits con fuerte universalidad
  3. Experimentación Suficiente: Desde análisis teórico hasta implementación en FPGA, verificando la efectividad del método
  4. Alto Valor Práctico: Soporta FFT de 512K puntos, satisfaciendo necesidades de procesamiento de datos grandes moderno

Deficiencias

  1. Aumento de Complejidad: El mecanismo adaptativo aumenta la complejidad de diseño y dificultad de verificación
  2. Comparación Incompleta: Falta comparación de rendimiento con núcleos FFT comerciales más recientes
  3. Análisis de Consumo de Energía Faltante: En aplicaciones móviles e integradas, el consumo de energía es factor importante de consideración

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de arquitectura para diseño de procesadores FFT
  2. Valor de Ingeniería: Puede aplicarse directamente en procesamiento de señales de comunicación 5G, radar y otros campos
  3. Reproducibilidad: Proporciona parámetros de diseño detallados y detalles de implementación

Escenarios Aplicables

  1. Computación de Alto Rendimiento: Aplicaciones de computación científica que requieren procesamiento FFT a gran escala
  2. Sistemas de Comunicación: Unidades de procesamiento de señales en estaciones base 5G/6G
  3. Sistemas de Radar: Procesamiento de señales en tiempo real y detección de objetivos
  4. Procesamiento de Imágenes: Análisis en dominio de frecuencia de imágenes de alta resolución

Referencias

El artículo cita 17 referencias relacionadas, cubriendo múltiples aspectos incluyendo algoritmos FFT, implementación en FPGA, optimización de acceso a memoria, etc., proporcionando base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad en el campo de la arquitectura de computadores, con importante valor teórico y práctico en el diseño de procesadores FFT. A través de diseño de arquitectura ingenioso y análisis teórico riguroso, los autores resuelven exitosamente problemas inherentes de arquitecturas FFT tradicionales, proporcionando nuevas ideas y direcciones para el desarrollo del campo.