2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic

FFT Hybride Adaptatif : Une Architecture Novatrice Basée sur Pipeline et Mémoire pour FFT Radix-2k2^k en Traitement de Grande Taille

Informations Fondamentales

  • ID de l'article : 2501.01259
  • Titre : Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing
  • Auteurs : Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
  • Classification : cs.AR (Architecture informatique)
  • Date de publication/Conférence : Soumis à IEEE, janvier 2025
  • Lien de l'article : https://arxiv.org/abs/2501.01259

Résumé

Dans le domaine du traitement numérique du signal, la transformée de Fourier rapide (FFT) est un algorithme fondamental. Les implémentations processeur adoptent généralement deux architectures : l'architecture pipeline (adaptée aux applications à haut débit mais avec faible utilisation du matériel) et l'architecture basée sur la mémoire (adaptée aux scénarios limités en surface mais incapable de satisfaire les exigences strictes de débit). Cet article propose une architecture FFT hybride adaptative qui combine les avantages des deux approches. Cette architecture se caractérise par : le développement d'un ensemble d'unités commutateurs à retard multi-chemins (MDC) radix-2k2^k pour supporter le traitement haute performance à grande échelle ; l'établissement d'un schéma d'accès mémoire sans conflit garantissant un flux de données continu ; la démonstration de l'existence d'une série d'arrangements de dimensions de bits satisfaisant les exigences d'adaptabilité généralisée pour des longueurs variables, des radix élevés et un degré de parallélisme arbitraire.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème fondamental : Les architectures traditionnelles de processeur FFT présentent des défauts inhérents
    • Architecture pipeline : haut débit mais faible utilisation du matériel, avec beaucoup de matériel inactif lors d'opérations FFT à petite échelle
    • Architecture basée sur la mémoire : utilisation élevée du matériel mais augmentation du cycle de calcul, affectant les performances du traitement en temps réel
  2. Importance du problème :
    • La FFT est largement appliquée dans les communications sans fil, le traitement d'images, le traitement de signaux radar et autres domaines
    • Les besoins croissants de traitement de données à grande échelle nécessitent des processeurs FFT à la fois efficaces et flexibles
    • Les architectures existantes ne peuvent pas satisfaire simultanément les exigences de haut débit et d'utilisation élevée du matériel
  3. Limitations des méthodes existantes :
    • L'utilisation du matériel en architecture pipeline peut être aussi faible que 15% lors du traitement de FFT à petite échelle
    • L'architecture basée sur la mémoire nécessite plusieurs itérations, augmentant la latence de calcul
    • Les schémas existants d'évitement de conflit sont principalement limités à l'algorithme radix-2, ne supportant pas le calcul à radix élevé
  4. Motivation de la recherche :
    • Combiner les avantages des deux architectures pour réaliser une reconfiguration adaptative
    • Supporter le traitement FFT à grande échelle (jusqu'à 512K points)
    • Améliorer l'utilisation du matériel tout en garantissant un haut débit

Contributions Fondamentales

  1. Proposition d'une architecture de processeur FFT hybride adaptative : supportant les modes pipeline et basé sur la mémoire, capable de traiter jusqu'à 512K points FFT
  2. Développement de commutateurs à retard multi-chemins radix-2k2^k (MDC) : supportant l'algorithme radix-252^5, réduisant significativement le nombre d'étapes de calcul
  3. Conception d'une technique d'accès mémoire sans conflit : réalisant le calcul FFT en flux continu avec transformation mémoire complètement sur place
  4. Construction d'une méthode d'arrangement de bits universelle : s'adaptant aux contraintes matérielles de différentes longueurs FFT, radix et degrés de parallélisme

Détails de la Méthode

Définition de la Tâche

Concevoir un processeur FFT reconfigurable capable de :

  • Entrée : Séquence complexe de N points (N = 2^n, maximum 512K)
  • Sortie : Représentation correspondante dans le domaine fréquentiel
  • Contraintes : Supporter l'algorithme radix-2k2^k (k≤5), degré de parallélisme P configurable, réaliser l'accès mémoire sans conflit

Architecture du Modèle

1. Conception de l'Architecture de Haut Niveau

Données d'entrée → Module de réarrangement → Processeur noyau FFT → Données de sortie
                  des données              ↑
              ↑                    Groupe d'unités MDC
         Groupe de banques mémoire    (P parallèles)
         Unité de génération d'adresse
         Circuit d'arrangement de branches parallèles
         Circuit de réarrangement

2. Explication des Composants Clés

Unité Commutateur à Retard Multi-Chemins (MDC) :

  • Support pour calcul hybride radix-252^5/24/23/22
  • Adoption d'un algorithme radix-252^5 modifié, classifiant les facteurs de rotation en :
    • Constant (C) : pré-stocké dans la ROM
    • Non-trivial (NT) : nécessitant un multiplicateur complexe
    • Trivial (T) : opérations simples ±1, ±j

Stratégie de Réarrangement des Données : Basée sur l'arrangement de dimensions de bits réalisant une transformation à trois niveaux : σNs,k,P=σN,3s,k,PσN,2s,k,PσN,1s,k,P\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}

Où :

  • σN,1s,k,P\sigma^{s,k,P}_{N,1} : arrangement de dimensions de bits en série
  • σN,2s,k,P\sigma^{s,k,P}_{N,2} : échange de branches parallèles
  • σN,3s,k,P\sigma^{s,k,P}_{N,3} : ajustement d'indexation fine

3. Schéma d'Accès Mémoire Sans Conflit

Mode Pipeline :

  • Utilisation de modèle d'adressage entrelacé : ordre naturel et ordre inversé
  • Relation entre adresses de lecture/écriture : σWi=σRi1\sigma^i_W = \sigma^{i-1}_R
  • Garantissant un flux de données continu sans conflit

Mode Basé sur la Mémoire :

  • Introduction d'arrangement supplémentaire σ~N,1s,k,P\tilde{\sigma}^{s,k,P}_{N,1} pour stockage sur place
  • Applicable pour N ∈ (2^{2k}, 2^{3k}]

Points d'Innovation Technique

  1. Architecture radix-2k2^k unifiée : réalisant la réutilisation du matériel par modification d'algorithme, le même matériel supportant plusieurs radix
  2. Capacité de reconfiguration adaptative : sélection dynamique du mode de fonctionnement selon la taille FFT et les exigences de performance
  3. Théorie d'arrangement de bits universelle : extension des méthodes existantes, supportant radix arbitraire, longueur et degré de parallélisme
  4. Modèle d'accès mémoire optimisé : stratégies d'accès sans conflit spécialisées pour différents modes

Configuration Expérimentale

Plateforme Matérielle

  • FPGA : Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
  • Outils de développement : Chisel HDL, Xilinx Vivado 2019.2
  • Implémentation de stockage :
    • Stockage de données : Ultra RAMs (URAMs), 256K adresses × 32 bits par mémoire
    • Stockage de facteurs de rotation : Block RAMs (BRAMs)

Métriques d'Évaluation

  1. Utilisation du matériel : proportion moyenne d'unités papillon actives
  2. Nombre de cycles de calcul : cycles d'horloge nécessaires pour compléter la FFT
  3. Temps de traitement : nombre d'itérations × cycles par itération
  4. Consommation de ressources : utilisation des ressources matérielles DSP48E2, LUT, FF, etc.

Méthodes de Comparaison

  1. Architecture basée sur la mémoire : Tsai'11, Kaya'23, Wang'20
  2. Architecture pipeline : Garrido'13

Résultats Expérimentaux

Résultats Principaux

1. Comparaison avec Architecture Basée sur la Mémoire

ArchitectureRadixLongueur FFTParallélismeItérationsRéduction du Temps
Tsai'11radix-2³64~4K2⌈n/3⌉70%+
Kaya'23radix-22K~16K2⌈n/2⌉70%+
Wang'20radix-2³32~32K4⌈n/3⌉70%+
Cet articleradix-2⁵32~512K8⌈n/5⌉Référence

2. Comparaison avec Architecture Pipeline

ConfigurationLongueur FFTUtilisation Moyenne du MatérielAmplitude d'Amélioration
Garrido'13 (P=1)2K~512K75%-
Garrido'13 (P=1)64~1K40%-
Garrido'13 (P=1)2~3215%-
Cet article (P=1)2K~512K75%Équivalent
Cet article (P=2)64~1K80%2× supérieur
Cet article (P=4)2~3260%4× supérieur

3. Résultats d'Implémentation FPGA (N=512K, P=1)

  • DSP48E2 : 45 365 unités
  • LUT : 76 183 unités
  • FF : 1 500 unités
  • Block RAMs : 444 unités
  • Ultra RAMs : 768 unités
  • Fréquence de fonctionnement : 196,8 MHz

Découvertes Clés

  1. Amélioration de l'efficacité de calcul : par l'algorithme radix-252^5, le nombre d'itérations réduit à ⌈n/5⌉, réduction de plus de 40% par rapport aux méthodes traditionnelles
  2. Optimisation de l'utilisation du matériel : par degré de parallélisme adaptatif, l'utilisation du matériel pour FFT à petite échelle améliorée de 2 à 4 fois
  3. Amélioration de la scalabilité : support du traitement FFT sur une large plage de 32 points à 512K points

Travaux Connexes

Directions de Recherche Principales

  1. Architecture FFT pipeline : représentée par Groginsky & Works (1970), poursuivant le haut débit
  2. Architecture FFT basée sur la mémoire : visant à réduire les ressources matérielles, adaptée aux applications limitées en surface
  3. Algorithme FFT à radix élevé : algorithme radix-2k2^k équilibrant la complexité de calcul et la difficulté d'implémentation matérielle

Avantages Relatifs de Cet Article

  1. Fusion d'architecture : première réalisation de commutation adaptative entre architecture pipeline et basée sur la mémoire
  2. Extension de radix : support jusqu'à radix-252^5, dépassant la limite radix-232^3 existante
  3. Théorie perfectionnée : fourniture d'un cadre théorique universel d'arrangement de bits

Conclusion et Discussion

Conclusions Principales

  1. L'architecture hybride adaptative combine avec succès les avantages des architectures pipeline et basée sur la mémoire
  2. La conception MDC radix-252^5 améliore significativement l'efficacité de calcul pour FFT à grande échelle
  3. La méthode d'arrangement de bits universelle fournit une garantie théorique pour différentes configurations
  4. Les expériences valident l'amélioration significative de l'architecture en utilisation du matériel et efficacité de calcul

Limitations

  1. Limitation de portée d'application : le mode basé sur la mémoire s'applique uniquement à N ∈ (2^{2k}, 2^{3k}]
  2. Complexité matérielle : le support de multiples radix augmente la complexité de la logique de contrôle
  3. Analyse de consommation énergétique manquante : absence d'analyse comparative détaillée de la consommation énergétique

Directions Futures

  1. Extension du support pour traitement FFT à plus grande échelle
  2. Optimisation de l'efficacité énergétique
  3. Exploration d'applications dans les accélérateurs IA

Évaluation Approfondie

Points Forts

  1. Forte innovativité : première proposition d'architecture FFT hybride adaptative, résolvant les contradictions inhérentes des architectures traditionnelles
  2. Théorie complète : fourniture d'un cadre théorique complet d'arrangement de bits avec forte universalité
  3. Expériences suffisantes : de l'analyse théorique à l'implémentation FPGA, validant l'efficacité de la méthode
  4. Valeur pratique élevée : support de FFT 512K points, satisfaisant les besoins modernes de traitement de grandes données

Insuffisances

  1. Augmentation de complexité : le mécanisme adaptatif augmente la complexité de conception et de vérification
  2. Comparaison incomplète : manque de comparaison de performance avec les derniers cœurs FFT IP commerciaux
  3. Analyse de consommation énergétique manquante : la consommation énergétique est un facteur important dans les applications mobiles et embarquées

Impact

  1. Contribution académique : fourniture d'un nouveau paradigme d'architecture pour la conception de processeur FFT
  2. Valeur d'ingénierie : application directe possible aux communications 5G, traitement de signaux radar et autres domaines
  3. Reproductibilité : fourniture de paramètres de conception détaillés et de détails d'implémentation

Scénarios d'Application

  1. Calcul haute performance : applications de calcul scientifique nécessitant le traitement de FFT à grande échelle
  2. Systèmes de communication : unités de traitement de signal des stations de base 5G/6G
  3. Systèmes radar : traitement de signal en temps réel et détection de cibles
  4. Traitement d'images : analyse en domaine fréquentiel d'images haute résolution

Références Bibliographiques

L'article cite 17 références connexes, couvrant l'algorithme FFT, l'implémentation FPGA, l'optimisation d'accès mémoire et autres aspects, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Ceci est un article de haute qualité en architecture informatique, possédant une valeur théorique et pratique importante dans le domaine de la conception de processeur FFT. Par une conception d'architecture ingénieuse et une analyse théorique rigoureuse, les auteurs résolvent avec succès les problèmes inhérents des architectures FFT traditionnelles, fournissant de nouvelles perspectives et directions pour le développement du domaine.