2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing

基本信息

  • 论文ID: 2501.01259
  • 标题: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing
  • 作者: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
  • 分类: cs.AR (计算机架构)
  • 发表时间/会议: 已提交IEEE,2025年1月
  • 论文链接: https://arxiv.org/abs/2501.01259

摘要

在数字信号处理领域,快速傅里叶变换(FFT)是一个基础算法。其处理器实现通常采用两种架构:流水线架构(适用于高吞吐量应用但硬件利用率低)和基于内存的架构(适用于面积受限场景但无法满足严格的吞吐量要求)。本文提出了一种自适应混合FFT架构,结合了两种架构的优势。该架构具有以下特点:开发了一组radix-2k2^k多路径延迟交换器(MDC)单元以支持高性能大规模处理;制定了无冲突内存访问方案确保连续数据流;证明了一系列位维度排列的存在性,满足可变长度、高基数和任意并行度的广泛适应性要求。

研究背景与动机

问题定义

  1. 核心问题:传统FFT处理器架构存在固有缺陷
    • 流水线架构:高吞吐量但硬件利用率低,在小规模FFT操作时大量硬件闲置
    • 基于内存的架构:硬件利用率高但计算周期增加,影响实时处理性能
  2. 问题重要性
    • FFT在无线通信、图像处理、雷达信号处理等领域广泛应用
    • 大规模数据处理需求不断增长,需要既高效又灵活的FFT处理器
    • 现有架构无法同时满足高吞吐量和高硬件利用率要求
  3. 现有方法局限性
    • 流水线架构在处理小规模FFT时硬件利用率可低至15%
    • 基于内存的架构需要多次迭代,增加了计算延迟
    • 现有冲突避免方案主要局限于radix-2算法,不支持高基数计算
  4. 研究动机
    • 结合两种架构优势,实现自适应重配置
    • 支持大规模FFT处理(最大512K点)
    • 提高硬件利用率同时保证高吞吐量

核心贡献

  1. 提出自适应混合FFT处理器架构:支持流水线和基于内存两种模式,可处理最大512K点的FFT
  2. 开发radix-2k2^k多路径延迟交换器(MDC):支持radix-252^5算法,显著减少计算阶段数
  3. 设计无冲突内存访问技术:实现完全就地内存变换的连续流FFT计算
  4. 构建通用位排列方法:适应不同FFT长度、基数和并行度的硬件约束

方法详解

任务定义

设计一个可重配置的FFT处理器,能够:

  • 输入:N点复数序列 (N = 2^n,最大512K)
  • 输出:对应的频域表示
  • 约束:支持radix-2k2^k (k≤5)算法,可配置并行度P,实现无冲突内存访问

模型架构

1. 顶层架构设计

输入数据 → 数据重排模块 → FFT核心处理器 → 输出数据
         ↑                ↑
    内存银行组        MDC单元组
    地址生成单元      (P个并行)
    并行分支排列电路
    重排电路

2. 关键组件详解

多路径延迟交换器(MDC)单元

  • 支持radix-252^5/24/23/22混合计算
  • 采用修改的radix-252^5算法,将旋转因子分类为:
    • 常数(C):预存储在ROM中
    • 非平凡(NT):需要复数乘法器
    • 平凡(T):简单的±1, ±j操作

数据重排策略: 基于位维度排列实现三级变换: σNs,k,P=σN,3s,k,PσN,2s,k,PσN,1s,k,P\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}

其中:

  • σN,1s,k,P\sigma^{s,k,P}_{N,1}:串行位维度排列
  • σN,2s,k,P\sigma^{s,k,P}_{N,2}:并行分支交换
  • σN,3s,k,P\sigma^{s,k,P}_{N,3}:精细索引调整

3. 无冲突内存访问方案

流水线模式

  • 使用交错地址模式:自然顺序和反转顺序
  • 读写地址关系:σWi=σRi1\sigma^i_W = \sigma^{i-1}_R
  • 保证连续数据流无冲突

基于内存模式

  • 引入额外排列σ~N,1s,k,P\tilde{\sigma}^{s,k,P}_{N,1}用于就地存储
  • 适用于N ∈ (2^{2k}, 2^{3k}]的大规模处理

技术创新点

  1. 统一的radix-2k2^k架构:通过修改算法实现硬件复用,同一套硬件支持多种基数
  2. 自适应重配置能力:根据FFT大小和性能需求动态选择工作模式
  3. 通用位排列理论:扩展现有方法,支持任意基数、长度和并行度
  4. 优化的内存访问模式:针对不同模式设计专门的无冲突访问策略

实验设置

硬件平台

  • FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
  • 开发工具: Chisel HDL, Xilinx Vivado 2019.2
  • 存储实现:
    • 数据存储:Ultra RAMs (URAMs),每个内存256K地址×32位
    • 旋转因子存储:Block RAMs (BRAMs)

评价指标

  1. 硬件利用率:活跃蝶形单元的平均比例
  2. 计算周期数:完成FFT所需的时钟周期
  3. 处理时间:迭代次数 × 每次迭代周期数
  4. 资源消耗:DSP48E2、LUT、FF等硬件资源使用量

对比方法

  1. 内存型架构:Tsai'11、Kaya'23、Wang'20
  2. 流水线架构:Garrido'13

实验结果

主要结果

1. 与内存型架构对比

架构基数FFT长度并行度迭代次数处理时间减少
Tsai'11radix-2³64~4K2⌈n/3⌉70%+
Kaya'23radix-22K~16K2⌈n/2⌉70%+
Wang'20radix-2³32~32K4⌈n/3⌉70%+
本文radix-2⁵32~512K8⌈n/5⌉基准

2. 与流水线架构对比

配置FFT长度平均硬件利用率提升幅度
Garrido'13 (P=1)2K~512K75%-
Garrido'13 (P=1)64~1K40%-
Garrido'13 (P=1)2~3215%-
本文 (P=1)2K~512K75%持平
本文 (P=2)64~1K80%2倍
本文 (P=4)2~3260%4倍

3. FPGA实现结果 (N=512K, P=1)

  • DSP48E2: 45,365个
  • LUT: 76,183个
  • FF: 1,500个
  • Block RAMs: 444个
  • Ultra RAMs: 768个
  • 工作频率: 196.8 MHz

关键发现

  1. 计算效率提升:通过radix-252^5算法,迭代次数减少至⌈n/5⌉,相比传统方法减少40%以上
  2. 硬件利用率优化:通过自适应并行度,小规模FFT的硬件利用率提升2-4倍
  3. 可扩展性增强:支持32点到512K点的宽范围FFT处理

相关工作

主要研究方向

  1. 流水线FFT架构:以Groginsky & Works (1970)为代表,追求高吞吐量
  2. 基于内存的FFT架构:以减少硬件资源为目标,适合面积受限应用
  3. 高基数FFT算法:radix-2k2^k算法平衡计算复杂度和硬件实现难度

本文相对优势

  1. 架构融合:首次实现流水线和内存型架构的自适应切换
  2. 基数扩展:支持最高radix-252^5,超越现有radix-232^3限制
  3. 理论完善:提供了通用的位排列理论框架

结论与讨论

主要结论

  1. 自适应混合架构成功结合了流水线和内存型架构的优势
  2. radix-252^5 MDC设计显著提高了大规模FFT的计算效率
  3. 通用位排列方法为不同配置提供了理论保障
  4. 实验验证了架构在硬件利用率和计算效率方面的显著提升

局限性

  1. 适用范围限制:基于内存的模式仅适用于N ∈ (2^{2k}, 2^{3k}]
  2. 硬件复杂度:支持多种基数增加了控制逻辑的复杂性
  3. 功耗分析缺失:未提供详细的功耗对比分析

未来方向

  1. 扩展支持更大规模的FFT处理
  2. 优化功耗效率
  3. 探索在AI加速器中的应用

深度评价

优点

  1. 创新性强:首次提出自适应混合FFT架构,解决了传统架构的固有矛盾
  2. 理论完备:提供了完整的位排列理论框架,具有很强的通用性
  3. 实验充分:从理论分析到FPGA实现,验证了方法的有效性
  4. 实用价值高:支持512K点FFT,满足现代大数据处理需求

不足

  1. 复杂度增加:自适应机制增加了设计复杂度和验证难度
  2. 对比不够全面:缺少与最新商用FFT IP核的性能对比
  3. 功耗分析缺失:在移动和嵌入式应用中功耗是重要考量因素

影响力

  1. 学术贡献:为FFT处理器设计提供了新的架构范式
  2. 工程价值:可直接应用于5G通信、雷达信号处理等领域
  3. 可复现性:提供了详细的设计参数和实现细节

适用场景

  1. 高性能计算:需要处理大规模FFT的科学计算应用
  2. 通信系统:5G/6G基站的信号处理单元
  3. 雷达系统:实时信号处理和目标检测
  4. 图像处理:大分辨率图像的频域分析

参考文献

论文引用了17篇相关文献,涵盖了FFT算法、FPGA实现、内存访问优化等多个方面,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的计算机架构论文,在FFT处理器设计领域具有重要的理论和实用价值。作者通过巧妙的架构设计和严谨的理论分析,成功解决了传统FFT架构的固有问题,为该领域的发展提供了新的思路和方向。