2025-11-18T11:22:13.563574

TReCiM: Lower Power and Temperature-Resilient Multibit 2FeFET-1T Compute-in-Memory Design

Zhou, KÃ¤mpfe, Ni et al.

Compute-in-memory (CiM) emerges as a promising solution to solve hardware challenges in artificial intelligence (AI) and the Internet of Things (IoT), particularly addressing the "memory wall" issue. By utilizing nonvolatile memory (NVM) devices in a crossbar structure, CiM efficiently accelerates multiply-accumulate (MAC) computations, the crucial operations in neural networks and other AI models. Among various NVM devices, Ferroelectric FET (FeFET) is particularly appealing for ultra-low-power CiM arrays due to its CMOS compatibility, voltage-driven write/read mechanisms and high ION/IOFF ratio. Moreover, subthreshold-operated FeFETs, which operate at scaling voltages in the subthreshold region, can further minimize the power consumption of CiM array. However, subthreshold-FeFETs are susceptible to temperature drift, resulting in computation accuracy degradation. Existing solutions exhibit weak temperature resilience at larger array size and only support 1-bit. In this paper, we propose TReCiM, an ultra-low-power temperature-resilient multibit 2FeFET-1T CiM design that reliably performs MAC operations in the subthreshold-FeFET region with temperature ranging from 0 to 85 degrees Celcius at scale. We benchmark our design using NeuroSim framework in the context of VGG-8 neural network architecture running the CIFAR-10 dataset. Benchmarking results suggest that when considering temperature drift impact, our proposed TReCiM array achieves 91.31% accuracy, with 1.86% accuracy improvement compared to existing 1-bit 2T-1FeFET CiM array. Furthermore, our proposed design achieves 48.03 TOPS/W energy efficiency at system level, comparable to existing designs with smaller technology feature sizes.

academic

TReCiM: Lower Power and Temperature-Resilient Multibit 2FeFET-1T Compute-in-Memory Design

基本信息

论文ID: 2501.01052
标题: TReCiM: Lower Power and Temperature-Resilient Multibit 2FeFET-1T Compute-in-Memory Design
作者: Yifei Zhou, Thomas Kämpfe, Kai Ni, Hussam Amrouch, Cheng Zhuo, Xunzhao Yin
分类: cs.ET (Emerging Technologies)
发表时间: 2025年1月
论文链接: https://arxiv.org/abs/2501.01052

摘要

存算一体(Compute-in-Memory, CiM)作为解决人工智能和物联网硬件挑战的有前景方案，特别是解决"内存墙"问题。通过在交叉阵列结构中使用非易失性存储器(NVM)设备，CiM能够高效加速神经网络中的关键操作——乘累加(MAC)运算。在各种NVM设备中，铁电场效应晶体管(FeFET)因其CMOS兼容性、电压驱动写/读机制和高ION/IOFF比而特别适合超低功耗CiM阵列。亚阈值操作的FeFET能进一步最小化功耗，但易受温度漂移影响导致计算精度下降。本文提出TReCiM，一种超低功耗、温度弹性的多位2FeFET-1T CiM设计，在0°C到85°C温度范围内可靠执行MAC操作。使用NeuroSim框架在VGG-8神经网络和CIFAR-10数据集上的基准测试显示，考虑温度漂移影响时，TReCiM阵列达到91.31%的精度，比现有1位2T-1FeFET CiM阵列提高1.86%。此外，该设计在系统级达到48.03 TOPS/W的能效，可与更小技术特征尺寸的现有设计相媲美。

研究背景与动机

问题背景

内存墙问题: 传统冯·诺依曼架构面临处理单元和存储单元之间频繁数据传输导致的高功耗和性能瓶颈
边缘AI需求: AI和IoT应用需要大量MAC运算，对能效要求极高
现有CiM限制: 虽然存算一体技术能解决内存墙问题，但现有设计在温度弹性和多位存储方面存在不足

研究动机

FeFET优势: FeFET具有CMOS兼容、低漏电流、高ION/IOFF比等优点，适合超低功耗应用
亚阈值操作: 在亚阈值区域操作可显著降低功耗，但温度敏感性增加
现有方案局限:
- 现有温度弹性设计在大阵列规模下表现不佳
- 仅支持1位存储，限制了存储密度
- 2T-1FeFET设计需要额外放电时间，增加延迟

核心贡献

提出TReCiM架构: 首个温度弹性的多位2FeFET-1T CiM设计，支持0°C-85°C温度范围
创新的2FeFET钳位结构: 利用互补绝对温度(CTAT)特性实现温度补偿
多位存储能力: 利用FeFET的多级单元(MLC)特性实现2位及以上存储
系统级验证: 基于NeuroSim框架的完整系统级评估和基准测试
性能提升: 相比现有方案在温度弹性方面提升3倍，能效达到48.03 TOPS/W

方法详解

任务定义

设计一个能在宽温度范围(0°C-85°C)下稳定工作的超低功耗多位CiM阵列，支持神经网络MAC运算，同时保持高精度和能效。

模型架构

2FeFET-1T单元设计

单元结构

核心组件:

M1, M2: 两个FeFET器件，形成钳位结构
M3: NMOS晶体管，作为输出控制
控制信号: WL1, WL2(字线), DL(数据线), BL(位线), SL(源线)

工作原理:

写操作: 通过WL1和WL2施加不同电压(±4V)设置FeFET状态
读操作: 通过控制WL电压实现MAC运算
温度补偿: 利用MOSFET的CTAT特性和反馈机制

多位存储实现

状态'0': M2处于VTH1状态，M1处于VTH0状态
状态'1': M1和M2均处于VTH1状态(钳位配置)
状态'2'及以上: M1处于不同VTH状态，M2关闭

技术创新点

1. 2FeFET钳位结构

当存储状态'1'时：
- M1和M2形成分压器
- 中间节点VS电压被稳定钳位
- 显著减少温度漂移影响

2. CTAT温度补偿机制

亚阈值区域MOSFET漏电流公式：

ID = I0 * exp(Vgs / (ξVT))
其中 VT = kT/q

温度反馈机制：

温度升高 → M1漏电流增加 → VS电压上升 → M3输出电流增加
但由于CTAT特性，电流增幅被抑制，减小输出波动

3. 阵列级设计

8行×多列结构: 支持并行MAC运算
闪存ADC: 使用电流感应放大器减少感应延迟
共享ADC: 8列共享一个3位ADC，平衡面积和性能

实验设置

仿真环境

SPICE仿真: 使用Intel FinFET模型和Preisach FeFET紧凑模型
NeuroSim框架: 修改支持亚阈值FeFET和温度效应
工艺节点: 45nm技术节点
电源电压: 亚阈值设计Vdd=0.8V，饱和设计Vdd=1.0V

数据集

神经网络: VGG-8架构
数据集: CIFAR-10
网络结构: 6个卷积层 + 2个全连接层
量化: 使用WAGE模型进行硬件量化

评价指标

温度弹性: 噪声容限率(NMR)和最小NMR值
精度: 神经网络推理精度
能效: TOPS/W (每瓦特万亿次运算)
面积: 芯片面积利用率
吞吐量: 运算速度

对比方法

1FeFET-1R: 基础单FeFET设计
2T-1FeFET: 现有温度弹性设计
其他NVM: RRAM、PCM等技术

实验结果

主要结果

温度弹性验证

1位TReCiM: NMRmin = 0.291 (0-85°C), NMRmin = 2.6 (20-85°C)
温度弹性提升: 相比1FeFET-1R设计提升3倍
相比2T-1FeFET: 提升1.06倍

神经网络性能

设计方案	精度	能效(TOPS/W)	位宽
TReCiM (1-bit)	92.00%	26.06	1
TReCiM (2-bit)	91.31%	48.03	2
2T-1FeFET	~89.45%	~21.0	1
1FeFET-1R (亚阈值)	<85%	~15.0	1

消融实验

工艺变异影响

蒙特卡罗仿真: 500次运行，σVT = 54mV
状态'1': 100%准确率，变异仅3.89%
状态'2': 变异20.8%
状态'3': 变异17.1%

温度特性分析

不同存储状态的温度敏感性：

状态'1': 温度漂移可忽略(钳位效应)
状态'2': 最大波动32.9%
状态'3'及以上: 随VTH降低，温度敏感性减弱

案例分析

在VGG-8网络中，权重分布为：

权重'0': 27.2%
权重'1': 24.1%
权重'2': 23.5%
权重'3': 25.2%

综合变异率为13.9%，最终推理精度达到91.31%。

结论与讨论

主要结论

技术可行性: 2FeFET-1T结构成功实现温度弹性和多位存储
性能优势: 在保持低功耗的同时显著提升温度弹性
系统价值: 在实际神经网络应用中验证了设计的有效性

局限性

部分状态敏感: 存储状态'2'及以上仍有一定温度敏感性
工艺依赖: 性能依赖于FeFET器件的工艺成熟度
ADC开销: 多位设计需要更高精度ADC，增加面积和功耗
温度范围: 虽然覆盖0-85°C，但在极端温度下性能仍有下降

未来方向

器件优化: 进一步优化FeFET器件特性减少温度敏感性
电路改进: 探索更高位宽存储的温度弹性设计
系统集成: 与片上温度传感器结合实现动态补偿
应用扩展: 在更多AI应用场景中验证设计效果

深度评价

优点

创新性强: 首次提出多位温度弹性FeFET CiM设计，技术路线新颖
理论扎实: 基于CTAT特性的温度补偿机制有坚实的物理基础
验证充分: 从器件到系统级的完整验证链条
实用价值: 在实际神经网络应用中证明了设计价值
性能优异: 能效和精度均达到先进水平

不足

温度补偿有限: 对于高位存储状态，温度补偿效果有限
复杂度增加: 2FeFET结构相比单FeFET增加了设计复杂度
工艺要求: 对FeFET器件一致性要求较高
扩展性: 在更大阵列规模下的性能表现需要进一步验证

影响力

学术价值: 为温度弹性CiM设计提供了新的技术路径
产业意义: 对边缘AI芯片设计具有重要参考价值
技术推动: 推动了FeFET在CiM应用中的技术发展

适用场景

边缘AI: 功耗敏感的边缘推理应用
IoT设备: 温度变化较大的物联网环境
移动计算: 对能效要求极高的移动设备
工业控制: 需要在宽温度范围工作的工业应用

参考文献

论文引用了42篇相关文献，涵盖了CiM技术、FeFET器件、温度效应、神经网络加速器等多个方面，为研究提供了坚实的理论基础。关键参考文献包括NeuroSim框架、FeFET建模、以及相关的CiM设计工作。

总体评价: 这是一篇高质量的技术论文，在温度弹性CiM设计方面做出了重要贡献。论文技术路线清晰，实验验证充分，对推动FeFET在AI加速器中的应用具有重要意义。虽然在某些方面仍有改进空间，但整体上代表了该领域的重要进展。