2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.
Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
academic

Improving deep neural network performance through sampling

基本信息

  • 论文ID: 2507.07763
  • 标题: Improving deep neural network performance through sampling
  • 作者: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
  • 分类: cond-mat.dis-nn
  • 发表时间: October 27, 2025 (arXiv预印本)
  • 机构: Purdue University Elmore School of Electrical and Computer Engineering
  • 论文链接: https://arxiv.org/abs/2507.07763

摘要

本文探讨了将概率神经元(p-bits)的能效采样方法从玻尔兹曼机扩展到生成式AI领域的可能性。针对当前深度神经网络主要使用多比特确定性神经元而缺乏采样机制的问题,论文首先证明了通过概率网络生成的多个样本可以获得更优的准确率。进而提出了一个核心问题:为提升准确率,产生更多样本与增加单个确定性样本的比特数,哪种方式在能耗上更优?论文提供了一个简单的能耗权衡估算表达式,并通过不同算法和架构的实验结果进行了验证。

研究背景与动机

问题背景

  1. 能耗危机:生成式AI的能耗成本已达到令人望而却步的程度,亟需能效优化方案
  2. 技术差异:玻尔兹曼机中的概率神经元(p-bits)已证明具有显著的能效优势,但前馈深度神经网络仍主要使用多比特确定性神经元
  3. 采样缺失:当前主流的DNN架构缺乏采样机制,限制了其在概率推理方面的能力

研究动机

  1. 扩展p-bits应用:将已在Ising计算中验证的p-bits能效优势扩展到机器学习领域
  2. 能耗-准确率权衡:系统性分析采样数量与比特精度之间的能耗权衡关系
  3. 统一评估框架:建立通用的能耗评估框架,适用于不同的概率DNN实现方案

核心贡献

  1. 提出了概率DNN(p-DNN)框架:将p-bits集成到前馈深度神经网络中,实现基于采样的推理
  2. 开发了样本感知训练方法:通过多样本平均的训练策略,显著提升概率网络的性能
  3. 建立了能耗分析框架:提出通用的基本操作能耗模型,可评估不同架构和算法的能耗权衡
  4. 验证了实际可行性:通过FPGA实现验证了理论分析的准确性,证明了方法的实用价值
  5. 提供了量化洞察:证明仅需2个样本即可超越确定性基线,10个样本可匹配3比特确定性模型的准确率

方法详解

任务定义

本文研究如何在深度神经网络中引入概率采样机制,以实现更好的能耗-准确率权衡。具体包括:

  • 输入:传统的多比特确定性DNN
  • 输出:基于p-bits的概率DNN,能够生成多个样本并通过平均提升性能
  • 约束:在保持或提升准确率的前提下,优化整体能耗效率

模型架构

1. p-DNN基本构建块

论文定义了p-DNN的基本操作单元(图1),其能耗模型为:

ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N

其中:

  • ϵwM,ϵaM\epsilon_{wM}, \epsilon_{aM}:权重和激活内存访问能耗
  • ϵS\epsilon_S:突触计算能耗
  • ϵN\epsilon_N:神经元能耗
  • nn:扇入连接数
  • bw,bab_w, b_a:权重和激活比特数

2. 多样本能耗模型

对于T个样本的情况,能耗模型修正为:

ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]

这表明当权重加载能耗占主导时,多样本的边际成本较低。

3. 样本感知训练策略

  • 前向传播:对每层激活函数添加随机性,生成多个样本
  • 损失计算:基于多样本平均结果计算损失
  • 反向传播:使用直通估计器处理随机激活的梯度

技术创新点

1. MAC到AC的简化

将传统的乘累加(MAC)操作简化为累加(AC)操作:

  • 确定性:w1x1+w2x2+...+wnxnw_1x_1 + w_2x_2 + ... + w_nx_n(需要乘法)
  • 概率性:选择性累加权重子集(仅需加法)

2. p-bit激活函数

采用 b=sign(tanh(W)rand{1,+1})b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\}) 形式的概率激活,其中随机数提供采样的随机性。

3. 噪声注入方法

对已训练的确定性模型添加噪声,无需重新训练即可获得采样收益。

实验设置

数据集

  1. CIFAR-10:用于图像分类任务,50,000训练图像,10,000测试图像
  2. CelebA:用于人脸图像生成,162,770训练图像,缩放至64×64×3
  3. MNIST:用于FPGA验证实验的数字生成任务

评价指标

  • 分类任务:准确率(Accuracy)
  • 生成任务:Fréchet Inception Distance (FID)
  • 能耗指标:每次推理的能耗(J/inference),能耗增益比

对比方法

  • 32位确定性DNN基线
  • 不同比特数的量化模型(1-bit, 3-bit等)
  • 随机比特流方法

实现细节

  • 优化器:ADAM优化器
  • 学习率:1e-3(分类),1e-4(生成)
  • 训练轮数:1000 epochs
  • 批大小:64
  • 权重初始化:Glorot初始化

实验结果

主要结果

1. 图像分类性能

  • 1个样本:p-DNN即可匹配32位确定性基线准确率
  • 2个样本:超越确定性基线性能
  • 10个样本:达到3位确定性模型的准确率水平

2. 图像生成质量

  • 样本感知训练:显著改善生成图像质量,FID分数接近32位基线
  • 训练-测试匹配:训练和测试使用相同样本数时效果最佳
  • 渐进改善:随样本数增加,图像质量持续提升

3. 能耗分析结果

  • 内存主导:DNN的能耗主要由内存访问决定,计算能耗占比较小
  • 采样优势:在DRAM场景下,增加1个样本仅增加0.7%能耗,但可提升2%准确率
  • 整体收益:在1%准确率容忍度下,p-DNN相比32位DNN可实现2倍以上的能耗减少

消融实验

1. 激活函数对比

  • Sigmoid vs Tanh:两种激活函数在概率模型中表现相近
  • 确定性差异:Tanh确定性模型表现较差,突出了概率模型的鲁棒性

2. 噪声注入验证

  • 无需重训练:简单的噪声注入即可在2个样本时获得性能提升
  • 单调改善:性能提升呈单调性,证明了方法的稳定性

FPGA验证结果

  • 能耗验证:实测能耗与理论预测高度吻合(2.5x vs 2.3x增益)
  • 硬件效率:MAC相关的CLB LUT使用量减少2.9倍
  • RNG开销:随机数生成器的能耗和面积开销在整个系统中可忽略不计

相关工作

p-bits与Ising计算

  • 玻尔兹曼机应用:p-bits在优化和采样问题中已证明显著能效优势
  • 硬件实现:基于s-MTJ、齐纳二极管等的物理p-bits实现
  • 架构复用:现有BM硬件可直接用于p-DNN实现

神经网络量化

  • 权重量化:已有大量工作将权重精度降至4位甚至更低
  • 激活量化:激活量化相对困难,通常难以低于8位而不损失性能
  • 二值网络:BinaryConnect、Binarized Neural Networks等1位网络方法

随机计算

  • 比特流计算:使用随机比特流表示连续信号的传统方法
  • 本质差异:p-DNN的采样机制与随机比特流在原理上不同

结论与讨论

主要结论

  1. 可行性验证:概率采样可以有效提升DNN性能,少量样本即可获得显著收益
  2. 能耗优势:在内存主导的现代AI系统中,采样的计算开销几乎可忽略
  3. 运行时可调:p-DNN可在运行时动态调整样本数,灵活平衡能耗和准确率
  4. 硬件友好:现有p-bit硬件架构可直接支持p-DNN实现

局限性

  1. 样本需求:某些任务可能需要大量样本才能达到理想性能
  2. 训练复杂性:样本感知训练增加了训练过程的复杂性
  3. 内存依赖:能耗优势很大程度上依赖于内存访问成本的主导地位
  4. 应用范围:主要验证了视觉任务,其他领域的适用性有待进一步验证

未来方向

  1. 大语言模型应用:将p-DNN扩展到LLM等更大规模模型
  2. 模拟实现:探索基于模拟电路的p-bit实现以进一步降低能耗
  3. 存内计算集成:与存内计算架构结合,最大化能效优势
  4. 高级采样策略:开发超越简单平均的样本组合方法

深度评价

优点

  1. 创新性强:首次系统性地将p-bits引入前馈DNN,开辟了新的研究方向
  2. 理论扎实:提供了完整的能耗分析框架,具有很强的通用性和扩展性
  3. 实验充分:涵盖了分类、生成等多个任务,并通过FPGA验证了实际可行性
  4. 实用价值高:在当前AI能耗危机背景下,提供了切实可行的优化方案
  5. 分析深入:深入分析了内存vs计算的能耗权衡,提供了重要洞察

不足

  1. 规模限制:实验主要在相对较小的模型上进行,大规模模型的表现有待验证
  2. 任务覆盖:主要集中在视觉任务,NLP等其他领域的适用性不明确
  3. 比较基线:与最新的量化和压缩方法的对比不够充分
  4. 理论分析:缺乏对为什么少量样本就能获得显著提升的深层理论解释

影响力

  1. 学术价值:为概率计算与深度学习的结合提供了新的思路和方法
  2. 工程意义:在AI硬件设计中具有重要的指导意义,特别是在能效优化方面
  3. 产业前景:在边缘计算和移动设备AI应用中具有广阔的应用前景

适用场景

  1. 资源受限环境:移动设备、IoT设备等对能耗敏感的场景
  2. 实时推理:需要在延迟和准确率之间灵活权衡的应用
  3. 大规模部署:数据中心等需要处理海量请求的场景
  4. 边缘计算:网络带宽和计算资源都受限的边缘设备

参考文献

论文引用了多个重要的相关工作,包括:

  • Li et al. 2025 ISSCC:65nm ASIC的QMC实现
  • Hubara et al.:量化神经网络的开创性工作
  • Courbariaux et al.:二值神经网络BinaryConnect
  • Jacob et al.:整数量化训练方法

总体评价:这是一篇高质量的研究论文,在概率计算与深度学习交叉领域做出了重要贡献。论文不仅提出了创新的技术方案,还提供了完整的理论分析框架和实验验证,具有很强的学术价值和实用意义。虽然在某些方面还有改进空间,但整体而言是该领域的一个重要进展。