2025-11-18T21:19:13.596005

Optimised neural networks for online processing of ATLAS calorimeter data on FPGAs

Aad, Bertrand, Laatu et al.

A study of neural network architectures for the reconstruction of the energy deposited in the cells of the ATLAS liquid-argon calorimeters under high pile-up conditions expected at the HL-LHC is presented. These networks are designed to run on the FPGA-based readout hardware of the calorimeters under strict size and latency constraints. Several architectures, including Dense, Recurrent (RNN), and Convolutional (CNN) neural networks, are optimised using a Bayesian procedure that balances energy resolution against network size. The optimised Dense, CNN, and combined Dense+RNN architectures achieve a transverse energy resolution of approximately 80 MeV, outperforming both the optimal filtering (OF) method currently in use and RNNs of similar complexity. A detailed comparison across the full dynamic range shows that Dense, CNN, and Dense+RNN accurately reproduce the energy scale, while OF and RNNs underestimate the energy. Deep Evidential Regression is implemented within the Dense architecture to address the need for reliable per-event energy uncertainties. This approach provides predictive uncertainty estimates with minimal increase in network size. The predicted uncertainty is found to be consistent, on average, with the difference between the true deposited energy and the predicted energy.

academic

Optimised neural networks for online processing of ATLAS calorimeter data on FPGAs

基本信息

论文ID: 2510.11469
标题: Optimised neural networks for online processing of ATLAS calorimeter data on FPGAs
作者: Georges Aad, Raphaël Bertrand, Lauri Laatu, Emmanuel Monnier, Arno Straessner, Nairit Sur, Johann C. Voigt
分类: physics.ins-det (Physics - Instrumentation and Detectors)
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11469v1

摘要

本研究针对高亮度大型强子对撞机(HL-LHC)预期的高堆积条件下，ATLAS液氩量热器单元能量沉积重建的神经网络架构进行了深入研究。这些网络设计用于在严格的尺寸和延迟约束下运行于量热器基于FPGA的读出硬件上。通过贝叶斯优化程序，对包括密集网络(Dense)、循环神经网络(RNN)和卷积神经网络(CNN)在内的多种架构进行了优化，在能量分辨率与网络规模之间取得平衡。优化后的Dense、CNN和Dense+RNN组合架构实现了约80 MeV的横向能量分辨率，显著优于当前使用的最优滤波(OF)方法和相似复杂度的RNN。在全动态范围的详细比较显示，Dense、CNN和Dense+RNN准确再现了能量标度，而OF和RNN则低估了能量。此外，在Dense架构中实现了深度证据回归，以满足可靠的逐事件能量不确定性需求。

研究背景与动机

问题背景

高亮度LHC挑战: HL-LHC将在2026-2030年升级后产生高达200个同时质子-质子碰撞，导致严重的信号堆积问题
硬件约束: ATLAS液氩量热器包含182,468个单元，每秒产生数百TB数据，需要专门的电子板处理
延迟要求: 能量重建算法必须在125 ns内完成，以满足触发系统的快速响应需求
现有方法局限: 当前使用的最优滤波(OF)算法在高堆积条件下性能显著下降

研究动机

FPGA处理能力的提升为在数据处理链早期阶段实现现代机器学习算法提供了独特机会
需要开发能在严格硬件约束下运行且性能优于OF算法的新方法
实现逐事件能量不确定性估计，提高后续数据获取和重建步骤的精度

核心贡献

多架构优化: 提出并优化了四种神经网络架构(Dense、RNN、CNN、Dense+RNN)，通过贝叶叶斯优化在能量分辨率和网络规模间取得最佳平衡
硬件约束目标函数: 设计了考虑MAC单元数量的分段惩罚目标函数，有效控制网络规模
性能提升: 最优架构实现约80 MeV横向能量分辨率，比OF算法提升约8%
不确定性量化: 首次在FPGA约束下实现深度证据回归(DER)，提供逐事件能量不确定性估计
全动态范围验证: 在0-130 GeV能量范围内验证了方法的有效性和能量标度准确性

方法详解

任务定义

输入: 量热器单元的数字化脉冲样本序列

4个沉积后样本(从目标能量沉积的BC开始)
最多28个沉积前样本(用于校正先前能量沉积引起的畸变)

输出: 特定BC处的真实横向能量 $E_T^{true}$ 约束: 网络规模<500 MAC单元，延迟<125 ns

模型架构

1. CNN架构

结构: 两个卷积层 + 输入输出层
第一层: 5个并行1D滤波器，核大小7，在25个输入样本上滑动
第二层: 6个2D滤波器，核大小11×5，输入19×5
输出层: 单个滤波器，核大小9×6
优势: 滑动窗口模式，可重用先前计算结果，降低延迟

2. RNN架构

结构: 5个RNN单元序列 + 最终密集层
单元: 简单vanilla单元，维度8，ReLU激活
特点: 与数据样本到达同步计算，参数共享但重用有限

3. Dense+RNN架构

创新设计: 密集层处理沉积前样本初始化RNN单元
优势: 保持RNN优点同时降低长序列计算成本
结构: 密集层(沉积前) → RNN序列(沉积后) → 最终密集层

4. Staged Dense架构

两阶段设计:
- 第一阶段: 沉积前样本校正脉冲畸变
- 第二阶段: 结合沉积后样本捕获脉冲形状
延迟优化: 第一阶段可预先计算

技术创新点

1. 硬件约束目标函数

f(M,σ) = {
  σ̃                           if M ≤ 500
  σ̃ + 0.3(M̃ - 0.3)          if M ∈ ]500; 850]
  σ̃ + 0.3(M̃ - 0.3) + e^(M̃-0.65) - 1  else
}

分段惩罚机制确保网络在FPGA约束内
平衡能量分辨率与计算复杂度

2. 深度证据回归(DER)

NIG分布参数化: γ(期望值), ν(认知方差), α, β(随机方差参数)
不确定性分解: 随机不确定性 + 认知不确定性
实现: 替换最终密集层为DenseNormalGamma层

实验设置

数据集

仿真工具: AREUS工具包
训练集: 100万事件
验证集: 150万事件
测试集: 250万事件
最终评估: 1300万独立事件
能量范围: 0-130 GeV均匀分布(覆盖80%高增益读出动态范围)
堆积条件: 平均200个同时碰撞(⟨μ⟩=200)

评价指标

主要指标: 横向能量分辨率 σ(E_T^pred - E_T^true)
能量标度: ⟨E_T^pred - E_T^true⟩ vs E_T^true
不确定性评估: Pull分布 (E_T^pred - E_T^true)/δ_pred

对比方法

基线: 最优滤波(OF)算法
网络间比较: RNN, Dense, CNN, Dense+RNN

实现细节

框架: TensorFlow Keras
优化: 贝叶斯优化，30-100次迭代
代理模型: 5/2 Matérn核高斯过程
获取函数: Expected Improvement准则

实验结果

主要结果

能量分辨率对比

架构	能量分辨率 (MeV)	MAC单元数	相对OF改善
OF	~90	-	-
RNN	~90	368	0%
Dense	~80	240	~11%
CNN	~80	419	~11%
Dense+RNN	~80	392	~11%

能量标度准确性

Dense, CNN, Dense+RNN: 准确再现能量标度，偏差接近0
OF: 系统性低估能量(设计预期，不包含平均同时堆积成分)
RNN: 低能量处轻微低估，高能量处偏差增大

消融实验

沉积前样本重要性

所有优化网络(除RNN)使用>20个沉积前样本
证明了捕获先前能量沉积畸变的重要性
RNN因长序列计算成本过高而受限

网络规模优化

贝叶斯优化过程显示:

前10次随机评估后网络规模大幅减少
20次评估后能量分辨率恢复且网络规模稳定
后续100次评估仅有微小改善

DER不确定性分析

Pull分布特征

均值: -0.06 (接近0，轻微过估计倾向)
标准差: 0.75 (略微过估计不确定性)
整体上不确定性估计与真实偏差一致

不确定性分解

认知不确定性: 占主导地位(72-79 MeV)
随机不确定性: 较小(30-42 MeV)
99%事件在窄带范围内，表明模型预测稳定

结论与讨论

主要结论

性能提升: Dense和CNN架构实现~8%能量分辨率改善
硬件可行: 所有优化网络<500 MAC单元，满足FPGA约束
能量标度: 神经网络准确再现全动态范围能量标度
不确定性: DER成功提供逐事件不确定性估计

局限性

单一单元: 研究局限于单个量热器单元
理想触发: 假设完美硬散射事件检测
高增益: 仅考虑高增益读出设置
异常检测: 当前不确定性估计难以识别重建异常事件

未来方向

多单元扩展: 扩展到多个量热器单元的联合处理
触发集成: 结合束团交叉分配功能
异常检测: 探索噪声突发和非均匀束团结构的处理
架构优化: 更大训练数据集和refined架构

深度评价

优点

实用性强: 直接面向HL-LHC实际需求，考虑严格硬件约束
方法全面: 系统比较多种架构，贝叶斯优化确保公平比较
创新设计: Dense+RNN架构巧妙平衡性能与计算成本
不确定性量化: 首次在FPGA约束下实现DER，具有重要实用价值
验证充分: 全动态范围验证，大规模独立测试集

不足

范围局限: 仅针对单个特定位置的量热器单元
简化假设: 理想触发假设可能与实际应用存在差距
异常处理: 对重建异常事件的处理能力有限
泛化性: 不同位置、不同条件下的泛化能力未充分验证

影响力

技术贡献: 为高能物理实验的实时数据处理提供了新的解决方案
方法论: 硬件约束优化方法可推广到其他FPGA应用
实用价值: 直接服务于ATLAS实验升级，具有重要工程价值
学科交叉: 促进机器学习与高能物理仪器的深度融合

适用场景

高能物理: 类似的量热器能量重建任务
实时系统: 需要低延迟、高精度的信号处理应用
FPGA应用: 资源受限环境下的神经网络部署
不确定性量化: 需要实时不确定性估计的工程应用

参考文献

本文引用了28篇重要参考文献，涵盖ATLAS实验设计、LHC升级计划、FPGA神经网络实现、深度证据回归理论等关键领域，为研究提供了坚实的理论和技术基础。

总体评价: 这是一篇高质量的应用研究论文，在理论创新和工程实践之间取得了良好平衡。研究直接服务于重大科学装置升级需求，方法设计合理，实验验证充分，对高能物理实验和FPGA应用领域都具有重要价值。