The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
论文ID : 2508.12594标题 : FLARE: Fast Low-rank Attention Routing Engine作者 : Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (Carnegie Mellon University)分类 : cs.LG (Machine Learning)发表时间 : 2025年10月15日 (arXiv v2)论文链接 : https://arxiv.org/abs/2508.12594 传统自注意力机制的二次复杂度限制了其在大规模非结构化网格上的适用性和可扩展性。本文提出了快速低秩注意力路由引擎(FLARE),这是一种线性复杂度的自注意力机制,通过固定长度的潜在序列路由注意力。每个注意力头通过使用可学习的查询令牌将输入序列投影到长度为M≪N的固定长度潜在序列上,实现N个令牌间的全局通信。通过瓶颈序列路由注意力,FLARE学习低秩形式的注意力,可以O(NM)的代价应用。FLARE不仅能扩展到前所未有的问题规模,而且在多个基准测试中相比最先进的神经PDE代理模型提供了更优的准确性。
核心问题 :传统Transformer的自注意力机制具有O(N²)的时间和内存复杂度,这严重限制了其在大规模非结构化网格(如物理仿真中的点云和网格)上的应用。应用重要性 :在偏微分方程(PDE)代理建模中,每个3D点云中的点被视为一个令牌,包含几何和物理量(如坐标、法向量、材料属性)等特征。高保真物理系统仿真成本过高,机器学习代理模型提供了快速近似的替代方案。现有方法局限性 :PerceiverIO :仅执行单次编码和解码,潜在瓶颈可能限制准确性Transolver :跨头共享投影权重,无法利用现有GPU内核进行缩放点积注意力LNO :仅应用单次投影,缺乏深层模型能力研究动机 :开发一种能够保持全局通信能力但具有线性复杂度的注意力机制,使Transformer能够处理百万级点的几何体。线性复杂度令牌混合 :提出FLARE自注意力机制,通过低秩投影和重构替代完整自注意力,实现线性复杂度。卓越准确性 :在多个PDE基准测试中,FLARE以更少参数和更低计算复杂度实现了优于领先神经代理模型的预测准确性。前所未有的可扩展性 :FLARE完全基于标准融合注意力原语构建,确保高GPU利用率,支持百万点非结构化网格的端到端训练。新基准数据集 :发布大规模高分辨率金属增材制造数据集,用于残余位移预测研究。给定输入序列X ∈ R^(N×C),其中N为令牌数,C为特征维度,FLARE旨在学习一个线性复杂度的注意力机制,实现高效的全局令牌间通信。
FLARE引入M≪N个可学习的潜在令牌作为信息交换的瓶颈,包含两个阶段:
编码阶段 :输入序列通过交叉注意力投影到潜在令牌Z_h = SDPA(Q_h, K_h, V_h, s=1)
其中Q_h ∈ R^(M×D)为可学习查询矩阵,K_h, V_h ∈ R^(N×D)解码阶段 :潜在令牌投影回输入序列Y_h = SDPA(K_h, Q_h, Z_h, s=1)
整个过程等价于:
Y_h = (W_decode,h · W_encode,h) · V_h
其中:
W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N) W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M) W_h = W_decode,h · W_encode,h ∈ R^(N×N)为秩最多为M的全局通信矩阵 X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))
头间独立投影 :与Transolver共享投影权重不同,FLARE为每个头分配不同的潜在令牌切片,使每个头学习独立的注意力关系。深度残差MLP :使用深度残差网络进行键/值投影,相比简单线性层能学习更高阶特征交互。对称编解码设计 :编码和解码操作的对称性促进稳定的信息流。兼容融合内核 :完全基于标准SDPA操作,可利用Flash Attention等优化算法。论文评估了6个基准数据集和1个新提出的数据集:
数据集 维度 网格类型 点数 输入/输出特征 训练/测试样本 Elasticity 2D 非结构化 972 2/1 1000/200 Darcy 2D 结构化 7,225 2/1 1000/200 Airfoil 2D 结构化 11,271 2/1 1000/200 Pipe 2D 结构化 16,641 2/1 1000/200 DrivAerML-40k 3D 非结构化 40,000 3/1 387/97 LPBF 3D 非结构化 1,000-50,000 3/1 1100/290
主要使用相对L2误差:
Relative L2 = ||û - u||₂ / ||u||₂
通用注意力模型 :Vanilla Transformer, PerceiverIO基于注意力的PDE代理 :Transolver, LNO神经算子 :GNOT优化器:AdamW (β₁=0.9, β₂=0.999) 学习率调度:OneCycleLR,峰值学习率10⁻³ 训练轮数:2D问题500轮,LPBF 250轮 批量大小:2D问题为2,3D问题为1 FLARE在所有基准测试中均取得最优或次优结果:
模型 Elasticity Darcy Airfoil Pipe DrivAerML-40k LPBF Vanilla Transformer 5.37 4.38 6.28 ∼ ∼ ∼ PerceiverIO 23.4 21.5 162 7.14 760 56.3 GNOT 13.3 16.9 103 5.89 115 24.3 LNO 9.25 7.64 17.8 8.10 146 24.7 Transolver w/o conv 6.40 18.6 8.24 4.87 70.5 20.4 Transolver with conv \ 5.94 5.50 3.90 \ \ FLARE (ours) 3.38 5.10 4.28 2.85 60.8 18.5
注:数值为相对L2误差(×10⁻³)
FLARE成功在单个H100 GPU上训练百万点DrivAerML数据集,这是首个在不使用内存卸载或分布式计算的情况下处理百万点的基于注意力的神经代理模型。
块数(B)和潜在令牌数(M)的影响 :增加块数持续降低相对误差 增加M通常改善性能,但趋势不严格单调 不同问题对秩的需求不同 时间和内存复杂度 :FLARE比vanilla attention快200倍以上 内存使用略高于vanilla attention但远低于Physics Attention 通过O(M³+M²N)时间复杂度的特征分解算法分析学习到的通信矩阵:
早期块中特征值快速衰减,表明有效压缩 深层块利用更多潜在容量 不同头具有不同的频谱轮廓,验证了独立头投影的设计 神经算子 :FNO, DeepONet等学习无限维函数空间间的映射图网络 :利用网格上的局部邻域交互Transformer架构 :允许全局上下文聚合但受二次复杂度限制Linformer :通过学习线性映射投影键值序列Reformer :使用局部敏感哈希Nyströmformer :使用Nyström方法近似自注意力LoRA :低秩适应主要用于高效微调FLARE通过低秩注意力机制成功绕过了自注意力的二次复杂度瓶颈 在多个PDE基准测试中实现了SOTA准确性,同时具有更少参数和更低计算复杂度 首次实现了基于注意力的神经代理模型在百万点几何体上的训练 深度残差MLP依赖 :可能引入顺序瓶颈并增加延迟固定潜在令牌限制 :M的选择需要针对具体问题调优对某些高秩问题的适用性 :如Darcy问题中vanilla transformer仍有优势训练期间递增增加潜在令牌数量 为扩散建模设计时间条件潜在令牌 开发用于自回归建模的仅解码器变体 解决深度残差MLP的顺序瓶颈问题 技术创新性强 :巧妙地将注意力路由问题转化为低秩矩阵分解 独立头投影设计允许专门化路由模式 与现有GPU内核完全兼容 实验充分性 :涵盖6个不同的PDE基准测试 详细的消融实验和频谱分析 首次实现百万点规模的实验 理论分析深入 :提供了O(M³+M²N)的特征分解算法 从数学角度解释了低秩通信的有效性 通过频谱分析验证了设计假设 实用价值高 :发布了新的增材制造数据集 代码开源,便于复现 可直接集成到现有Transformer架构 方法适用性限制 :对高秩问题(如Darcy)效果有限 M的选择需要问题特定的调优 深度MLP可能成为新的计算瓶颈 实验设置局限 :缺乏与更多最新方法的对比 部分基准测试规模相对较小 对不同类型PDE问题的普适性需要更多验证 理论分析不足 :缺乏收敛性分析 对最优M选择的理论指导有限 低秩假设在所有PDE问题中的合理性需要进一步论证 学术贡献 :为高效注意力机制提供了新的设计范式,特别是在科学计算领域实用价值 :使Transformer能够处理大规模几何问题,推动了AI4Science的发展可复现性 :代码开源,实验设置详细,便于后续研究大规模非结构化网格上的PDE求解 点云处理和几何深度学习 需要全局通信但计算资源受限的序列建模任务 科学计算中的代理建模应用 论文引用了Transformer、神经算子、高效注意力机制等相关领域的重要工作,为本研究提供了坚实的理论基础和对比基准。
总体评价 :这是一篇高质量的研究论文,在解决Transformer可扩展性问题方面提出了创新的解决方案。FLARE方法不仅在理论上具有优雅的低秩分解解释,而且在实践中展现出优异的性能。论文的实验设计充分,理论分析深入,对推动大规模几何深度学习和科学计算具有重要意义。