The exploitation of space group symmetries in numerical calculations of periodic crystalline solids accelerates calculations and provides physical insight. We present results for a space-group symmetry adaptation of electronic structure calculations within the finite-temperature self-consistent GW method along with an efficient parallelization scheme on accelerators. Our implementation employs the simultaneous diagonalization of the Dirac characters of the orbital representation. Results show that symmetry adaptation in self-consistent many-body codes results in substantial improvements of the runtime, and that block diagonalization on top of a restriction to the irreducible wedge results in additional speedup.
Symmetry adaptation for self-consistent many-body calculations
- 论文ID: 2405.09494
- 标题: Symmetry adaptation for self-consistent many-body calculations
- 作者: Xinyang Dong (AI for Science Institute Beijing & University of Michigan), Emanuel Gull (University of Michigan)
- 分类: physics.comp-ph
- 发表时间: May 16, 2024 (Preprint submitted to Computer Physics Communications)
- 论文链接: https://arxiv.org/abs/2405.09494
本文研究了在周期性晶体固体的数值计算中利用空间群对称性来加速计算并提供物理洞察。作者在有限温度自洽GW方法的电子结构计算中实现了空间群对称性适应,并提出了在加速器上的高效并行化方案。实现采用轨道表示的Dirac特征的同时对角化方法。结果表明,自洽多体代码中的对称性适应显著改善了运行时间,在不可约楔限制基础上的块对角化提供了额外的加速效果。
- 要解决的问题: 现代多体理论计算(如自洽GW方法)在处理周期性晶体材料时面临巨大的计算负担,需要重复计算频率依赖的传播子、顶点函数和屏蔽相互作用等复杂对象。
- 问题的重要性:
- 空间群对称性是理解晶体材料的关键,能够提供物理洞察
- 对称性的利用可以显著加速数值计算
- GPU等现代计算架构能够有效利用群结构暴露的并行性
- 现有方法的局限性:
- 标准电子结构代码(Hartree-Fock、DFT、非自洽GW)主要基于单粒子密度矩阵,对称性适应形式已经成熟
- 但现代多体技术需要计算密度矩阵之外的对象,对称性适应的形式化程度不够
- 研究动机: 将Dovesi等人在Hartree-Fock和DFT理论中开创的对称性适应形式推广到自洽GW方法,并在现代GPU架构上实现高效并行化。
- 方法扩展: 将基于Dirac特征同时对角化的对称性适应方法从单体理论扩展到自洽多体GW计算
- 高效实现: 开发了在GPU加速器上的高效并行化方案,实现了MPI和CUDA的混合并行
- 性能提升: 证明了对称性适应结合块对角化能够带来约一个数量级的浮点运算减少
- 算法优化: 提出了处理非同构空间群和投影表示的完整数值算法
本文研究在有限温度下周期性晶体固体的电子结构计算,特别是自洽GW方法中如何利用空间群对称性来加速计算。输入为晶体结构和哈密顿量,输出为自洽的格林函数和自能。
- 空间群操作: 表示为 α^={α∣v(α)},其中α是点群操作,v(α)是平移
- 轨道变换: 对称操作在轨道上的作用为:
α^g(xj)k(r)=exp[−ik~⋅vαx]×[O(α)g(xj)k~(r)]
对于动量k,定义投影表示矩阵:
Dk(α)=exp[ik⋅v(α)]Ok(α^)λk(α,β)=exp{ik⋅[v(β)−αv(β)]}
- Dirac特征定义:
Ωc=hnc∑β∈GD(α)⋅D(γ)⋅D(β)−1
- 同时对角化: 通过对所有相关Dirac特征的同时对角化获得变换矩阵Uk
- 扩展到多体理论: 首次将Dirac特征同时对角化方法系统地应用于自洽GW计算
- 张量变换: 开发了三指标相互作用张量的对称性变换公式:
Vk~ik~j=Oˉq(α^)Oki(α^)VkikjOkj†(α^)
- GPU优化: 设计了异步流处理和批量ZGEMM调用的GPU加速方案
测试了四种III-V族和IV族化合物:
- Si (空间群227, 非同构)
- BN (空间群194, 非同构)
- AlP (空间群216, 同构)
- GaAs (空间群216, 同构)
- 基组: gthdzvp基组和def2-svp-ri辅助基组
- 温度网格: 114个虚时间点,103个玻色频率点
- 动量网格: nk×nk×nk (nk=1,2,4,6)
- 完整布里渊区计算 (Full)
- 仅不可约楔旋转 (Rotation)
- 旋转+块对角化 (Block Diag)
以Si为例,在不同nk值下的FLOP对比:
| nk | nik | Full | Rotation | Block Diag | 加速比 |
|---|
| 1 | 1 | 1.31×1010 | 1.31×1010 | 1.50×109 | 8.7× |
| 2 | 3 | 1.73×1012 | 1.01×1012 | 2.24×1011 | 7.7× |
| 4 | 8 | 1.10×1014 | 2.13×1013 | 8.55×1012 | 12.9× |
| 6 | 16 | 1.25×1015 | 1.43×1014 | 6.87×1013 | 18.2× |
- 在16个V100 GPU上实现了近似理想的线性加速比
- P0和Σ̃计算内核都显示出优秀的可扩展性
- k点数量效应: 随着k点总数增加,点间旋转的优势更加明显
- 块对角化优势: 在k点较少时块对角化效果更显著,因为更多点位于IBZ表面
- 非同构群优势: 非同构空间群(如Si, BN)比同构群显示出更大的加速比
- 传统对称性适应: Dovesi等人在CRYSTAL代码中的开创性工作
- 多体理论: Hedin的GW方法及其自洽实现
- GPU计算: 电子结构计算的加速器优化
- 首次系统地将对称性适应扩展到自洽多体计算
- 提供了完整的非同构空间群处理方案
- 实现了高效的GPU并行化
- 对称性适应在自洽多体代码中带来显著的运行时间改善
- 块对角化在不可约楔限制基础上提供额外加速
- GPU架构能够有效利用对称性暴露的并行性
- 当前实现仅限于标准空间群,未包含磁性空间群
- 对于k点数量很大的系统,块对角化的优势会减弱
- 需要足够的GPU内存来存储关键数据结构
- 磁性空间群: 扩展到Shubnikov群以处理磁性和相对论系统
- 光学响应: 利用对称性知识解释光学响应函数
- 高阶方法: 应用于包含顶点函数的更精确模拟方法
- 理论严谨性: 基于成熟的群论基础,数学推导完整
- 实用价值: 实现了约一个数量级的计算加速,对大规模计算意义重大
- 技术完整性: 提供了从理论到实现的完整方案
- 性能验证: 通过多种材料系统验证了方法的有效性
- 适用范围: 目前仅适用于周期性系统,对表面或缺陷系统的扩展性未知
- 内存需求: GPU实现对内存要求较高,可能限制大系统的应用
- 算法稳定性: 对于大轨道表示矩阵,同时对角化可能遇到数值稳定性问题
- 学术贡献: 为多体计算中的对称性利用提供了标准范式
- 实用价值: 显著降低了自洽GW计算的成本,使更大系统的计算成为可能
- 可复现性: 基于开源软件实现,便于社区采用和改进
- 具有高对称性的周期性晶体材料
- 需要精确多体效应描述的电子结构计算
- 大规模并行计算环境,特别是GPU集群
本文主要基于以下关键工作:
- Dovesi等人的对称性适应理论 (Int. J. Quantum Chem. 1986, 1998)
- Hedin的GW方法 (Phys. Rev. 1965)
- Bradley & Cracknell的固体对称性数学理论
- Lax的固体和分子物理中的对称性原理
该论文为计算物理领域的重要贡献,成功地将对称性理论与现代多体计算和GPU加速技术相结合,为高效的电子结构计算提供了新的解决方案。