2025-11-18T22:43:13.755250

Sparse Iterative Solvers Using High-Precision Arithmetic with Quasi Multi-Word Algorithms

Mukunoki, Ozaki
To obtain accurate results in numerical computation, high-precision arithmetic is a straightforward approach. However, most processors lack hardware support for floating-point formats beyond double precision (FP64). Double-word arithmetic (Dekker 1971) extends precision by using standard floating-point operations to represent numbers with twice the mantissa length. Building on this concept, various multi-word arithmetic methods have been proposed to further increase precision by combining additional words. Simplified variants, known as quasi algorithms, have also been introduced, which trade a certain loss of accuracy for reduced computational cost. In this study, we investigate the performance of quasi algorithms for double- and triple-word arithmetic in sparse iterative solvers based on the Conjugate Gradient method, and compare them with both non-quasi algorithms and standard FP64. We evaluate execution time on an x86 processor, the number of iterations to convergence, and solution accuracy. Although quasi algorithms require appropriate normalization to preserve accuracy - without it, convergence cannot be achieved - they can still reduce runtime when normalization is applied correctly, while maintaining accuracy comparable to full multi-word algorithms. In particular, quasi triple-word arithmetic can yield more accurate solutions without significantly increasing execution time relative to double-word arithmetic and its quasi variant. Furthermore, for certain problems, a reduction in iteration count contributes to additional speedup. Thus, quasi triple-word arithmetic can serve as a compelling alternative to conventional double-word arithmetic in sparse iterative solvers.
academic

Sparse Iterative Solvers Using High-Precision Arithmetic with Quasi Multi-Word Algorithms

基本信息

  • 论文ID: 2510.13536
  • 标题: Sparse Iterative Solvers Using High-Precision Arithmetic with Quasi Multi-Word Algorithms
  • 作者: Daichi Mukunoki (Nagoya University), Katsuhisa Ozaki (Shibaura Institute of Technology)
  • 分类: cs.MS (Mathematical Software)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13536

摘要

为了在数值计算中获得准确结果,高精度算术是一种直接的方法。然而,大多数处理器缺乏对双精度(FP64)以外浮点格式的硬件支持。双字算术(Dekker 1971)通过使用标准浮点运算来表示具有两倍尾数长度的数字,从而扩展精度。基于这一概念,已经提出了各种多字算术方法,通过组合额外的字来进一步增加精度。简化变体,即准算法,也被引入,它们以一定的精度损失换取计算成本的降低。本研究调查了基于共轭梯度方法的稀疏迭代求解器中双字和三字算术的准算法性能,并将其与非准算法和标准FP64进行比较。

研究背景与动机

核心问题

  1. 硬件限制问题:大多数处理器缺乏对双精度(FP64)以外浮点格式的硬件支持,限制了高精度数值计算的实现
  2. 稀疏迭代求解器的精度需求:在求解大型稀疏线性系统时,舍入误差会增加收敛所需的迭代次数,影响求解精度和效率
  3. 性能与精度的权衡:传统多字算术方法虽然能提高精度,但计算开销较大

研究重要性

  • 稀疏迭代求解器广泛应用于科学计算和工程应用中
  • 高精度算术可以改善收敛性,减少迭代次数
  • 在内存受限的应用中,多字算术的额外开销可能被内存延迟掩盖

现有方法局限性

  • 传统多字算术(如DW、TW)计算成本高
  • 准算法虽然降低了计算成本,但可能导致精度损失
  • 缺乏对准算法在迭代求解器中性能的系统性评估

核心贡献

  1. 系统性评估准算法性能:首次在稀疏迭代求解器中系统评估QDW和QTW算法的性能
  2. 发现归一化的关键作用:证明了适当的归一化对准算法收敛性的重要性
  3. 提出QTW作为有效替代方案:证明准三字算术(QTW)可以作为传统双字算术的有效替代
  4. 全面的性能分析:从执行时间、迭代次数和求解精度三个维度进行综合评估

方法详解

任务定义

求解对称正定线性系统 Ax = b,其中:

  • A为n×n对称正定稀疏矩阵
  • b为右端向量
  • x为待求解向量

使用共轭梯度(CG)方法进行迭代求解,评估不同精度算术的性能。

多字算术架构

基础算法

错误自由变换算法

  • TwoSum(a,b):将a+b分解为浮点结果x和舍入误差y
  • QuickTwoSum(a,b):TwoSum的高效变体,要求|a|≥|b|
  • TwoProdFMA(a,b):使用FMA运算将a×b分解为结果和误差

双字算术(DW)

DWadd: [c1,c2] = DWadd(a1,a2,b1,b2)
- 操作数:11个FP64操作
- 包含归一化步骤(QuickTwoSum)

DWmul: [c1,c2] = DWmul(a1,a2,b1,b2)  
- 操作数:7个FP64操作
- 包含归一化步骤

准双字算术(QDW)

  • 省略归一化步骤,允许高低字重叠
  • QDWadd:8个操作,QDWmul:4个操作
  • 计算成本显著降低

准三字算术(QTW)

QTWadd: [c1,c2,c3] = QTWadd(a1,a2,a3,b1,b2,b3)
- 操作数:21个FP64操作
- 不强制fl(c1+c2)=c1和fl(c2+c3)=c2

QTWmul: [c1,c2,c3] = QTWmul(a1,a2,a3,b1,b2,b3)
- 操作数:24个FP64操作

技术创新点

  1. SIMD向量化优化
    • 使用AVX2和AVX-512指令集进行向量化
    • QTW算法消除了条件分支,更适合向量化
  2. 归一化策略
    • 在CG方法的残差向量更新后进行归一化
    • 使用VecSum3算法缓解三字算术中的位重叠
  3. 混合精度实现
    • 系数矩阵A和右端向量b使用FP64存储
    • 内部计算使用相应的多字算术

实验设置

数据集

使用SuiteSparse矩阵集合中的8个对称正定矩阵:

矩阵维数n非零元素nnz应用领域
Hook_14981,498,02360,917,445结构问题
bone010986,70347,851,783模型降阶
nd24k72,00028,715,6342D/3D问题
crankseg_263,83814,148,858结构问题

评价指标

  1. 执行时间:每次迭代时间和总收敛时间
  2. 迭代次数:达到收敛所需的迭代数
  3. 求解精度:相对误差范数||xk-x*||2/||x*||2

对比方法

  • CG-FP64:标准双精度实现
  • CG-DW:双字算术实现
  • CG-QDW:准双字算术实现
  • CG-TW:三字算术实现
  • CG-QTW:准三字算术实现

实现细节

  • 硬件平台:Intel Xeon Gold 6230 CPU (20核心,2.10-3.90 GHz)
  • 编译器:g++ 11.3.0,优化选项-O3 -march=native
  • 并行化:OpenMP + SIMD向量化
  • 收敛容差:ε = 10^-16, 10^-24, 10^-32

实验结果

主要结果

性能开销分析

相对于FP64的执行时间开销(100次迭代):

  • CG-QDW:约1.3倍
  • CG-DW:约2.1倍
  • CG-QTW:约2.4倍
  • CG-TW:高达67倍

收敛性能对比

在ε=10^-16收敛容差下的典型结果:

矩阵FP64时间(s)/迭代数QDW时间(s)/迭代数QTW时间(s)/迭代数
bone010170/21780120/12547150/11352
pdb1HYS5.4/128073.4/62854.9/5346

关键发现

  1. 归一化的必要性
    • 不进行归一化时,准算法无法收敛
    • 在残差向量更新后进行归一化可确保收敛
  2. QTW的优势
    • 相比TW显著降低计算开销
    • 达到与TW相当的精度
    • 支持SIMD向量化,性能更优
  3. 迭代次数减少的收益
    • 高精度算术可减少迭代次数
    • 总执行时间可能低于FP64实现

吞吐量分析

SpMV操作的吞吐量(GB/s):

  • FP64和QDW:接近内存带宽限制(约90 GB/s)
  • DW和QTW:经SIMD优化后达到内存受限
  • TW:由于分支影响,性能显著下降

相关工作

多字算术发展

  • 基础理论:Dekker(1971)的双字算术
  • 扩展方法:三字(TW)、四字(QW)算术
  • 简化变体:准算法(QDW、QTW、QQW)

高精度线性代数库

  • QD库:提供双字和四字算术的Fortran/C++实现
  • XBLAS:基于DW算术的BLAS例程
  • MPLAPACK:高精度BLAS和LAPACK

稀疏迭代求解器应用

  • 四倍精度CG求解器的研究
  • 混合精度方法
  • Ozaki方案的精确稀疏矩阵向量乘法

结论与讨论

主要结论

  1. 准算法的可行性:通过适当归一化,准算法可在稀疏迭代求解器中有效应用
  2. QTW的优势:准三字算术提供了精度和性能的良好平衡
  3. 性能提升潜力:在某些问题上,迭代次数减少可带来额外的加速效果

局限性

  1. 归一化开销:需要在精度和执行时间间权衡
  2. 问题依赖性:性能提升效果依赖于具体问题特征
  3. 评估范围:仅评估了基础CG方法,未包含预条件技术

未来方向

  1. 归一化策略优化:研究更频繁归一化对精度的影响
  2. 扩展到其他迭代方法:评估在其他求解器中的应用
  3. 分布式环境应用:在通信延迟占主导的环境中的潜力
  4. 低精度格式实现:在AI处理器上使用FP16/FP32实现多字算术

深度评价

优点

  1. 系统性研究:首次系统评估准算法在迭代求解器中的性能
  2. 实用价值高:QTW算法提供了实用的高精度计算方案
  3. 实验充分:从多个维度(时间、精度、收敛性)进行全面评估
  4. 技术创新:SIMD优化和归一化策略的设计合理

不足

  1. 理论分析不足:缺乏对准算法误差累积的理论分析
  2. 评估范围有限:仅评估CG方法,缺乏其他迭代方法的验证
  3. 归一化策略单一:仅尝试了一种归一化位置和频率

影响力

  • 学术贡献:为高精度数值计算领域提供了新的算法选择
  • 实用价值:QTW算法可直接应用于实际科学计算问题
  • 可复现性:实现细节描述充分,便于复现

适用场景

  1. 科学计算:需要高精度求解的大规模稀疏线性系统
  2. 工程仿真:结构分析、电磁场计算等应用
  3. 资源受限环境:缺乏硬件四倍精度支持的系统

参考文献

本文引用了29篇相关文献,涵盖了多字算术理论、高精度线性代数库、稀疏迭代求解器等关键领域的重要工作,为研究提供了坚实的理论基础。