2025-11-20T19:31:15.361383

Domain decomposition of the modified Born series approach for large-scale wave propagation simulations

Mache, Vellekoop

The modified Born series (MBS) is a fast and accurate method for simulating wave propagation in complex structures. In the current implementation of the MBS, the simulation size is limited by the working memory of a single computer or graphics processing unit (GPU). Here, we present a domain decomposition method that enhances the scalability of the MBS by distributing the computations over multiple GPUs, while maintaining its accuracy, memory efficiency, and guaranteed monotonic convergence. With this new method, the computations can be performed in parallel, and a larger simulation size is possible as it is no longer limited to the memory size of a single computer or GPU. We show how to decompose large problems over subdomains and demonstrate our approach by solving the Helmholtz problem for a complex structure of $3.28\cdot 10^7$ cubic wavelengths ($320 \times 320 \times 320$ wavelengths) in just $45$ minutes with a dual-GPU simulation.

academic

大規模波動伝播シミュレーションのための修正Born級数法の領域分解

基本情報

論文ID: 2410.02395
タイトル: Domain decomposition of the modified Born series approach for large-scale wave propagation simulations
著者: Swapnil Mache、Ivo M. Vellekoop（トウェンテ大学）
分類: physics.comp-ph
発表時期: 2024年10月（arXiv v3: 2025年10月16日）
論文リンク: https://arxiv.org/abs/2410.02395

要約

修正Born級数（MBS）は、複雑な構造における波動伝播シミュレーションのための高速かつ正確な方法である。現在のMBS実装では、シミュレーション規模は単一のコンピュータまたはグラフィックス処理装置（GPU）の作業メモリに制限されている。本論文では、複数のGPUに計算を分散させることでMBSのスケーラビリティを向上させる領域分解法を提案し、その精度、メモリ効率、および保証された単調収束性を維持する。この新しい方法により、計算は並列実行でき、単一のコンピュータまたはGPUのメモリサイズに制限されない、より大規模なシミュレーションが実現可能になる。著者らは、デュアルGPUシミュレーションにおいて、わずか45分で $3.28 \times 10^7$ 立方波長（ $320 \times 320 \times 320$ 波長）の複雑な構造のHelmholtz問題を解くことで、本手法を実証している。

研究背景と動機

問題背景

波動伝播シミュレーションの重要性: 波動伝播シミュレーションはナノフォトニクスから地球物理学に至るまで多くの分野で広く応用されているが、大規模な不均質媒質における波動方程式の正確な解を計算することは非常に時間がかかる。
既存手法の限界:
- FDTD法: 有限差分近似に依存し、累積誤差を引き起こし、位相速度誤差は数パーセントに達する可能性がある
- PSTD法: 時間導関数の累積誤差により、シミュレーション距離が100波長をはるかに下回る
- 従来のMBS: 精度が高く収束が速いが、単一GPU メモリサイズに制限される
MBSの利点:
- 有限差分近似に依存せず、数値分散を回避
- Nyquist サンプリング制限のみを満たす必要がある
- 「疑似伝播」特性により、各反復で複数波長を横断可能
- FDTDより3桁以上高速

研究動機

GPUは顕著なパフォーマンス向上を提供するが、その限定的な作業メモリはシミュレーション規模を大きく制限している。既存のFDTDは領域分解によってこの問題を解決しているが、MBSではまだそのような並列化スキームが存在しない。

核心的貢献

MBSの領域分解法を提案: Helmholtz方程式のブロック演算子分解に直接基づく非重複領域分解戦略を開発
MBSの主要な利点を維持: 低メモリ使用、高精度、および保証された単調収束性を維持
境界条件依存性を排除: 部分領域の境界条件を明示的に指定する必要がなく、従来の方法の複雑性を回避
大規模並列計算を実現: $3.27 \times 10^7$ 立方波長の3Dシミュレーションを実証し、単一GPU最大容量の1.95倍を達成
オープンソース実装を提供: GitHubでPythonオープンソース実装を提供

方法の詳細

タスク定義

非均質Helmholtz方程式を解く： $(\nabla^2 + k^2)\psi = -S$

ここで $\nabla^2$ はラプラシアン、 $k$ は空間変化する波数、 $\psi$ は場、 $S$ はソース項である。

モデルアーキテクチャ

1. 基本的なMBS法

演算子 $A := c(\nabla^2 + k^2)$ を $A = L + V$ に分解する。ここで：

$L := c[\nabla^2 + k_0^2]$ ：均質媒質における波動伝播
$V = c[k^2 - k_0^2]$ ：散乱ポテンシャル

前処理Richardson反復を使用： $x^{(n+1)} = x^{(n)} + \alpha\Gamma^{-1}(y - Ax^{(n)})$

2. 領域分解戦略

1次元問題を2つの部分領域に分解する場合、演算子のブロック分解は： $\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix}$

主要な革新は分解を再定義することにある： $L = \begin{bmatrix} L_{11} & 0 \\ 0 & L_{22} \end{bmatrix}, \quad V = \begin{bmatrix} V_{11} & A_{12} \\ A_{21} & V_{22} \end{bmatrix}$

3. 非対角ブロック処理

通信ブロック $A_{12}, A_{21}$ : 部分領域間通信を表し、角スペクトルカーネルの差異から計算
切断戦略: 境界付近の $t \ll N$ 個のポイントのみを保持し、計算オーバーヘッドを大幅に削減
ラッピングアーティファクト除去: FFT畳み込みによるラッピングアーティファクトを自動的に除去

技術的革新点

演算子分解の柔軟性: MBSが $A = L + V$ 分解を任意に選択できる自由度を利用
境界条件の暗黙的処理: $L + V$ が元のシステムと正確に等しいことを保証することで、明示的な境界条件を回避
切断最適化: カーネル関数の急速な減衰特性を利用し、通信オーバーヘッドを大幅に削減
スケーリング係数調整: $c = -\frac{0.95i}{\|k^2 - k_0^2\|_\infty + \left(\sum_{d=1}^3 a_d\right)\|A_{12}\|}$