2025-11-20T19:31:15.361383

Domain decomposition of the modified Born series approach for large-scale wave propagation simulations

Mache, Vellekoop

The modified Born series (MBS) is a fast and accurate method for simulating wave propagation in complex structures. In the current implementation of the MBS, the simulation size is limited by the working memory of a single computer or graphics processing unit (GPU). Here, we present a domain decomposition method that enhances the scalability of the MBS by distributing the computations over multiple GPUs, while maintaining its accuracy, memory efficiency, and guaranteed monotonic convergence. With this new method, the computations can be performed in parallel, and a larger simulation size is possible as it is no longer limited to the memory size of a single computer or GPU. We show how to decompose large problems over subdomains and demonstrate our approach by solving the Helmholtz problem for a complex structure of $3.28\cdot 10^7$ cubic wavelengths ($320 \times 320 \times 320$ wavelengths) in just $45$ minutes with a dual-GPU simulation.

academic

대규모 파동 전파 시뮬레이션을 위한 수정된 Born 급수 접근법의 영역 분해

기본 정보

논문 ID: 2410.02395
제목: Domain decomposition of the modified Born series approach for large-scale wave propagation simulations
저자: Swapnil Mache, Ivo M. Vellekoop (University of Twente)
분류: physics.comp-ph
발표 시간: 2024년 10월 (arXiv v3: 2025년 10월 16일)
논문 링크: https://arxiv.org/abs/2410.02395

초록

수정된 Born 급수(MBS)는 복잡한 구조의 파동 전파 시뮬레이션을 위한 빠르고 정확한 방법이다. 현재의 MBS 구현에서는 시뮬레이션 규모가 단일 컴퓨터 또는 그래픽 처리 장치(GPU)의 작업 메모리로 제한된다. 본 논문은 계산을 여러 GPU에 분산시켜 MBS의 확장성을 향상시키면서 정확성, 메모리 효율성 및 보장된 단조 수렴성을 유지하는 영역 분해 방법을 제시한다. 이 새로운 방법을 사용하면 계산을 병렬로 실행할 수 있으며, 단일 컴퓨터 또는 GPU의 메모리 크기로 더 이상 제한되지 않는 더 큰 규모의 시뮬레이션을 구현할 수 있다. 저자들은 대규모 문제를 부분 영역으로 분해하는 방법을 보여주며, 이중 GPU 시뮬레이션에서 단 45분 내에 $3.28 \times 10^7$ 입방 파장( $320 \times 320 \times 320$ 파장) 복잡한 구조의 Helmholtz 문제를 해결함으로써 이 방법을 입증한다.

연구 배경 및 동기

문제 배경

파동 전파 시뮬레이션의 중요성: 파동 전파 시뮬레이션은 나노광학에서 지구물리학에 이르기까지 많은 분야에서 광범위하게 적용되지만, 대규모 이질 매질에서 정확한 파동 방정식의 해를 계산하는 것은 매우 시간이 많이 소요된다.
기존 방법의 한계:
- FDTD 방법: 유한 차분 근사에 의존하여 누적 오류를 초래하며, 위상 속도 오류가 수 퍼센트에 달할 수 있다
- PSTD 방법: 시간 도함수의 누적 오류로 인해 시뮬레이션 거리가 100개 파장보다 훨씬 작다
- 기존 MBS: 높은 정확도와 빠른 수렴을 제공하지만 단일 GPU 메모리 크기로 제한된다
MBS의 장점:
- 유한 차분 근사에 의존하지 않아 수치 분산을 회피한다
- Nyquist 샘플링 제한만 충족하면 된다
- "의사 전파" 특성으로 각 반복에서 여러 파장을 건널 수 있다
- FDTD보다 3개 수량급 이상 빠르다

연구 동기

GPU는 상당한 성능 향상을 제공하지만, 제한된 작업 메모리가 시뮬레이션 규모를 심각하게 제한한다. 기존의 FDTD는 이미 영역 분해를 통해 이 문제를 해결했지만, MBS는 아직 유사한 병렬화 방안이 없다.

핵심 기여

MBS의 영역 분해 방법 제시: Helmholtz 방정식의 블록 연산자 분해에 직접 기반한 비중첩 영역 분해 전략 개발
MBS 핵심 장점 유지: 낮은 메모리 사용, 높은 정확도 및 보장된 단조 수렴성 유지
경계 조건 의존성 제거: 부분 영역 경계 조건을 명시적으로 지정할 필요 없음으로써 기존 방법의 복잡성 회피
대규모 병렬 계산 구현: $3.27 \times 10^7$ 입방 파장의 3D 시뮬레이션 시연으로 단일 GPU 최대 용량 대비 1.95배 증가
오픈소스 구현 제공: GitHub에서 Python 오픈소스 구현 제공

방법 상세 설명

작업 정의

비균질 Helmholtz 방정식 해결: $(\nabla^2 + k^2)\psi = -S$

여기서 $\nabla^2$ 는 라플라시안 연산자, $k$ 는 공간 변화 파수, $\psi$ 는 장, $S$ 는 원천항이다.

모델 구조

1. 기본 MBS 방법

연산자 $A := c(\nabla^2 + k^2)$ 를 $A = L + V$ 로 분해하며, 여기서:

$L := c[\nabla^2 + k_0^2]$ : 균질 매질에서의 파동 전파
$V = c[k^2 - k_0^2]$ : 산란 포텐셜

전조건 Richardson 반복 사용: $x^{(n+1)} = x^{(n)} + \alpha\Gamma^{-1}(y - Ax^{(n)})$

2. 영역 분해 전략

1D 문제를 두 개의 부분 영역으로 분해하면, 연산자의 블록 분해는: $\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix}$

분해를 재정의하는 핵심 혁신: $L = \begin{bmatrix} L_{11} & 0 \\ 0 & L_{22} \end{bmatrix}, \quad V = \begin{bmatrix} V_{11} & A_{12} \\ A_{21} & V_{22} \end{bmatrix}$

3. 비대각 블록 처리

통신 블록 $A_{12}, A_{21}$ : 부분 영역 간 통신을 나타내며, 각 스펙트럼 핵의 차이로 계산된다
절단 전략: 경계 근처의 $t \ll N$ 개 점만 유지하여 계산 오버헤드를 크게 감소시킨다
래핑 아티팩트 제거: FFT 합성곱으로 인한 래핑 아티팩트를 자동으로 제거한다

기술 혁신 포인트

연산자 분해의 유연성: MBS가 $A = L + V$ 분해의 임의 선택을 허용하는 자유도를 활용한다
경계 조건의 암시적 처리: $L + V$ 가 정확히 원래 시스템과 같음을 보장하여 명시적 경계 조건을 회피한다
절단 최적화: 핵 함수의 빠른 감쇠 특성을 활용하여 통신 오버헤드를 크게 감소시킨다
스케일 인수 조정: $c = -\frac{0.95i}{\|k^2 - k_0^2\|_\infty + \left(\sum_{d=1}^3 a_d\right)\|A_{12}\|}$