2025-11-20T19:31:15.361383

Domain decomposition of the modified Born series approach for large-scale wave propagation simulations

Mache, Vellekoop

The modified Born series (MBS) is a fast and accurate method for simulating wave propagation in complex structures. In the current implementation of the MBS, the simulation size is limited by the working memory of a single computer or graphics processing unit (GPU). Here, we present a domain decomposition method that enhances the scalability of the MBS by distributing the computations over multiple GPUs, while maintaining its accuracy, memory efficiency, and guaranteed monotonic convergence. With this new method, the computations can be performed in parallel, and a larger simulation size is possible as it is no longer limited to the memory size of a single computer or GPU. We show how to decompose large problems over subdomains and demonstrate our approach by solving the Helmholtz problem for a complex structure of $3.28\cdot 10^7$ cubic wavelengths ($320 \times 320 \times 320$ wavelengths) in just $45$ minutes with a dual-GPU simulation.

academic

বৃহৎ-স্কেল তরঙ্গ প্রচার সিমুলেশনের জন্য সংশোধিত বর্ন সিরিজ পদ্ধতির ডোমেইন বিয়োজন

মৌলিক তথ্য

পেপার আইডি: 2410.02395
শিরোনাম: Domain decomposition of the modified Born series approach for large-scale wave propagation simulations
লেখক: Swapnil Mache, Ivo M. Vellekoop (University of Twente)
শ্রেণীবিভাগ: physics.comp-ph
প্রকাশনার সময়: ২০২৪ সালের অক্টোবর (arXiv v3: ২০২৫ সালের অক্টোবর ১৬ তারিখ)
পেপার লিংক: https://arxiv.org/abs/2410.02395

সারসংক্ষেপ

সংশোধিত বর্ন সিরিজ (MBS) জটিল কাঠামোর তরঙ্গ প্রচার সিমুলেশনের জন্য একটি দ্রুত এবং নির্ভুল পদ্ধতি। বর্তমান MBS বাস্তবায়নে, সিমুলেশনের স্কেল একটি একক কম্পিউটার বা গ্রাফিক্স প্রসেসিং ইউনিট (GPU) এর কর্মস্মৃতি দ্বারা সীমাবদ্ধ। এই পেপারটি একটি ডোমেইন বিয়োজন পদ্ধতি প্রস্তাব করে যা গণনাকে একাধিক GPU-তে বিতরণ করে MBS এর স্কেলেবিলিটি বৃদ্ধি করে, যখন এর নির্ভুলতা, মেমরি দক্ষতা এবং গ্যারান্টিযুক্ত একঘেয়ে সংমিশ্রণ বজায় রাখে। এই নতুন পদ্ধতি ব্যবহার করে, গণনা সমান্তরালভাবে সম্পাদিত হতে পারে এবং আরও বড় সিমুলেশন স্কেল অর্জন করা যায়, যা আর একটি কম্পিউটার বা GPU এর মেমরি আকার দ্বারা সীমাবদ্ধ নয়। লেখকরা প্রদর্শন করেছেন কীভাবে বড় সমস্যাগুলি সাব-ডোমেইনে বিয়োজিত হয় এবং দ্বি-GPU সিমুলেশনে মাত্র ৪৫ মিনিটে $3.28 \times 10^7$ ঘন তরঙ্গদৈর্ঘ্য ( $320 \times 320 \times 320$ তরঙ্গদৈর্ঘ্য) জটিল কাঠামোর Helmholtz সমস্যা সমাধান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

তরঙ্গ প্রচার সিমুলেশনের গুরুত্ব: তরঙ্গ প্রচার সিমুলেশন ন্যানো-অপটিক্স থেকে ভূ-পদার্থবিজ্ঞান পর্যন্ত অসংখ্য ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে, কিন্তু বড় বিষমজাত মাধ্যমে তরঙ্গ সমীকরণের সঠিক সমাধান গণনা করা অত্যন্ত সময়সাপেক্ষ।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- FDTD পদ্ধতি: সীমিত পার্থক্য অনুমানের উপর নির্ভর করে, ক্রমবর্ধমান ত্রুটি প্রবর্তন করে, পর্যায় গতির ত্রুটি কয়েক শতাংশ পর্যন্ত পৌঁছাতে পারে
- PSTD পদ্ধতি: সময় ডেরিভেটিভের ক্রমবর্ধমান ত্রুটি এর সিমুলেশন দূরত্বকে ১০০ তরঙ্গদৈর্ঘ্যের অনেক কম সীমাবদ্ধ করে
- ঐতিহ্যবাহী MBS: যদিও উচ্চ নির্ভুলতা এবং দ্রুত সংমিশ্রণ রয়েছে, তবে এটি একক GPU মেমরি আকার দ্বারা সীমাবদ্ধ
MBS এর সুবিধা:
- সীমিত পার্থক্য অনুমানের উপর নির্ভর করে না, সংখ্যাগত বিচ্ছুরণ এড়ায়
- শুধুমাত্র Nyquist স্যাম্পলিং সীমা পূরণের প্রয়োজন
- "ছদ্ম-প্রচার" বৈশিষ্ট্য রয়েছে, প্রতিটি পুনরাবৃত্তি একাধিক তরঙ্গদৈর্ঘ্য জুড়ে যেতে পারে
- FDTD এর চেয়ে তিনটি অর্ডার ম্যাগনিটিউড দ্রুত

গবেষণা প্রেরণা

GPU উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রদান করে, কিন্তু এর সীমিত কর্মস্মৃতি সিমুলেশন স্কেলকে গুরুতরভাবে সীমাবদ্ধ করে। বিদ্যমান FDTD ইতিমধ্যে ডোমেইন বিয়োজনের মাধ্যমে এই সমস্যার সমাধান করেছে, কিন্তু MBS এর জন্য এখনও এমন সমান্তরাল পরিকল্পনা নেই।

মূল অবদান

MBS এর জন্য ডোমেইন বিয়োজন পদ্ধতি প্রস্তাব: Helmholtz সমীকরণের ব্লক অপারেটর বিয়োজনের উপর ভিত্তি করে একটি অ-ওভারল্যাপিং ডোমেইন বিয়োজন কৌশল উন্নত করা হয়েছে
MBS এর মূল সুবিধা বজায় রাখা: কম মেমরি ব্যবহার, উচ্চ নির্ভুলতা এবং গ্যারান্টিযুক্ত একঘেয়ে সংমিশ্রণ বজায় রাখা হয়েছে
সীমানা শর্তের উপর নির্ভরতা দূর করা: সাব-ডোমেইন সীমানা শর্তগুলি স্পষ্টভাবে নির্দিষ্ট করার প্রয়োজন নেই, ঐতিহ্যবাহী পদ্ধতির জটিলতা এড়ায়
বৃহৎ-স্কেল সমান্তরাল গণনা বাস্তবায়ন: $3.27 \times 10^7$ ঘন তরঙ্গদৈর্ঘ্যের 3D সিমুলেশন প্রদর্শন করা হয়েছে, যা একক GPU সর্বোচ্চ ক্ষমতার চেয়ে 1.95 গুণ বেশি
ওপেন-সোর্স বাস্তবায়ন প্রদান: GitHub-এ Python ওপেন-সোর্স বাস্তবায়ন প্রদান করা হয়েছে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

অ-সমজাত Helmholtz সমীকরণ সমাধান করা: $(\nabla^2 + k^2)\psi = -S$

যেখানে $\nabla^2$ হল Laplacian অপারেটর, $k$ হল স্থানিক পরিবর্তনশীল তরঙ্গ সংখ্যা, $\psi$ হল ক্ষেত্র, এবং $S$ হল উৎস পদ।

মডেল আর্কিটেকচার

1. মৌলিক MBS পদ্ধতি

অপারেটর $A := c(\nabla^2 + k^2)$ কে $A = L + V$ তে বিয়োজিত করা হয়, যেখানে:

$L := c[\nabla^2 + k_0^2]$ : সমজাত মাধ্যমে তরঙ্গ প্রচার
$V = c[k^2 - k_0^2]$ : বিক্ষিপ্ত সম্ভাবনা

পূর্ব-শর্তযুক্ত Richardson পুনরাবৃত্তি ব্যবহার করা হয়: $x^{(n+1)} = x^{(n)} + \alpha\Gamma^{-1}(y - Ax^{(n)})$

2. ডোমেইন বিয়োজন কৌশল

1D সমস্যার জন্য দুটি সাব-ডোমেইনে বিয়োজিত, অপারেটরের ব্লক বিয়োজন: $\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix}$

মূল উদ্ভাবন বিয়োজনকে পুনর্সংজ্ঞায়িত করা: $L = \begin{bmatrix} L_{11} & 0 \\ 0 & L_{22} \end{bmatrix}, \quad V = \begin{bmatrix} V_{11} & A_{12} \\ A_{21} & V_{22} \end{bmatrix}$

3. অ-কর্ণ ব্লক প্রক্রিয়াকরণ

যোগাযোগ ব্লক $A_{12}, A_{21}$ : সাব-ডোমেইন মধ্যে যোগাযোগ প্রতিনিধিত্ব করে, কৌণিক বর্ণালী কার্নেলের পার্থক্য দ্বারা গণনা করা হয়
ছাঁটাই কৌশল: শুধুমাত্র সীমানার কাছাকাছি $t \ll N$ পয়েন্ট রাখা হয়, গণনা ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে
মোড়ানো শিল্পকর্ম অপসারণ: FFT কনভোলিউশন দ্বারা উত্পাদিত মোড়ানো শিল্পকর্ম স্বয়ংক্রিয়ভাবে অপসারণ করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

অপারেটর বিয়োজনের নমনীয়তা: MBS এর $A = L + V$ বিয়োজনের স্বাধীনতার ডিগ্রি ব্যবহার করা
সীমানা শর্তের অন্তর্নিহিত প্রক্রিয়াকরণ: $L + V$ মূল সিস্টেমের সাথে সঠিকভাবে সমান হওয়া নিশ্চিত করে, স্পষ্ট সীমানা শর্ত এড়ায়
ছাঁটাই অপ্টিমাইজেশন: কার্নেল ফাংশনের দ্রুত ক্ষয় বৈশিষ্ট্য ব্যবহার করে, যোগাযোগ ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে
স্কেল ফ্যাক্টর সমন্বয়: $c = -\frac{0.95i}{\|k^2 - k_0^2\|_\infty + \left(\sum_{d=1}^3 a_d\right)\|A_{12}\|}$

পরীক্ষামূলক সেটআপ

সিমুলেশন কনফিগারেশন

কাঠামো: ঘনিষ্ঠভাবে প্যাকড গোলক, প্রতিফলন সূচক 1.33 + 0.01i, প্রতিফলন সূচক 1 এর মাধ্যমে এলোমেলোভাবে বিতরণ করা
স্যাম্পলিং: প্রতি তরঙ্গদৈর্ঘ্য 4টি স্যাম্পলিং পয়েন্ট
সীমানা শর্ত: x-অক্ষ দিকে 5 তরঙ্গদৈর্ঘ্য পুরুত্বের শোষণকারী সীমানা, y এবং z অক্ষ পর্যায়ক্রমিক সীমানা
সংমিশ্রণ মানদণ্ড: আপেক্ষিক অবশিষ্টাংশ $10^{-6}$
ছাঁটাই প্যারামিটার: $t = 8$ (ডিফল্ট মান)

গণনা প্ল্যাটফর্ম

CPU: দ্বৈত Silver-4216 2.10 GHz, 128 GB RAM
GPU: চারটি A40 48GB GPU
সফটওয়্যার: Python ওপেন-সোর্স বাস্তবায়ন

মূল্যায়ন সূচক

নির্ভুলতা: একক-ডোমেইন সিমুলেশনের সাথে আপেক্ষিক ত্রুটি $\|x - x_{ref}\|_2^2 / \|x_{ref}\|_2^2$
সংমিশ্রণ: পুনরাবৃত্তি সংখ্যা এবং একঘেয়ে সংমিশ্রণ
কর্মক্ষমতা: সিমুলেশন সময় এবং মেমরি ব্যবহার
স্কেলেবিলিটি: বিভিন্ন GPU সংখ্যার অধীনে কর্মক্ষমতা প্রকাশ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

1. পদ্ধতি যাচাইকরণ (50×50×50 তরঙ্গদৈর্ঘ্য)

নির্ভুলতা: ডোমেইন বিয়োজন এবং একক-ডোমেইন সিমুলেশনের আপেক্ষিক ত্রুটি মাত্র $2 \times 10^{-4}$
সংমিশ্রণ: একঘেয়ে সংমিশ্রণ বৈশিষ্ট্য বজায় রাখা হয়েছে
পুনরাবৃত্তি ওভারহেড: 3-ডোমেইন বিয়োজন 1751 পুনরাবৃত্তি প্রয়োজন বনাম একক-ডোমেইন 584 (3 গুণ বৃদ্ধি)

2. বৃহৎ-স্কেল সিমুলেশন (320×320×320 তরঙ্গদৈর্ঘ্য)

সিমুলেশন স্কেল: $3.27 \times 10^7$ ঘন তরঙ্গদৈর্ঘ্য, 2.16 Gigavoxels
দ্বৈত-GPU কর্মক্ষমতা: 45 মিনিটে সম্পন্ন, 4697 পুনরাবৃত্তি
CPU তুলনা: একক-ডোমেইন CPU 15.5 ঘন্টা প্রয়োজন, 1316 পুনরাবৃত্তি
ত্বরণ অনুপাত: 20 গুণ কর্মক্ষমতা উন্নতি
নির্ভুলতা: আপেক্ষিক ত্রুটি $2.9 \times 10^{-4}$

3. স্কেলেবিলিটি বিশ্লেষণ

GPU সংখ্যা	সময় (সেকেন্ড)	GPU মোট সময় (সেকেন্ড)	পুনরাবৃত্তি সংখ্যা	ত্বরণ প্রভাব
2	2730	5460	4697	ভিত্তি
3	2022	6066	4697	1.35×
4	1600	6400	4697	1.71×

অপসারণ পরীক্ষা

1. ছাঁটাই প্যারামিটারের প্রভাব

নির্ভুলতা: $t = 4$ এ আপেক্ষিক ত্রুটি ইতিমধ্যে 0.1% এর কম
গণনা ওভারহেড: পুনরাবৃত্তি সংখ্যা $t$ এর সাথে সম্পর্কহীন, কিন্তু যোগাযোগ সময় $t$ এর সাথে রৈখিকভাবে বৃদ্ধি পায়
সুপারিশকৃত মান: $t = 8$ নির্ভুলতা এবং দক্ষতার মধ্যে ভাল ভারসাম্য অর্জন করে

2. সাব-ডোমেইন সংখ্যার প্রভাব

পুনরাবৃত্তি সংখ্যা: শুধুমাত্র নতুন অক্ষীয় দিকে সাব-ডোমেইন যোগ করার সময় বৃদ্ধি পায়, একই অক্ষীয় দিকে সাব-ডোমেইন সংখ্যা বৃদ্ধি সংমিশ্রণকে প্রভাবিত করে না
যোগাযোগ ওভারহেড: সাব-ডোমেইন সংখ্যার সাথে বৃদ্ধি পায়, কিন্তু বৃদ্ধি সীমিত
মেমরি ওভারহেড: প্রতিটি সাব-ডোমেইন ইন্টারফেস প্রায় 128 বাইট/ভক্সেল

পরীক্ষামূলক আবিষ্কার

সংমিশ্রণ বজায় রাখা: ডোমেইন বিয়োজন MBS এর একঘেয়ে সংমিশ্রণকে প্রভাবিত করে না
চমৎকার স্কেলেবিলিটি: পুনরাবৃত্তি সংখ্যা সাব-ডোমেইন সংখ্যার সাথে সম্পর্কহীন, স্কেলেবিলিটির সংজ্ঞার সাথে সামঞ্জস্যপূর্ণ
মেমরি দক্ষতা: ডোমেইন বিয়োজন ওভারহেড মোট মেমরির প্রায় 0.2%
সক্রিয়করণ কৌশল: প্রয়োজন অনুযায়ী সাব-ডোমেইন সক্রিয় করা অতিরিক্ত 12% কর্মক্ষমতা উন্নতি প্রদান করতে পারে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

MBS এর ডোমেইন বিয়োজন সমান্তরালকরণ সফলভাবে বাস্তবায়িত হয়েছে, মূল পদ্ধতির সমস্ত সুবিধা বজায় রেখে
অভূতপূর্ব $320^3$ তরঙ্গদৈর্ঘ্য স্কেল সিমুলেশন বাস্তবায়িত হয়েছে, মাত্র 45 মিনিটে
পদ্ধতিটি ভাল স্কেলেবিলিটি রয়েছে, যেকোনো সংখ্যক GPU এর সমান্তরাল গণনা সমর্থন করে
অপটিক্যাল সিমুলেশন ঘন মিলিমিটার স্কেলে পৌঁছানোর ভিত্তি স্থাপন করেছে

সীমাবদ্ধতা

পুনরাবৃত্তি ওভারহেড: ডোমেইন বিয়োজন পুনরাবৃত্তি সংখ্যা 3-4 গুণ বৃদ্ধি করে
যোগাযোগ ওভারহেড: GPU মধ্যে সিঙ্ক্রোনাইজেশন এবং ডেটা স্থানান্তর প্রায় 40% সময় ওভারহেড নিয়ে আসে
লক-স্টেপ সম্পাদন: সমস্ত GPU সম্পন্ন হওয়ার জন্য অপেক্ষা করতে হবে পরবর্তী পদক্ষেপের আগে
মেমরি সীমাবদ্ধতা: এখনও একক GPU মেমরি দ্বারা সীমাবদ্ধ, সাব-ডোমেইন বিভাজন যুক্তিসঙ্গত প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

অ্যালগরিদম অপ্টিমাইজেশন: পুনরাবৃত্তি ওভারহেড এবং যোগাযোগ ওভারহেড আরও হ্রাস করা
প্রয়োগ সম্প্রসারণ: Maxwell সমীকরণ এবং দ্বিপ্রতিফলক মাধ্যমে সম্প্রসারণ
ক্লাস্টার গণনা: মাল্টি-নোড গণনা ক্লাস্টারে সম্প্রসারণ
হার্ডওয়্যার উন্নয়ন: নতুন প্রজন্মের GPU হার্ডওয়্যারের বৃহত্তর মেমরি এবং গণনা ক্ষমতা ব্যবহার করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী প্রযুক্তিগত উদ্ভাবনতা: MBS এর প্রথম কার্যকর সমান্তরালকরণ, উদ্ভাবনী প্রযুক্তি পথ
দৃঢ় তাত্ত্বিক ভিত্তি: কঠোর গাণিতিক অনুমানের উপর ভিত্তি করে, পদ্ধতির সঠিকতা নিশ্চিত করে
ব্যাপক পরীক্ষা: ছোট-স্কেল যাচাইকরণ থেকে বড়-স্কেল প্রদর্শন পর্যন্ত, পরীক্ষা ডিজাইন যুক্তিসঙ্গত
উচ্চ প্রকৌশল মূল্য: সিমুলেশনযোগ্য সমস্যা স্কেল উল্লেখযোগ্যভাবে প্রসারিত, ব্যবহারিক মূল্য স্পষ্ট
ওপেন-সোর্স অবদান: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন প্রদান, ক্ষেত্র উন্নয়ন প্রচার করে

অপূর্ণতা

সংমিশ্রণ গতি: ডোমেইন বিয়োজন দ্বারা সৃষ্ট পুনরাবৃত্তি সংখ্যা বৃদ্ধি একটি উল্লেখযোগ্য ত্রুটি
যোগাযোগ ওভারহেড: GPU মধ্যে যোগাযোগ কর্মক্ষমতা বাধা হয়ে ওঠে, আরও সম্প্রসারণ সীমাবদ্ধ করে
প্রযোজ্য পরিসীমা: প্রধানত GPU ক্লাস্টার পরিবেশে প্রযোজ্য, একক-মেশিন প্রয়োগ সীমিত
প্যারামিটার টিউনিং: ছাঁটাই প্যারামিটার ইত্যাদি নির্দিষ্ট সমস্যা অনুযায়ী সামঞ্জস্য প্রয়োজন

প্রভাব

একাডেমিক অবদান: তরঙ্গ প্রচার সিমুলেশন সমান্তরালকরণের জন্য নতুন চিন্তাভাবনা প্রদান করে
প্রয়োগ সম্ভাবনা: ন্যানো-অপটিক্স, ভূকম্পন বিজ্ঞান ইত্যাদি ক্ষেত্রে ব্যাপক প্রয়োগ সম্ভাবনা রয়েছে
প্রযুক্তি প্রচার: বড়-স্কেল বৈজ্ঞানিক গণনার GPU ক্লাস্টারে স্থানান্তর প্রচার করে
পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স বাস্তবায়ন পদ্ধতির পুনরুৎপাদনযোগ্যতা এবং সম্প্রসারণযোগ্যতা নিশ্চিত করে

প্রযোজ্য পরিস্থিতি

বড়-স্কেল অপটিক্যাল সিমুলেশন: বিশেষত জটিল অপটিক্যাল ডিভাইস এবং মেটাম্যাটেরিয়াল ডিজাইনের জন্য উপযুক্ত
ভূকম্পন তরঙ্গ প্রচার: বড়-স্কেল ভূকম্পন তরঙ্গ প্রচার সিমুলেশনের জন্য ব্যবহারযোগ্য
শব্দ মডেলিং: জটিল শব্দ পরিবেশের মডেলিংয়ের জন্য প্রযোজ্য
GPU ক্লাস্টার গণনা: একাধিক GPU বা GPU ক্লাস্টার প্রয়োজনীয় উচ্চ-কর্মক্ষমতা গণনা পরিবেশ

সংদর্ভ

পেপারটি 55টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা তরঙ্গ প্রচার সিমুলেশন, ডোমেইন বিয়োজন পদ্ধতি, GPU সমান্তরাল গণনা ইত্যাদি একাধিক ক্ষেত্রের মূল কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গণনা পদার্থবিজ্ঞান পেপার, যা প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং প্রকৌশল প্রয়োগের ক্ষেত্রে বিশিষ্ট অবদান রয়েছে। যদিও কিছু কর্মক্ষমতা ওভারহেড রয়েছে, তবে এর অগ্রগামী সমান্তরালকরণ পরিকল্পনা এবং উল্লেখযোগ্য স্কেল বৃদ্ধি এটিকে তরঙ্গ প্রচার সিমুলেশন ক্ষেত্রে গুরুত্বপূর্ণ মূল্য প্রদান করে।