The modified Born series (MBS) is a fast and accurate method for simulating wave propagation in complex structures. In the current implementation of the MBS, the simulation size is limited by the working memory of a single computer or graphics processing unit (GPU). Here, we present a domain decomposition method that enhances the scalability of the MBS by distributing the computations over multiple GPUs, while maintaining its accuracy, memory efficiency, and guaranteed monotonic convergence. With this new method, the computations can be performed in parallel, and a larger simulation size is possible as it is no longer limited to the memory size of a single computer or GPU. We show how to decompose large problems over subdomains and demonstrate our approach by solving the Helmholtz problem for a complex structure of $3.28\cdot 10^7$ cubic wavelengths ($320 \times 320 \times 320$ wavelengths) in just $45$ minutes with a dual-GPU simulation.
- পেপার আইডি: 2410.02395
- শিরোনাম: Domain decomposition of the modified Born series approach for large-scale wave propagation simulations
- লেখক: Swapnil Mache, Ivo M. Vellekoop (University of Twente)
- শ্রেণীবিভাগ: physics.comp-ph
- প্রকাশনার সময়: ২০২৪ সালের অক্টোবর (arXiv v3: ২০২৫ সালের অক্টোবর ১৬ তারিখ)
- পেপার লিংক: https://arxiv.org/abs/2410.02395
সংশোধিত বর্ন সিরিজ (MBS) জটিল কাঠামোর তরঙ্গ প্রচার সিমুলেশনের জন্য একটি দ্রুত এবং নির্ভুল পদ্ধতি। বর্তমান MBS বাস্তবায়নে, সিমুলেশনের স্কেল একটি একক কম্পিউটার বা গ্রাফিক্স প্রসেসিং ইউনিট (GPU) এর কর্মস্মৃতি দ্বারা সীমাবদ্ধ। এই পেপারটি একটি ডোমেইন বিয়োজন পদ্ধতি প্রস্তাব করে যা গণনাকে একাধিক GPU-তে বিতরণ করে MBS এর স্কেলেবিলিটি বৃদ্ধি করে, যখন এর নির্ভুলতা, মেমরি দক্ষতা এবং গ্যারান্টিযুক্ত একঘেয়ে সংমিশ্রণ বজায় রাখে। এই নতুন পদ্ধতি ব্যবহার করে, গণনা সমান্তরালভাবে সম্পাদিত হতে পারে এবং আরও বড় সিমুলেশন স্কেল অর্জন করা যায়, যা আর একটি কম্পিউটার বা GPU এর মেমরি আকার দ্বারা সীমাবদ্ধ নয়। লেখকরা প্রদর্শন করেছেন কীভাবে বড় সমস্যাগুলি সাব-ডোমেইনে বিয়োজিত হয় এবং দ্বি-GPU সিমুলেশনে মাত্র ৪৫ মিনিটে 3.28×107 ঘন তরঙ্গদৈর্ঘ্য (320×320×320 তরঙ্গদৈর্ঘ্য) জটিল কাঠামোর Helmholtz সমস্যা সমাধান করে।
- তরঙ্গ প্রচার সিমুলেশনের গুরুত্ব: তরঙ্গ প্রচার সিমুলেশন ন্যানো-অপটিক্স থেকে ভূ-পদার্থবিজ্ঞান পর্যন্ত অসংখ্য ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে, কিন্তু বড় বিষমজাত মাধ্যমে তরঙ্গ সমীকরণের সঠিক সমাধান গণনা করা অত্যন্ত সময়সাপেক্ষ।
- বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- FDTD পদ্ধতি: সীমিত পার্থক্য অনুমানের উপর নির্ভর করে, ক্রমবর্ধমান ত্রুটি প্রবর্তন করে, পর্যায় গতির ত্রুটি কয়েক শতাংশ পর্যন্ত পৌঁছাতে পারে
- PSTD পদ্ধতি: সময় ডেরিভেটিভের ক্রমবর্ধমান ত্রুটি এর সিমুলেশন দূরত্বকে ১০০ তরঙ্গদৈর্ঘ্যের অনেক কম সীমাবদ্ধ করে
- ঐতিহ্যবাহী MBS: যদিও উচ্চ নির্ভুলতা এবং দ্রুত সংমিশ্রণ রয়েছে, তবে এটি একক GPU মেমরি আকার দ্বারা সীমাবদ্ধ
- MBS এর সুবিধা:
- সীমিত পার্থক্য অনুমানের উপর নির্ভর করে না, সংখ্যাগত বিচ্ছুরণ এড়ায়
- শুধুমাত্র Nyquist স্যাম্পলিং সীমা পূরণের প্রয়োজন
- "ছদ্ম-প্রচার" বৈশিষ্ট্য রয়েছে, প্রতিটি পুনরাবৃত্তি একাধিক তরঙ্গদৈর্ঘ্য জুড়ে যেতে পারে
- FDTD এর চেয়ে তিনটি অর্ডার ম্যাগনিটিউড দ্রুত
GPU উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রদান করে, কিন্তু এর সীমিত কর্মস্মৃতি সিমুলেশন স্কেলকে গুরুতরভাবে সীমাবদ্ধ করে। বিদ্যমান FDTD ইতিমধ্যে ডোমেইন বিয়োজনের মাধ্যমে এই সমস্যার সমাধান করেছে, কিন্তু MBS এর জন্য এখনও এমন সমান্তরাল পরিকল্পনা নেই।
- MBS এর জন্য ডোমেইন বিয়োজন পদ্ধতি প্রস্তাব: Helmholtz সমীকরণের ব্লক অপারেটর বিয়োজনের উপর ভিত্তি করে একটি অ-ওভারল্যাপিং ডোমেইন বিয়োজন কৌশল উন্নত করা হয়েছে
- MBS এর মূল সুবিধা বজায় রাখা: কম মেমরি ব্যবহার, উচ্চ নির্ভুলতা এবং গ্যারান্টিযুক্ত একঘেয়ে সংমিশ্রণ বজায় রাখা হয়েছে
- সীমানা শর্তের উপর নির্ভরতা দূর করা: সাব-ডোমেইন সীমানা শর্তগুলি স্পষ্টভাবে নির্দিষ্ট করার প্রয়োজন নেই, ঐতিহ্যবাহী পদ্ধতির জটিলতা এড়ায়
- বৃহৎ-স্কেল সমান্তরাল গণনা বাস্তবায়ন: 3.27×107 ঘন তরঙ্গদৈর্ঘ্যের 3D সিমুলেশন প্রদর্শন করা হয়েছে, যা একক GPU সর্বোচ্চ ক্ষমতার চেয়ে 1.95 গুণ বেশি
- ওপেন-সোর্স বাস্তবায়ন প্রদান: GitHub-এ Python ওপেন-সোর্স বাস্তবায়ন প্রদান করা হয়েছে
অ-সমজাত Helmholtz সমীকরণ সমাধান করা:
(∇2+k2)ψ=−S
যেখানে ∇2 হল Laplacian অপারেটর, k হল স্থানিক পরিবর্তনশীল তরঙ্গ সংখ্যা, ψ হল ক্ষেত্র, এবং S হল উৎস পদ।
অপারেটর A:=c(∇2+k2) কে A=L+V তে বিয়োজিত করা হয়, যেখানে:
- L:=c[∇2+k02]: সমজাত মাধ্যমে তরঙ্গ প্রচার
- V=c[k2−k02]: বিক্ষিপ্ত সম্ভাবনা
পূর্ব-শর্তযুক্ত Richardson পুনরাবৃত্তি ব্যবহার করা হয়:
x(n+1)=x(n)+αΓ−1(y−Ax(n))
1D সমস্যার জন্য দুটি সাব-ডোমেইনে বিয়োজিত, অপারেটরের ব্লক বিয়োজন:
[A11A21A12A22][x1x2]=[y1y2]
মূল উদ্ভাবন বিয়োজনকে পুনর্সংজ্ঞায়িত করা:
L=[L1100L22],V=[V11A21A12V22]
- যোগাযোগ ব্লক A12,A21: সাব-ডোমেইন মধ্যে যোগাযোগ প্রতিনিধিত্ব করে, কৌণিক বর্ণালী কার্নেলের পার্থক্য দ্বারা গণনা করা হয়
- ছাঁটাই কৌশল: শুধুমাত্র সীমানার কাছাকাছি t≪N পয়েন্ট রাখা হয়, গণনা ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে
- মোড়ানো শিল্পকর্ম অপসারণ: FFT কনভোলিউশন দ্বারা উত্পাদিত মোড়ানো শিল্পকর্ম স্বয়ংক্রিয়ভাবে অপসারণ করে
- অপারেটর বিয়োজনের নমনীয়তা: MBS এর A=L+V বিয়োজনের স্বাধীনতার ডিগ্রি ব্যবহার করা
- সীমানা শর্তের অন্তর্নিহিত প্রক্রিয়াকরণ: L+V মূল সিস্টেমের সাথে সঠিকভাবে সমান হওয়া নিশ্চিত করে, স্পষ্ট সীমানা শর্ত এড়ায়
- ছাঁটাই অপ্টিমাইজেশন: কার্নেল ফাংশনের দ্রুত ক্ষয় বৈশিষ্ট্য ব্যবহার করে, যোগাযোগ ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে
- স্কেল ফ্যাক্টর সমন্বয়:
c=−∥k2−k02∥∞+(∑d=13ad)∥A12∥0.95i
- কাঠামো: ঘনিষ্ঠভাবে প্যাকড গোলক, প্রতিফলন সূচক 1.33 + 0.01i, প্রতিফলন সূচক 1 এর মাধ্যমে এলোমেলোভাবে বিতরণ করা
- স্যাম্পলিং: প্রতি তরঙ্গদৈর্ঘ্য 4টি স্যাম্পলিং পয়েন্ট
- সীমানা শর্ত: x-অক্ষ দিকে 5 তরঙ্গদৈর্ঘ্য পুরুত্বের শোষণকারী সীমানা, y এবং z অক্ষ পর্যায়ক্রমিক সীমানা
- সংমিশ্রণ মানদণ্ড: আপেক্ষিক অবশিষ্টাংশ 10−6
- ছাঁটাই প্যারামিটার: t=8 (ডিফল্ট মান)
- CPU: দ্বৈত Silver-4216 2.10 GHz, 128 GB RAM
- GPU: চারটি A40 48GB GPU
- সফটওয়্যার: Python ওপেন-সোর্স বাস্তবায়ন
- নির্ভুলতা: একক-ডোমেইন সিমুলেশনের সাথে আপেক্ষিক ত্রুটি ∥x−xref∥22/∥xref∥22
- সংমিশ্রণ: পুনরাবৃত্তি সংখ্যা এবং একঘেয়ে সংমিশ্রণ
- কর্মক্ষমতা: সিমুলেশন সময় এবং মেমরি ব্যবহার
- স্কেলেবিলিটি: বিভিন্ন GPU সংখ্যার অধীনে কর্মক্ষমতা প্রকাশ
- নির্ভুলতা: ডোমেইন বিয়োজন এবং একক-ডোমেইন সিমুলেশনের আপেক্ষিক ত্রুটি মাত্র 2×10−4
- সংমিশ্রণ: একঘেয়ে সংমিশ্রণ বৈশিষ্ট্য বজায় রাখা হয়েছে
- পুনরাবৃত্তি ওভারহেড: 3-ডোমেইন বিয়োজন 1751 পুনরাবৃত্তি প্রয়োজন বনাম একক-ডোমেইন 584 (3 গুণ বৃদ্ধি)
- সিমুলেশন স্কেল: 3.27×107 ঘন তরঙ্গদৈর্ঘ্য, 2.16 Gigavoxels
- দ্বৈত-GPU কর্মক্ষমতা: 45 মিনিটে সম্পন্ন, 4697 পুনরাবৃত্তি
- CPU তুলনা: একক-ডোমেইন CPU 15.5 ঘন্টা প্রয়োজন, 1316 পুনরাবৃত্তি
- ত্বরণ অনুপাত: 20 গুণ কর্মক্ষমতা উন্নতি
- নির্ভুলতা: আপেক্ষিক ত্রুটি 2.9×10−4
| GPU সংখ্যা | সময় (সেকেন্ড) | GPU মোট সময় (সেকেন্ড) | পুনরাবৃত্তি সংখ্যা | ত্বরণ প্রভাব |
|---|
| 2 | 2730 | 5460 | 4697 | ভিত্তি |
| 3 | 2022 | 6066 | 4697 | 1.35× |
| 4 | 1600 | 6400 | 4697 | 1.71× |
- নির্ভুলতা: t=4 এ আপেক্ষিক ত্রুটি ইতিমধ্যে 0.1% এর কম
- গণনা ওভারহেড: পুনরাবৃত্তি সংখ্যা t এর সাথে সম্পর্কহীন, কিন্তু যোগাযোগ সময় t এর সাথে রৈখিকভাবে বৃদ্ধি পায়
- সুপারিশকৃত মান: t=8 নির্ভুলতা এবং দক্ষতার মধ্যে ভাল ভারসাম্য অর্জন করে
- পুনরাবৃত্তি সংখ্যা: শুধুমাত্র নতুন অক্ষীয় দিকে সাব-ডোমেইন যোগ করার সময় বৃদ্ধি পায়, একই অক্ষীয় দিকে সাব-ডোমেইন সংখ্যা বৃদ্ধি সংমিশ্রণকে প্রভাবিত করে না
- যোগাযোগ ওভারহেড: সাব-ডোমেইন সংখ্যার সাথে বৃদ্ধি পায়, কিন্তু বৃদ্ধি সীমিত
- মেমরি ওভারহেড: প্রতিটি সাব-ডোমেইন ইন্টারফেস প্রায় 128 বাইট/ভক্সেল
- সংমিশ্রণ বজায় রাখা: ডোমেইন বিয়োজন MBS এর একঘেয়ে সংমিশ্রণকে প্রভাবিত করে না
- চমৎকার স্কেলেবিলিটি: পুনরাবৃত্তি সংখ্যা সাব-ডোমেইন সংখ্যার সাথে সম্পর্কহীন, স্কেলেবিলিটির সংজ্ঞার সাথে সামঞ্জস্যপূর্ণ
- মেমরি দক্ষতা: ডোমেইন বিয়োজন ওভারহেড মোট মেমরির প্রায় 0.2%
- সক্রিয়করণ কৌশল: প্রয়োজন অনুযায়ী সাব-ডোমেইন সক্রিয় করা অতিরিক্ত 12% কর্মক্ষমতা উন্নতি প্রদান করতে পারে
- ঐতিহ্যবাহী পদ্ধতি: FDTD, PSTD এবং অন্যান্য সীমিত পার্থক্য ভিত্তিক পদ্ধতি
- ফ্রিকোয়েন্সি-ডোমেইন পদ্ধতি: বিভিন্ন Helmholtz সমীকরণ সমাধানকারী
- সমান্তরাল প্রযুক্তি: ঐতিহ্যবাহী ডোমেইন বিয়োজন পদ্ধতি (Schwarz পদ্ধতি ইত্যাদি)
- GPU ত্বরণ: বিভিন্ন তরঙ্গ প্রচার সিমুলেশনের GPU বাস্তবায়ন
- নির্ভুলতা সুবিধা: সীমিত পার্থক্য অনুমানের উপর নির্ভর করে না, নির্ভুলতা শুধুমাত্র মেশিন নির্ভুলতা দ্বারা সীমাবদ্ধ
- দক্ষতা সুবিধা: FDTD এর চেয়ে তিনটি অর্ডার ম্যাগনিটিউড দ্রুত, ছদ্ম-প্রচার দূরত্ব একাধিক তরঙ্গদৈর্ঘ্যে পৌঁছাতে পারে
- মেমরি সুবিধা: প্রতি ভক্সেল মাত্র 40 বাইট, ঐতিহ্যবাহী পদ্ধতির চেয়ে অনেক কম
- সীমানা প্রক্রিয়াকরণ: স্পষ্ট সীমানা শর্তের প্রয়োজন নেই, বাস্তবায়ন সরলীকরণ করে
- MBS এর ডোমেইন বিয়োজন সমান্তরালকরণ সফলভাবে বাস্তবায়িত হয়েছে, মূল পদ্ধতির সমস্ত সুবিধা বজায় রেখে
- অভূতপূর্ব 3203 তরঙ্গদৈর্ঘ্য স্কেল সিমুলেশন বাস্তবায়িত হয়েছে, মাত্র 45 মিনিটে
- পদ্ধতিটি ভাল স্কেলেবিলিটি রয়েছে, যেকোনো সংখ্যক GPU এর সমান্তরাল গণনা সমর্থন করে
- অপটিক্যাল সিমুলেশন ঘন মিলিমিটার স্কেলে পৌঁছানোর ভিত্তি স্থাপন করেছে
- পুনরাবৃত্তি ওভারহেড: ডোমেইন বিয়োজন পুনরাবৃত্তি সংখ্যা 3-4 গুণ বৃদ্ধি করে
- যোগাযোগ ওভারহেড: GPU মধ্যে সিঙ্ক্রোনাইজেশন এবং ডেটা স্থানান্তর প্রায় 40% সময় ওভারহেড নিয়ে আসে
- লক-স্টেপ সম্পাদন: সমস্ত GPU সম্পন্ন হওয়ার জন্য অপেক্ষা করতে হবে পরবর্তী পদক্ষেপের আগে
- মেমরি সীমাবদ্ধতা: এখনও একক GPU মেমরি দ্বারা সীমাবদ্ধ, সাব-ডোমেইন বিভাজন যুক্তিসঙ্গত প্রয়োজন
- অ্যালগরিদম অপ্টিমাইজেশন: পুনরাবৃত্তি ওভারহেড এবং যোগাযোগ ওভারহেড আরও হ্রাস করা
- প্রয়োগ সম্প্রসারণ: Maxwell সমীকরণ এবং দ্বিপ্রতিফলক মাধ্যমে সম্প্রসারণ
- ক্লাস্টার গণনা: মাল্টি-নোড গণনা ক্লাস্টারে সম্প্রসারণ
- হার্ডওয়্যার উন্নয়ন: নতুন প্রজন্মের GPU হার্ডওয়্যারের বৃহত্তর মেমরি এবং গণনা ক্ষমতা ব্যবহার করা
- শক্তিশালী প্রযুক্তিগত উদ্ভাবনতা: MBS এর প্রথম কার্যকর সমান্তরালকরণ, উদ্ভাবনী প্রযুক্তি পথ
- দৃঢ় তাত্ত্বিক ভিত্তি: কঠোর গাণিতিক অনুমানের উপর ভিত্তি করে, পদ্ধতির সঠিকতা নিশ্চিত করে
- ব্যাপক পরীক্ষা: ছোট-স্কেল যাচাইকরণ থেকে বড়-স্কেল প্রদর্শন পর্যন্ত, পরীক্ষা ডিজাইন যুক্তিসঙ্গত
- উচ্চ প্রকৌশল মূল্য: সিমুলেশনযোগ্য সমস্যা স্কেল উল্লেখযোগ্যভাবে প্রসারিত, ব্যবহারিক মূল্য স্পষ্ট
- ওপেন-সোর্স অবদান: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন প্রদান, ক্ষেত্র উন্নয়ন প্রচার করে
- সংমিশ্রণ গতি: ডোমেইন বিয়োজন দ্বারা সৃষ্ট পুনরাবৃত্তি সংখ্যা বৃদ্ধি একটি উল্লেখযোগ্য ত্রুটি
- যোগাযোগ ওভারহেড: GPU মধ্যে যোগাযোগ কর্মক্ষমতা বাধা হয়ে ওঠে, আরও সম্প্রসারণ সীমাবদ্ধ করে
- প্রযোজ্য পরিসীমা: প্রধানত GPU ক্লাস্টার পরিবেশে প্রযোজ্য, একক-মেশিন প্রয়োগ সীমিত
- প্যারামিটার টিউনিং: ছাঁটাই প্যারামিটার ইত্যাদি নির্দিষ্ট সমস্যা অনুযায়ী সামঞ্জস্য প্রয়োজন
- একাডেমিক অবদান: তরঙ্গ প্রচার সিমুলেশন সমান্তরালকরণের জন্য নতুন চিন্তাভাবনা প্রদান করে
- প্রয়োগ সম্ভাবনা: ন্যানো-অপটিক্স, ভূকম্পন বিজ্ঞান ইত্যাদি ক্ষেত্রে ব্যাপক প্রয়োগ সম্ভাবনা রয়েছে
- প্রযুক্তি প্রচার: বড়-স্কেল বৈজ্ঞানিক গণনার GPU ক্লাস্টারে স্থানান্তর প্রচার করে
- পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স বাস্তবায়ন পদ্ধতির পুনরুৎপাদনযোগ্যতা এবং সম্প্রসারণযোগ্যতা নিশ্চিত করে
- বড়-স্কেল অপটিক্যাল সিমুলেশন: বিশেষত জটিল অপটিক্যাল ডিভাইস এবং মেটাম্যাটেরিয়াল ডিজাইনের জন্য উপযুক্ত
- ভূকম্পন তরঙ্গ প্রচার: বড়-স্কেল ভূকম্পন তরঙ্গ প্রচার সিমুলেশনের জন্য ব্যবহারযোগ্য
- শব্দ মডেলিং: জটিল শব্দ পরিবেশের মডেলিংয়ের জন্য প্রযোজ্য
- GPU ক্লাস্টার গণনা: একাধিক GPU বা GPU ক্লাস্টার প্রয়োজনীয় উচ্চ-কর্মক্ষমতা গণনা পরিবেশ
পেপারটি 55টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা তরঙ্গ প্রচার সিমুলেশন, ডোমেইন বিয়োজন পদ্ধতি, GPU সমান্তরাল গণনা ইত্যাদি একাধিক ক্ষেত্রের মূল কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গণনা পদার্থবিজ্ঞান পেপার, যা প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং প্রকৌশল প্রয়োগের ক্ষেত্রে বিশিষ্ট অবদান রয়েছে। যদিও কিছু কর্মক্ষমতা ওভারহেড রয়েছে, তবে এর অগ্রগামী সমান্তরালকরণ পরিকল্পনা এবং উল্লেখযোগ্য স্কেল বৃদ্ধি এটিকে তরঙ্গ প্রচার সিমুলেশন ক্ষেত্রে গুরুত্বপূর্ণ মূল্য প্রদান করে।