উচ্চ-কর্মক্ষমতা সম্পন্ন কম্পিউটিং আর্কিটেকচারের বৈচিত্র্য বৃদ্ধির সাথে সাথে, গবেষকরা এবং পেশাদাররা বিভিন্ন প্ল্যাটফর্মে কোডের কর্মক্ষমতা এবং স্কেলেবিলিটি তুলনা সম্পর্কে ক্রমবর্ধমান আগ্রহী হয়ে উঠছেন। তবে এই ধরনের ক্রস-প্ল্যাটফর্ম গবেষণা কীভাবে প্রকৃতপক্ষে সেট আপ এবং বিশ্লেষণ করতে হয় সে সম্পর্কে পাওয়া নির্দেশনা অপর্যাপ্ত। এই পেপারটি যুক্তি দেয় যে এই ধরনের গবেষণার প্রাকৃতিক মৌলিক গণনা ইউনিট হল প্রতিটি প্ল্যাটফর্মে একটি একক কম্পিউটিং নোড, এবং নোড-টু-নোড স্কেলিং গবেষণা সেট আপ, চালানো এবং বিশ্লেষণের জন্য নির্দেশনা প্রদান করে। আমরা এই গবেষণার স্কেলিং ফলাফল প্রদর্শনের জন্য টেমপ্লেট উপস্থাপন করি এবং এই পদ্ধতির সুবিধাগুলি তুলে ধরার জন্য বেশ কয়েকটি কেস স্টাডি প্রদান করি।
১. আর্কিটেকচার বৈচিত্র্য বৃদ্ধি: এক্সাস্কেল কম্পিউটিং প্রজেক্ট (ECP) সমাপ্তি এবং প্রথম এক্সাফ্লপ-স্তরের মেশিনের সফল স্থাপনার সাথে (যেমন লরেন্স লিভারমোর ন্যাশনাল ল্যাবরেটরির এল ক্যাপিটান সিস্টেম ১.৭ এক্সাফ্লপ অর্জন করেছে), সুপারকম্পিউটারের নোড আর্কিটেকচারে উল্লেখযোগ্য বৈচিত্র্য দেখা দিয়েছে।
२. প্ল্যাটফর্ম নির্বাচনের চ্যালেঞ্জ: নভেম্বর ২০২৪ সালের Top500 তালিকায়, ২৯.२% সিস্টেমে GPU এবং CPU উভয়ই রয়েছে, যা মোট কর্মক্ষমতা শেয়ারের ४१.३% প্রতিনিধিত্ব করে। অসংখ্য কম্পিউটিং প্ল্যাটফর্ম পছন্দের মুখোমুখি হয়ে, গবেষকরা প্রকৃত সীমাবদ্ধতার অধীনে (যেমন ক্লাস্টার উপলব্ধতা এবং প্রকল্প বাজেট) সমস্যা সমাধানের জন্য উপযুক্ত প্ল্যাটফর্ম নির্বাচন করা সর্বদা স্পষ্ট নয়।
३. কর্মক্ষমতা পোর্টেবিলিটির প্রয়োজনীয়তা: বৃহৎ কোড বেসগুলিকে অবশ্যই বিভিন্ন বিদ্যমান এবং আসন্ন আর্কিটেকচার এবং নতুন বৈশিষ্ট্য সমর্থন করতে হবে, প্ল্যাটফর্ম-নির্দিষ্ট কোড বেসের সংস্করণ বিকাশ, পরিচালনা, পরীক্ষা এবং রক্ষণাবেক্ষণ অসম্ভব। অনেক দল RAJA, Kokkos, SYCL এবং OpenMP এর মতো বিমূর্ত লাইব্রেরি ব্যবহার করে একক-উৎস কর্মক্ষমতা পোর্টেবিলিটি সমাধান করে এই চ্যালেঞ্জ মোকাবেলা করে।
१. নির্দেশনার অভাব: সাহিত্যে বিষমজাত সিস্টেমের কর্মক্ষমতা কীভাবে প্রকৃতপক্ষে তুলনা করতে হয় সে সম্পর্কে নির্দেশনা অনুপস্থিত २. বেঞ্চমার্ক ইউনিট অসামঞ্জস্যপূর্ণ: ঐতিহ্যবাহী একক-প্রসেসর বেঞ্চমার্ক বিষমজাত কম্পিউটিং ধরনের মধ্যে তুলনায় অসুবিধা রয়েছে ३. বিশ্লেষণ সরঞ্জাম বিক্ষিপ্ত: বিদ্যমান কর্মক্ষমতা বিশ্লেষণ সরঞ্জামগুলি সাধারণত একক আর্কিটেকচার বা কর্মক্ষমতার একক দিকের উপর দৃষ্টি নিবদ্ধ করে
এই পেপারটি ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা তুলনার জন্য সিস্টেমেটিক নির্দেশনা প্রদান করার লক্ষ্য রাখে, বিশেষত ক্লাউড কম্পিউটিং পরিবেশে, যেখানে ব্যবহারকারীদের অবশ্যই কম্পিউটিং নোড আর্কিটেকচারের একটি পরিসীমা থেকে নির্বাচন করতে হবে এবং সেই অনুযায়ী অর্থ প্রদান করতে হবে।
१. নোড-টু-নোড তুলনা প্যারাডাইম প্রস্তাব: ক্রস-প্ল্যাটফর্ম গবেষণার প্রাসঙ্গিক গণনা ইউনিট হিসাবে একক কম্পিউটিং নোড প্রতিষ্ঠা করা २. সিস্টেমেটাইজড স্কেলিং স্টাডি পদ্ধতি: নোড-টু-নোড স্কেলিং গবেষণার চার ধরনের বিস্তারিত বর্ণনা ३. স্ট্যান্ডার্ডাইজড ভিজুয়ালাইজেশন টেমপ্লেট: ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা বিশ্লেষণ এবং তুলনার জন্য চার্ট টেমপ্লেট প্রস্তাব করা ४. ব্যবহারিক কর্মপ্রবাহ নির্দেশনা: নোড-টু-নোড স্কেলিং গবেষণা সেট আপ, চালানো এবং বিশ্লেষণের জন্য সম্পূর্ণ কর্মপ্রবাহ প্রদান করা ५. বাস্তব কেস যাচাইকরণ: MARBL কোডের একাধিক কেস স্টাডির মাধ্যমে পদ্ধতির কার্যকারিতা যাচাই করা
এই পেপারে অধ্যয়ন করা কাজটি হল ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা তুলনার জন্য একটি স্ট্যান্ডার্ডাইজড পদ্ধতি প্রতিষ্ঠা করা, যেখানে ইনপুট হল বিভিন্ন প্ল্যাটফর্মে কম্পিউটিং কাজ এবং আউটপুট হল তুলনীয় কর্মক্ষমতা বিশ্লেষণ ফলাফল এবং ভিজুয়ালাইজেশন চার্ট।
१. একীভূত বেঞ্চমার্ক ইউনিট: কম্পিউটিং নোডকে মৌলিক তুলনা ইউনিট হিসাবে ব্যবহার করা, বিভিন্ন নোড আর্কিটেকচারের পার্থক্যগুলি কার্যকরভাবে স্বাভাবিক করা २. স্ট্যান্ডার্ডাইজড ভিজুয়ালাইজেশন: log₂-log₂ সমন্বয় ব্যবস্থা গ্রহণ করা, আদর্শ স্কেলিং নির্দিষ্ট ঢাল সহ সরল রেখা হিসাবে প্রদর্শিত হয় ३. ক্রস-প্ল্যাটফর্ম বিশ্লেষণ: উল্লম্ব লাইনের মাধ্যমে একই নোড সংখ্যায় আপেক্ষিক কর্মক্ষমতা তুলনা করা, অনুভূমিক লাইনের মাধ্যমে অনুরূপ কর্মক্ষমতা অর্জনের জন্য প্রয়োজনীয় নোড সংখ্যা তুলনা করা ४. ব্যাপক মূল্যায়ন কাঠামো: একটি সম্পূর্ণ কর্মক্ষমতা প্রোফাইল প্রদান করতে একাধিক স্কেলিং ধরন একত্রিত করা
१. Sierra (ATS-२): १२५ পেটাফ্লপ সিস্টেম, ४,३२० কম্পিউটিং নোড, প্রতিটি নোডে দুটি २०-কোর POWER९ প্রসেসর, চারটি NVIDIA Volta V१०० १६GB GPU এবং २५६GB মেমরি সহ २. Astra: २.३ পেটাফ্লপ সিস্টেম, २,५९२ কম্পিউটিং নোড, প্রতিটি নোডে দুটি २८-কোর Cavium ThunderX२ ARM প্রসেসর এবং १२८GB মেমরি সহ ३. CTS-१: বাণিজ্যিক সিস্টেম, १,३०२ কম্পিউটিং নোড, ডুয়াল १८-কোর Intel Xeon E५-२६९५ প্রসেসর, १२८GB মেমরি সহ ४. CTS-२: বাণিজ্যিক সিস্টেম, १,४९६ কম্পিউটিং নোড, ডুয়াল ५६-কোর Intel Xeon Platinum ८४८०+ প্রসেসর, २५६GB মেমরি সহ ५. EAS-३: এল ক্যাপিটান প্রাথমিক অ্যাক্সেস সিস্টেম, ३६ কম্পিউটিং নোড, একক ६४-কোর AMD Trento প্রসেসর, চারটি AMD MI-२५०X १२८GB GPU, ५१२GB মেমরি সহ
MARBL (মাল্টিফিজিক্স অন অ্যাডভান্সড প্ল্যাটফর্মস) কোড ব্যবহার করা হয়েছে, যা Lawrence Livermore National Laboratory দ্বারা বিকশিত পরবর্তী প্রজন্মের কর্মক্ষমতা-পোর্টেবল মাল্টিফিজিক্স সিমুলেশন কোড, যা উচ্চ-শক্তি-ঘনত্ব পদার্থবিজ্ঞান (HEDP) সিমুলেট করার জন্য বিশেষভাবে ডিজাইন করা হয়েছে।
Triple-Pt ३D তরল গতিবিদ্যা বেঞ্চমার্ক পরীক্ষায়:
Shaped-Charge ३D সমস্যায়:
ঐতিহ্যবাহী শক্তিশালী এবং দুর্বল স্কেলিং গবেষণা সাধারণত একক প্রসেসরকে বেঞ্চমার্ক হিসাবে ব্যবহার করে, এই পদ্ধতি বিষমজাত কম্পিউটিং ধরনের মধ্যে তুলনায় অসুবিধা রয়েছে। এই পেপারের নোড-টু-নোড পদ্ধতি আরও ব্যবহারিক ক্রস-প্ল্যাটফর্ম তুলনার ভিত্তি প্রদান করে।
PAPI counters, ARM forge, Intel VTune, NVIDIA Nsight এর মতো বিদ্যমান সরঞ্জামগুলি সাধারণত একক আর্কিটেকচারের উপর দৃষ্টি নিবদ্ধ করে। এর বিপরীতে, Ubiquitous Performance Analysis প্যারাডাইম এবং সম্পর্কিত সরঞ্জামগুলি (Caliper, Adiak, Hatchet, Thicket) ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা বিশ্লেষণের জন্য আরও ভাল সমর্থন প্রদান করে।
Maestro, Merlin, Ramble এর মতো সরঞ্জামগুলি সিমুলেশন সংগ্রহ পরিচালনায় সহায়তা করে, তবে সবগুলি বিভিন্ন ক্লাস্টারে সিমুলেশন চালানো এবং ফলাফল তুলনা করার জন্য অন্তর্নির্মিত সমর্থন প্রদান করে না।
१. নোড-স্তরের তুলনার কার্যকারিতা: একক কম্পিউটিং নোড ক্রস-প্ল্যাটফর্ম তুলনার মৌলিক ইউনিট হিসাবে যুক্তিসঙ্গত এবং ব্যবহারিক २. স্ট্যান্ডার্ডাইজড ভিজুয়ালাইজেশনের মূল্য: প্রস্তাবিত চার্ট টেমপ্লেটগুলি বিভিন্ন ধরনের স্কেলিং কর্মক্ষমতা স্পষ্টভাবে প্রদর্শন করতে পারে ३. ব্যবহারিক প্রয়োগের সাফল্য: একাধিক বাস্তব কেস স্টাডির মাধ্যমে পদ্ধতির কার্যকারিতা এবং ব্যবহারযোগ্যতা যাচাই করা হয়েছে
१. নোড-অভ্যন্তরীণ যোগাযোগ খরচ: নোড-টু-নোড স্কেলিং গবেষণা কিছু নোড-অভ্যন্তরীণ যোগাযোগ খরচ প্রাথমিক একক-নোড পরিমাপে অন্তর্ভুক্ত করে २. বড় ম্যানুয়াল কাজের চাপ: এই গবেষণাগুলি প্রকৃতপক্ষে সেট আপ করা এবং চলার মধ্যে ডেটা/মেটাডেটা ট্র্যাক করা উল্লেখযোগ্য ম্যানুয়াল কাজ প্রয়োজন ३. সীমিত ডেটা পয়েন্ট: একীভূত পরিমার্জন ব্যবহার করে দুর্বল স্কেলিং খুব কম ডেটা পয়েন্টের দিকে পরিচালিত করে
१. কাঠামো উন্নয়ন: এই ধরনের গবেষণা সেট আপ করা সহজ করার জন্য কাঠামো বিকাশ করা २. ক্লাউড কম্পিউটিং অন্বেষণ: ক্লাউড কম্পিউটিং ক্লাস্টারের বৈচিত্র্যময় কম্পিউটিং নোডগুলি ব্যবহার করে আরও অনেক "যদি-তাহলে" সমস্যা অন্বেষণ করা ३. শক্তি খরচ বিশ্লেষণ: শক্তি খরচ/শক্তি ব্যবহারের ক্রস-প্ল্যাটফর্ম তুলনায় প্রসারিত করা
१. শক্তিশালী ব্যবহারযোগ্যতা: প্রস্তাবিত পদ্ধতি HPC সম্প্রদায়ের মুখোমুখি বাস্তব সমস্যাগুলি সরাসরি সমাধান করে २. সিস্টেমেটিক সম্পূর্ণতা: তাত্ত্বিক কাঠামো থেকে ব্যবহারিক কর্মপ্রবাহ পর্যন্ত সম্পূর্ণ কভারেজ রয়েছে ३. পর্যাপ্ত যাচাইকরণ: একাধিক বাস্তব বৃহৎ-স্কেল কেস স্টাডির মাধ্যমে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে ४. স্পষ্ট ভিজুয়ালাইজেশন: প্রস্তাবিত চার্ট টেমপ্লেটগুলি স্বজ্ঞাত এবং সহজবোধ্য, বিশ্লেষণ এবং তুলনা সুবিধাজনক ५. সরঞ্জাম সমর্থন: সম্পূর্ণ সরঞ্জাম শৃঙ্খল সমর্থন প্রদান করে
१. সীমিত তাত্ত্বিক গভীরতা: প্রধানত পদ্ধতিগত এবং ব্যবহারিক নির্দেশনা, গভীর তাত্ত্বিক বিশ্লেষণের অভাব २. সর্বজনীনতা যাচাইকরণ অপেক্ষমাণ: প্রধানত MARBL কোডের কেস স্টাডির উপর ভিত্তি করে, অন্যান্য ধরনের প্রয়োগের প্রযোজ্যতা আরও যাচাইকরণ প্রয়োজন ३. কম স্বয়ংক্রিয়করণ স্তর: বর্তমান কর্মপ্রবাহ এখনও উল্লেখযোগ্য ম্যানুয়াল কনফিগারেশন এবং ব্যবস্থাপনা প্রয়োজন
१. ফাঁক পূরণ: HPC সম্প্রদায়ের ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা তুলনা নির্দেশনার অভাবের জন্য সিস্টেমেটিক সমাধান প্রদান করে २. স্ট্যান্ডার্ডাইজেশন সম্ভাবনা: প্রস্তাবিত পদ্ধতি এবং ভিজুয়ালাইজেশন টেমপ্লেটগুলি সম্প্রদায় মান হওয়ার সম্ভাবনা রাখে ३. উচ্চ ব্যবহারিক মূল্য: সিস্টেম ক্রয়, ক্লাউড কম্পিউটিং সম্পদ নির্বাচন ইত্যাদি বাস্তব সিদ্ধান্তের জন্য গুরুত্বপূর্ণ মূল্য রয়েছে
१. সিস্টেম ক্রয় মূল্যায়ন: সিদ্ধান্ত গ্রহণকারীদের বিভিন্ন আর্কিটেকচার সিস্টেমের কর্মক্ষমতা তুলনা করতে সহায়তা করে २. ক্লাউড কম্পিউটিং সম্পদ নির্বাচন: ব্যবহারকারীদের ক্লাউড পরিবেশে সবচেয়ে উপযুক্ত কম্পিউটিং ইনস্ট্যান্স ধরন নির্বাচন করতে গাইড করে ३. কোড পোর্টিং মূল্যায়ন: বিকাশকারীদের বিভিন্ন প্ল্যাটফর্মে কোড পোর্টিং প্রভাব মূল্যায়ন করতে সহায়তা করে ४. কর্মক্ষমতা অপ্টিমাইজেশন নির্দেশনা: কর্মক্ষমতা অপ্টিমাইজেশন কাজের জন্য বেঞ্চমার্ক এবং লক্ষ্য সেটিং প্রদান করে
এই পেপারটি ५२টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা HPC স্কেলিং গবেষণা, কর্মক্ষমতা বিশ্লেষণ সরঞ্জাম, কর্মপ্রবাহ ব্যবস্থাপনা এবং সম্পর্কিত প্রয়োগ সহ একাধিক দিক কভার করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সমর্থন প্রদান করে।
এই পেপারটি HPC সম্প্রদায়ের জন্য জরুরিভাবে প্রয়োজনীয় ক্রস-প্ল্যাটফর্ম কর্মক্ষমতা তুলনা নির্দেশনা প্রদান করে, অত্যন্ত ব্যবহারিক মূল্য রয়েছে। যদিও তাত্ত্বিক উদ্ভাবনের দিক থেকে তুলনামূলকভাবে সীমিত, এর সিস্টেমেটিক পদ্ধতিবিদ্যা এবং পর্যাপ্ত পরীক্ষামূলক যাচাইকরণ এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।