2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

नोड-टू-नोड स्केलिंग अध्ययनों के माध्यम से क्रॉस-प्लेटफॉर्म प्रदर्शन की तुलना

मूल जानकारी

  • पेपर ID: 2510.12166
  • शीर्षक: नोड-टू-नोड स्केलिंग अध्ययनों के माध्यम से क्रॉस-प्लेटफॉर्म प्रदर्शन की तुलना
  • लेखक: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • वर्गीकरण: cs.DC (वितरित, समानांतर और क्लस्टर कंप्यूटिंग)
  • प्रकाशन समय: 15 अक्टूबर, 2025 (प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12166

सारांश

उच्च-प्रदर्शन कंप्यूटिंग आर्किटेक्चर की विविधता में वृद्धि के साथ, शोधकर्ता और व्यावहारिक विशेषज्ञ विभिन्न प्लेटफॉर्मों पर कोड के प्रदर्शन और स्केलेबिलिटी की तुलना में तेजी से रुचि दिखा रहे हैं। हालांकि, ऐसे क्रॉस-प्लेटफॉर्म अध्ययनों को वास्तव में कैसे सेट अप और विश्लेषण करें, इस बारे में उपलब्ध मार्गदर्शन की कमी है। यह पेपर तर्क देता है कि ऐसे अध्ययनों की प्राकृतिक मौलिक कंप्यूटिंग इकाई प्रत्येक प्लेटफॉर्म पर एकल कंप्यूटिंग नोड है, और नोड-टू-नोड स्केलिंग अध्ययनों को सेट अप, चलाने और विश्लेषण करने के लिए मार्गदर्शन प्रदान करता है। हम इन अध्ययनों के स्केलिंग परिणामों को प्रदर्शित करने के लिए टेम्पलेट प्रस्तुत करते हैं, और इस दृष्टिकोण के लाभों को उजागर करने के लिए कई केस स्टडीज प्रदान करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

  1. आर्किटेक्चर विविधता वृद्धि: Exascale Computing Project (ECP) के समापन और पहली एक्साफ्लॉप-स्तरीय मशीनों की सफल तैनाती के साथ (जैसे Lawrence Livermore National Laboratory की El Capitan प्रणाली 1.7 exaflops तक पहुंचती है), सुपरकंप्यूटर नोड आर्किटेक्चर में काफी विविधता देखी गई है।
  2. प्लेटफॉर्म चयन चुनौती: नवंबर 2024 की Top500 सूची में, 29.2% सिस्टम में GPU और CPU दोनों हैं, जो कुल प्रदर्शन शेयर का 41.3% प्रतिनिधित्व करते हैं। कई कंप्यूटिंग प्लेटफॉर्म विकल्पों का सामना करते हुए, शोधकर्ताओं के लिए वास्तविक बाधाओं (जैसे क्लस्टर उपलब्धता और परियोजना बजट) के तहत समस्या को हल करने के लिए उपयुक्त प्लेटफॉर्म चुनना हमेशा स्पष्ट नहीं होता है।
  3. प्रदर्शन पोर्टेबिलिटी आवश्यकता: बड़े कोडबेस को विभिन्न मौजूदा और आने वाली आर्किटेक्चर और नई सुविधाओं का समर्थन करना चाहिए, प्लेटफॉर्म-विशिष्ट कोडबेस संस्करणों को विकसित, प्रबंधित, परीक्षण और रखरखाव करना अव्यावहारिक है। कई टीमें RAJA, Kokkos, SYCL और OpenMP जैसी अमूर्त लाइब्रेरीज का उपयोग करके एकल-स्रोत प्रदर्शन पोर्टेबिलिटी पोर्टिंग के माध्यम से इस चुनौती का सामना करती हैं।

मौजूदा विधियों की सीमाएं

  1. मार्गदर्शन की कमी: साहित्य में विषम प्रणालियों के प्रदर्शन की तुलना कैसे करें, इस बारे में मार्गदर्शन की कमी है
  2. बेंचमार्क इकाई की असंगति: पारंपरिक एकल-प्रोसेसर बेंचमार्क विषम कंप्यूटिंग प्रकारों के बीच तुलना करते समय कठिनाई का सामना करते हैं
  3. विश्लेषण उपकरण बिखरे हुए: मौजूदा प्रदर्शन विश्लेषण उपकरण आमतौर पर एकल आर्किटेक्चर या प्रदर्शन के एकल पहलू पर ध्यान केंद्रित करते हैं

अनुसंधान प्रेरणा

यह पेपर क्रॉस-प्लेटफॉर्म प्रदर्शन तुलना के लिए व्यवस्थित मार्गदर्शन प्रदान करने का लक्ष्य रखता है, विशेष रूप से क्लाउड कंप्यूटिंग वातावरण में, जहां उपयोगकर्ताओं को कंप्यूटिंग नोड आर्किटेक्चर की एक श्रृंखला से चुनना चाहिए और तदनुसार भुगतान करना चाहिए।

मुख्य योगदान

  1. नोड-टू-नोड तुलना प्रतिमान प्रस्तुत करना: क्रॉस-प्लेटफॉर्म अध्ययनों की प्रासंगिक कंप्यूटिंग इकाई के रूप में एकल कंप्यूटिंग नोड की स्थापना
  2. स्केलिंग अध्ययन विधि को व्यवस्थित करना: नोड-टू-नोड स्केलिंग अध्ययन के चार प्रकारों का विस्तार से वर्णन
  3. मानकीकृत दृश्य टेम्पलेट: क्रॉस-प्लेटफॉर्म प्रदर्शन विश्लेषण और तुलना के लिए चार्ट टेम्पलेट प्रस्तुत करना
  4. व्यावहारिक कार्यप्रवाह मार्गदर्शन: नोड-टू-नोड स्केलिंग अध्ययनों को सेट अप, चलाने और विश्लेषण करने के लिए संपूर्ण कार्यप्रवाह प्रदान करना
  5. वास्तविक केस सत्यापन: MARBL कोड के कई केस स्टडीज के माध्यम से विधि की प्रभावशीलता को सत्यापित करना

विधि विस्तार

कार्य परिभाषा

इस पेपर में अध्ययन किया गया कार्य क्रॉस-प्लेटफॉर्म प्रदर्शन तुलना के लिए मानकीकृत विधियों का एक सेट स्थापित करना है, इनपुट विभिन्न प्लेटफॉर्मों पर कंप्यूटिंग कार्य हैं, आउटपुट तुलनीय प्रदर्शन विश्लेषण परिणाम और दृश्य चार्ट हैं।

नोड-टू-नोड स्केलिंग अध्ययन के प्रकार

1. मजबूत स्केलिंग अध्ययन (Strong Scaling)

  • परिभाषा: कुल समस्या आकार को स्थिर रखते हुए, कंप्यूटिंग संसाधनों की संख्या में भिन्नता
  • मेट्रिक: मजबूत स्केलिंग स्पीडअप = t_P(1)/t_P(N), जहां t_P(1) एकल नोड रनटाइम है, t_P(N) N नोड्स का रनटाइम है
  • आदर्श स्थिति: नोड्स की संख्या के साथ रनटाइम रैखिक रूप से घटता है (log₂-log₂ निर्देशांक में ढलान -1)

2. कमजोर स्केलिंग अध्ययन (Weak Scaling)

  • परिभाषा: प्रत्येक कंप्यूटिंग नोड के स्थानीय समस्या आकार को स्थिर रखते हुए, नोड्स की संख्या के साथ कुल समस्या आकार में वृद्धि
  • मेट्रिक: कमजोर स्केलिंग दक्षता = t_P(1)/t_P(N)
  • आदर्श स्थिति: रनटाइम अपरिवर्तित रहता है (log₂-log₂ निर्देशांक में ढलान 0)

3. मजबूत-कमजोर स्केलिंग अध्ययन (Strong-Weak Scaling)

  • परिभाषा: एकल चार्ट में मजबूत और कमजोर स्केलिंग परिणामों को एक साथ प्रदर्शित करना
  • उपयोग: कंप्यूटिंग चलाने के "सर्वोत्तम बिंदु" को निर्धारित करने में सहायता
  • दृश्य: ठोस रेखाएं मजबूत स्केलिंग डेटा बिंदुओं को जोड़ती हैं, बिंदीदार रेखाएं कमजोर स्केलिंग डेटा बिंदुओं को जोड़ती हैं

4. थ्रूपुट स्केलिंग अध्ययन (Throughput Scaling)

  • परिभाषा: निश्चित संसाधनों पर प्रति-नोड थ्रूपुट की तुलना, समस्या में स्वतंत्रता की डिग्री की संख्या में भिन्नता
  • मेट्रिक: थ्रूपुट = ⟨DOFs-processed⟩/compute_node × cycles/second
  • लक्ष्य: संसाधन संतृप्ति बिंदु खोजना और प्रदर्शन बाधाओं की पहचान करना

तकनीकी नवाचार बिंदु

  1. एकीकृत बेंचमार्क इकाई: कंप्यूटिंग नोड को मूल तुलना इकाई के रूप में उपयोग करना, विभिन्न नोड आर्किटेक्चर के अंतर को प्रभावी रूप से सामान्य करना
  2. मानकीकृत दृश्य: log₂-log₂ निर्देशांक प्रणाली को अपनाना, आदर्श स्केलिंग को विशिष्ट ढलान की सीधी रेखा के रूप में प्रदर्शित करना
  3. क्रॉस-प्लेटफॉर्म विश्लेषण: समान नोड्स की संख्या के तहत सापेक्ष प्रदर्शन की तुलना करने के लिए ऊर्ध्वाधर रेखाओं के माध्यम से, समान प्रदर्शन प्राप्त करने के लिए आवश्यक नोड्स की संख्या की तुलना करने के लिए क्षैतिज रेखाओं के माध्यम से
  4. व्यापक मूल्यांकन ढांचा: व्यापक प्रदर्शन चित्र प्रदान करने के लिए कई स्केलिंग प्रकारों को संयोजित करना

प्रायोगिक सेटअप

परीक्षण प्लेटफॉर्म

  1. Sierra (ATS-2): 125 petaflop प्रणाली, 4,320 कंप्यूटिंग नोड्स, प्रत्येक नोड दो 20-कोर POWER9 प्रोसेसर, चार NVIDIA Volta V100 16GB GPU और 256GB मेमोरी से सुसज्जित
  2. Astra: 2.3 petaflop प्रणाली, 2,592 कंप्यूटिंग नोड्स, प्रत्येक नोड दो 28-कोर Cavium ThunderX2 ARM प्रोसेसर और 128GB मेमोरी से सुसज्जित
  3. CTS-1: वाणिज्यिक प्रणाली, 1,302 कंप्यूटिंग नोड्स, दोहरी 18-कोर Intel Xeon E5-2695 प्रोसेसर, 128GB मेमोरी
  4. CTS-2: वाणिज्यिक प्रणाली, 1,496 कंप्यूटिंग नोड्स, दोहरी 56-कोर Intel Xeon Platinum 8480+ प्रोसेसर, 256GB मेमोरी
  5. EAS-3: El Capitan प्रारंभिक पहुंच प्रणाली, 36 कंप्यूटिंग नोड्स, एकल 64-कोर AMD Trento प्रोसेसर, चार AMD MI-250X 128GB GPU, 512GB मेमोरी

परीक्षण कोड

MARBL (Advanced Platforms पर Multiphysics) कोड का उपयोग किया गया, जो Lawrence Livermore National Laboratory द्वारा विकसित अगली पीढ़ी की प्रदर्शन-पोर्टेबल मल्टीफिजिक्स सिमुलेशन कोड है, जो उच्च-ऊर्जा-घनत्व भौतिकी (HEDP) को सिमुलेट करने के लिए विशेष रूप से डिज़ाइन किया गया है।

कार्यप्रवाह उपकरण

  • Maestro: स्केलिंग अध्ययनों के रन को ऑर्केस्ट्रेट करने के लिए
  • Caliper और Adiak: कोड एनोटेशन और मेटाडेटा संग्रह के लिए
  • Thicket: Caliper डेटा को पढ़ने और फ़िल्टर करने के लिए, स्केलिंग चार्ट उत्पन्न करने के लिए

प्रायोगिक परिणाम

केस स्टडी 1: FY20 परियोजना माइलस्टोन

Triple-Pt 3D द्रव गतिकी बेंचमार्क परीक्षण में:

  • मजबूत स्केलिंग प्रदर्शन: GPU प्लेटफॉर्म Sierra एकल नोड पर CPU प्लेटफॉर्म की तुलना में लगभग 15x स्पीडअप प्रदान करता है, लेकिन नोड्स की संख्या बढ़ने के साथ, लाभ धीरे-धीरे कम हो जाता है (8 नोड्स पर लगभग 8x, 32 नोड्स पर लगभग 4x)
  • कमजोर स्केलिंग प्रदर्शन: Astra उत्कृष्ट कमजोर स्केलिंग प्रदर्शन प्रदर्शित करता है (2,048 नोड्स पर केवल 1.49x मंदी), Sierra भी उचित कमजोर स्केलिंग प्रदर्शन दिखाता है (1.8x मंदी)

केस स्टडी 2: उच्च-क्रम रन का नोड-टू-नोड थ्रूपुट अध्ययन

  • CPU प्लेटफॉर्म सीमा: CTS-1 और CTS-2 तेजी से संतृप्त होते हैं, थ्रूपुट वक्र अपेक्षाकृत समतल है
  • GPU प्लेटफॉर्म लाभ: ATS-2 और EAS-3 काफी अधिक थ्रूपुट प्राप्त करते हैं
  • मेमोरी क्षमता प्रभाव: EAS-3 नोड्स ATS-2 की तुलना में एक परिमाण बड़ी समस्याएं चला सकते हैं
  • बहुपद क्रम प्रभाव: सभी प्लेटफॉर्मों पर, बहुपद क्रम को रैखिक से द्विघात तक और फिर घन तक बढ़ाने के साथ, कोड उच्च थ्रूपुट प्राप्त करता है

केस स्टडी 3: विभिन्न लाइब्रेरी विशेषताओं की क्रॉस-प्लेटफॉर्म तुलना

Shaped-Charge 3D समस्या में:

  • मेमोरी पूल साझाकरण लाभ: GPU प्लेटफॉर्मों पर, होस्ट कोड MARBL और स्थिति समीकरण लाइब्रेरी LEOS पूर्व-आवंटित मेमोरी पूल साझा करते हैं, प्रत्येक स्वतंत्र मेमोरी आवंटन का उपयोग करने की तुलना में, सभी पैमानों पर महत्वपूर्ण लाभ देखे जाते हैं (2x-4x सुधार)

केस स्टडी 4: कंटेनरीकृत MARBL प्रदर्शन तुलना

  • न्यूनतम प्रदर्शन हानि: कंटेनरीकृत MARBL (cMARBL) मूल MARBL बाइनरी फ़ाइल की तुलना में प्रदर्शन हानि नगण्य है
  • क्लाउड तैनाती व्यवहार्यता: विभिन्न MARBL कार्यभार के लिए क्लाउड संसाधनों का लाभ उठाने के लिए अवसर प्रदान करता है

संबंधित कार्य

पारंपरिक स्केलिंग अध्ययन

पारंपरिक मजबूत और कमजोर स्केलिंग अध्ययन आमतौर पर एकल प्रोसेसर को बेंचमार्क के रूप में उपयोग करते हैं, यह दृष्टिकोण विषम कंप्यूटिंग प्रकारों के बीच तुलना करते समय कठिनाई का सामना करता है। इस पेपर की नोड-टू-नोड विधि क्रॉस-प्लेटफॉर्म तुलना के लिए अधिक व्यावहारिक आधार प्रदान करती है।

प्रदर्शन विश्लेषण उपकरण

PAPI counters, ARM forge, Intel VTune, NVIDIA Nsight जैसे मौजूदा उपकरण आमतौर पर एकल आर्किटेक्चर पर ध्यान केंद्रित करते हैं। इसके विपरीत, Ubiquitous Performance Analysis प्रतिमान और संबंधित उपकरण (Caliper, Adiak, Hatchet, Thicket) क्रॉस-प्लेटफॉर्म प्रदर्शन विश्लेषण के लिए बेहतर समर्थन प्रदान करते हैं।

कार्यप्रवाह प्रबंधन

Maestro, Merlin, Ramble जैसे उपकरण सिमुलेशन संग्रह को प्रबंधित करने में सहायता करते हैं, लेकिन सभी विभिन्न क्लस्टरों पर सिमुलेशन चलाने और परिणामों की तुलना करने के लिए अंतर्निहित समर्थन नहीं रखते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. नोड-स्तरीय तुलना की प्रभावशीलता: क्रॉस-प्लेटफॉर्म तुलना की मूल इकाई के रूप में एकल कंप्यूटिंग नोड उचित और व्यावहारिक है
  2. मानकीकृत दृश्य का मूल्य: प्रस्तावित चार्ट टेम्पलेट विभिन्न प्रकार के स्केलिंग प्रदर्शन को स्पष्ट रूप से प्रदर्शित कर सकते हैं
  3. व्यावहारिक अनुप्रयोग की सफलता: कई वास्तविक केस स्टडीज के माध्यम से विधि की प्रभावशीलता और व्यावहारिकता को सत्यापित किया गया है

सीमाएं

  1. नोड के भीतर संचार लागत: नोड-टू-नोड स्केलिंग अध्ययन कुछ नोड के भीतर संचार लागत को प्रारंभिक एकल-नोड माप में शामिल करते हैं
  2. बड़ा मैनुअल कार्य: इन अध्ययनों को वास्तव में सेट अप करना और रन भर में डेटा/मेटाडेटा को ट्रैक करना बड़ी मात्रा में मैनुअल कार्य की आवश्यकता है
  3. सीमित डेटा बिंदु: कमजोर स्केलिंग के लिए समान परिशोधन का उपयोग करने से बहुत कम डेटा बिंदु होते हैं

भविष्य की दिशाएं

  1. ढांचा विकास: ऐसे अध्ययनों को सेट अप करना आसान बनाने के लिए ढांचा विकसित करना
  2. क्लाउड कंप्यूटिंग अन्वेषण: क्लाउड कंप्यूटिंग क्लस्टरों की विविध कंप्यूटिंग नोड्स का उपयोग करके अधिक "क्या-अगर" समस्याओं की खोज करना
  3. ऊर्जा खपत विश्लेषण: ऊर्जा/शक्ति उपयोग के क्रॉस-प्लेटफॉर्म तुलना तक विस्तार करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत व्यावहारिकता: प्रस्तावित विधि HPC समुदाय द्वारा सामना की जाने वाली व्यावहारिक समस्याओं को सीधे संबोधित करती है
  2. व्यवस्थित पूर्णता: सैद्धांतिक ढांचे से व्यावहारिक कार्यप्रवाह तक पूर्ण कवरेज
  3. पर्याप्त सत्यापन: कई वास्तविक बड़े पैमाने के केस स्टडीज के माध्यम से विधि की प्रभावशीलता को सत्यापित किया गया है
  4. स्पष्ट दृश्य: प्रस्तावित चार्ट टेम्पलेट सहज और समझने में आसान हैं, विश्लेषण और तुलना के लिए सुविधाजनक
  5. उपकरण समर्थन: संपूर्ण उपकरण श्रृंखला समर्थन प्रदान करता है

कमियां

  1. सीमित सैद्धांतिक गहराई: मुख्य रूप से पद्धति और व्यावहारिक मार्गदर्शन, गहन सैद्धांतिक विश्लेषण की कमी
  2. सार्वभौमिकता सत्यापन प्रतीक्षा: मुख्य रूप से MARBL कोड के केस पर आधारित, अन्य प्रकार के अनुप्रयोगों की प्रयोज्यता को आगे सत्यापन की आवश्यकता है
  3. कम स्वचालन स्तर: वर्तमान कार्यप्रवाह को अभी भी बड़ी मात्रा में मैनुअल कॉन्फ़िगरेशन और प्रबंधन की आवश्यकता है

प्रभाव

  1. रिक्ति भरना: HPC समुदाय द्वारा अनुभव की जाने वाली क्रॉस-प्लेटफॉर्म प्रदर्शन तुलना मार्गदर्शन की कमी के लिए व्यवस्थित समाधान प्रदान करता है
  2. मानकीकरण संभावना: प्रस्तावित विधि और दृश्य टेम्पलेट समुदाय मानक बनने की संभावना रखते हैं
  3. उच्च व्यावहारिक मूल्य: प्रणाली खरीद, क्लाउड कंप्यूटिंग संसाधन चयन आदि जैसे व्यावहारिक निर्णयों के लिए महत्वपूर्ण मूल्य

लागू परिदृश्य

  1. प्रणाली खरीद मूल्यांकन: निर्णय निर्माताओं को विभिन्न आर्किटेक्चर प्रणालियों के प्रदर्शन की तुलना करने में सहायता
  2. क्लाउड कंप्यूटिंग संसाधन चयन: उपयोगकर्ताओं को क्लाउड वातावरण में सबसे उपयुक्त कंप्यूटिंग उदाहरण प्रकार चुनने में मार्गदर्शन
  3. कोड पोर्टिंग मूल्यांकन: विकासकर्ताओं को विभिन्न प्लेटफॉर्मों पर कोड पोर्टिंग प्रभाव का मूल्यांकन करने में सहायता
  4. प्रदर्शन अनुकूलन मार्गदर्शन: प्रदर्शन अनुकूलन कार्य के लिए बेंचमार्क और लक्ष्य निर्धारण प्रदान करना

संदर्भ

यह पेपर 52 संबंधित संदर्भों का हवाला देता है, जो HPC स्केलिंग अध्ययन, प्रदर्शन विश्लेषण उपकरण, कार्यप्रवाह प्रबंधन और संबंधित अनुप्रयोगों सहित कई पहलुओं को कवर करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।


यह पेपर HPC समुदाय द्वारा आवश्यक क्रॉस-प्लेटफॉर्म प्रदर्शन तुलना मार्गदर्शन प्रदान करता है, जिसमें बहुत मजबूत व्यावहारिक मूल्य है। हालांकि सैद्धांतिक नवाचार के संदर्भ में अपेक्षाकृत सीमित है, इसकी व्यवस्थित पद्धति और पर्याप्त प्रायोगिक सत्यापन इसे इस क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं।