2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

मूल जानकारी

  • पेपर ID: 2509.17238
  • शीर्षक: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • लेखक: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • वर्गीकरण: cs.AI, cs.CL, cs.LG
  • प्रकाशन स्थिति: प्रीप्रिंट। समीक्षा के अधीन
  • पेपर लिंक: https://arxiv.org/abs/2509.17238v2

सारांश

यह पेपर हाइपर-पैरेलल स्केलिंग (hyper-parallel scaling) नामक एक नया अनुमान प्रतिमान प्रस्तावित करता है, जो टोकन स्तर पर कई आउटपुट प्रस्तावों की गणना और एकत्रीकरण के माध्यम से भविष्यवाणी गुणवत्ता को बढ़ाता है। विशिष्ट कार्यान्वयन विशेषज्ञ नामावली (Roster of Experts, RoE) विधि है, जो एक प्रशिक्षण-मुक्त अनुमान एल्गोरिथ्म है जो एकल MoE मॉडल को गतिशील MoE समूह में परिवर्तित करता है। RoE विशेषज्ञ रूटिंग तंत्र में नियंत्रित यादृच्छिकता को इंजेक्ट करके, प्रत्येक टोकन के लिए कई विभिन्न विशेषज्ञों को नमूना लेता है और अधिक सटीक अंतिम भविष्यवाणी प्राप्त करने के लिए उनके आउटपुट को एकत्रित करता है। कुशल बैच प्रोसेसिंग रणनीतियों और विशेष KV कैश तंत्र के माध्यम से, RoE 7B MoE मॉडल को 10.5B MoE मॉडल के प्रदर्शन तक पहुंचने में सक्षम बनाता है, साथ ही अनुमान गणना में 30% की कमी करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक अनुमान-समय स्केलिंग विधियां मुख्य रूप से दो श्रेणियों में विभाजित हैं:

  1. अनुक्रमिक स्केलिंग (Sequential Scaling): जैसे विचार श्रृंखला (Chain-of-Thought), लंबे और अधिक संरचित आउटपुट उत्पन्न करके प्रदर्शन में सुधार
  2. समानांतर स्केलिंग (Parallel Scaling): जैसे आत्म-संगति (Self-Consistency), कई स्वतंत्र अनुक्रम उत्पन्न करना और परिणामों को एकत्रित करना

अनुसंधान प्रेरणा

मौजूदा विधियों में निम्नलिखित सीमाएं हैं:

  • अनुक्रमिक स्केलिंग को अतिरिक्त पीढ़ी चरणों की आवश्यकता होती है, जिससे विलंबता बढ़ता है
  • समानांतर स्केलिंग की प्रयोज्यता सीमित है, मुख्य रूप से स्पष्ट उत्तर वाले कार्यों के लिए
  • टोकन स्तर पर मॉडल की आंतरिक भविष्यवाणी क्षमता को बढ़ाने के तरीके की कमी है

मुख्य अंतर्दृष्टि

लेखक एक महत्वपूर्ण प्रश्न प्रस्तावित करते हैं: क्या अनुमान समय पर अधिक गणना आवंटित करके मॉडल की आंतरिक अगले टोकन भविष्यवाणी क्षमता को बढ़ाया जा सकता है? यह हाइपर-पैरेलल स्केलिंग की अवधारणा को जन्म देता है, अर्थात् प्रत्येक टोकन की पीढ़ी गुणवत्ता को बढ़ाने के लिए मॉडल के आंतरिक गणना पथों को विविध बनाना।

मुख्य योगदान

  1. हाइपर-पैरेलल स्केलिंग प्रतिमान प्रस्तावित करना: टोकन स्तर पर भविष्यवाणी गुणवत्ता में सुधार के लिए एक नया अनुमान ढांचा, मौजूदा अनुक्रम-स्तरीय विधियों के साथ ऑर्थोगोनल और पूरक
  2. RoE एल्गोरिथ्म डिजाइन करना: MoE मॉडल वृद्धि के लिए प्रशिक्षण-मुक्त विधि, नियंत्रित यादृच्छिक रूटिंग के माध्यम से गतिशील विशेषज्ञ समूह को लागू करना
  3. कुशल अनुमान रणनीति विकसित करना: बैच प्रोसेसिंग अनुकूलन और Clean Cache तंत्र सहित, गणना और मेमोरी ओवरहेड को काफी कम करना
  4. महत्वपूर्ण प्रदर्शन सुधार को सत्यापित करना: कई बेंचमार्क में RoE की प्रभावशीलता को साबित करना, अधिक कुशल प्रदर्शन-गणना व्यापार-बंद को प्राप्त करना

विधि विवरण

कार्य परिभाषा

पूर्व-प्रशिक्षित MoE मॉडल को देखते हुए, RoE का लक्ष्य विशेषज्ञ चयन को विविध बनाकर प्रत्येक टोकन की भविष्यवाणी गुणवत्ता में सुधार करना है, बिना मॉडल पैरामीटर को संशोधित किए या अतिरिक्त प्रशिक्षण के।

मुख्य एल्गोरिथ्म: Gumbel-Top-K रूटिंग

मानक MoE रूटिंग: रूटिंग लॉगिट्स के सर्वोच्च k विशेषज्ञों को निर्धारक रूप से चुनता है

RoE रूटिंग: Gumbel शोर के माध्यम से नियंत्रित यादृच्छिकता को प्रस्तुत करता है:

Indices = TopK(R + τ·G, k)

जहां:

  • R ∈ R^E E विशेषज्ञों के लिए रूटिंग लॉगिट्स हैं
  • G Gumbel(0,1) वितरण के i.i.d. नमूने हैं
  • τ तापमान पैरामीटर है, यादृच्छिकता की डिग्री को नियंत्रित करता है

मॉडल आर्किटेक्चर

RoE का कार्य प्रवाह इस प्रकार है:

  1. बहु-पथ पीढ़ी: एकल इनपुट टोकन के लिए, विभिन्न यादृच्छिक बीजों के माध्यम से n विभिन्न विशेषज्ञ चयन पथ उत्पन्न करना
  2. समानांतर गणना: n पथों को बैच के रूप में समानांतर में संसाधित करना
  3. परिणाम एकत्रीकरण: अंतिम भविष्यवाणी प्राप्त करने के लिए n आउटपुट लॉगिट्स को संभाव्यता औसत के माध्यम से एकत्रित करना

तकनीकी नवाचार बिंदु

1. तापमान पैरामीटर अनुकूलन

  • परत-विशिष्ट तापमान: τ = {τᵢ}ᵢ∈L_MoE, प्रत्येक परत के लिए स्वतंत्र रूप से सेट किया गया
  • खोज रणनीति: बेयेसियन अनुकूलन के लिए Tree-structured Parzen Estimator (TPE) का उपयोग
  • खोज स्थान छंटाई:
    • केवल मध्य परतों पर RoE लागू करना (पहली और अंतिम परतें τ=0 सेट करती हैं)
    • तापमान सीमा 0, 0.5 तक सीमित

2. Clean Cache तंत्र

समस्या: भोली कार्यान्वयन को n स्वतंत्र KV कैश बनाए रखने की आवश्यकता है, विशाल मेमोरी ओवरहेड

समाधान:

  • पहला नमूना (बैच इंडेक्स 0) निर्धारक रूटिंग (τ=0) को "स्वच्छ" पथ के रूप में उपयोग करता है
  • सभी नमूने स्वच्छ पथ के KV कैश को साझा करते हैं
  • केवल वर्तमान टोकन यादृच्छिक रूटिंग लागू करता है, इतिहास सुसंगत रहता है

3. बैच प्रोसेसिंग अनुकूलन

आधुनिक GPU की समानांतर प्रोसेसिंग क्षमता का उपयोग करते हुए, n नमूनों को एकल बैच के रूप में संसाधित करना, wall-clock समय को काफी कम करना।

प्रयोगात्मक सेटअप

डेटासेट

परीक्षण तीन डोमेन को कवर करता है:

  • गणितीय तर्क: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • सामान्य ज्ञान तर्क: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • कोड पीढ़ी: HumanEval, HumanEvalPlus

मॉडल

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

मूल्यांकन मेट्रिक्स

  • गणितीय और सामान्य ज्ञान कार्य: सटीक मिलान सटीकता
  • कोड कार्य: pass@1 सटीकता
  • दक्षता मूल्यांकन: विलंबता, मेमोरी उपयोग, शक्ति खपत

कार्यान्वयन विवरण

  • हार्डवेयर: NVIDIA A100 80GB GPU
  • डिकोडिंग रणनीति: लालची डिकोडिंग (अन्य रणनीतियों को बाहर करना)
  • एकत्रीकरण विधि: संभाव्यता औसत
  • सांख्यिकी: 5 यादृच्छिक बीजों पर औसत

प्रयोगात्मक परिणाम

मुख्य परिणाम

प्रदर्शन सुधार सार्वभौमिक और महत्वपूर्ण:

  • OLMoE मॉडल को अधिकतम सुधार मिलता है, लगभग सभी कार्यों में सुधार होता है
  • Mixtral और GPT-OSS भी अधिकांश कार्यों पर सुधार प्राप्त करते हैं
  • कोड पीढ़ी जैसे खुले कार्य भी लाभान्वित होते हैं

विशिष्ट संख्यात्मक उदाहरण (OLMoE-1B-7B):

  • GSM8K: 64.1% → 64.5%
  • SVAMP: 68.2% → 69.5%
  • ARC-Easy: 68.9% → 71.3%
  • HumanEval: 31.1% → 31.5%

दक्षता विश्लेषण

गणना ओवरहेड नियंत्रणीय:

  • 64 नमूनों पर मेमोरी वृद्धि केवल 12%
  • शक्ति खपत में 20% वृद्धि
  • Clean Cache तंत्र घातीय मेमोरी वृद्धि से बचता है

मॉडल स्केलिंग के साथ तुलना:

  • RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B प्रदर्शन
  • मेमोरी में 25% कमी, विलंबता में 30% की कमी

विलोपन प्रयोग

तापमान पैरामीटर प्रभाव:

  • प्रदर्शन तापमान के साथ अवतल कार्य संबंध दिखाता है
  • इष्टतम तापमान कार्य के अनुसार भिन्न होता है
  • अत्यधिक तापमान अत्यधिक शोर को प्रस्तुत करता है, प्रदर्शन को नुकसान पहुंचाता है

कैश तंत्र की आवश्यकता:

  • बिना कैश के विलंबता घातीय रूप से बढ़ता है
  • Clean Cache RoE को व्यावहारिक बनाता है

संबंधित कार्य

अनुमान-समय स्केलिंग विधियों का वर्गीकरण

  1. अनुक्रमिक स्केलिंग: CoT, Tree-of-Thoughts आदि, लंबी तर्क श्रृंखला के माध्यम से प्रदर्शन में सुधार
  2. समानांतर स्केलिंग: Self-Consistency, बहु-पथ पीढ़ी + मतदान एकत्रीकरण
  3. हाइपर-पैरेलल स्केलिंग: इस पेपर द्वारा प्रस्तावित नया प्रतिमान, टोकन स्तर पर गणना को विविध बनाना

मौजूदा कार्य के साथ अंतर

  • प्रशिक्षण-मुक्त: विशेष पूर्व-प्रशिक्षण की आवश्यकता वाली परिवर्तनीय गहराई आर्किटेक्चर के विपरीत (Geiping et al., 2025)
  • MoE विशेषज्ञता: MoE आर्किटेक्चर के विशेषज्ञ विविधता उपयोग के लिए विशेष रूप से
  • टोकन-स्तरीय वृद्धि: मौजूदा अनुक्रम-स्तरीय विधियों से भिन्न

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. हाइपर-पैरेलल स्केलिंग अनुमान-समय प्रदर्शन सुधार के लिए एक नया प्रभावी मार्ग प्रदान करता है
  2. RoE ने MoE मॉडल के प्रशिक्षण-मुक्त प्रदर्शन वृद्धि को सफलतापूर्वक लागू किया है
  3. चतुर इंजीनियरिंग अनुकूलन के माध्यम से, विधि व्यावहारिक है
  4. दक्षता के मामले में सरल मॉडल स्केलिंग से बेहतर है

सीमाएं

  1. अनुकूलन लागत: प्रत्येक कार्य के लिए तापमान पैरामीटर को ट्यून करने की आवश्यकता है
  2. सुधार परिमाण: पहले से ही संतृप्त मजबूत मॉडल के लिए, सुधार की गुंजाइश सीमित है
  3. मूल्यांकन मेट्रिक्स: भ्रम और पीढ़ी सटीकता के बीच अंतर, गणितीय कार्यों के अनुकूलन को प्रभावित करता है
  4. प्रयोज्यता सीमा: वर्तमान में केवल MoE आर्किटेक्चर पर लागू होता है

भविष्य की दिशाएं

लेखक चार अनुसंधान दिशाएं प्रस्तावित करते हैं:

  1. सामान्यीकृत अनुप्रयोग: दृष्टि, ऑडियो आदि गैर-MoE मॉडल तक विस्तार
  2. उन्नत शोर इंजेक्शन: अनुकूली या इनपुट-सशर्त शोर रणनीतियां
  3. आत्म-अनुकूली गणना: टोकन कठिनाई के आधार पर गणना बजट को गतिशील रूप से समायोजित करना
  4. RoE-जागरूक प्रशिक्षण: पूर्व-प्रशिक्षण में यादृच्छिक रूटिंग को एकीकृत करना

गहन मूल्यांकन

शक्तियां

  1. अवधारणा नवाचार: हाइपर-पैरेलल स्केलिंग अवधारणा नई है, अनुमान-समय अनुकूलन के लिए नई दिशा खोलती है
  2. इंजीनियरिंग अनुकूलन: Clean Cache जैसी तकनीकें विधि को सिद्धांत से व्यावहारिकता तक ले जाती हैं
  3. व्यापक प्रयोग: बहु-मॉडल, बहु-कार्य, बहु-आयामी मूल्यांकन, परिणाम विश्वसनीय हैं
  4. दक्षता लाभ: मॉडल स्केलिंग की तुलना में अधिक कुशल प्रदर्शन सुधार पथ

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने की कमी कि विशेषज्ञ विविधता प्रदर्शन को क्यों बढ़ाती है
  2. हाइपरपैरामीटर संवेदनशीलता: तापमान पैरामीटर को बड़े पैमाने पर ट्यूनिंग की आवश्यकता है, उपयोग लागत बढ़ाता है
  3. सीमित सुधार: मजबूत आधारभूत पर सुधार परिमाण अपेक्षाकृत छोटा है
  4. आर्किटेक्चर निर्भरता: केवल MoE मॉडल पर लागू होता है, प्रयोज्यता को सीमित करता है

प्रभाव

शैक्षणिक मूल्य:

  • नया अनुमान प्रतिमान प्रस्तावित करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
  • MoE मॉडल के कुशल उपयोग के लिए नई सोच प्रदान करता है

व्यावहारिक मूल्य:

  • पुनः प्रशिक्षण के बिना मौजूदा MoE मॉडल प्रदर्शन को बढ़ाता है
  • गणना-सीमित वातावरण में प्रदर्शन-दक्षता व्यापार-बंद के लिए नया विकल्प प्रदान करता है

पुनरुत्पादनीयता:

  • विधि विवरण स्पष्ट है, कार्यान्वयन विवरण पर्याप्त है
  • खुले-स्रोत मॉडल पर आधारित, पुनरुत्पादन सत्यापन में आसान

प्रयोज्य परिदृश्य

  1. गणना-सीमित वातावरण: बड़े मॉडल तैनात करने की तुलना में, RoE अधिक किफायती प्रदर्शन सुधार प्रदान करता है
  2. खुली पीढ़ी: समानांतर स्केलिंग विधियों की तुलना में, RoE मानक उत्तर के बिना कार्यों के लिए उपयुक्त है
  3. वास्तविक समय अनुप्रयोग: नमूना संख्या को समायोजित करके प्रदर्शन-विलंबता व्यापार-बंद को लचीले ढंग से नियंत्रित करना
  4. MoE मॉडल अनुकूलन: मौजूदा MoE तैनाती के लिए प्लग-एंड-प्ले वृद्धि समाधान प्रदान करता है

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

  • Wei et al. (2022): Chain-of-Thought तर्क
  • Wang et al. (2022): Self-Consistency विधि
  • Shazeer et al. (2017): MoE आर्किटेक्चर आधार
  • Kaplan et al. (2020): तंत्रिका भाषा मॉडल स्केलिंग कानून

समग्र मूल्यांकन: यह तकनीकी नवाचार और इंजीनियरिंग कार्यान्वयन दोनों को जोड़ने वाला एक उत्कृष्ट पेपर है। हालांकि सैद्धांतिक गहराई और सुधार परिमाण के संदर्भ में कुछ सीमाएं हैं, लेकिन इसके द्वारा प्रस्तावित हाइपर-पैरेलल स्केलिंग अवधारणा महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखती है, अनुमान-समय अनुकूलन क्षेत्र में नई सोच और प्रभावी विधियों में योगदान देती है।