2025-11-20T00:19:14.561040

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

মৌলিক তথ্য

  • পেপার আইডি: 2509.17238
  • শিরোনাম: MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
  • লেখক: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho (Apple & UCSD)
  • শ্রেণীবিভাগ: cs.AI, cs.CL, cs.LG
  • প্রকাশনা অবস্থা: প্রি-প্রিন্ট। পর্যালোচনাধীন
  • পেপার লিঙ্ক: https://arxiv.org/abs/2509.17238v2

সারসংক্ষেপ

এই পেপারটি হাইপার-প্যারালাল স্কেলিং (hyper-parallel scaling) নামক একটি নতুন অনুমান প্রদান প্যারাডাইম প্রস্তাব করে, যা টোকেন স্তরে একাধিক আউটপুট প্রস্তাব গণনা এবং সমন্বয় করে পূর্বাভাসের গুণমান উন্নত করে। নির্দিষ্ট বাস্তবায়ন হল বিশেষজ্ঞ নামকরণ (Roster of Experts, RoE) পদ্ধতি, যা একটি প্রশিক্ষণ-মুক্ত অনুমান অ্যালগরিদম যা একটি একক MoE মডেলকে একটি গতিশীল MoE সমষ্টিতে রূপান্তরিত করে। RoE বিশেষজ্ঞ রুটিং মেকানিজমে নিয়ন্ত্রিত র্যান্ডমনেস প্রবেশ করিয়ে, প্রতিটি টোকেনের জন্য একাধিক ভিন্ন বিশেষজ্ঞ নমুনা করে এবং আরও সঠিক চূড়ান্ত পূর্বাভাসের জন্য তাদের আউটপুট সমন্বয় করে। দক্ষ ব্যাচ প্রসেসিং কৌশল এবং বিশেষায়িত KV ক্যাশ মেকানিজমের মাধ্যমে, RoE 7B MoE মডেলকে 10.5B MoE মডেলের কর্মক্ষমতা অর্জন করতে সক্ষম করে, যখন অনুমান গণনা 30% হ্রাস পায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ঐতিহ্যবাহী অনুমান-সময় স্কেলিং পদ্ধতি প্রধানত দুটি বিভাগে বিভক্ত:

  1. ক্রমিক স্কেলিং (Sequential Scaling): যেমন চিন্তার শৃঙ্খল (Chain-of-Thought), দীর্ঘতর, আরও কাঠামোগত আউটপুট তৈরি করে কর্মক্ষমতা উন্নত করে
  2. সমান্তরাল স্কেলিং (Parallel Scaling): যেমন স্ব-সামঞ্জস্য (Self-Consistency), একাধিক স্বাধীন ক্রম তৈরি করে এবং ফলাফল সমন্বয় করে

গবেষণা প্রেরণা

বিদ্যমান পদ্ধতিগুলির নিম্নলিখিত সীমাবদ্ধতা রয়েছে:

  • ক্রমিক স্কেলিং অতিরিক্ত প্রজন্ম পদক্ষেপের প্রয়োজন, বিলম্ব বৃদ্ধি করে
  • সমান্তরাল স্কেলিং সীমিত প্রয়োগযোগ্যতা, প্রধানত স্পষ্ট উত্তর সহ কাজের জন্য
  • টোকেন স্তরে মডেলের অন্তর্নিহিত পূর্বাভাস ক্ষমতা উন্নত করার পদ্ধতির অভাব

মূল অন্তর্দৃষ্টি

লেখক একটি মূল প্রশ্ন উত্থাপন করেন: অনুমান সময়ে আরও বেশি গণনা বরাদ্দ করে মডেলের অন্তর্নিহিত পরবর্তী-টোকেন পূর্বাভাস ক্ষমতা উন্নত করা যায় কি? এটি হাইপার-প্যারালাল স্কেলিং ধারণার জন্ম দেয়, অর্থাৎ প্রতিটি টোকেনের প্রজন্মের গুণমান উন্নত করতে মডেল-অভ্যন্তরীণ গণনা পথ বৈচিত্র্যময় করা।

মূল অবদান

  1. হাইপার-প্যারালাল স্কেলিং প্যারাডাইম প্রস্তাব: টোকেন স্তরে পূর্বাভাসের গুণমান উন্নত করার জন্য একটি নতুন অনুমান কাঠামো, বিদ্যমান ক্রম-স্তরের পদ্ধতির সাথে অর্থোগোনাল এবং পরিপূরক
  2. RoE অ্যালগরিদম ডিজাইন: প্রশিক্ষণ-মুক্ত MoE মডেল বর্ধন পদ্ধতি, নিয়ন্ত্রিত র্যান্ডম রুটিংয়ের মাধ্যমে গতিশীল বিশেষজ্ঞ সমষ্টি বাস্তবায়ন
  3. দক্ষ অনুমান কৌশল উন্নয়ন: ব্যাচ প্রসেসিং অপ্টিমাইজেশন এবং Clean Cache মেকানিজম সহ, গণনা এবং মেমরি ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে
  4. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি যাচাই: একাধিক বেঞ্চমার্ক জুড়ে RoE এর কার্যকারিতা প্রমাণ করে, আরও দক্ষ কর্মক্ষমতা-গণনা ট্রেড-অফ অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রশিক্ষিত MoE মডেল দেওয়া, RoE মডেল পরামিতি পরিবর্তন বা অতিরিক্ত প্রশিক্ষণ ছাড়াই বিশেষজ্ঞ নির্বাচন বৈচিত্র্যময় করে প্রতিটি টোকেনের পূর্বাভাসের গুণমান উন্নত করার লক্ষ্য রাখে।

মূল অ্যালগরিদম: Gumbel-Top-K রুটিং

মান MoE রুটিং: রুটিং লজিটের সর্বোচ্চ k বিশেষজ্ঞ নির্ধারণীয়ভাবে নির্বাচন করে RoE রুটিং: Gumbel শব্দের মাধ্যমে নিয়ন্ত্রিত র্যান্ডমনেস প্রবর্তন করে:

Indices = TopK(R + τ·G, k)

যেখানে:

  • R ∈ R^E হল E বিশেষজ্ঞের রুটিং লজিট
  • G হল Gumbel(0,1) বিতরণের i.i.d. নমুনা
  • τ হল তাপমাত্রা প্যারামিটার, র্যান্ডমনেস মাত্রা নিয়ন্ত্রণ করে

মডেল আর্কিটেকচার

RoE এর কর্মপ্রবাহ নিম্নরূপ:

  1. বহু-পথ প্রজন্ম: একক ইনপুট টোকেনের জন্য, বিভিন্ন র্যান্ডম বীজের মাধ্যমে n টি ভিন্ন বিশেষজ্ঞ নির্বাচন পথ তৈরি করে
  2. সমান্তরাল গণনা: n টি পথকে ব্যাচ হিসাবে সমান্তরালভাবে প্রক্রিয়া করে
  3. ফলাফল সমন্বয়: চূড়ান্ত পূর্বাভাস পেতে n টি আউটপুট লজিট সম্ভাব্যতা গড়ের মাধ্যমে সমন্বয় করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. তাপমাত্রা প্যারামিটার অপ্টিমাইজেশন

  • স্তর-নির্দিষ্ট তাপমাত্রা: τ = {τᵢ}ᵢ∈L_MoE, প্রতিটি স্তর স্বাধীনভাবে সেট করা
  • অনুসন্ধান কৌশল: বেয়েসিয়ান অপ্টিমাইজেশনের জন্য Tree-structured Parzen Estimator (TPE) ব্যবহার করে
  • অনুসন্ধান স্থান ছাঁটাই:
    • শুধুমাত্র মধ্য স্তরে RoE প্রয়োগ করে (প্রথম এবং শেষ স্তর τ=0 সেট করে)
    • তাপমাত্রা পরিসীমা 0, 0.5 এ সীমাবদ্ধ

2. Clean Cache মেকানিজম

সমস্যা: নিষ্পাপ বাস্তবায়ন n টি স্বাধীন KV ক্যাশ বজায় রাখার প্রয়োজন, বিশাল মেমরি ওভারহেড সমাধান:

  • প্রথম নমুনা (ব্যাচ ইন্ডেক্স 0) নির্ধারণীয় রুটিং (τ=0) ব্যবহার করে "পরিষ্কার" পথ হিসাবে
  • সমস্ত নমুনা পরিষ্কার পথের KV ক্যাশ শেয়ার করে
  • শুধুমাত্র বর্তমান টোকেন র্যান্ডম রুটিং প্রয়োগ করে, ইতিহাস সামঞ্জস্যপূর্ণ থাকে

3. ব্যাচ প্রসেসিং অপ্টিমাইজেশন

আধুনিক GPU এর সমান্তরাল প্রসেসিং ক্ষমতা ব্যবহার করে, n টি নমুনা একটি একক ব্যাচ হিসাবে প্রক্রিয়া করে, wall-clock সময় উল্লেখযোগ্যভাবে হ্রাস করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

পরীক্ষা তিনটি ডোমেন জুড়ে বিস্তৃত:

  • গণিত যুক্তি: GSM8K, SVAMP, AddSub, SingleEQ, MultiArith
  • সাধারণ জ্ঞান যুক্তি: ARC-Easy, ARC-Challenge, OpenBookQA, SocialIQA, Hellaswag
  • কোড প্রজন্ম: HumanEval, HumanEvalPlus

মডেল

  • OLMoE-1B-7B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • GPT-OSS-20B

মূল্যায়ন মেট্রিক্স

  • গণিত এবং সাধারণ জ্ঞান কাজ: সঠিক ম্যাচ নির্ভুলতা
  • কোড কাজ: pass@1 নির্ভুলতা
  • দক্ষতা মূল্যায়ন: বিলম্ব, মেমরি ব্যবহার, শক্তি খরচ

বাস্তবায়ন বিবরণ

  • হার্ডওয়্যার: NVIDIA A100 80GB GPU
  • ডিকোডিং কৌশল: লোভী ডিকোডিং (অন্যান্য কৌশল হস্তক্ষেপ বাদ দিতে)
  • সমন্বয় পদ্ধতি: সম্ভাব্যতা গড়
  • পরিসংখ্যান: 5 টি র্যান্ডম বীজ গড়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কর্মক্ষমতা উন্নতি সর্বজনীন এবং উল্লেখযোগ্য:

  • OLMoE মডেল সর্বাধিক উন্নতি অর্জন করে, প্রায় সমস্ত কাজে উন্নতি
  • Mixtral এবং GPT-OSS বেশিরভাগ কাজে উন্নতি অর্জন করে
  • কোড প্রজন্মের মতো খোলা-সমাপ্ত কাজও উপকৃত হয়

নির্দিষ্ট সংখ্যার উদাহরণ (OLMoE-1B-7B):

  • GSM8K: 64.1% → 64.5%
  • SVAMP: 68.2% → 69.5%
  • ARC-Easy: 68.9% → 71.3%
  • HumanEval: 31.1% → 31.5%

দক্ষতা বিশ্লেষণ

গণনা ওভারহেড নিয়ন্ত্রণযোগ্য:

  • 64 টি নমুনায় মেমরি বৃদ্ধি মাত্র 12%
  • শক্তি খরচ বৃদ্ধি 20%
  • Clean Cache মেকানিজম সূচকীয় মেমরি বৃদ্ধি এড়ায়

মডেল স্কেলিংয়ের সাথে তুলনা:

  • RoE(K=32) + OLMoE-7B ≈ OLMoE-10.5B কর্মক্ষমতা
  • মেমরি 25% হ্রাস, বিলম্ব 30% হ্রাস

বিলোপন পরীক্ষা

তাপমাত্রা প্যারামিটার প্রভাব:

  • কর্মক্ষমতা তাপমাত্রার সাথে অবতল ফাংশন সম্পর্ক
  • সর্বোত্তম তাপমাত্রা কাজ অনুযায়ী পরিবর্তিত হয়
  • অত্যধিক তাপমাত্রা অত্যধিক শব্দ প্রবর্তন করে, কর্মক্ষমতা ক্ষতি করে

ক্যাশ মেকানিজম প্রয়োজনীয়তা:

  • ক্যাশ ছাড়া বিলম্ব সূচকীয়ভাবে বৃদ্ধি পায়
  • Clean Cache RoE কে ব্যবহারিক করে তোলে

সম্পর্কিত কাজ

অনুমান-সময় স্কেলিং পদ্ধতি শ্রেণীবিভাগ

  1. ক্রমিক স্কেলিং: CoT, Tree-of-Thoughts ইত্যাদি, দীর্ঘতর যুক্তি শৃঙ্খলের মাধ্যমে কর্মক্ষমতা উন্নত করে
  2. সমান্তরাল স্কেলিং: Self-Consistency, বহু-পথ প্রজন্ম+ভোটিং সমন্বয়
  3. হাইপার-প্যারালাল স্কেলিং: এই পেপার দ্বারা প্রস্তাবিত নতুন প্যারাডাইম, টোকেন স্তরে গণনা বৈচিত্র্যময় করে

বিদ্যমান কাজের সাথে পার্থক্য

  • প্রশিক্ষণ-মুক্ত: বিশেষ প্রাক-প্রশিক্ষণ প্রয়োজন এমন পরিবর্তনশীল গভীরতা আর্কিটেকচারের তুলনায় (Geiping et al., 2025)
  • MoE বিশেষায়িত: বিশেষজ্ঞ বৈচিত্র্য ব্যবহারের জন্য MoE আর্কিটেকচারে বিশেষভাবে লক্ষ্যবস্তু
  • টোকেন-স্তর বর্ধন: ক্রম-স্তরের বিদ্যমান পদ্ধতির থেকে ভিন্ন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. হাইপার-প্যারালাল স্কেলিং অনুমান-সময় কর্মক্ষমতা উন্নতির জন্য একটি নতুন কার্যকর পথ প্রদান করে
  2. RoE সফলভাবে MoE মডেলের প্রশিক্ষণ-মুক্ত কর্মক্ষমতা বর্ধন বাস্তবায়ন করে
  3. চতুর প্রকৌশল অপ্টিমাইজেশনের মাধ্যমে, পদ্ধতি ব্যবহারিক হয়ে ওঠে
  4. দক্ষতার ক্ষেত্রে সাধারণ মডেল স্কেলিংয়ের চেয়ে উন্নত

সীমাবদ্ধতা

  1. অপ্টিমাইজেশন খরচ: প্রতিটি কাজের জন্য তাপমাত্রা প্যারামিটার সামঞ্জস্য প্রয়োজন
  2. উন্নতি মাত্রা: ইতিমধ্যে সংতৃপ্তির কাছাকাছি শক্তিশালী মডেলের জন্য, উন্নতির স্থান সীমিত
  3. মূল্যায়ন মেট্রিক্স: বিভ্রান্তি এবং প্রজন্ম নির্ভুলতার মধ্যে বিচ্ছিন্নতা, গণিত কাজের অপ্টিমাইজেশন প্রভাবিত করে
  4. প্রয়োগযোগ্যতা পরিসীমা: বর্তমানে শুধুমাত্র MoE আর্কিটেকচারে প্রযোজ্য

ভবিষ্যত দিকনির্দেশনা

লেখক চারটি গবেষণা দিক প্রস্তাব করেন:

  1. সাধারণীকরণ প্রয়োগ: দৃষ্টি, অডিও ইত্যাদি অ-MoE মডেলে সম্প্রসারণ
  2. উন্নত শব্দ প্রবর্তন: স্ব-অভিযোজিত বা ইনপুট-শর্তসাপেক্ষ শব্দ কৌশল
  3. স্ব-অভিযোজিত গণনা: টোকেন কঠিনতার উপর ভিত্তি করে গণনা বাজেট গতিশীলভাবে সামঞ্জস্য করে
  4. RoE-সচেতন প্রশিক্ষণ: প্রাক-প্রশিক্ষণে র্যান্ডম রুটিং একীভূত করে

গভীর মূল্যায়ন

সুবিধা

  1. ধারণা উদ্ভাবন: হাইপার-প্যারালাল স্কেলিং ধারণা উদ্ভাবনী, অনুমান-সময় অপ্টিমাইজেশনের জন্য নতুন দিগন্ত খোলে
  2. প্রকৌশল অপ্টিমাইজেশন: Clean Cache ইত্যাদি প্রযুক্তি পদ্ধতিকে তত্ত্ব থেকে ব্যবহারিকে নিয়ে যায়
  3. ব্যাপক পরীক্ষা: বহু-মডেল, বহু-কাজ, বহু-মাত্রা মূল্যায়ন, ফলাফল বিশ্বাসযোগ্য
  4. দক্ষতা সুবিধা: মডেল স্কেলিংয়ের তুলনায় আরও দক্ষ কর্মক্ষমতা উন্নতি পথ

অপূর্ণতা

  1. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: বিশেষজ্ঞ বৈচিত্র্য কেন কর্মক্ষমতা উন্নত করে তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব
  2. হাইপারপ্যারামিটার সংবেদনশীলতা: তাপমাত্রা প্যারামিটার ব্যাপক সামঞ্জস্যের প্রয়োজন, ব্যবহার খরচ বৃদ্ধি করে
  3. সীমিত উন্নতি: শক্তিশালী বেসলাইনে উন্নতির মাত্রা তুলনামূলকভাবে ছোট
  4. আর্কিটেকচার নির্ভরতা: শুধুমাত্র MoE মডেলে প্রযোজ্য, প্রয়োগযোগ্যতা সীমিত করে

প্রভাব

একাডেমিক মূল্য:

  • নতুন অনুমান প্যারাডাইম প্রস্তাব করে, আরও সম্পর্কিত গবেষণা অনুপ্রাণিত করতে পারে
  • MoE মডেলের দক্ষ ব্যবহারের জন্য নতুন চিন্তাভাবনা প্রদান করে

ব্যবহারিক মূল্য:

  • পুনঃপ্রশিক্ষণ ছাড়াই বিদ্যমান MoE মডেলের কর্মক্ষমতা উন্নত করে
  • গণনা-সীমিত পরিবেশে কর্মক্ষমতা-দক্ষতা ট্রেড-অফের নতুন পছন্দ প্রদান করে

পুনরুৎপাদনযোগ্যতা:

  • পদ্ধতি বর্ণনা স্পষ্ট, বাস্তবায়ন বিবরণ পর্যাপ্ত
  • খোলা-উৎস মডেলের উপর ভিত্তি করে, পুনরুৎপাদন যাচাই সহজ

প্রযোজ্য দৃশ্যকল্প

  1. গণনা-সীমিত পরিবেশ: বৃহত্তর মডেল স্থাপনের তুলনায়, RoE আরও অর্থনৈতিক কর্মক্ষমতা উন্নতি প্রদান করে
  2. খোলা-সমাপ্ত প্রজন্ম: সমান্তরাল স্কেলিং পদ্ধতির তুলনায়, RoE কোনো মান উত্তর ছাড়া কাজের জন্য প্রযোজ্য
  3. রিয়েল-টাইম প্রয়োগ: নমুনা সংখ্যা সামঞ্জস্য করে কর্মক্ষমতা-বিলম্ব ট্রেড-অফ নমনীয়ভাবে নিয়ন্ত্রণ করে
  4. MoE মডেল অপ্টিমাইজেশন: বিদ্যমান MoE স্থাপনার জন্য প্লাগ-এন্ড-প্লে বর্ধন সমাধান প্রদান করে

রেফারেন্স

পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Wei et al. (2022): চিন্তার শৃঙ্খল যুক্তি
  • Wang et al. (2022): স্ব-সামঞ্জস্য পদ্ধতি
  • Shazeer et al. (2017): MoE আর্কিটেকচার ভিত্তি
  • Kaplan et al. (2020): স্নায়ু ভাষা মডেল স্কেলিং আইন

সামগ্রিক মূল্যায়ন: এটি প্রযুক্তিগত উদ্ভাবন এবং প্রকৌশল বাস্তবায়নের সমন্বয়ে একটি চমৎকার পেপার। যদিও তাত্ত্বিক গভীরতা এবং উন্নতির মাত্রায় নির্দিষ্ট সীমাবদ্ধতা রয়েছে, তবে এর প্রস্তাবিত হাইপার-প্যারালাল স্কেলিং ধারণা উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রাখে, অনুমান-সময় অপ্টিমাইজেশন ক্ষেত্রে নতুন চিন্তাভাবনা এবং কার্যকর পদ্ধতি অবদান রাখে।