MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Zibakhsh, Samragh, Nishu et al.
The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.
academic
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
এই পেপারটি হাইপার-প্যারালাল স্কেলিং (hyper-parallel scaling) নামক একটি নতুন অনুমান প্রদান প্যারাডাইম প্রস্তাব করে, যা টোকেন স্তরে একাধিক আউটপুট প্রস্তাব গণনা এবং সমন্বয় করে পূর্বাভাসের গুণমান উন্নত করে। নির্দিষ্ট বাস্তবায়ন হল বিশেষজ্ঞ নামকরণ (Roster of Experts, RoE) পদ্ধতি, যা একটি প্রশিক্ষণ-মুক্ত অনুমান অ্যালগরিদম যা একটি একক MoE মডেলকে একটি গতিশীল MoE সমষ্টিতে রূপান্তরিত করে। RoE বিশেষজ্ঞ রুটিং মেকানিজমে নিয়ন্ত্রিত র্যান্ডমনেস প্রবেশ করিয়ে, প্রতিটি টোকেনের জন্য একাধিক ভিন্ন বিশেষজ্ঞ নমুনা করে এবং আরও সঠিক চূড়ান্ত পূর্বাভাসের জন্য তাদের আউটপুট সমন্বয় করে। দক্ষ ব্যাচ প্রসেসিং কৌশল এবং বিশেষায়িত KV ক্যাশ মেকানিজমের মাধ্যমে, RoE 7B MoE মডেলকে 10.5B MoE মডেলের কর্মক্ষমতা অর্জন করতে সক্ষম করে, যখন অনুমান গণনা 30% হ্রাস পায়।
লেখক একটি মূল প্রশ্ন উত্থাপন করেন: অনুমান সময়ে আরও বেশি গণনা বরাদ্দ করে মডেলের অন্তর্নিহিত পরবর্তী-টোকেন পূর্বাভাস ক্ষমতা উন্নত করা যায় কি? এটি হাইপার-প্যারালাল স্কেলিং ধারণার জন্ম দেয়, অর্থাৎ প্রতিটি টোকেনের প্রজন্মের গুণমান উন্নত করতে মডেল-অভ্যন্তরীণ গণনা পথ বৈচিত্র্যময় করা।
হাইপার-প্যারালাল স্কেলিং প্যারাডাইম প্রস্তাব: টোকেন স্তরে পূর্বাভাসের গুণমান উন্নত করার জন্য একটি নতুন অনুমান কাঠামো, বিদ্যমান ক্রম-স্তরের পদ্ধতির সাথে অর্থোগোনাল এবং পরিপূরক
প্রশিক্ষিত MoE মডেল দেওয়া, RoE মডেল পরামিতি পরিবর্তন বা অতিরিক্ত প্রশিক্ষণ ছাড়াই বিশেষজ্ঞ নির্বাচন বৈচিত্র্যময় করে প্রতিটি টোকেনের পূর্বাভাসের গুণমান উন্নত করার লক্ষ্য রাখে।
পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
Wei et al. (2022): চিন্তার শৃঙ্খল যুক্তি
Wang et al. (2022): স্ব-সামঞ্জস্য পদ্ধতি
Shazeer et al. (2017): MoE আর্কিটেকচার ভিত্তি
Kaplan et al. (2020): স্নায়ু ভাষা মডেল স্কেলিং আইন
সামগ্রিক মূল্যায়ন: এটি প্রযুক্তিগত উদ্ভাবন এবং প্রকৌশল বাস্তবায়নের সমন্বয়ে একটি চমৎকার পেপার। যদিও তাত্ত্বিক গভীরতা এবং উন্নতির মাত্রায় নির্দিষ্ট সীমাবদ্ধতা রয়েছে, তবে এর প্রস্তাবিত হাইপার-প্যারালাল স্কেলিং ধারণা উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রাখে, অনুমান-সময় অপ্টিমাইজেশন ক্ষেত্রে নতুন চিন্তাভাবনা এবং কার্যকর পদ্ধতি অবদান রাখে।