2025-11-11T20:37:15.929319

DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models

Zhang, Ullah, Schultheis et al.

Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.

academic

DynaSpec: বড় শব্দভাণ্ডার সহ ভাষা মডেলগুলির জন্য প্রসঙ্গ-সচেতন গতিশীল অনুমানমূলক নমুনা

মৌলিক তথ্য

পেপার আইডি: 2510.13847
শিরোনাম: DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
লেখক: Jinbin Zhang (Aalto University), Nasib Ullah (Aalto University), Erik Schultheis (IST Austria), Rohit Babbar (University of Bath)
শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
প্রকাশনার সময়: ১৭ অক্টোবর, ২০২৫ (প্রাক-প্রকাশনা)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13847

সারসংক্ষেপ

অনুমানমূলক ডিকোডিং (Speculative decoding) বড় ভাষা মডেলের অনুমান ত্বরান্বিত করার জন্য একটি মান পদ্ধতি হয়ে উঠেছে: ছোট খসড়া মডেল একাধিক টোকেন প্রস্তাব করে, বড় লক্ষ্য মডেল অনুমানমূলক দৈর্ঘ্যে একবারে যাচাই করে। LLM শব্দভাণ্ডারের আকার বৃদ্ধির সাথে সাথে, টোকেনের সংখ্যা উল্লেখযোগ্যভাবে বৃদ্ধি পায়। সম্পূর্ণ শব্দভাণ্ডারে যাচাইকরণ লক্ষ্য মডেলে সামান্য প্রভাব ফেলে, কিন্তু খসড়া মডেল আউটপুট হেডের O(|V|d) পরামিতি বিলম্বের বোতলনেক হয়ে ওঠে, যা সম্পূর্ণ পাইপলাইনকে ধীর করে দেয়। বিদ্যমান পদ্ধতি (যেমন FR-Spec, VocabTrim) খসড়া মডেল শব্দভাণ্ডারকে লক্ষ্য মডেল শব্দভাণ্ডারের একটি নির্দিষ্ট উপসেটে সীমাবদ্ধ করে, টোকেন ফ্রিকোয়েন্সি অনুযায়ী অবরোহী ক্রমে সাজানো। যদিও এটি খসড়া সময়ের গণনা হ্রাস করে, তবে এটি ভঙ্গুর: (i) ফ্রিকোয়েন্সি তালিকা কর্পাসের উপর নির্ভরশীল এবং সাধারণীকরণের জন্য পুনরায় সুর করা প্রয়োজন; (ii) স্ট্যাটিক শর্ট লিস্ট বিরল বা ডোমেইন-নির্দিষ্ট টোকেন দমন করে, প্রতিটি যাচাইকরণ ধাপে প্রত্যাশিত টোকেন সংখ্যা হ্রাস করে। এই পেপারটি DynaSpec প্রস্তাব করে, একটি প্রসঙ্গ-সচেতন গতিশীল শর্ট লিস্ট মেকানিজম যা শক্তিশালী, খসড়া ত্বরান্বিত করে এবং বৈচিত্র্যময় কাজে ভালভাবে সাধারণীকরণ করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বড় ভাষা মডেলের বিকাশের সাথে সাথে, শব্দভাণ্ডারের আকার দ্রুত বৃদ্ধি পাচ্ছে: Llama-2 এর 32k টোকেন থেকে Llama-3 এর 128k, DeepSeek-V3 এর 129k, Qwen-2.5 এর 152k, এমনকি Gemma-3 এর 262k টোকেনে। অনুমানমূলক ডিকোডিংয়ে, যদিও বড় লক্ষ্য মডেল সম্পূর্ণ শব্দভাণ্ডারের গণনামূলক বোঝা সহ্য করতে পারে, ছোট খসড়া মডেলের আউটপুট স্তরের O(|V|d) পরামিতি একটি গুরুতর বিলম্বের বোতলনেক হয়ে ওঠে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

FR-Spec এবং VocabTrim: স্থির উচ্চ-ফ্রিকোয়েন্সি টোকেন উপসেট ব্যবহার করে, নিম্নলিখিত সমস্যা রয়েছে:
- ফ্রিকোয়েন্সি তালিকা নির্দিষ্ট কর্পাসের উপর নির্ভরশীল, বেঞ্চমার্ক জুড়ে দুর্বল সাধারণীকরণ
- স্ট্যাটিক উপসেট বিরল বা ডোমেইন-নির্দিষ্ট টোকেন দমন করতে পারে, গ্রহণযোগ্যতার হার হ্রাস করে
প্রসঙ্গ-সচেতনতার অভাব: বিদ্যমান পদ্ধতি বর্তমান প্রসঙ্গের উপর ভিত্তি করে টোকেন প্রার্থী সেট গতিশীলভাবে সামঞ্জস্য করতে পারে না

গবেষণার প্রেরণা

চরম শ্রেণীবিভাগে (extreme classification) মোটা থেকে সূক্ষ্ম রুটিং ধারণার উপর ভিত্তি করে, এই পেপারটি প্রসঙ্গ-সচেতন গতিশীল শব্দভাণ্ডার নির্বাচন মেকানিজম প্রস্তাব করে যা যাচাইকরণ নির্ভুলতা বজায় রেখে খসড়া দক্ষতা উন্নত করে।

মূল অবদান

DynaSpec ফ্রেমওয়ার্ক প্রস্তাব: হালকা-ওজনের মোটা-দানাদার মেটা-শ্রেণীবিভাগকারী প্রবর্তন করে যা প্রসঙ্গকে কয়েকটি টোকেন ক্লাস্টারে রুট করে, খসড়া মডেল শুধুমাত্র নির্বাচিত ক্লাস্টারের ইউনিয়নে কাজ করে
তাত্ত্বিক বিশ্লেষণ: প্রমাণ করে যে গতিশীল প্রসঙ্গ শর্ত প্রত্যাশিত গ্রহণযোগ্যতার হারে যেকোনো স্ট্যাটিক উপসেটের চেয়ে কঠোরভাবে উন্নত
অবস্থান-সচেতন সময়সূচী: অবস্থান-সচেতন ক্লাস্টার বাজেট কৌশল প্রস্তাব করে, প্রাথমিক টোকেনকে আরও ক্লাস্টার বরাদ্দ করে, পরবর্তীতে ধীরে ধীরে হ্রাস করে, গ্রহণযোগ্যতার হার এবং বিলম্য়ের ভারসাম্য রাখে
সিস্টেম অপ্টিমাইজেশন: ফিউজড ইন্ডেক্স + GEMM কার্নেল এবং সমান্তরাল সম্পাদনের মাধ্যমে, গতিশীল হেডের matmul ওভারহেড হ্রাস করে
পরীক্ষামূলক যাচাইকরণ: 7টি মান কাজে যাচাই করে, স্থির শর্ট লিস্ট বেসলাইনের তুলনায় গড় গ্রহণযোগ্যতার দৈর্ঘ্যে সামঞ্জস্যপূর্ণ উন্নতি অর্জন করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

অনুমানমূলক ডিকোডিং ফ্রেমওয়ার্কের অধীনে, লক্ষ্য মডেল T এবং খসড়া মডেল D দেওয়া, লক্ষ্য হল:

খসড়া মডেলের প্রতি-টোকেন বিলম্ব TD হ্রাস করা
উচ্চ গ্রহণযোগ্যতার হার α বজায় রাখা
যাচাইকরণ প্রক্রিয়ার নির্ভুলতা নিশ্চিত করা (সম্পূর্ণ শব্দভাণ্ডার)

মডেল আর্কিটেকচার

1. শব্দভাণ্ডার বিভাজন

স্তম্ভ-স্বাভাবিক LM হেড ওজনে গোলাকার k-means ব্যবহার করে ক্লাস্টারিং:

{WLM[:, v]/||WLM[:, v]||₂}v∈V → {C₁, ..., CM}

শব্দভাণ্ডার V কে M টি মোটা-দানাদার টোকেন ক্লাস্টারে বিভক্ত করে।

2. হালকা-ওজনের রাউটার

মেটা-শ্রেণীবিভাগকারী rθ: Rᵈʳ → RM, টোকেন এম্বেডিং এবং পূর্ববর্তী ধাপের লুকানো অবস্থা ইনপুট হিসাবে:

s = rθ([E(xt), H̃t-1])

স্বাধীন CUDA স্ট্রিমে সমান্তরালভাবে সম্পাদিত, প্রতিটি ক্লাস্টারের স্কোর গণনা করে।

3. অবস্থান-সচেতন ক্লাস্টার নির্বাচন

অবস্থান-সচেতন বাজেট kc(t) গ্রহণ করে:

kc(t) = {
  kmax,                    t ∈ {0,1}
  ⌊kmax/((t+1)·2)⌋,      t ≥ 2
}

শর্ট লিস্ট তৈরি করতে শীর্ষ-k ক্লাস্টার নির্বাচন করে: VS(c,t) = ⋃m∈K(c,t) Cm

4. গতিশীল খসড়া

খসড়া সময় বিয়োজন করা হয়:

TD(c,t) ≈ Tembed + max{Tcore, Tmeta} + Tindex+gemm(B(c,t))

যেখানে B(c,t) ≪ |V|, শব্দভাণ্ডার-সম্পর্কিত গণনা উল্লেখযোগ্যভাবে হ্রাস করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

প্রসঙ্গ-সচেতন গতিশীল নির্বাচন: স্ট্যাটিক পদ্ধতির তুলনায়, বর্তমান প্রসঙ্গের উপর ভিত্তি করে সবচেয়ে প্রাসঙ্গিক টোকেন ক্লাস্টার নির্বাচন করতে পারে
মোটা থেকে সূক্ষ্ম রুটিং: চরম শ্রেণীবিভাগ থেকে অনুপ্রাণিত, O(|V|d) জটিলতা O((M + |VS|)d) দিয়ে প্রতিস্থাপন করে
অবস্থান-সচেতন কৌশল: প্রাথমিক পদক্ষেপ অগ্রাধিকার কৌশল, গ্রহণযোগ্যতার হার এবং গণনামূলক দক্ষতার ভারসাম্য রাখে
সমান্তরাল সম্পাদন: রাউটার এবং খসড়া এনকোডিং বিভিন্ন CUDA স্ট্রিমে সমান্তরালভাবে, wall-clock ওভারহেড হ্রাস করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

7টি বৈচিত্র্যময় কাজ ব্যবহার করে:

Spec-Bench: 6টি কাজ যার মধ্যে রয়েছে মেশিন অনুবাদ (WMT14 DE-EN), বহু-পালা কথোপকথন (MT-Bench), পুনরুদ্ধার প্রশ্নোত্তর (Natural Questions), গাণিতিক যুক্তি (GSM8K), সারসংক্ষেপ (CNN/DailyMail), RAG
কোড প্রজন্ম: HumanEval (164টি সমস্যা)
প্রতিটি কাজে 80টি প্রম্পট, 1024 টোকেন পর্যন্ত প্রজন্ম সীমাবদ্ধতা

মূল্যায়ন মেট্রিক্স

গড় গ্রহণযোগ্যতার দৈর্ঘ্য (Mean Acceptance Length): প্রতিটি খসড়া-যাচাইকরণ চক্রে গড়ে জমা দেওয়া টোকেনের সংখ্যা
গড় শব্দভাণ্ডারের আকার: গতিশীল শর্ট লিস্টের গড় আকার

তুলনামূলক পদ্ধতি

সম্পূর্ণ শব্দভাণ্ডার (EAGLE-2): সম্পূর্ণ 128k শব্দভাণ্ডার বেসলাইন
FR-Spec: ফ্রিকোয়েন্সি সাজানোর উপর ভিত্তি করে 32k স্থির উপসেট পদ্ধতি
DynaSpec ভেরিয়েন্ট: স্থির top-k বনাম অবস্থান-সচেতন top-k

বাস্তবায়ন বিবরণ

মডেল: Llama-3-8B-Instruct (128k শব্দভাণ্ডার)
হার্ডওয়্যার: একক NVIDIA A6000 GPU
ক্লাস্টার সংখ্যা M সেটিং এবং রাউটার প্রশিক্ষণ ShareGPT এবং UltraChat200K উপসেট ব্যবহার করে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পদ্ধতি	MT	Conv.	RAG	Math	QA	Summ.	Code	গড়
সম্পূর্ণ শব্দভাণ্ডার	3.66	4.11	4.03	4.31	3.45	3.68	4.77	4.00
FR-Spec	3.38	3.87	3.85	4.16	3.32	3.51	4.11	3.74
DynaSpec	3.51	4.05	3.91	4.21	3.40	3.51	4.71	3.90

মূল আবিষ্কার:

DynaSpec গড় গ্রহণযোগ্যতার দৈর্ঘ্যে FR-Spec এর চেয়ে উন্নত, একই সাথে ছোট গড় শর্ট লিস্ট ব্যবহার করে (27.3k বনাম 32k)
সম্পূর্ণ শব্দভাণ্ডার বেসলাইনের তুলনায়, DynaSpec প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রেখে গণনামূলক ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে

বিলোপন পরীক্ষা

অবস্থান-সচেতন কৌশলের প্রভাব:

DynaSpec-PA (অবস্থান-সচেতন) বনাম DynaSpec-F (স্থির top-k)
অবস্থান-সচেতন কৌশল সমস্ত কাজে স্থির কৌশলের চেয়ে উন্নত
গড় শব্দভাণ্ডারের আকার ছোট কিন্তু গ্রহণযোগ্যতার দৈর্ঘ্য বেশি

FR-Spec + অবস্থান-সচেতন:

পদ্ধতি	গড় গ্রহণযোগ্যতার দৈর্ঘ্য	গড় শব্দভাণ্ডারের আকার
FR-Spec-F	3.74	32,768
FR-Spec-PA	3.81	31,739

তাত্ত্বিক যাচাইকরণ

পরীক্ষামূলক ফলাফল তাত্ত্বিক বিশ্লেষণে মূল সিদ্ধান্তগুলি যাচাই করে:

গতিশীল প্রসঙ্গ-সচেতন উপসেট প্রত্যাশিত গ্রহণযোগ্যতার হারে স্ট্যাটিক উপসেটের চেয়ে কঠোরভাবে উন্নত
অবস্থান-সচেতন সময়সূচী কার্যকরভাবে প্রাথমিক গ্রহণযোগ্যতার হার এবং পরবর্তী গণনামূলক দক্ষতার ভারসাম্য রাখে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

গতিশীল স্ট্যাটিকের চেয়ে উন্নত: প্রসঙ্গ-সচেতন গতিশীল টোকেন নির্বাচন গ্রহণযোগ্যতার হারে যেকোনো স্থির উপসেটের চেয়ে কঠোরভাবে উন্নত
অবস্থান-সচেতন কার্যকর: প্রাথমিক টোকেন অগ্রাধিকার কৌশল গ্রহণযোগ্যতার হার এবং গণনামূলক দক্ষতার কার্যকরভাবে ভারসাম্য রাখে
সিস্টেম সম্ভাব্যতা: সমান্তরাল সম্পাদন এবং কার্নেল ফিউশনের মাধ্যমে, গতিশীল পদ্ধতির সিস্টেম ওভারহেড নিয়ন্ত্রণযোগ্য
বিস্তৃত প্রযোজ্যতা: পদ্ধতি EAGLE-শৈলী পাইপলাইনের সাথে সামঞ্জস্যপূর্ণ, প্লাগ-এন্ড-প্লে উপাদান হিসাবে কাজ করতে পারে

সীমাবদ্ধতা

ক্লাস্টার বিভাজন নির্ভরতা: LM হেড ওজনের উপর ভিত্তি করে ক্লাস্টারিং সর্বোত্তম কৌশল নাও হতে পারে
হাইপারপ্যারামিটার সংবেদনশীলতা: ক্লাস্টার সংখ্যা M এবং বাজেট সময়সূচী পরামিতি বিভিন্ন মডেলের জন্য সুর করা প্রয়োজন
মেমরি ওভারহেড: ক্লাস্টার ম্যাপিং এবং রাউটার পরামিতি সংরক্ষণ করা প্রয়োজন
কোল্ড স্টার্ট সমস্যা: রাউটারের অতিরিক্ত প্রশিক্ষণ ডেটা এবং সময় প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

অভিযোজনযোগ্য ক্লাস্টারিং: কাজ বা ডোমেইন-ভিত্তিক গতিশীল ক্লাস্টারিং কৌশল অন্বেষণ করা
সমাপ্ত-থেকে-সমাপ্ত অপ্টিমাইজেশন: রাউটার এবং খসড়া মডেল যৌথভাবে অপ্টিমাইজ করা
মাল্টিমোডাল সম্প্রসারণ: পদ্ধতি দৃষ্টি-ভাষা মডেলে সম্প্রসারণ করা
হার্ডওয়্যার সহ-ডিজাইন: নির্দিষ্ট হার্ডওয়্যারের জন্য কার্নেল বাস্তবায়ন অপ্টিমাইজ করা

গভীর মূল্যায়ন

শক্তি

দৃঢ় তাত্ত্বিক ভিত্তি: গতিশীল পদ্ধতির উচ্চতর কঠোর গাণিতিক বিশ্লেষণ প্রদান করে
শক্তিশালী ব্যবহারিকতা: বিদ্যমান ফ্রেমওয়ার্কের সাথে সামঞ্জস্যপূর্ণ, স্থাপনা সহজ
সিস্টেম চিন্তাভাবনা: অ্যালগরিদম এবং সিস্টেম অপ্টিমাইজেশন উভয়ই বিবেচনা করে, বাস্তব স্থাপনা সমস্যা সমাধান করে
পর্যাপ্ত পরীক্ষা: একাধিক কাজ এবং মেট্রিক্সে পদ্ধতির কার্যকারিতা যাচাই করে
স্পষ্ট লেখা: প্রযুক্তিগত বিবরণ নির্ভুলভাবে বর্ণিত, যুক্তি কাঠামো স্পষ্ট

অপূর্ণতা

মূল্যায়ন সীমাবদ্ধতা: প্রধানত একক মডেল পরিবারে (Llama-3) পরীক্ষা করা হয়েছে, সাধারণীকরণ যাচাই করা প্রয়োজন
বিলম্য় বিশ্লেষণ অপর্যাপ্ত: সমাপ্ত-থেকে-সমাপ্ত বিলম্যের বিস্তারিত বিশ্লেষণ এবং তুলনা অনুপস্থিত
ক্লাস্টার গুণমান মূল্যায়ন: বিভিন্ন ক্লাস্টারিং কৌশলের কর্মক্ষমতায় প্রভাব গভীরভাবে বিশ্লেষণ করা হয়নি
স্কেল যাচাইকরণ: বৃহত্তর স্কেল মডেল বা বৃহত্তর শব্দভাণ্ডারে যাচাই করা হয়নি
খরচ বিশ্লেষণ: রাউটার প্রশিক্ষণের গণনামূলক খরচ বিশ্লেষণ অনুপস্থিত

প্রভাব

একাডেমিক মূল্য: বড় শব্দভাণ্ডার LLM অনুমান অপ্টিমাইজেশনের জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে
ব্যবহারিক মূল্য: বাস্তব স্থাপনায় মূল বোতলনেক সমস্যা সমাধান করে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত অ্যালগরিদম বর্ণনা এবং বাস্তবায়ন বিবরণ প্রদান করে
অনুপ্রেরণা: সম্পর্কিত অপ্টিমাইজেশন দিকনির্দেশনার জন্য তাত্ত্বিক এবং ব্যবহারিক নির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

বড় শব্দভাণ্ডার LLM স্থাপনা: বিশেষত 128k+ শব্দভাণ্ডার সহ মডেলের জন্য উপযুক্ত
সম্পদ-সীমিত পরিবেশ: সীমিত গণনামূলক সম্পদে কর্মক্ষমতা এবং দক্ষতার ভারসাম্য রাখে
বহু-কাজ অ্যাপ্লিকেশন: বিভিন্ন ডোমেনে সাধারণীকরণের প্রয়োজন এমন পরিস্থিতি
রিয়েল-টাইম অনুমান সিস্টেম: বিলম্যের প্রতি সংবেদনশীল অ্যাপ্লিকেশন পরিস্থিতি

সংদর্ভ

পেপারটি অনুমানমূলক ডিকোডিং, বড় শব্দভাণ্ডার LLM, চরম শ্রেণীবিভাগ এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, পদ্ধতি ডিজাইনের জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে। মূল সংদর্ভগুলির মধ্যে রয়েছে EAGLE সিরিজ, FR-Spec, এবং চরম শ্রেণীবিভাগে LightXML এবং CascadeXML এর মতো কাজ।