2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

কোয়ান্টাইজ-স্যাম্পল-এন্ড-ভেরিফাই: অভিযোজিত এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিং এর মাধ্যমে এলএলএম ত্বরণ

মৌলিক তথ্য

পেপার আইডি: 2507.00605
শিরোনাম: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
লেখক: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
শ্রেণীবিভাগ: eess.SP (বৈদ্যুতিক প্রকৌশল এবং সিস্টেম বিজ্ঞান - সংকেত প্রক্রিয়াকরণ)
প্রকাশনার সময়: ২০২৫ সালের জুলাই ১ (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2507.00605

সারসংক্ষেপ

এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিং (এসডি) সিস্টেমে, ছোট ভাষা মডেল (এসএলএম) সহ এজ ডিভাইসগুলি খসড়া টোকেন তৈরি করে, যা পরে ক্লাউডে বড় ভাষা মডেল (এলএলএম) দ্বারা যাচাই করা হয়। এই ধরনের সিস্টেমের মূল বাধা হল এজ এবং ক্লাউডের মধ্যে সীমিত যোগাযোগ ব্যান্ডউইথ, যা প্রেরিত টোকেন তথ্যের পরিমাণকরণকে প্রয়োজনীয় করে তোলে। এই কাজটি একটি উপন্যাস কোয়ান্টাইজ-স্যাম্পল (কিউ-এস) কৌশল উপস্থাপন করে যা প্রমাণযোগ্যভাবে ক্লাউড মডেলের আউটপুট বিতরণ বজায় রাখে, নিশ্চিত করে যে যাচাইকৃত টোকেনগুলি সরাসরি এলএলএম দ্বারা উত্পাদিত টোকেনের বিতরণের সাথে মেলে। আমরা এজ-ক্লাউড এসডির জন্য একটি স্পষ্ট থ্রুপুট মডেল তৈরি করেছি যা যোগাযোগ বিলম্ব বিবেচনা করে। এই মডেলের উপর ভিত্তি করে, আমরা একটি অভিযোজিত প্রক্রিয়া প্রস্তাব করি যা শব্দার্থিক অনিশ্চয়তা এবং চ্যানেল অবস্থার প্রতিক্রিয়ায় খসড়া দৈর্ঘ্য এবং পরিমাণকরণ নির্ভুলতা গতিশীলভাবে সামঞ্জস্য করে, যার ফলে টোকেন থ্রুপুট অপ্টিমাইজ করা হয়। সিমুলেশন ফলাফল দেখায় যে প্রস্তাবিত কিউ-এস পদ্ধতি বাস্তবসম্মত এজ-ক্লাউড স্থাপনার পরিস্থিতিতে ডিকোডিং দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যা মূল সমস্যা সমাধান করে তা হল এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিং সিস্টেমে যোগাযোগ ব্যান্ডউইথ সীমাবদ্ধতা। ঐতিহ্যবাহী স্পেকুলেটিভ ডিকোডিংয়ে, এজ ডিভাইসগুলিকে ক্লাউডে প্রচুর পরিমাণে সম্ভাব্যতা বিতরণ তথ্য প্রেরণ করতে হয়, যা ব্যান্ডউইথ-সীমিত পরিবেশে সিস্টেম কর্মক্ষমতাকে গুরুতরভাবে প্রভাবিত করে।

গুরুত্ব

ব্যবহারিক মূল্য: এজ-ক্লাউড সহযোগী অনুমান বর্তমান এলএলএম স্থাপনার একটি গুরুত্বপূর্ণ প্রবণতা, যা গণনা সম্পদ এবং প্রতিক্রিয়া বিলম্ব ভারসাম্য রাখতে পারে
প্রযুক্তিগত চ্যালেঞ্জ: বিদ্যমান পদ্ধতিগুলি সম্ভাব্যতা বিতরণ পরিমাণকরণ করার সময় এলএলএমের মূল আউটপুট বিতরণ ধ্বংস করে, যা প্রজন্মের গুণমান প্রভাবিত করে
অর্থনৈতিক সুবিধা: অপ্রয়োজনীয় এপিআই কল হ্রাস করা, শক্তি দক্ষতা এবং সিস্টেম স্কেলেবিলিটি উন্নত করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান স্যাম্পল-কোয়ান্টাইজ (এস-কিউ) পদ্ধতিতে মূল ত্রুটি রয়েছে:

প্রথম নমুনা তারপর পরিমাণকরণ কৌশল এজ নমুনা বিতরণ এবং ক্লাউড যাচাইকরণ বিতরণের মধ্যে অসামঞ্জস্য সৃষ্টি করে
স্পেকুলেটিভ ডিকোডিং এলএলএম টোকেন বিতরণ বজায় রাখার মূল সম্পত্তি লঙ্ঘন করে
উচ্চ নমুনা তাপমাত্রায় কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়

গবেষণা প্রেরণা

এই পত্রের গবেষণা প্রেরণা হল এমন একটি পদ্ধতি ডিজাইন করা যা যোগাযোগ ওভারহেড হ্রাস করতে পারে এবং কঠোরভাবে এলএলএম আউটপুট বিতরণ সামঞ্জস্য বজায় রাখতে পারে।

মূল অবদান

কোয়ান্টাইজ-স্যাম্পল (কিউ-এস) কৌশল প্রস্তাব করা: ক্লাউড এলএলএমের আউটপুট বিতরণ প্রমাণযোগ্যভাবে বজায় রাখে, প্রজন্মের গুণমান ক্ষতি নিশ্চিত করে না
যোগাযোগ বিলম্ব বিবেচনা করে থ্রুপুট মডেল প্রতিষ্ঠা করা: আপলিংক এবং ডাউনলিংক ট্রান্সমিশন বিলম্য়ের সিস্টেম কর্মক্ষমতার প্রভাব স্পষ্টভাবে মডেল করা
অভিযোজিত সম্পদ বরাদ্দ প্রক্রিয়া ডিজাইন করা: শক্তিশালী শেখার উপর ভিত্তি করে খসড়া দৈর্ঘ্য এবং পরিমাণকরণ নির্ভুলতা গতিশীলভাবে সামঞ্জস্য করা
তাত্ত্বিক গ্যারান্টি প্রদান করা: প্রস্তাবনা ১ এর মাধ্যমে কিউ-এস পদ্ধতির বিতরণ সমতা প্রমাণ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিং কাজটি সংজ্ঞায়িত করা হয়েছে: ইনপুট প্রিফিক্স s¹ দেওয়া হলে, সিস্টেমকে এজ এসএলএম এর মাধ্যমে খসড়া টোকেন তৈরি করতে হবে, ক্লাউড এলএলএম যাচাই করবে, চূড়ান্তভাবে সরাসরি এলএলএম ব্যবহার করে একই বিতরণের টোকেন সিকোয়েন্স তৈরি করবে।

মডেল আর্কিটেকচার

সিস্টেম আর্কিটেকচার

সিস্টেমে চারটি মূল পর্যায় রয়েছে:

টোকেন প্রজন্ম: এজ এসএলএম স্বয়ংক্রিয়ভাবে L^t খসড়া টোকেন তৈরি করে
আপলিংক ট্রান্সমিশন: পরিমাণকৃত সম্ভাব্যতা বিতরণ এবং টোকেনগুলি ক্লাউডে প্রেরণ করা
টোকেন যাচাইকরণ: ক্লাউড এলএলএম খসড়া টোকেনগুলি সমান্তরালভাবে যাচাই করে
ডাউনলিংক ট্রান্সমিশন: যাচাইকরণ ফলাফল এবং নতুন উত্পাদিত টোকেন ফেরত দেওয়া

কিউ-এস কৌশল মূল প্রক্রিয়া

মূল উদ্ভাবন: প্রথম সম্ভাব্যতা বিতরণ পরিমাণকরণ করা, তারপর পরিমাণকৃত বিতরণ থেকে নমুনা করা

গাণিতিক প্রকাশ:

পরিমাণকৃত সম্ভাব্যতা ভেক্টর: q̂ᵗₗ = Quantize(qᵗₗ)
পরিমাণকৃত বিতরণ থেকে নমুনা: xᵗₗ ~ q̂ᵗₗ
যাচাইকরণ সম্ভাব্যতা: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

ল্যাটিস কোয়ান্টাইজেশন অ্যালগরিদম

ল্যাটিস-ভিত্তিক সম্ভাব্যতা ভেক্টর পরিমাণকরণ ব্যবহার করা:

পরিমাণকরণ সেট: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
এনকোডিং বিট সংখ্যা: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
জটিলতা: O(V log(V))

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. বিতরণ সংরক্ষণ প্রমাণ

প্রস্তাবনা ১: কিউ-এস এজ-ক্লাউড এসডি নিশ্চিত করে যে উত্পাদিত টোকেন xᵗₗ এর সম্ভাব্যতা P(X = xᵗₗ) এলএলএমের সংশ্লিষ্ট সম্ভাব্যতা pᵗₗ,xᵗₗ এর সমান।

এই সম্পত্তির মূল চাবিকাঠি হল নমুনা এবং যাচাইকরণ একই পরিমাণকৃত বিতরণ ব্যবহার করে, যখন এস-কিউ পদ্ধতি বিভিন্ন বিতরণ ব্যবহার করে বিতরণ পরিবর্তন সৃষ্টি করে।

২. অভিযোজিত অপ্টিমাইজেশন প্রক্রিয়া

শক্তিশালী শেখার উপর ভিত্তি করে গতিশীল নীতি π, অবস্থা স্থান অন্তর্ভুক্ত করে:

শব্দার্থিক তথ্য: প্রিফিক্স আত্মবিশ্বাস ভেক্টর fᵗ এবং গড় আত্মবিশ্বাস f̄ᵗ
সংযোগ তথ্য: বর্তমান আপলিংক চ্যানেল হার Cᵗᵤ

কর্ম স্থান: aᵗ = (Lᵗ, bᵗ), অর্থাৎ খসড়া দৈর্ঘ্য এবং পরিমাণকরণ বিট সংখ্যা

৩. বিলম্য় মডেলিং

মোট বিলম্য় মডেল:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

যেখানে:

আপলিংক বিলম্য়: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
ডাউনলিংক বিলম্য়: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

পরীক্ষামূলক সেটআপ

ডেটাসেট

ডেটাসেট: সিএনএন/ডেইলিমেইল বিমূর্ত পাঠ সারসংক্ষেপ ডেটাসেট
কাজ: বিমূর্ত পাঠ সারসংক্ষেপ প্রজন্ম
মূল্যায়ন মেট্রিক্স: ROUGE-2 স্কোর, টোকেন থ্রুপুট, শ্যানন এন্ট্রপি

মডেল কনফিগারেশন

ক্লাউড এলএলএম: OPT-13B (১৩ বিলিয়ন পরামিতি)
এজ এসএলএম: OPT-125M (১.২৫ বিলিয়ন পরামিতি)
হার্ডওয়্যার: NVIDIA A100 40GB GPU
ব্যাচ প্রক্রিয়াকরণ আকার: 1 (বিদ্যমান সাহিত্যের মান অনুসরণ করে)

চ্যানেল মডেল

সময়-পরিবর্তনশীল আপলিংক চ্যানেল অনুকরণ করতে দ্বি-অবস্থা মার্কভ মডেল ব্যবহার করা:

কম-গতি অবস্থা: গড় 350 kbps (NB-IoT এর মতো)
উচ্চ-গতি অবস্থা: গড় 4 Mbps
অবস্থা রূপান্তর সম্ভাব্যতা: p_low→high এবং p_high→low

তুলনামূলক পদ্ধতি

এলএলএম: সরাসরি ক্লাউড এলএলএম ব্যবহার করা
এসএলএম: শুধুমাত্র এজ এসএলএম ব্যবহার করা
এস-কিউ: স্যাম্পল-কোয়ান্টাইজ স্পেকুলেটিভ ডিকোডিং
কিউ-এস (স্ট্যাটিক): স্ট্যাটিক কোয়ান্টাইজ-স্যাম্পল পদ্ধতি
কিউ-এস (হিউরিস্টিক): হিউরিস্টিক অভিযোজিত কিউ-এস
কিউ-এস (ডায়নামিক): শক্তিশালী শেখার উপর ভিত্তি করে গতিশীল কিউ-এস

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

১. প্রজন্মের গুণমান সংরক্ষণ

ROUGE-2 স্কোর তুলনা:

কিউ-এস পদ্ধতি (স্ট্যাটিক এবং ডায়নামিক) সমস্ত নমুনা তাপমাত্রায় এলএলএমের সাথে একই ROUGE-2 স্কোর বজায় রাখে
এস-কিউ পদ্ধতি উচ্চ তাপমাত্রায় এলএলএম কর্মক্ষমতা থেকে উল্লেখযোগ্যভাবে বিচ্যুত হয়
প্রস্তাবনা ১ এর তাত্ত্বিক গ্যারান্টি যাচাই করা হয়েছে

২. থ্রুপুট বৃদ্ধি

কম-গতি নেটওয়ার্ক পরিবেশ (350 kbps):

কিউ-এস (ডায়নামিক) এলএলএমের তুলনায় প্রায় 40-50% টোকেন থ্রুপুট বৃদ্ধি
স্ট্যাটিক কিউ-এস পদ্ধতির তুলনায় প্রায় 15-20% বৃদ্ধি
হিউরিস্টিক পদ্ধতির তুলনায় প্রায় 8-12% বৃদ্ধি

উচ্চ-গতি নেটওয়ার্ক পরিবেশ (4 Mbps):

যোগাযোগ আর প্রধান বাধা নয়, কিন্তু গতিশীল পদ্ধতি এখনও 5-10% বৃদ্ধি প্রদান করে
অভিযোজিত কৌশলের শক্তিশালীতা প্রমাণ করে

৩. এন্ট্রপি বিশ্লেষণ

সমস্ত পদ্ধতির টোকেন শ্যানন এন্ট্রপি নমুনা তাপমাত্রা বৃদ্ধির সাথে বৃদ্ধি পায়, আউটপুট বৈচিত্র্যের উপর তাপমাত্রা পরামিতির সঠিক প্রভাব নিশ্চিত করে।

অ্যাবলেশন পরীক্ষা

স্ট্যাটিক, হিউরিস্টিক এবং ডায়নামিক তিনটি কিউ-এস ভেরিয়েন্ট তুলনা করে যাচাই করা হয়েছে:

পরিমাণকরণ কৌশলের কার্যকারিতা: এস-কিউ এর তুলনায় কিউ-এস এর সুবিধা
অভিযোজিত প্রক্রিয়ার মূল্য: স্থির পরামিতির তুলনায় গতিশীল সমন্বয়ের বৃদ্ধি
শক্তিশালী শেখার প্রয়োজনীয়তা: সহজ হিউরিস্টিক নিয়মের তুলনায় উন্নতি

মূল আবিষ্কার

বিতরণ সামঞ্জস্য অত্যন্ত গুরুত্বপূর্ণ: নমুনা এবং যাচাইকরণ বিতরণ সামঞ্জস্য বজায় রাখা প্রজন্মের গুণমান বজায় রাখার চাবিকাঠি
যোগাযোগ বিলম্য় কর্মক্ষমতা উল্লেখযোগ্যভাবে প্রভাবিত করে: কম ব্যান্ডউইথ পরিবেশে, যোগাযোগ ওভারহেড প্রধান বাধা হয়ে ওঠে
অভিযোজিত কৌশল উল্লেখযোগ্য প্রভাব ফেলে: গতিশীল পরামিতি সমন্বয় বিভিন্ন শব্দার্থিক এবং নেটওয়ার্ক অবস্থার সাথে কার্যকরভাবে মোকাবেলা করতে পারে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

কিউ-এস কৌশল এস-কিউ এর চেয়ে উন্নত: প্রজন্মের গুণমান বজায় রেখে উল্লেখযোগ্য থ্রুপুট বৃদ্ধি অর্জন করা
অভিযোজিত প্রক্রিয়া কার্যকর: খসড়া দৈর্ঘ্য এবং পরিমাণকরণ নির্ভুলতা গতিশীলভাবে সমন্বয় করা বিভিন্ন অবস্থার সাথে খাপ খাইয়ে নিতে পারে
তত্ত্ব এবং অনুশীলন সামঞ্জস্যপূর্ণ: তাত্ত্বিক বিশ্লেষণ এবং পরীক্ষামূলক ফলাফল পরস্পর যাচাই করে

সীমাবদ্ধতা

মডেল অনুমান: ডাউনলিংক ট্রান্সমিশন বিলম্য়হীন অনুমান করা হয়েছে, বাস্তব পরিস্থিতি আরও জটিল হতে পারে
পরিমাণকরণ পদ্ধতি: শুধুমাত্র ল্যাটিস পরিমাণকরণ বিবেচনা করা হয়েছে, অন্যান্য পরিমাণকরণ পদ্ধতির প্রভাব অজানা
কাজের সীমাবদ্ধতা: শুধুমাত্র পাঠ সারসংক্ষেপ কাজে যাচাই করা হয়েছে, সাধারণীকরণযোগ্যতা আরও যাচাইয়ের প্রয়োজন
হার্ডওয়্যার নির্ভরতা: পরীক্ষা উচ্চ-কর্মক্ষমতা GPU এর উপর ভিত্তি করে, বাস্তব এজ ডিভাইসের কর্মক্ষমতা ভিন্ন হতে পারে

ভবিষ্যত দিকনির্দেশনা

অন্যান্য কাজে সম্প্রসারণ: কথোপকথন প্রজন্ম, কোড প্রজন্ম ইত্যাদি প্রয়োগের ক্ষেত্র
আরও জটিল নেটওয়ার্ক মডেল: প্যাকেট হারানো, জিটার ইত্যাদি বাস্তব নেটওয়ার্ক সমস্যা বিবেচনা করা
মাল্টিমোডাল সম্প্রসারণ: ইমেজ-পাঠ, বক্তৃতা-পাঠ ইত্যাদি মাল্টিমোডাল পরিস্থিতি
হার্ডওয়্যার অপ্টিমাইজেশন: নির্দিষ্ট এজ হার্ডওয়্যারের জন্য অপ্টিমাইজেশন কৌশল

গভীর মূল্যায়ন

সুবিধা

দৃঢ় তাত্ত্বিক অবদান: প্রস্তাবনা ১ কঠোর গাণিতিক গ্যারান্টি প্রদান করে, বিদ্যমান পদ্ধতির তাত্ত্বিক শূন্যতা পূরণ করে
স্পষ্ট সমস্যা সংজ্ঞা: এস-কিউ পদ্ধতির মূল ত্রুটি সঠিকভাবে চিহ্নিত করা হয়েছে, লক্ষ্যবস্তু সমাধান প্রস্তাব করা হয়েছে
ব্যাপক সিস্টেম মডেলিং: গণনা এবং যোগাযোগ বিলম্য় সম্পূর্ণভাবে বিবেচনা করা হয়েছে, সম্পূর্ণ কর্মক্ষমতা মডেল প্রতিষ্ঠা করা হয়েছে
যুক্তিসঙ্গত পরীক্ষা ডিজাইন: বহুমুখী পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে, গুণমান, থ্রুপুট এবং শক্তিশালীতা অন্তর্ভুক্ত
উচ্চ ব্যবহারিক মূল্য: এজ-ক্লাউড স্থাপনার বাস্তব সমস্যা সমাধান করা হয়েছে, গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে

অপূর্ণতা

সীমিত পরীক্ষা পরিসীমা: একক কাজ এবং ডেটাসেটে যাচাই করা হয়েছে, সাধারণীকরণযোগ্যতার প্রমাণ অপর্যাপ্ত
সহজ বেসলাইন পদ্ধতি: তুলনা করা হিউরিস্টিক পদ্ধতি তুলনামূলকভাবে সহজ, শক্তিশালী বেসলাইনের অভাব
হার্ডওয়্যার সিমুলেশন: স্কেলিং ফ্যাক্টরের মাধ্যমে এজ ডিভাইসের কর্মক্ষমতা অনুকরণ করা হয়েছে, বাস্তব পরিস্থিতির সাথে বিচ্যুতি থাকতে পারে
সরলীকৃত নেটওয়ার্ক মডেল: দ্বি-অবস্থা মার্কভ মডেল অত্যন্ত সরলীকৃত, বাস্তব নেটওয়ার্ক আরও জটিল
গণনা ওভারহেড বিশ্লেষণ অপর্যাপ্ত: পরিমাণকরণ এবং শক্তিশালী শেখার গণনা ওভারহেড বিশ্লেষণ সীমিত

প্রভাব

একাডেমিক মূল্য: এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিংয়ের জন্য তাত্ত্বিক ভিত্তি এবং ব্যবহারিক পদ্ধতি প্রদান করা
শিল্প প্রয়োগ: এজ এআই স্থাপনার জন্য সরাসরি নির্দেশনা প্রদান করা
গবেষণা অনুপ্রেরণা: সম্পর্কিত ক্ষেত্রে (ফেডারেটেড লার্নিং, বিতরণকৃত অনুমান ইত্যাদি) নতুন চিন্তাভাবনা প্রদান করা
মান নির্ধারণের সম্ভাবনা: এজ-ক্লাউড সহযোগিতার মান নির্ধারণকে প্রভাবিত করতে পারে

প্রযোজ্য পরিস্থিতি

ব্যান্ডউইথ-সীমিত পরিবেশ: স্যাটেলাইট যোগাযোগ, দূরবর্তী এলাকার নেটওয়ার্ক ইত্যাদি
বিলম্য়-সংবেদনশীল প্রয়োগ: রিয়েল-টাইম কথোপকথন সিস্টেম, এজ এআই সেবা
সম্পদ-সীমিত ডিভাইস: মোবাইল ডিভাইস, IoT ডিভাইস ইত্যাদি
হাইব্রিড ক্লাউড আর্কিটেকচার: এজ-ক্লাউড সহযোগিতার প্রয়োজন এমন এন্টারপ্রাইজ প্রয়োগ

পুনরুৎপাদনযোগ্যতা

পত্রটি বিস্তারিত পরীক্ষামূলক সেটআপ এবং ওপেন-সোর্স কোড লিঙ্ক প্রদান করে, ভাল পুনরুৎপাদনযোগ্যতা রয়েছে। তবে বাস্তব এজ ডিভাইসের স্থাপনা যাচাইকরণ আরও কাজের প্রয়োজন।

রেফারেন্স

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

সামগ্রিক মূল্যায়ন: এটি এজ-ক্লাউড স্পেকুলেটিভ ডিকোডিং ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পত্র। তাত্ত্বিক বিশ্লেষণ কঠোর, পরীক্ষামূলক যাচাইকরণ ব্যাপক, বাস্তব প্রয়োগে মূল সমস্যা সমাধান করা হয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর উদ্ভাবনী এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ কাজ করে তোলে।