2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

تحديد الكمية-العينة-والتحقق: تسريع نماذج اللغة الكبيرة عبر فك التشفير التخميني التكيفي للحافة-السحابة

المعلومات الأساسية

معرّف الورقة: 2507.00605
العنوان: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
المؤلفون: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
التصنيف: eess.SP (الهندسة الكهربائية وعلوم الأنظمة - معالجة الإشارات)
تاريخ النشر: 1 يوليو 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2507.00605

الملخص

في أنظمة فك التشفير التخميني للحافة-السحابة (SD)، تقوم أجهزة الحافة المزودة بنماذج لغة صغيرة (SLM) بإنشاء رموز مسودة، يتم التحقق منها لاحقاً بواسطة نموذج لغة كبير (LLM) في السحابة. يتمثل الاختناق الرئيسي في هذه الأنظمة في عرض النطاق الترددي المحدود بين الحافة والسحابة، مما يجعل تحديد كمية معلومات الرموز المرسلة ضرورياً. تقدم هذه الدراسة استراتيجية جديدة لتحديد الكمية-العينة (Q-S) تحافظ بشكل قابل للإثبات على توزيع مخرجات نموذج السحابة، مما يضمن أن الرموز المتحقق منها تطابق التوزيع الناتج مباشرة من LLM. نطور نموذج إنتاجية واضح لأنظمة الحافة-السحابة يأخذ في الاعتبار تأخير الاتصالات. بناءً على هذا النموذج، نقترح آلية تكيفية تحسّن إنتاجية الرموز من خلال تعديل ديناميكي لطول المسودة ودقة تحديد الكمية استجابة لعدم اليقين الدلالي وظروف القناة. تُظهر نتائج المحاكاة أن طريقة Q-S المقترحة تحسّن كفاءة فك التشفير بشكل كبير في سيناريوهات نشر الحافة-السحابة الواقعية.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي يعالجها هذا البحث حول قيود عرض النطاق الترددي للاتصالات في أنظمة فك التشفير التخميني للحافة-السحابة. في فك التشفير التخميني التقليدي، تحتاج أجهزة الحافة إلى نقل كمية كبيرة من معلومات التوزيع الاحتمالي إلى السحابة، مما يؤثر بشكل كبير على أداء النظام في البيئات ذات النطاق الترددي المحدود.

الأهمية

القيمة العملية: يعتبر الاستدلال التعاوني للحافة-السحابة اتجاهاً مهماً في نشر نماذج اللغة الكبيرة الحالية، مما يوازن بين موارد الحوسبة وتأخير الاستجابة
التحديات التقنية: تؤدي الطرق الموجودة إلى تدمير التوزيع الأصلي لمخرجات LLM عند تحديد كمية التوزيع الاحتمالي، مما يؤثر على جودة الإنشاء
الفوائد الاقتصادية: تقليل استدعاءات API الزائدة، وتحسين كفاءة الطاقة وقابلية توسع النظام

قيود الطرق الموجودة

تعاني طرق العينة-تحديد الكمية (S-Q) الموجودة من عيوب حرجة:

تؤدي استراتيجية أخذ العينات أولاً ثم تحديد الكمية إلى عدم اتساق بين توزيع العينات على الحافة وتوزيع التحقق في السحابة
تنتهك الخاصية الأساسية لفك التشفير التخميني المتمثلة في الحفاظ على توزيع رموز LLM
تنخفض الأداء بشكل كبير عند درجات حرارة أخذ العينات العالية

دافع البحث

يكمن دافع هذا البحث في تصميم مخطط فك تشفير تخميني للحافة-السحابة يقلل من النفقات العامة للاتصالات مع الحفاظ بصرامة على اتساق توزيع مخرجات LLM.

المساهمات الأساسية

اقتراح استراتيجية تحديد الكمية-العينة (Q-S): تحافظ بشكل قابل للإثبات على توزيع LLM في السحابة، مما يضمن عدم فقدان جودة الإنشاء
إنشاء نموذج إنتاجية يأخذ في الاعتبار تأخير الاتصالات: نمذجة صريحة لتأثير تأخير نقل الوصلة الصاعدة والهابطة على أداء النظام
تصميم آلية تخصيص موارد تكيفية: تعديل ديناميكي لطول المسودة ودقة تحديد الكمية بناءً على التعلم المعزز
توفير ضمانات نظرية: إثبات تكافؤ التوزيع لطريقة Q-S من خلال الاقتراح 1

شرح الطريقة

تعريف المهمة

تُعرّف مهمة فك التشفير التخميني للحافة-السحابة على النحو التالي: بالنظر إلى بادئة الإدخال s¹، يحتاج النظام إلى إنشاء رموز مسودة من خلال SLM على الحافة، والتحقق من قبل LLM في السحابة، وأخيراً إنشاء سلسلة رموز بنفس توزيع استخدام LLM مباشرة.

معمارية النموذج

معمارية النظام

يتضمن النظام أربع مراحل رئيسية:

إنشاء الرموز: يقوم SLM على الحافة بإنشاء L^t رموز مسودة بشكل تراجعي
النقل الصاعد: نقل التوزيع الاحتمالي المحدد الكمية والرموز إلى السحابة
التحقق من الرموز: يقوم LLM في السحابة بالتحقق بالتوازي من رموز المسودة
النقل الهابط: إرجاع نتائج التحقق والرموز المُنشأة حديثاً

آلية استراتيجية Q-S الأساسية

الابتكار الرئيسي: تحديد كمية التوزيع الاحتمالي أولاً، ثم أخذ عينات من التوزيع المحدد الكمية

التعبير الرياضي:

متجه الاحتمالية المحدد الكمية: q̂ᵗₗ = Quantize(qᵗₗ)
أخذ عينات من التوزيع المحدد الكمية: xᵗₗ ~ q̂ᵗₗ
احتمالية التحقق: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

خوارزمية تحديد الكمية الشبكية

استخدام تحديد كمية متجه الاحتمالية القائم على الشبكة:

مجموعة التحديد الكمي: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
عدد البتات المشفرة: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
التعقيد: O(V log(V))

نقاط الابتكار التقني

1. إثبات الحفاظ على التوزيع

الاقتراح 1: يضمن فك التشفير التخميني Q-S للحافة-السحابة أن احتمالية الرمز المُنشأ xᵗₗ وهي P(X = xᵗₗ) تساوي الاحتمالية المقابلة لـ LLM pᵗₗ,xᵗₗ.

تكمن أهمية هذه الخاصية في أن أخذ العينات والتحقق يستخدمان نفس التوزيع المحدد الكمية، بينما تستخدم طريقة S-Q توزيعات مختلفة مما يؤدي إلى انزياح التوزيع.

2. آلية التحسين التكيفية

سياسة ديناميكية π قائمة على التعلم المعزز، حيث تتضمن فضاء الحالة:

المعلومات الدلالية: متجه ثقة البادئة fᵗ ومتوسط الثقة f̄ᵗ
معلومات الاتصال: معدل القناة الصاعدة الحالي Cᵗᵤ

فضاء الإجراء: aᵗ = (Lᵗ, bᵗ)، أي طول المسودة وعدد بتات تحديد الكمية

3. نمذجة التأخير

نموذج التأخير الإجمالي:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

حيث:

تأخير النقل الصاعد: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
تأخير النقل الهابط: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

إعداد التجارب

مجموعات البيانات

مجموعة البيانات: مجموعة بيانات CNN/DailyMail لتلخيص النصوص المجردة
المهمة: إنشاء ملخصات نصية مجردة
مقاييس التقييم: درجة ROUGE-2، إنتاجية الرموز،熵 شانون

إعدادات النموذج

LLM في السحابة: OPT-13B (13 مليار معامل)
SLM على الحافة: OPT-125M (125 مليون معامل)
الأجهزة: وحدة معالجة رسومات NVIDIA A100 بسعة 40 جيجابايت
حجم الدفعة: 1 (يتوافق مع معايير الأدبيات الحالية)

نموذج القناة

استخدام نموذج ماركوف ثنائي الحالة لمحاكاة القناة الصاعدة المتغيرة بمرور الوقت:

حالة السرعة المنخفضة: متوسط 350 كيلوبت/ثانية (مشابه لـ NB-IoT)
حالة السرعة العالية: متوسط 4 ميجابت/ثانية
احتمالية انتقال الحالة: p_low→high و p_high→low

طرق المقارنة

LLM: استخدام LLM في السحابة مباشرة
SLM: استخدام SLM على الحافة فقط
S-Q: فك التشفير التخميني للعينة-تحديد الكمية
Q-S (Static): طريقة تحديد الكمية-العينة الثابتة
Q-S (Heuristic): Q-S التكيفية الاستكشافية
Q-S (Dynamic): Q-S الديناميكية القائمة على التعلم المعزز

نتائج التجارب

النتائج الرئيسية

1. الحفاظ على جودة الإنشاء

مقارنة درجات ROUGE-2:

تحافظ طرق Q-S (الثابتة والديناميكية) على نفس درجة ROUGE-2 مثل LLM في جميع درجات حرارة أخذ العينات
تنحرف طريقة S-Q بشكل كبير عن أداء LLM عند درجات الحرارة العالية
تتحقق من الضمانات النظرية للاقتراح 1

2. تحسن الإنتاجية

في بيئة الشبكة منخفضة السرعة (350 كيلوبت/ثانية):

تحقق Q-S (Dynamic) تحسناً بنسبة 40-50% تقريباً في إنتاجية الرموز مقارنة بـ LLM
تحسن بنسبة 15-20% مقارنة بطريقة Q-S الثابتة
تحسن بنسبة 8-12% مقارنة بالطريقة الاستكشافية

في بيئة الشبكة عالية السرعة (4 ميجابت/ثانية):

لا تعود الاتصالات هي الاختناق الرئيسي، لكن الطريقة الديناميكية تحقق تحسناً بنسبة 5-10%
تثبت متانة الاستراتيجية التكيفية

3. تحليل الإنتروبيا

تزداد إنتروبيا شانون للرموز لجميع الطرق مع زيادة درجة حرارة أخذ العينات، مما يؤكد التأثير الصحيح لمعامل درجة الحرارة على تنوع المخرجات.

تجارب الاستئصال

من خلال مقارنة ثلاث متغيرات من Q-S (الثابتة والاستكشافية والديناميكية)، تم التحقق من:

فعالية استراتيجية تحديد الكمية: تفوق Q-S على S-Q
قيمة آلية التكيف: التحسن من التعديل الديناميكي مقابل المعاملات الثابتة
ضرورة التعلم المعزز: التحسن مقابل القواعد الاستكشافية البسيطة

النتائج الرئيسية

اتساق التوزيع حاسم: الحفاظ على اتساق توزيع أخذ العينات والتحقق هو المفتاح للحفاظ على جودة الإنشاء
تأخير الاتصالات يؤثر بشكل كبير على الأداء: في بيئات النطاق الترددي المنخفض، تصبح النفقات العامة للاتصالات الاختناق الرئيسي
فعالية الاستراتيجية التكيفية: يمكن للتعديل الديناميكي للمعاملات التعامل بفعالية مع ظروف دلالية وشبكية مختلفة

الأعمال ذات الصلة

أبحاث فك التشفير التخميني

فك التشفير التخميني الأساسي: الطريقة الأصلية لأخذ العينات التخميني المقترحة من قبل Chen وآخرون 1
التعاون بين الحافة والسحابة: الاستكشاف الأول للتعاون بين الحافة والسحابة SD من قبل Hao وآخرون 4
تخطي عدم اليقين: استراتيجية تخطي الرموز القائمة على عدم اليقين المقترحة من قبل Oh وآخرون 5

تقنيات تحديد الكمية

تحديد كمية متجه الاحتمالية: خوارزمية تحديد الكمية الشبكية لـ Reznik 10
تحديد كمية المطالبات: تحديد الكمية على مستوى المطالبات من قبل Jiao وآخرون 11 و Hao وآخرون 12
تحديد كمية ذاكرة التخزين المؤقت KV: طريقة تحديد كمية ذاكرة التخزين المؤقت للمفاتيح والقيم من قبل He وآخرون 13

المزايا النسبية لهذا العمل

ضمانات نظرية: أول إثبات صارم لحفظ التوزيع
نمذجة النظام: نموذج نظام كامل يأخذ في الاعتبار تأخير الاتصالات بشكل صريح
التحسين التكيفي: تعديل ديناميكي للمعاملات بناءً على التعلم المعزز

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تفوق استراتيجية Q-S على S-Q: تحقيق تحسن كبير في الإنتاجية مع الحفاظ على جودة الإنشاء
فعالية آلية التكيف: يمكن للتعديل الديناميكي لطول المسودة ودقة تحديد الكمية التكيف مع ظروف مختلفة
اتساق النظرية والممارسة: تتحقق النتائج النظرية والتجريبية من بعضها البعض

القيود

افتراضات النموذج: افتراض عدم وجود تأخير في النقل الهابط، قد تكون السيناريوهات الفعلية أكثر تعقيداً
طريقة تحديد الكمية: النظر فقط في تحديد الكمية الشبكية، تأثير طرق تحديد الكمية الأخرى غير معروف
قيود المهمة: التحقق فقط على مهمة تلخيص النصوص، القابلية للتعميم تحتاج إلى التحقق
الاعتماد على الأجهزة: التجارب مبنية على وحدات معالجة رسومات عالية الأداء، قد تختلف أداء أجهزة الحافة الحقيقية

الاتجاهات المستقبلية

التوسع إلى مهام أخرى: تطبيقات إنشاء الحوار وإنشاء الأكواد وغيرها
نماذج شبكة أكثر تعقيداً: النظر في فقدان الحزم والتذبذب وغيرها من مشاكل الشبكة الفعلية
التوسع متعدد الأنماط: سيناريوهات الصورة-النص والكلام-النص وغيرها
تحسين الأجهزة: استراتيجيات التحسين لأجهزة حافة محددة

التقييم المتعمق

المزايا

مساهمات نظرية قوية: يوفر الاقتراح 1 ضماناً رياضياً صارماً، مما يملأ الفراغ النظري في الطرق الموجودة
تعريف واضح للمشكلة: تحديد دقيق للعيب الأساسي في طريقة S-Q، مع اقتراح حل موجه
نمذجة شاملة للنظام: النظر الشامل في تأخيرات الحوسبة والاتصالات، وإنشاء نموذج أداء كامل
تصميم تجريبي معقول: التحقق من فعالية الطريقة من زوايا متعددة، بما في ذلك الجودة والإنتاجية والمتانة
قيمة عملية عالية: حل المشاكل الفعلية في نشر الحافة-السحابة، مع آفاق تطبيق مهمة

أوجه القصور

نطاق تجريبي محدود: التحقق فقط على مهمة واحدة ومجموعة بيانات واحدة، الأدلة على القابلية للتعميم غير كافية
طرق مقارنة بسيطة: الطرق الاستكشافية المقارنة بسيطة نسبياً، تفتقر إلى خطوط أساس أقوى
محاكاة الأجهزة: محاكاة أداء أجهزة الحافة من خلال عوامل التحجيم، قد تختلف عن الحالة الفعلية
تبسيط نموذج الشبكة: نموذج ماركوف ثنائي الحالة مبسط جداً، الشبكات الفعلية أكثر تعقيداً
تحليل غير كافٍ للنفقات العامة الحسابية: تحليل أقل للنفقات العامة الحسابية لتحديد الكمية والتعلم المعزز

التأثير

القيمة الأكاديمية: توفير أساس نظري وطريقة عملية لفك التشفير التخميني للحافة-السحابة
التطبيق الصناعي: توجيه مباشر لنشر الذكاء الاصطناعي على الحافة
الإلهام البحثي: توفير أفكار جديدة للمجالات ذات الصلة (التعلم الموحد، الاستدلال الموزع، إلخ)
إمكانية التوحيد: قد يؤثر على وضع معايير التعاون بين الحافة والسحابة

السيناريوهات المعمول بها

بيئات النطاق الترددي المحدود: الاتصالات الفضائية والشبكات في المناطق النائية وغيرها
التطبيقات الحساسة للتأخير: أنظمة الحوار في الوقت الفعلي وخدمات الذكاء الاصطناعي على الحافة
الأجهزة ذات الموارد المحدودة: الأجهزة المحمولة وأجهزة إنترنت الأشياء وغيرها
معمارية السحابة الهجينة: تطبيقات المؤسسات التي تتطلب تعاوناً بين الحافة والسحابة

قابلية إعادة الإنتاج

توفر الورقة إعدادات تجريبية مفصلة ورابط كود مفتوح المصدر، مع قابلية جيدة للإعادة. لكن التحقق من النشر على أجهزة حافة حقيقية يتطلب عملاً إضافياً.

المراجع

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

التقييم الشامل: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال فك التشفير التخميني للحافة-السحابة. التحليل النظري صارم، والتحقق التجريبي شامل، وتحل مشاكل رئيسية في التطبيقات العملية. على الرغم من وجود بعض القيود، فإن ابتكاريتها وقيمتها العملية تجعلها عملاً مهماً في هذا المجال.