2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: حذف تأخير الاستدلال البعيد عبر التصحيح على الجهاز

المعلومات الأساسية

معرّف الورقة: 2510.13714
العنوان: Dedelayed: حذف تأخير الاستدلال البعيد عبر التصحيح على الجهاز
المؤلفون: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
التصنيف: eess.IV cs.AI cs.CV cs.LG
تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.13714

الملخص

يسمح الاستدلال البعيد للأجهزة الخفيفة بالاستفادة من نماذج سحابية قوية. ومع ذلك، فإن تأخير الشبكة يجعل النتائج المتنبأ بها قديمة وغير مناسبة للمهام الفورية. لحل هذه المشكلة، تقدم هذه الورقة Dedelayed، وهي طريقة تصحيح التأخير التي تخفف من أي تأخير استدلال بعيد، مما يسمح للجهاز المحلي بإنتاج مخرجات منخفضة التأخير في الوقت الفعلي. تستخدم الطريقة نموذج محلي خفيف الوزن لمعالجة الإطار الحالي وتدمج الميزات المحسوبة من نموذج بعيد ثقيل من الإطارات السابقة. على مقاطع فيديو مجموعة بيانات BDD100K للقيادة، يحسّن Dedelayed دقة تقسيم الدلالات في جميع تأخيرات الشبكة الاتصالية الواقعية التي تتجاوز 33ms مقارنة بأقوى الخطوط الأساسية المحلية والبعيدة البحتة. بدون إنتاج تأخير إضافي، بالنسبة لتأخير ذهاب وإياب بمدة 100ms، يحسّن بمقدار 6.4 mIoU مقارنة بالاستدلال المحلي البحت و9.8 mIoU مقارنة بالاستدلال البعيد.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: كيفية التغلب على تأخير الشبكة في الاستدلال البعيد مع الحفاظ على دقة التنبؤ في تطبيقات معالجة الفيديو في الوقت الفعلي.

أهمية المشكلة

متطلبات التطبيقات الفورية: تطبيقات مثل القيادة الذاتية والتحكم الروبوتي والأجهزة القابلة للارتداء حساسة للغاية تجاه التأخير، وقد تؤدي التنبؤات القديمة إلى عواقب كارثية
القيود على الموارد: الأجهزة المحمولة محدودة بقيود الطاقة والقدرة الحسابية، ولا يمكنها تشغيل نماذج التعلم العميق المعقدة
مزايا السحابة: وحدات معالجة الرسومات السحابية تتمتع بقدرة حسابية قوية، ويمكنها معالجة الفيديو عالي الدقة والنماذج المعقدة

حدود الطرق الموجودة

تعاني طرق الحوسبة الموزعة الموجودة من ثلاثة عيوب رئيسية:

تخصيص جميع موارد الجهاز لخط أنابيب استدلال خطي واحد، دون حجز موارد لخطط احتياطية محلية
عدم الأخذ في الاعتبار تأثير التأخير على دقة التنبؤ
تقليل الدقة الزمانية والمكانية بشكل كبير لإدارة تكاليف الحوسبة، مما يؤدي إلى فقدان التفاصيل البصرية الغنية من أنظمة الكاميرا الحديثة

الدافع البحثي

مستوحاة من نظام الرؤية البشري، حيث يمكن للعصب البصري فقط نقل جزء صغير من المعلومات التي يستقبلها الشبكية، والمعالجة المبكرة تقوم بشكل أساسي بالضغط، ثم تحدث المعالجة الكثيفة الأيض في الطبقات العميقة من القشرة البصرية. وبالمثل، تواجه الآلات المزودة بأجهزة استشعار فيديو رقمية قيودًا مماثلة.

المساهمات الأساسية

اقتراح إطار عمل Dedelayed: إطار عمل استدلال موزع يدرك التأخير، يخفف من تأثير تأخير الشبكة من خلال دمج المعلومات المحلية الفورية والميزات البعيدة المتأخرة
تحليل كمي للتأخير: توفير قياس كمي لتأثير التأخير على دقة التنبؤ البصري الكثيف
التحقق من النظام العملي: التحقق من فعالية النظام على مهام تقسيم الفيديو في سيناريوهات القيادة الحضرية، متفوقة على خطوط الأساس الموجودة للاستدلال المحلي أو البعيد
استراتيجية دمج بسيطة وفعالة: استخدام دمج الميزات القائم على الإضافة، سهل النشر والتوسع إلى طرق فورية أخرى

شرح الطريقة

تعريف المهمة

بالنظر إلى إطار إدخال جديد x_t في الوقت t، يتم حساب التنبؤ النهائي ŷ_t من خلال نموذج محلي خفيف الوزن f_light، الذي يعالج x_t ويدمج الميزات المتأخرة زمنيًا z_{t-τ} من نموذج بعيد ثقيل الوزن f_heavy.

التمثيل الرياضي:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

معمارية النموذج

معمارية النظام الشاملة

يتضمن نظام Dedelayed مكونين رئيسيين:

النموذج المحلي الخفيف الوزن: يعالج الإطار الحالي، مما يوفر القدرة على الاستجابة الفورية
نموذج التنبؤ البعيد: يعالج تسلسل الإطارات التاريخية، مما يوفر ميزات عالية الجودة

وحدة التنبؤ البعيد

استخدام EfficientViT-L1 كشبكة ViT ثنائية الأبعاد، بحجم patch فعال 8×8
الحفاظ على نافذة سياق من K إطار حديث
ربط ميزات كل إطار على طول المحور الزمني، مع دمج مكاني إلى patch أكبر 16×16
إضافة تضمين تأخير قابل للتعلم بناءً على التأخير المقاس τ
إنتاج ميزات مشروطة بالتأخير من خلال مشفر ViT ثلاثي الأبعاد وتجميع قابل للتعلم (MLP-pool-MLP)

النموذج المحلي والدمج

حساب ميزات المرحلة الأولى: h = T1(x_t)
الدمج المبكر من خلال الإضافة العنصرية: h' = h + z_{t-τ}
كلا الموتر بحجم 96 × H/8 × W/8، بدون الحاجة إلى إسقاط أو تغيير الحجم
إذا لم يكن z_{t-τ} متاحًا، يعود النموذج المحلي إلى h' = h

نقاط الابتكار التقني

آلية تضمين التأخير: مشابهة لتضمين الموضع في محولات النصوص أو الرؤية، مما يسمح لسلوك النموذج البعيد بالتكيف مع تغييرات القناة
تدريب التنبؤ الزمني: محاكاة تأخير D إطار أثناء التدريب الخاضع للإشراف، تدريب النموذج البعيد على التنبؤ بالمستقبل
الاستدلال بدقة مختلطة: النموذج المحلي يستخدم دقة منخفضة، والنموذج البعيد يستخدم معالجة متعددة الإطارات عالية الدقة
ضمان الأداء: أداء النظام لا تنخفض أبدًا عن أي من النموذجين المستقلين

إعداد التجارب

مجموعة البيانات

مجموعة بيانات فيديو BDD100K: تحتوي على فيديوهات مشاهد قيادة بمعدل 30fps
استخدام نموذج EoMT المدرب مسبقًا لإنشاء تسميات وهمية، مع تجاهل البكسل منخفض الثقة
استخدام مجموعة فرعية من 19 تسمية من Cityscapes
تطبيق برنامج ترميز صور WebP (الجودة 85) لضغط تدفق الفيديو الصاعد

مقاييس التقييم

mIoU (متوسط تقاطع على الاتحاد): مقياس التقييم القياسي لتقسيم الدلالات
نطاق التأخير: 0-5 إطارات (0-165ms)، يمثل تأخير ذهاب وإياب نموذجي

طرق المقارنة

الصورة المحلية: الاستدلال المحلي التقليدي بإطار واحد
الصورة البعيدة: الاستدلال البعيد التقليدي بإطار واحد
الفيديو البعيد: معالجة الفيديو البعيد دون التنبؤ بالمستقبل
التنبؤ البعيد: نموذج تنبؤ بعيد يدرك التأخير
المحلي + التنبؤ البعيد: نظام Dedelayed الكامل

تفاصيل التنفيذ

استراتيجية التدريب متعددة المراحل: تدريب النماذج البعيدة والمحلية بشكل مستقل أولاً، ثم الضبط المشترك
المحسّن: محسّن Adan
جدول معدل التعلم: جدول جيب التمام شبه منحرف
دالة الخسارة: خسارة الإنتروبيا المتقاطعة
التدريب المسبق: تصنيف ImageNet → تقسيم Cityscapes → ضبط BDD100K

نتائج التجارب

النتائج الرئيسية

تحسن الأداء الملحوظ:
- بتأخير ذهاب وإياب 100ms، تحسن بمقدار 6.4 mIoU مقارنة بالاستدلال المحلي البحت
- تحسن بمقدار 9.8 mIoU مقارنة بالاستدلال البعيد
- متفوق على أقوى الخطوط الأساسية في جميع التأخيرات التي تتجاوز 33ms
قوة التأخير:
- كلما زاد التأخير، كلما كانت ميزة Dedelayed أكبر
- أداء أفضل في مشاهد الحركة العالية
- الاستدلال الموزع الذي يخفف التأخير يحافظ على الدقة بشكل أكثر فعالية

تجارب الاستئصال

التجارب التحقق من مساهمة كل مكون:

فيديو بعيد مقابل صورة بعيدة: استخدام سياق الإطارات التاريخية وحده غير كافٍ لتحسين الأداء
تنبؤ بعيد مقابل فيديو بعيد: يحسّن التدريب على التنبؤ الزمني بشكل كبير قوة التأخير
محلي + تنبؤ بعيد مقابل تنبؤ بعيد: يحسّن دمج المعلومات المحلية الأداء بشكل إضافي

تحليل رجة التأخير

يحافظ النموذج على أداء جيدة عند عدم تطابق إدخال التأخير مع التأخير المرصود
عندما يتجاوز التأخير المرصود إدخال التأخير، ينخفض الأداء بشكل أقل حدة
يحافظ على الميزة في شبكة رجة عالية σ=15ms

التكيف مع الدقة

يمكن للنموذج المحلي المساعد البعيد أن يعمل بدقة أقل دون فقدان الدقة، مما يوضح كفاءة الموارد في النظام.

الأعمال ذات الصلة

أبحاث المعمارية الخفيفة الوزن

تركز الأعمال الموجودة مثل EfficientViT و MobileNetV4 على تقليل الحوسبة لتحقيق الأداء الفوري للجهاز، لكنها محدودة بقيود الطاقة والحوسبة للجهاز.

طرق الحوسبة الموزعة

MPEG AI و JPEG AI: تركز على تقليل النطاق الترددي، تفتقر إلى آليات تعويض التأخير
Clockwork Convnets: إعادة استخدام الميزات القديمة لتقليل التأخير، لكن القدرة على الاستدلال الزمني محدودة
Accel: استخدام تحويل التدفق البصري لميزات النموذج الثقيل، لكن غير مناسب للعمليات عبر الشبكة
Knowledge Boosting: الأكثر صلة بهذه الورقة، لكن يفترض تأخير ثابت

مزايا هذه الورقة

مقارنة بالأعمال ذات الصلة، يعمم Dedelayed على تأخيرات أطول وقابلة للتغيير من خلال تشريط التأخير القابل للتعديل، مع الحفاظ على التصميم البسيط وقابلية إعادة الاستخدام.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينجح Dedelayed في حل التحدي الأساسي للحوسبة البعيدة في الأنظمة الفورية: مشكلة تقادم التنبؤ الناجم عن تأخير الشبكة
من خلال رفع التأخير إلى متغير من الدرجة الأولى، يتفوق النظام على الخطوط الأساسية القوية في ظروف الشبكة الواقعية
الإطار قابل للتطبيق على نطاق واسع من مجالات المشاكل الفورية، مما يجعل الأنظمة الذكية دقيقة وموثوقة وفي الوقت المناسب

القيود

افتراض التأخير الثابت: التنفيذ الحالي موجه بشكل أساسي نحو التأخير النسبي المستقر، مع قدرة محدودة على التكيف مع الرجة الشديدة
النفقات الحسابية: على الرغم من أن النموذج المحلي خفيف الوزن، إلا أنه لا يزال يتطلب حسابات دمج إضافية
قيود مجموعة البيانات: التحقق الرئيسي في مشاهد القيادة، مع عدم التأكد من القابلية للتعميم على مجالات أخرى
الاعتماد على الشبكة: يعتمد بالكامل على الاتصال بالشبكة، ويمكن الاعتماد فقط على النموذج المحلي عند انقطاع الشبكة

الاتجاهات المستقبلية

تقترح الورقة أبحاثًا مستقبلية تشمل:

دراسة توزيعات التأخير المتغيرة والعشوائية
التعامل مع بيانات الحركة العالية
تطوير نماذج محلية أخف وزنًا
استكشاف قدرات التنبؤ المحلي بالمستقبل

التقييم المتعمق

المزايا

أهمية المشكلة: حل مشكلة حاسمة في الحوسبة الطرفية، بقيمة عملية مهمة
ابتكار الطريقة: الجمع بين تضمين التأخير والتدريب على التنبؤ الزمني له جدة
كفاية التجارب: تجارب استئصال شاملة وتحليل رجة التأخير
قوة عملية: استراتيجية دمج بسيطة بناءً على النماذج الموجودة، سهلة النشر
الأساس النظري: مستوحاة من نظام الرؤية البشري، بها معقولية بيولوجية

أوجه القصور

نطاق التقييم محدود: التحقق فقط على مهام تقسيم الدلالات، مع نقص التحقق على مهام أخرى
نطاق التأخير: قد لا يكون أقصى تأخير 165ms كافيًا لتغطية جميع السيناريوهات العملية
تحليل تكاليف الحوسبة غير كافٍ: نقص تحليل تفصيلي لتكاليف الحوسبة والاتصالات
مقارنة مع خطوط أساس أكثر: يمكن المقارنة مع المزيد من طرق الحوسبة الطرفية الحديثة

التأثير

المساهمة الأكاديمية: توفير فكرة حل جديدة للاستدلال التعاوني بين الحافة والسحابة
القيمة العملية: إمكانية تطبيق مباشرة في مجالات القيادة الذاتية والروبوتات وغيرها
قابلية التكرار: توفير كود التنفيذ التفصيلي، يسهل التكرار والتوسع

السيناريوهات المعمول بها

القيادة الذاتية: تحتاج أنظمة المركبات إلى إدراك بيئة فوري ودقيق
الروبوتات المحمولة: الملاحة والتجنب تتطلب استجابة منخفضة التأخير
تطبيقات AR/VR: فهم المشهد الفوري والعرض
المراقبة بالفيديو: كشف الهدف والتتبع الفوري

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

سلسلة نماذج EfficientViT الخفيفة الوزن
مجموعات بيانات BDD100K و Cityscapes
أبحاث الحوسبة الطرفية والاستدلال الموزع
الأبحاث البيولوجية لنظام الرؤية البشري

التقييم الشامل: هذه ورقة عالية الجودة تحل مشكلة عملية، والإطار المقترح Dedelayed له قيمة مهمة من الناحية النظرية والعملية. الطريقة بسيطة وفعالة، والتحقق التجريبي شامل، مما يوفر مساهمة قيمة لمجال الاستدلال التعاوني بين الحافة والسحابة. على الرغم من وجود مجال للتحسين في نطاق التقييم وقدرة معالجة التأخير، إلا أن العمل الشامل يمثل بحثًا ذا معنى.