Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed: حذف تأخير الاستدلال البعيد عبر التصحيح على الجهاز
يسمح الاستدلال البعيد للأجهزة الخفيفة بالاستفادة من نماذج سحابية قوية. ومع ذلك، فإن تأخير الشبكة يجعل النتائج المتنبأ بها قديمة وغير مناسبة للمهام الفورية. لحل هذه المشكلة، تقدم هذه الورقة Dedelayed، وهي طريقة تصحيح التأخير التي تخفف من أي تأخير استدلال بعيد، مما يسمح للجهاز المحلي بإنتاج مخرجات منخفضة التأخير في الوقت الفعلي. تستخدم الطريقة نموذج محلي خفيف الوزن لمعالجة الإطار الحالي وتدمج الميزات المحسوبة من نموذج بعيد ثقيل من الإطارات السابقة. على مقاطع فيديو مجموعة بيانات BDD100K للقيادة، يحسّن Dedelayed دقة تقسيم الدلالات في جميع تأخيرات الشبكة الاتصالية الواقعية التي تتجاوز 33ms مقارنة بأقوى الخطوط الأساسية المحلية والبعيدة البحتة. بدون إنتاج تأخير إضافي، بالنسبة لتأخير ذهاب وإياب بمدة 100ms، يحسّن بمقدار 6.4 mIoU مقارنة بالاستدلال المحلي البحت و9.8 mIoU مقارنة بالاستدلال البعيد.
المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: كيفية التغلب على تأخير الشبكة في الاستدلال البعيد مع الحفاظ على دقة التنبؤ في تطبيقات معالجة الفيديو في الوقت الفعلي.
متطلبات التطبيقات الفورية: تطبيقات مثل القيادة الذاتية والتحكم الروبوتي والأجهزة القابلة للارتداء حساسة للغاية تجاه التأخير، وقد تؤدي التنبؤات القديمة إلى عواقب كارثية
القيود على الموارد: الأجهزة المحمولة محدودة بقيود الطاقة والقدرة الحسابية، ولا يمكنها تشغيل نماذج التعلم العميق المعقدة
مزايا السحابة: وحدات معالجة الرسومات السحابية تتمتع بقدرة حسابية قوية، ويمكنها معالجة الفيديو عالي الدقة والنماذج المعقدة
مستوحاة من نظام الرؤية البشري، حيث يمكن للعصب البصري فقط نقل جزء صغير من المعلومات التي يستقبلها الشبكية، والمعالجة المبكرة تقوم بشكل أساسي بالضغط، ثم تحدث المعالجة الكثيفة الأيض في الطبقات العميقة من القشرة البصرية. وبالمثل، تواجه الآلات المزودة بأجهزة استشعار فيديو رقمية قيودًا مماثلة.
اقتراح إطار عمل Dedelayed: إطار عمل استدلال موزع يدرك التأخير، يخفف من تأثير تأخير الشبكة من خلال دمج المعلومات المحلية الفورية والميزات البعيدة المتأخرة
تحليل كمي للتأخير: توفير قياس كمي لتأثير التأخير على دقة التنبؤ البصري الكثيف
التحقق من النظام العملي: التحقق من فعالية النظام على مهام تقسيم الفيديو في سيناريوهات القيادة الحضرية، متفوقة على خطوط الأساس الموجودة للاستدلال المحلي أو البعيد
استراتيجية دمج بسيطة وفعالة: استخدام دمج الميزات القائم على الإضافة، سهل النشر والتوسع إلى طرق فورية أخرى
بالنظر إلى إطار إدخال جديد x_t في الوقت t، يتم حساب التنبؤ النهائي ŷ_t من خلال نموذج محلي خفيف الوزن f_light، الذي يعالج x_t ويدمج الميزات المتأخرة زمنيًا z_{t-τ} من نموذج بعيد ثقيل الوزن f_heavy.
مقارنة بالأعمال ذات الصلة، يعمم Dedelayed على تأخيرات أطول وقابلة للتغيير من خلال تشريط التأخير القابل للتعديل، مع الحفاظ على التصميم البسيط وقابلية إعادة الاستخدام.
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:
سلسلة نماذج EfficientViT الخفيفة الوزن
مجموعات بيانات BDD100K و Cityscapes
أبحاث الحوسبة الطرفية والاستدلال الموزع
الأبحاث البيولوجية لنظام الرؤية البشري
التقييم الشامل: هذه ورقة عالية الجودة تحل مشكلة عملية، والإطار المقترح Dedelayed له قيمة مهمة من الناحية النظرية والعملية. الطريقة بسيطة وفعالة، والتحقق التجريبي شامل، مما يوفر مساهمة قيمة لمجال الاستدلال التعاوني بين الحافة والسحابة. على الرغم من وجود مجال للتحسين في نطاق التقييم وقدرة معالجة التأخير، إلا أن العمل الشامل يمثل بحثًا ذا معنى.