2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: दूरस्थ अनुमान विलंब को ऑन-डिवाइस सुधार के माध्यम से हटाना

बुनियादी जानकारी

पेपर ID: 2510.13714
शीर्षक: Dedelayed: दूरस्थ अनुमान विलंब को ऑन-डिवाइस सुधार के माध्यम से हटाना
लेखक: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
वर्गीकरण: eess.IV cs.AI cs.CV cs.LG
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13714

सारांश

दूरस्थ अनुमान हल्के-फुल्के उपकरणों को शक्तिशाली क्लाउड मॉडल का लाभ उठाने की अनुमति देता है। हालांकि, संचार नेटवर्क विलंब भविष्यवाणी परिणामों को पुरानी बना देता है, जो वास्तविक समय कार्यों के लिए अनुपयुक्त है। इस समस्या को हल करने के लिए, यह पेपर Dedelayed प्रस्तुत करता है - एक विलंब सुधार विधि जो किसी भी दूरस्थ अनुमान विलंब को कम कर सकती है, जिससे स्थानीय उपकरण वास्तविक समय में कम विलंब आउटपुट उत्पन्न कर सकते हैं। यह विधि वर्तमान फ्रेम को संसाधित करने के लिए एक हल्का स्थानीय मॉडल का उपयोग करती है और भारी दूरस्थ मॉडल से पिछले फ्रेम से गणना की गई विशेषताओं को मिश्रित करती है। BDD100K ड्राइविंग डेटासेट पर वीडियो पर, Dedelayed सभी 33ms से अधिक के वास्तविक संचार नेटवर्क विलंब में शुद्ध स्थानीय और शुद्ध दूरस्थ आधारभूत में से मजबूत की तुलना में सिमेंटिक विभाजन सटीकता में सुधार करता है। 100ms राउंड-ट्रिप विलंब के लिए, अतिरिक्त विलंब उत्पन्न किए बिना, शुद्ध स्थानीय अनुमान की तुलना में 6.4 mIoU और दूरस्थ अनुमान की तुलना में 9.8 mIoU में सुधार होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान जो मुख्य समस्या हल करना चाहता है: वास्तविक समय वीडियो प्रसंस्करण अनुप्रयोगों में, भविष्यवाणी सटीकता सुनिश्चित करते हुए दूरस्थ अनुमान की नेटवर्क विलंब समस्या को कैसे दूर किया जाए।

समस्या की महत्ता

वास्तविक समय अनुप्रयोग की आवश्यकता: स्वायत्त ड्राइविंग, रोबोट नियंत्रण, पहनने योग्य उपकरण आदि अनुप्रयोग विलंब के प्रति अत्यंत संवेदनशील हैं, पुरानी भविष्यवाणियां विनाशकारी परिणाम दे सकती हैं
संसाधन बाधाएं: मोबाइल उपकरण बिजली खपत और कम्प्यूटेशनल क्षमता से सीमित हैं, जटिल गहन शिक्षण मॉडल नहीं चला सकते
क्लाउड लाभ: क्लाउड GPU में शक्तिशाली कम्प्यूटेशनल क्षमता है, उच्च-रिज़ॉल्यूशन वीडियो और जटिल मॉडल को संभाल सकता है

मौजूदा विधियों की सीमाएं

मौजूदा वितरित कम्प्यूटिंग विधियों में तीन मुख्य खामियां हैं:

सभी उपकरण संसाधनों को एकल रैखिक अनुमान पाइपलाइन को आवंटित करते हैं, स्थानीय बैकअप विकल्प के लिए संसाधन आरक्षित नहीं करते
विलंब के भविष्यवाणी सटीकता पर प्रभाव पर विचार नहीं करते
कम्प्यूटेशनल लागत प्रबंधन के लिए स्पेशियो-टेम्पोरल रिज़ॉल्यूशन में महत्वपूर्ण कमी करते हैं, आधुनिक कैमरा सिस्टम की समृद्ध दृश्य विस्तार खो देते हैं

अनुसंधान प्रेरणा

मानव दृश्य प्रणाली से प्रेरित, ऑप्टिक तंत्रिका केवल रेटिना द्वारा प्राप्त जानकारी का एक छोटा हिस्सा प्रसारित कर सकता है, प्रारंभिक प्रसंस्करण मुख्य रूप से संपीड़न करता है, फिर दृश्य प्रांतस्था के गहरे स्तरों में चयापचय-गहन प्रसंस्करण होता है। इसी तरह, डिजिटल वीडियो सेंसर से सुसज्जित मशीनें समान बाधाओं का सामना करती हैं।

मुख्य योगदान

Dedelayed फ्रेमवर्क प्रस्तावित करना: एक विलंब-जागरूक वितरित अनुमान फ्रेमवर्क जो स्थानीय वास्तविक समय जानकारी और दूरस्थ विलंबित विशेषताओं को मिश्रित करके नेटवर्क विलंब प्रभाव को कम करता है
विलंब परिमाणीकरण विश्लेषण: घने दृश्य भविष्यवाणी सटीकता पर विलंब के प्रभाव का मात्रात्मक माप प्रदान करता है
व्यावहारिक प्रणाली सत्यापन: शहरी ड्राइविंग दृश्य वीडियो विभाजन कार्य पर प्रणाली प्रभावशीलता को सत्यापित करता है, मौजूदा स्थानीय या दूरस्थ अनुमान योजनाओं से बेहतर है
सरल और प्रभावी संलयन रणनीति: योजक-आधारित विशेषता संलयन का उपयोग करता है, तैनाती और अन्य वास्तविक समय विधियों तक विस्तार के लिए आसान है

विधि विवरण

कार्य परिभाषा

समय t पर नई ताजी इनपुट फ्रेम x_t दी गई है, अंतिम भविष्यवाणी ŷ_t हल्के स्थानीय मॉडल f_light द्वारा गणना की जाती है, जो x_t को संसाधित करता है और भारी दूरस्थ मॉडल f_heavy से समय विलंबित विशेषताओं z_{t-τ} को मिश्रित करता है।

गणितीय प्रतिनिधित्व:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

मॉडल आर्किटेक्चर

प्रणाली समग्र आर्किटेक्चर

Dedelayed प्रणाली में दो मुख्य घटक हैं:

स्थानीय हल्का मॉडल: वर्तमान फ्रेम को संसाधित करता है, वास्तविक समय प्रतिक्रिया क्षमता प्रदान करता है
दूरस्थ भविष्यवाणी मॉडल: ऐतिहासिक फ्रेम अनुक्रम को संसाधित करता है, उच्च-गुणवत्ता विशेषताएं प्रदान करता है

दूरस्थ भविष्यवाणी मॉड्यूल

2D ViT बैकबोन के रूप में EfficientViT-L1 का उपयोग करता है, प्रभावी पैच आकार 8×8
K सबसे हाल के फ्रेम का संदर्भ विंडो बनाए रखता है
प्रत्येक फ्रेम विशेषताओं को समय अक्ष के साथ जोड़ता है, स्थान को बड़े 16×16 पैच में मिश्रित करता है
मापे गए विलंब τ के आधार पर सीखी गई विलंब एम्बेडिंग जोड़ता है
3D ViT एनकोडर और सीखे गए पूलिंग (MLP-pool-MLP) के माध्यम से विलंब-सशर्त विशेषताएं उत्पन्न करता है

स्थानीय मॉडल और संलयन

पहले चरण की विशेषताएं गणना करता है: h = T1(x_t)
तत्व-वार जोड़ के माध्यम से प्रारंभिक संलयन: h' = h + z_{t-τ}
दोनों टेंसर आकार 96 × H/8 × W/8 हैं, प्रक्षेपण या आकार समायोजन की आवश्यकता नहीं
यदि z_{t-τ} उपलब्ध नहीं है, स्थानीय मॉडल h' = h पर वापस जाता है

तकनीकी नवाचार बिंदु

विलंब एम्बेडिंग तंत्र: पाठ या दृश्य ट्रांसफॉर्मर में स्थिति एम्बेडिंग के समान, दूरस्थ मॉडल को चैनल परिवर्तन के अनुकूल व्यवहार करने की अनुमति देता है
अस्थायी भविष्यवाणी प्रशिक्षण: पर्यवेक्षित प्रशिक्षण के दौरान D फ्रेम विलंब का अनुकरण करता है, दूरस्थ मॉडल को भविष्य की भविष्यवाणी करने के लिए प्रशिक्षित करता है
मिश्रित-रिज़ॉल्यूशन अनुमान: स्थानीय मॉडल कम रिज़ॉल्यूशन का उपयोग करता है, दूरस्थ मॉडल उच्च-रिज़ॉल्यूशन मल्टी-फ्रेम प्रसंस्करण का उपयोग करता है
प्रदर्शन गारंटी: प्रणाली प्रदर्शन कभी भी किसी भी स्वतंत्र मॉडल से बदतर नहीं है

प्रयोगात्मक सेटअप

डेटासेट

BDD100K वीडियो डेटासेट: 30fps ड्राइविंग दृश्य वीडियो शामिल है
पूर्व-प्रशिक्षित EoMT मॉडल का उपयोग करके छद्म लेबल उत्पन्न करता है, कम आत्मविश्वास पिक्सल को अनदेखा करता है
Cityscapes के 19 लेबल उपसमुच्चय का उपयोग करता है
अपस्ट्रीम वीडियो स्ट्रीम को संपीड़ित करने के लिए WebP इमेज कोडेक (गुणवत्ता 85) लागू करता है

मूल्यांकन मेट्रिक्स

mIoU (माध्य प्रतिच्छेदन संघ): सिमेंटिक विभाजन के लिए मानक मूल्यांकन मेट्रिक
विलंब श्रेणी: 0-5 फ्रेम (0-165ms), विशिष्ट राउंड-ट्रिप विलंब का प्रतिनिधित्व करता है

तुलनात्मक विधियां

स्थानीय इमेज: पारंपरिक एकल-फ्रेम स्थानीय अनुमान
दूरस्थ इमेज: पारंपरिक एकल-फ्रेम दूरस्थ अनुमान
दूरस्थ वीडियो: दूरस्थ वीडियो प्रसंस्करण लेकिन भविष्य की भविष्यवाणी नहीं करता
दूरस्थ भविष्यवाणीपूर्ण: विलंब-जागरूक दूरस्थ भविष्यवाणी मॉडल
स्थानीय + दूरस्थ भविष्यवाणीपूर्ण: पूर्ण Dedelayed प्रणाली

कार्यान्वयन विवरण

बहु-चरण प्रशिक्षण रणनीति: दूरस्थ और स्थानीय मॉडल पहले स्वतंत्र रूप से प्रशिक्षित होते हैं, फिर संयुक्त रूप से सूक्ष्म-ट्यून किए जाते हैं
अनुकूलक: Adan अनुकूलक
शिक्षण दर अनुसूची: ट्रेपेज़ॉइडल कोसाइन शिक्षण दर अनुसूची
हानि फ़ंक्शन: क्रॉस-एंट्रॉपी हानि
पूर्व-प्रशिक्षण: ImageNet वर्गीकरण → Cityscapes विभाजन → BDD100K सूक्ष्म-ट्यूनिंग

प्रयोगात्मक परिणाम

मुख्य परिणाम

महत्वपूर्ण प्रदर्शन सुधार:
- 100ms राउंड-ट्रिप विलंब के तहत, शुद्ध स्थानीय अनुमान की तुलना में 6.4 mIoU सुधार
- दूरस्थ अनुमान की तुलना में 9.8 mIoU सुधार
- सभी 33ms से अधिक वास्तविक विलंब में सबसे मजबूत आधारभूत से बेहतर
विलंब मजबूती:
- विलंब जितना लंबा होता है, Dedelayed का लाभ उतना अधिक स्पष्ट होता है
- उच्च गति दृश्यों में बेहतर प्रदर्शन करता है
- विलंब-शमन वितरित अनुमान अधिक प्रभावी रूप से सटीकता बनाए रखता है

विलोपन प्रयोग

प्रयोग प्रत्येक घटक के योगदान को सत्यापित करते हैं:

Remote video vs Remote image: केवल ऐतिहासिक फ्रेम संदर्भ का उपयोग करना प्रदर्शन में सुधार के लिए अपर्याप्त है
Remote predictive vs Remote video: अस्थायी भविष्यवाणी प्रशिक्षण विलंब मजबूती में महत्वपूर्ण सुधार करता है
Local + remote predictive vs Remote predictive: स्थानीय जानकारी संलयन प्रदर्शन में और सुधार करता है

विलंब जिटर विश्लेषण

मॉडल विलंब इनपुट और अवलोकित विलंब के बीच बेमेल होने पर भी अच्छा प्रदर्शन बनाए रखता है
जब अवलोकित विलंब विलंब इनपुट से अधिक होता है, तो प्रदर्शन में धीमी गति से गिरावट आती है
σ=15ms उच्च जिटर नेटवर्क में भी लाभ बनाए रखता है

रिज़ॉल्यूशन अनुकूलन

दूरस्थ-सहायता प्राप्त स्थानीय मॉडल बिना सटीकता खोए कम रिज़ॉल्यूशन पर चल सकता है, प्रणाली की संसाधन दक्षता प्रदर्शित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Dedelayed वास्तविक समय प्रणालियों में दूरस्थ कम्प्यूटिंग की मुख्य चुनौती को सफलतापूर्वक हल करता है: नेटवर्क विलंब के कारण भविष्यवाणी पुरानी होने की समस्या
विलंब को प्रथम-श्रेणी चर के रूप में उन्नत करके, प्रणाली वास्तविक नेटवर्क स्थितियों में मजबूत आधारभूत से बेहतर है
फ्रेमवर्क वास्तविक समय समस्या के विस्तृत क्षेत्र में लागू है, बुद्धिमान प्रणालियों को सटीक और समय पर विश्वसनीय दोनों बनाता है

सीमाएं

निश्चित विलंब धारणा: वर्तमान कार्यान्वयन मुख्य रूप से अपेक्षाकृत स्थिर विलंब के लिए है, चरम जिटर के अनुकूलन में सीमित है
कम्प्यूटेशनल ओवरहेड: हालांकि स्थानीय मॉडल हल्का है, फिर भी अतिरिक्त संलयन कम्प्यूटेशन की आवश्यकता है
डेटासेट सीमाएं: मुख्य रूप से ड्राइविंग दृश्यों पर सत्यापित, अन्य क्षेत्रों में सामान्यीकरण क्षमता प्रतीक्षा में है
नेटवर्क निर्भरता: पूरी तरह से नेटवर्क कनेक्शन पर निर्भर है, नेटवर्क व्यवधान के समय केवल स्थानीय मॉडल पर निर्भर हो सकता है

भविष्य की दिशाएं

पेपर द्वारा प्रस्तावित भविष्य अनुसंधान में शामिल हैं:

परिवर्तनशील और यादृच्छिक विलंब वितरण का अध्ययन करना
उच्च गति डेटा को संभालना
अधिक हल्के स्थानीय मॉडल विकसित करना
स्थानीय भविष्य भविष्यवाणी क्षमता की खोज करना

गहन मूल्यांकन

शक्तियां

समस्या महत्ता: एज कम्प्यूटिंग में महत्वपूर्ण समस्या को हल करता है, महत्वपूर्ण व्यावहारिक मूल्य है
विधि नवाचार: विलंब एम्बेडिंग और अस्थायी भविष्यवाणी प्रशिक्षण का संयोजन नवीन है
प्रयोग पूर्णता: व्यापक विलोपन प्रयोग और विलंब जिटर विश्लेषण
व्यावहारिकता: मौजूदा मॉडल के आधार पर सरल संलयन रणनीति, तैनाती के लिए आसान
सैद्धांतिक आधार: मानव दृश्य प्रणाली से प्रेरित, जैविक तर्कसंगतता है

कमियां

मूल्यांकन श्रेणी सीमित: केवल सिमेंटिक विभाजन कार्य पर सत्यापित, अन्य कार्यों का सत्यापन अभाव है
विलंब श्रेणी: अधिकतम 165ms विलंब सभी वास्तविक परिदृश्यों को कवर करने के लिए अपर्याप्त हो सकता है
कम्प्यूटेशनल लागत विश्लेषण अपर्याप्त: विस्तृत कम्प्यूटेशनल और संचार लागत विश्लेषण की कमी है
अधिक आधारभूत के साथ तुलना: अधिक नवीनतम एज कम्प्यूटिंग विधियों के साथ तुलना कर सकते हैं

प्रभाव

शैक्षणिक योगदान: एज-क्लाउड सहयोगी अनुमान के लिए नई समाधान सोच प्रदान करता है
व्यावहारिक मूल्य: स्वायत्त ड्राइविंग, रोबोटिक्स आदि क्षेत्रों में सीधे अनुप्रयोग संभावना है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

स्वायत्त ड्राइविंग: वाहन प्रणाली को वास्तविक समय और सटीक पर्यावरण संवेदन की आवश्यकता है
मोबाइल रोबोटिक्स: नेविगेशन और बाधा परिहार को कम विलंब प्रतिक्रिया की आवश्यकता है
AR/VR अनुप्रयोग: वास्तविक समय दृश्य समझ और प्रतिपादन
वीडियो निगरानी: वास्तविक समय लक्ष्य पहचान और ट्रैकिंग

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

EfficientViT श्रृंखला हल्के-फुल्के मॉडल
BDD100K और Cityscapes डेटासेट
एज कम्प्यूटिंग और वितरित अनुमान संबंधित अनुसंधान
मानव दृश्य प्रणाली का जैविक अनुसंधान

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला पेपर है जो व्यावहारिक समस्या को हल करता है, प्रस्तावित Dedelayed फ्रेमवर्क सिद्धांत और व्यवहार दोनों में महत्वपूर्ण मूल्य रखता है। विधि सरल और प्रभावी है, प्रयोग सत्यापन पूर्ण है, एज-क्लाउड सहयोगी अनुमान क्षेत्र के लिए मूल्यवान योगदान प्रदान करता है। हालांकि मूल्यांकन श्रेणी और विलंब प्रबंधन क्षमता में सुधार की गुंजाइश है, लेकिन समग्र रूप से यह एक सार्थक अनुसंधान कार्य है।