Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed: Удаление задержки удаленного вывода посредством локальной коррекции
Удаленный вывод позволяет легким устройствам использовать мощные облачные модели. Однако задержка сетевой коммуникации делает предсказания устаревшими и непригодными для задач реального времени. Для решения этой проблемы в работе представлен Dedelayed — метод коррекции задержки, который смягчает произвольную задержку удаленного вывода и позволяет локальному устройству производить выходные данные с низкой задержкой в реальном времени. Метод использует легкую локальную модель для обработки текущего кадра и объединяет признаки, вычисленные тяжелой удаленной моделью из прошлых кадров. На видео из набора данных BDD100K для вождения Dedelayed улучшает точность семантической сегментации по сравнению с более сильными чистыми локальными и чистыми удаленными базовыми линиями при всех реальных задержках сетевой коммуникации, превышающих 33 мс. При задержке в оба конца 100 мс без дополнительной задержки точность улучшается на 6,4 mIoU по сравнению с чистым локальным выводом и на 9,8 mIoU по сравнению с удаленным выводом.
Основная проблема, которую решает данное исследование: как преодолеть задержку сетевой коммуникации при удаленном выводе, сохраняя точность предсказания в приложениях обработки видео в реальном времени.
Требования приложений реального времени: автономное вождение, управление робототехникой, носимые устройства и другие приложения критически чувствительны к задержке, и устаревшие предсказания могут привести к катастрофическим последствиям
Ограничения ресурсов: мобильные устройства ограничены энергопотреблением и вычислительной мощностью, не могут запускать сложные модели глубокого обучения
Преимущества облака: облачные GPU обладают мощными вычислительными возможностями для обработки видео высокого разрешения и сложных моделей
Существующие методы распределенных вычислений имеют три основных недостатка:
Выделяют все ресурсы устройства одному линейному конвейеру вывода без резервирования ресурсов для локального резервного варианта
Не учитывают влияние задержки на точность предсказания
Значительно снижают пространственно-временное разрешение для управления вычислительными затратами, теряя богатые визуальные детали современных систем камер
Вдохновленные человеческой зрительной системой, где зрительный нерв может передавать только небольшую часть информации, полученной сетчаткой, с ранней обработкой, выполняющей сжатие, а затем метаболически интенсивной обработкой в глубоких слоях зрительной коры. Аналогично, машины, оснащенные цифровыми видеодатчиками, сталкиваются с аналогичными ограничениями.
Предложена архитектура Dedelayed: структура распределенного вывода, чувствительная к задержке, которая смягчает влияние сетевой задержки путем объединения локальной информации в реальном времени и отложенных признаков удаленной модели
Количественный анализ задержки: предоставляет количественное измерение влияния задержки на точность плотного визуального предсказания
Верификация практической системы: подтверждает эффективность системы на задаче сегментации видео в городских сценах вождения, превосходя существующие решения чистого локального или удаленного вывода
Простая и эффективная стратегия объединения: использует аддитивное объединение признаков, легко развертываемое и расширяемое на другие методы реального времени
Для нового свежего входного кадра x_t в момент времени t финальное предсказание ŷ_t вычисляется легкой локальной моделью f_light, которая обрабатывает x_t и объединяет временно отложенные признаки z_{t-τ} из тяжелой удаленной модели f_heavy.
Механизм встраивания задержки: аналогично встраиванию позиций в текстовых или визуальных трансформаторах, позволяет удаленной модели адаптировать поведение к изменениям канала
Обучение временному предсказанию: моделирует задержку D кадров во время контролируемого обучения, обучает удаленную модель предсказывать будущее
Вывод смешанного разрешения: локальная модель использует низкое разрешение, удаленная модель использует высокое разрешение многокадровой обработки
Гарантия производительности: производительность системы никогда не хуже, чем у любой независимой модели
Локальная модель, дополняемая удаленной помощью, может работать при более низком разрешении без потери точности, демонстрируя ресурсную эффективность системы.
Существующие работы, такие как EfficientViT, MobileNetV4, сосредоточены на минимизации вычислений для достижения производительности устройства в реальном времени, но ограничены энергопотреблением и вычислительными возможностями устройства.
По сравнению с связанными работами Dedelayed обобщает на более длительные и переменные задержки путем обусловливания переменной задержкой, сохраняя при этом простоту проектирования и переиспользуемость.
Предположение о фиксированной задержке: текущая реализация в основном ориентирована на относительно стабильную задержку, адаптивность к экстремальному дрожанию ограничена
Вычислительные затраты: хотя локальная модель легкая, все еще требует дополнительных вычислений объединения
Ограничения набора данных: в основном проверена на сценариях вождения, обобщаемость на другие области требует проверки
Зависимость от сети: полностью зависит от сетевого соединения, при разрыве сети может полагаться только на локальную модель
Статья цитирует важные работы в соответствующих областях, включая:
Серию легких моделей EfficientViT
Наборы данных BDD100K и Cityscapes
Исследования граничных вычислений и распределенного вывода
Биологические исследования человеческой зрительной системы
Общая оценка: Это высококачественная статья, решающая практические проблемы. Предложенная архитектура Dedelayed имеет значительную ценность как в теории, так и на практике. Метод прост и эффективен, экспериментальная проверка полна, что обеспечивает ценный вклад в область совместного вывода на границе и облаке. Хотя есть место для улучшения в диапазоне оценки и способности обработки задержки, в целом это значимая исследовательская работа.