2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: Удаление задержки удаленного вывода посредством локальной коррекции

Основная информация

  • ID статьи: 2510.13714
  • Название: Dedelayed: Deleting remote inference delay via on-device correction
  • Авторы: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • Классификация: eess.IV cs.AI cs.CV cs.LG
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13714

Аннотация

Удаленный вывод позволяет легким устройствам использовать мощные облачные модели. Однако задержка сетевой коммуникации делает предсказания устаревшими и непригодными для задач реального времени. Для решения этой проблемы в работе представлен Dedelayed — метод коррекции задержки, который смягчает произвольную задержку удаленного вывода и позволяет локальному устройству производить выходные данные с низкой задержкой в реальном времени. Метод использует легкую локальную модель для обработки текущего кадра и объединяет признаки, вычисленные тяжелой удаленной моделью из прошлых кадров. На видео из набора данных BDD100K для вождения Dedelayed улучшает точность семантической сегментации по сравнению с более сильными чистыми локальными и чистыми удаленными базовыми линиями при всех реальных задержках сетевой коммуникации, превышающих 33 мс. При задержке в оба конца 100 мс без дополнительной задержки точность улучшается на 6,4 mIoU по сравнению с чистым локальным выводом и на 9,8 mIoU по сравнению с удаленным выводом.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как преодолеть задержку сетевой коммуникации при удаленном выводе, сохраняя точность предсказания в приложениях обработки видео в реальном времени.

Важность проблемы

  1. Требования приложений реального времени: автономное вождение, управление робототехникой, носимые устройства и другие приложения критически чувствительны к задержке, и устаревшие предсказания могут привести к катастрофическим последствиям
  2. Ограничения ресурсов: мобильные устройства ограничены энергопотреблением и вычислительной мощностью, не могут запускать сложные модели глубокого обучения
  3. Преимущества облака: облачные GPU обладают мощными вычислительными возможностями для обработки видео высокого разрешения и сложных моделей

Ограничения существующих методов

Существующие методы распределенных вычислений имеют три основных недостатка:

  1. Выделяют все ресурсы устройства одному линейному конвейеру вывода без резервирования ресурсов для локального резервного варианта
  2. Не учитывают влияние задержки на точность предсказания
  3. Значительно снижают пространственно-временное разрешение для управления вычислительными затратами, теряя богатые визуальные детали современных систем камер

Исследовательская мотивация

Вдохновленные человеческой зрительной системой, где зрительный нерв может передавать только небольшую часть информации, полученной сетчаткой, с ранней обработкой, выполняющей сжатие, а затем метаболически интенсивной обработкой в глубоких слоях зрительной коры. Аналогично, машины, оснащенные цифровыми видеодатчиками, сталкиваются с аналогичными ограничениями.

Основные вклады

  1. Предложена архитектура Dedelayed: структура распределенного вывода, чувствительная к задержке, которая смягчает влияние сетевой задержки путем объединения локальной информации в реальном времени и отложенных признаков удаленной модели
  2. Количественный анализ задержки: предоставляет количественное измерение влияния задержки на точность плотного визуального предсказания
  3. Верификация практической системы: подтверждает эффективность системы на задаче сегментации видео в городских сценах вождения, превосходя существующие решения чистого локального или удаленного вывода
  4. Простая и эффективная стратегия объединения: использует аддитивное объединение признаков, легко развертываемое и расширяемое на другие методы реального времени

Подробное описание метода

Определение задачи

Для нового свежего входного кадра x_t в момент времени t финальное предсказание ŷ_t вычисляется легкой локальной моделью f_light, которая обрабатывает x_t и объединяет временно отложенные признаки z_{t-τ} из тяжелой удаленной модели f_heavy.

Математическое представление:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Архитектура модели

Общая архитектура системы

Система Dedelayed состоит из двух основных компонентов:

  1. Локальная легкая модель: обрабатывает текущий кадр, обеспечивает способность реагировать в реальном времени
  2. Удаленный модуль предсказания: обрабатывает последовательность исторических кадров, обеспечивает высокачественные признаки

Модуль удаленного предсказания

  • Использует EfficientViT-L1 в качестве 2D ViT-магистрали с эффективным размером патча 8×8
  • Поддерживает окно контекста из K последних кадров
  • Объединяет признаки каждого кадра вдоль временной оси, пространственно объединяя их в более крупные патчи 16×16
  • Добавляет обучаемое встраивание задержки на основе измеренной задержки τ
  • Производит признаки, обусловленные задержкой, через 3D ViT-кодировщик и обучаемое объединение (MLP-pool-MLP)

Локальная модель и объединение

  • Вычисляет признаки первого этапа: h = T1(x_t)
  • Выполняет раннее объединение через поэлементное сложение: h' = h + z_{t-τ}
  • Оба тензора имеют форму 96 × H/8 × W/8, не требуют проекции или изменения размера
  • Если z_{t-τ} недоступен, локальная модель переходит в режим h' = h

Технические инновации

  1. Механизм встраивания задержки: аналогично встраиванию позиций в текстовых или визуальных трансформаторах, позволяет удаленной модели адаптировать поведение к изменениям канала
  2. Обучение временному предсказанию: моделирует задержку D кадров во время контролируемого обучения, обучает удаленную модель предсказывать будущее
  3. Вывод смешанного разрешения: локальная модель использует низкое разрешение, удаленная модель использует высокое разрешение многокадровой обработки
  4. Гарантия производительности: производительность системы никогда не хуже, чем у любой независимой модели

Экспериментальная установка

Набор данных

  • Видеонабор данных BDD100K: содержит видео сценариев вождения с частотой 30 кадров/сек
  • Использует предварительно обученную модель EoMT для генерации псевдометок, игнорирует пиксели с низкой уверенностью
  • Использует подмножество из 19 меток из Cityscapes
  • Применяет кодек изображения WebP (качество 85) для сжатия восходящего видеопотока

Метрики оценки

  • mIoU (средний Intersection over Union): стандартная метрика оценки семантической сегментации
  • Диапазон задержки: 0-5 кадров (0-165 мс), представляющий типичную задержку в оба конца

Методы сравнения

  1. Local image: традиционный однокадровый локальный вывод
  2. Remote image: традиционный однокадровый удаленный вывод
  3. Remote video: удаленная обработка видео без предсказания будущего
  4. Remote predictive: модель удаленного предсказания, чувствительная к задержке
  5. Local + remote predictive: полная система Dedelayed

Детали реализации

  • Многоэтапная стратегия обучения: удаленная и локальная модели сначала обучаются независимо, затем совместно настраиваются
  • Оптимизатор: оптимизатор Adan
  • График обучения: график обучения трапециевидного косинуса
  • Функция потерь: кроссэнтропийная потеря
  • Предварительное обучение: классификация ImageNet → сегментация Cityscapes → тонкая настройка BDD100K

Результаты экспериментов

Основные результаты

  1. Значительное улучшение производительности:
    • При задержке в оба конца 100 мс улучшение на 6,4 mIoU по сравнению с чистым локальным выводом
    • Улучшение на 9,8 mIoU по сравнению с удаленным выводом
    • Превосходит самую сильную базовую линию при всех реальных задержках, превышающих 33 мс
  2. Устойчивость к задержке:
    • Чем больше задержка, тем более очевидно преимущество Dedelayed
    • Лучшая производительность в сценах с высокой динамикой
    • Распределенный вывод с коррекцией задержки более эффективно поддерживает точность

Абляционные исследования

Эксперименты подтверждают вклад каждого компонента:

  • Remote video vs Remote image: использование только контекста исторических кадров недостаточно для улучшения производительности
  • Remote predictive vs Remote video: обучение временному предсказанию значительно повышает устойчивость к задержке
  • Local + remote predictive vs Remote predictive: объединение локальной информации дополнительно улучшает производительность

Анализ дрожания задержки

  • Модель сохраняет хорошую производительность при несоответствии входной задержки и наблюдаемой задержки
  • Когда наблюдаемая задержка превышает входную задержку, производительность снижается более плавно
  • Сохраняет преимущество в сетях с высоким дрожанием σ=15 мс

Адаптивность разрешения

Локальная модель, дополняемая удаленной помощью, может работать при более низком разрешении без потери точности, демонстрируя ресурсную эффективность системы.

Связанные работы

Исследования легких архитектур

Существующие работы, такие как EfficientViT, MobileNetV4, сосредоточены на минимизации вычислений для достижения производительности устройства в реальном времени, но ограничены энергопотреблением и вычислительными возможностями устройства.

Методы распределенных вычислений

  • MPEG AI и JPEG AI: сосредоточены на снижении пропускной способности, не имеют механизмов компенсации задержки
  • Clockwork Convnets: повторное использование устаревших признаков для снижения задержки, но ограниченные возможности временного вывода
  • Accel: использует преобразование оптического потока для переноса признаков тяжелой модели, но не применимо для операций через сеть
  • Knowledge Boosting: наиболее близко к данной работе, но предполагает фиксированную задержку

Преимущества данной работы

По сравнению с связанными работами Dedelayed обобщает на более длительные и переменные задержки путем обусловливания переменной задержкой, сохраняя при этом простоту проектирования и переиспользуемость.

Заключение и обсуждение

Основные выводы

  1. Dedelayed успешно решает основную проблему удаленных вычислений в системах реального времени: проблему устаревания предсказаний из-за сетевой задержки
  2. Путем возведения задержки в статус переменной первого класса система превосходит сильные базовые линии в реальных условиях сети
  3. Структура применима к широкому спектру проблем реального времени, делая интеллектуальные системы одновременно точными и надежно своевременными

Ограничения

  1. Предположение о фиксированной задержке: текущая реализация в основном ориентирована на относительно стабильную задержку, адаптивность к экстремальному дрожанию ограничена
  2. Вычислительные затраты: хотя локальная модель легкая, все еще требует дополнительных вычислений объединения
  3. Ограничения набора данных: в основном проверена на сценариях вождения, обобщаемость на другие области требует проверки
  4. Зависимость от сети: полностью зависит от сетевого соединения, при разрыве сети может полагаться только на локальную модель

Направления будущих исследований

Предложенные в статье направления будущих исследований включают:

  1. Исследование переменных и случайных распределений задержки
  2. Обработка данных с высокой динамикой
  3. Разработка более легких локальных моделей
  4. Исследование способностей локального предсказания будущего

Глубокая оценка

Преимущества

  1. Важность проблемы: решает ключевую проблему в граничных вычислениях, имеет значительную практическую ценность
  2. Инновационность метода: комбинация встраивания задержки и обучения временному предсказанию является новой
  3. Полнота экспериментов: всесторонние абляционные исследования и анализ дрожания задержки
  4. Сильная практичность: простая стратегия объединения на основе существующих моделей, легко развертывается
  5. Теоретическая основа: вдохновлена человеческой зрительной системой, имеет биологическую обоснованность

Недостатки

  1. Ограниченный диапазон оценки: проверена только на задаче семантической сегментации, отсутствует проверка на других задачах
  2. Диапазон задержки: максимальная задержка 165 мс может быть недостаточна для охвата всех практических сценариев
  3. Недостаточный анализ вычислительных затрат: отсутствует подробный анализ вычислительных и коммуникационных затрат
  4. Сравнение с большим количеством базовых линий: можно сравнить с большим количеством новейших методов граничных вычислений

Влияние

  1. Академический вклад: предоставляет новый подход к совместному выводу на границе и облаке
  2. Практическая ценность: имеет прямой потенциал применения в автономном вождении, робототехнике и других областях
  3. Воспроизводимость: предоставляет подробный код реализации, облегчает воспроизведение и расширение

Применимые сценарии

  1. Автономное вождение: бортовые системы требуют восприятия окружающей среды в реальном времени и с высокой точностью
  2. Мобильные роботы: навигация и избежание препятствий требуют ответа с низкой задержкой
  3. Приложения AR/VR: понимание сцены в реальном времени и рендеринг
  4. Видеонаблюдение: обнаружение и отслеживание целей в реальном времени

Библиография

Статья цитирует важные работы в соответствующих областях, включая:

  • Серию легких моделей EfficientViT
  • Наборы данных BDD100K и Cityscapes
  • Исследования граничных вычислений и распределенного вывода
  • Биологические исследования человеческой зрительной системы

Общая оценка: Это высококачественная статья, решающая практические проблемы. Предложенная архитектура Dedelayed имеет значительную ценность как в теории, так и на практике. Метод прост и эффективен, экспериментальная проверка полна, что обеспечивает ценный вклад в область совместного вывода на границе и облаке. Хотя есть место для улучшения в диапазоне оценки и способности обработки задержки, в целом это значимая исследовательская работа.