2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: Deleting remote inference delay via on-device correction

基本信息

论文ID: 2510.13714
标题: Dedelayed: Deleting remote inference delay via on-device correction
作者: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
分类: eess.IV cs.AI cs.CV cs.LG
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13714

摘要

远程推理允许轻量级设备利用强大的云端模型。然而，通信网络延迟使预测结果过时，不适合实时任务。为解决这一问题，本文引入了Dedelayed，一种延迟校正方法，可缓解任意远程推理延迟，允许本地设备实时产生低延迟输出。该方法采用轻量级本地模型处理当前帧，并融合重量级远程模型从过去帧计算的特征。在BDD100K驾驶数据集的视频上，Dedelayed在所有超过33ms的现实通信网络延迟中，相比纯本地和纯远程基线中的较强者都提高了语义分割精度。在不产生额外延迟的情况下，对于100ms往返延迟，相比纯本地推理提高了6.4 mIoU，相比远程推理提高了9.8 mIoU。

研究背景与动机

问题定义

本研究要解决的核心问题是：在实时视频处理应用中，如何在保证预测精度的同时克服远程推理的网络延迟问题。

问题重要性

实时应用需求：自动驾驶、机器人控制、可穿戴设备等应用对延迟极其敏感，过时的预测可能导致灾难性后果
资源约束：移动设备受到功耗和计算能力限制，无法运行复杂的深度学习模型
云端优势：云端GPU具有强大的计算能力，可以处理高分辨率视频和复杂模型

现有方法局限性

现有分布式计算方法存在三个主要缺陷：

将所有设备资源分配给单一线性推理管道，没有为本地备用方案预留资源
未考虑延迟对预测精度的影响
为管理计算成本而显著降低时空分辨率，丢失了现代相机系统的丰富视觉细节

研究动机

受人类视觉系统启发，视神经只能传输视网膜接收信息的一小部分，早期处理主要进行压缩，然后在视觉皮层深层进行代谢密集型处理。类似地，配备数字视频传感器的机器也面临相似约束。

核心贡献

提出Dedelayed框架：一种延迟感知的分布式推理框架，通过融合本地实时信息和远程延迟特征来缓解网络延迟影响
延迟量化分析：提供了延迟对密集视觉预测精度影响的定量测量
实际系统验证：在城市驾驶场景视频分割任务上验证了系统有效性，超越了现有本地或远程推理方案
简单有效的融合策略：采用基于加法的特征融合，易于部署和扩展到其他实时方法

方法详解

任务定义

给定时刻t的新鲜输入帧x_t，最终预测ŷ_t通过轻量级本地模型f_light计算，该模型处理x_t并融合来自重量级远程模型f_heavy的时间延迟特征z_{t-τ}。

数学表示：

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

模型架构

系统整体架构

Dedelayed系统包含两个主要组件：

本地轻量级模型：处理当前帧，提供实时响应能力
远程预测模型：处理历史帧序列，提供高质量特征

远程预测模块

使用EfficientViT-L1作为2D ViT骨干网络，有效patch大小为8×8
维护K个最近帧的上下文窗口
沿时间轴连接每帧特征，空间合并为更大的16×16 patch
添加基于测量延迟τ的学习延迟嵌入
通过3D ViT编码器和学习池化(MLP-pool-MLP)产生延迟条件特征

本地模型和融合

计算第一阶段特征：h = T1(x_t)
通过逐元素加法进行早期融合：h' = h + z_{t-τ}
两个张量形状均为96 × H/8 × W/8，无需投影或调整大小
如果z_{t-τ}不可用，本地模型回退到h' = h

技术创新点

延迟嵌入机制：类似于文本或视觉transformer中的位置嵌入，允许远程模型行为适应信道变化
时间预测训练：在监督训练期间模拟D帧延迟，训练远程模型预测未来
混合分辨率推理：本地模型使用低分辨率，远程模型使用高分辨率多帧处理
性能保证：系统性能永远不会差于任一独立模型

实验设置

数据集

BDD100K视频数据集：包含30fps的驾驶场景视频
使用预训练EoMT模型生成伪标签，忽略低置信度像素
使用Cityscapes的19个标签子集
应用WebP图像编解码器(质量85)对上行视频流进行压缩

评价指标

mIoU (mean Intersection over Union)：语义分割的标准评价指标
延迟范围：0-5帧(0-165ms)，代表典型往返延迟

对比方法

Local image：传统单帧本地推理
Remote image：传统单帧远程推理
Remote video：远程视频处理但不预测未来
Remote predictive：延迟感知的远程预测模型
Local + remote predictive：完整Dedelayed系统

实现细节

多阶段训练策略：远程和本地模型先独立训练，后联合微调
优化器：Adan优化器
学习率调度：梯形余弦学习率调度
损失函数：交叉熵损失
预训练：ImageNet分类 → Cityscapes分割 → BDD100K微调

实验结果

主要结果

显著性能提升：
- 100ms往返延迟下，相比纯本地推理提高6.4 mIoU
- 相比远程推理提高9.8 mIoU
- 在所有超过33ms的现实延迟下都优于最强基线
延迟鲁棒性：
- 延迟越长，Dedelayed的优势越明显
- 在高运动场景中表现更好
- 延迟缓解的分布式推理更有效地维持精度