2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: Deleting remote inference delay via on-device correction

基本信息

  • 论文ID: 2510.13714
  • 标题: Dedelayed: Deleting remote inference delay via on-device correction
  • 作者: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • 分类: eess.IV cs.AI cs.CV cs.LG
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13714

摘要

远程推理允许轻量级设备利用强大的云端模型。然而,通信网络延迟使预测结果过时,不适合实时任务。为解决这一问题,本文引入了Dedelayed,一种延迟校正方法,可缓解任意远程推理延迟,允许本地设备实时产生低延迟输出。该方法采用轻量级本地模型处理当前帧,并融合重量级远程模型从过去帧计算的特征。在BDD100K驾驶数据集的视频上,Dedelayed在所有超过33ms的现实通信网络延迟中,相比纯本地和纯远程基线中的较强者都提高了语义分割精度。在不产生额外延迟的情况下,对于100ms往返延迟,相比纯本地推理提高了6.4 mIoU,相比远程推理提高了9.8 mIoU。

研究背景与动机

问题定义

本研究要解决的核心问题是:在实时视频处理应用中,如何在保证预测精度的同时克服远程推理的网络延迟问题。

问题重要性

  1. 实时应用需求:自动驾驶、机器人控制、可穿戴设备等应用对延迟极其敏感,过时的预测可能导致灾难性后果
  2. 资源约束:移动设备受到功耗和计算能力限制,无法运行复杂的深度学习模型
  3. 云端优势:云端GPU具有强大的计算能力,可以处理高分辨率视频和复杂模型

现有方法局限性

现有分布式计算方法存在三个主要缺陷:

  1. 将所有设备资源分配给单一线性推理管道,没有为本地备用方案预留资源
  2. 未考虑延迟对预测精度的影响
  3. 为管理计算成本而显著降低时空分辨率,丢失了现代相机系统的丰富视觉细节

研究动机

受人类视觉系统启发,视神经只能传输视网膜接收信息的一小部分,早期处理主要进行压缩,然后在视觉皮层深层进行代谢密集型处理。类似地,配备数字视频传感器的机器也面临相似约束。

核心贡献

  1. 提出Dedelayed框架:一种延迟感知的分布式推理框架,通过融合本地实时信息和远程延迟特征来缓解网络延迟影响
  2. 延迟量化分析:提供了延迟对密集视觉预测精度影响的定量测量
  3. 实际系统验证:在城市驾驶场景视频分割任务上验证了系统有效性,超越了现有本地或远程推理方案
  4. 简单有效的融合策略:采用基于加法的特征融合,易于部署和扩展到其他实时方法

方法详解

任务定义

给定时刻t的新鲜输入帧x_t,最终预测ŷ_t通过轻量级本地模型f_light计算,该模型处理x_t并融合来自重量级远程模型f_heavy的时间延迟特征z_{t-τ}。

数学表示:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

模型架构

系统整体架构

Dedelayed系统包含两个主要组件:

  1. 本地轻量级模型:处理当前帧,提供实时响应能力
  2. 远程预测模型:处理历史帧序列,提供高质量特征

远程预测模块

  • 使用EfficientViT-L1作为2D ViT骨干网络,有效patch大小为8×8
  • 维护K个最近帧的上下文窗口
  • 沿时间轴连接每帧特征,空间合并为更大的16×16 patch
  • 添加基于测量延迟τ的学习延迟嵌入
  • 通过3D ViT编码器和学习池化(MLP-pool-MLP)产生延迟条件特征

本地模型和融合

  • 计算第一阶段特征:h = T1(x_t)
  • 通过逐元素加法进行早期融合:h' = h + z_{t-τ}
  • 两个张量形状均为96 × H/8 × W/8,无需投影或调整大小
  • 如果z_{t-τ}不可用,本地模型回退到h' = h

技术创新点

  1. 延迟嵌入机制:类似于文本或视觉transformer中的位置嵌入,允许远程模型行为适应信道变化
  2. 时间预测训练:在监督训练期间模拟D帧延迟,训练远程模型预测未来
  3. 混合分辨率推理:本地模型使用低分辨率,远程模型使用高分辨率多帧处理
  4. 性能保证:系统性能永远不会差于任一独立模型

实验设置

数据集

  • BDD100K视频数据集:包含30fps的驾驶场景视频
  • 使用预训练EoMT模型生成伪标签,忽略低置信度像素
  • 使用Cityscapes的19个标签子集
  • 应用WebP图像编解码器(质量85)对上行视频流进行压缩

评价指标

  • mIoU (mean Intersection over Union):语义分割的标准评价指标
  • 延迟范围:0-5帧(0-165ms),代表典型往返延迟

对比方法

  1. Local image:传统单帧本地推理
  2. Remote image:传统单帧远程推理
  3. Remote video:远程视频处理但不预测未来
  4. Remote predictive:延迟感知的远程预测模型
  5. Local + remote predictive:完整Dedelayed系统

实现细节

  • 多阶段训练策略:远程和本地模型先独立训练,后联合微调
  • 优化器:Adan优化器
  • 学习率调度:梯形余弦学习率调度
  • 损失函数:交叉熵损失
  • 预训练:ImageNet分类 → Cityscapes分割 → BDD100K微调

实验结果

主要结果

  1. 显著性能提升
    • 100ms往返延迟下,相比纯本地推理提高6.4 mIoU
    • 相比远程推理提高9.8 mIoU
    • 在所有超过33ms的现实延迟下都优于最强基线
  2. 延迟鲁棒性
    • 延迟越长,Dedelayed的优势越明显
    • 在高运动场景中表现更好
    • 延迟缓解的分布式推理更有效地维持精度

消融实验

实验验证了各组件的贡献:

  • Remote video vs Remote image:仅使用历史帧上下文不足以改善性能
  • Remote predictive vs Remote video:时间预测训练显著提升延迟鲁棒性
  • Local + remote predictive vs Remote predictive:本地信息融合进一步提升性能

延迟抖动分析

  • 模型在延迟输入与观测延迟不匹配时仍保持良好性能
  • 当观测延迟超过延迟输入时,性能下降较缓
  • 在σ=15ms高抖动网络中仍维持优势

分辨率适应性

远程辅助的本地模型能在更低分辨率下运行而不损失精度,展示了系统的资源效率。

相关工作

轻量级架构研究

现有工作如EfficientViT、MobileNetV4专注于最小化计算以实现实时设备性能,但受设备功耗和计算限制。

分布式计算方法

  • MPEG AI和JPEG AI:专注于带宽减少,缺乏延迟补偿机制
  • Clockwork Convnets:重用过时特征减少延迟,但时间推理能力有限
  • Accel:使用光流前向变换重模型特征,但不适用于跨网络操作
  • Knowledge Boosting:与本文最相关,但假设固定延迟

本文优势

相比相关工作,Dedelayed通过可调延迟条件化泛化到更长和可变延迟,同时保持设计简单和可重用。

结论与讨论

主要结论

  1. Dedelayed成功解决了实时系统中远程计算的核心挑战:网络延迟导致的预测过时问题
  2. 通过将延迟提升为一等变量,系统在现实网络条件下超越了强基线
  3. 框架适用于广泛的实时问题领域,使智能系统既准确又及时可靠

局限性

  1. 固定延迟假设:当前实现主要针对相对稳定的延迟,对极端抖动的适应性有限
  2. 计算开销:虽然本地模型轻量,但仍需要额外的融合计算
  3. 数据集局限:主要在驾驶场景上验证,其他领域的泛化性待验证
  4. 网络依赖:完全依赖网络连接,网络中断时只能依靠本地模型

未来方向

论文提出的未来研究包括:

  1. 研究可变和随机延迟分布
  2. 处理高运动数据
  3. 开发更轻量的本地模型
  4. 探索本地未来预测能力

深度评价

优点

  1. 问题重要性:解决了边缘计算中的关键问题,具有重要实用价值
  2. 方法创新性:延迟嵌入和时间预测训练的结合具有新颖性
  3. 实验充分性:全面的消融实验和延迟抖动分析
  4. 实用性强:基于现有模型的简单融合策略,易于部署
  5. 理论基础:受人类视觉系统启发,具有生物学合理性

不足

  1. 评估范围有限:仅在语义分割任务上验证,缺乏其他任务的验证
  2. 延迟范围:最大165ms延迟可能不足以覆盖所有实际场景
  3. 计算成本分析不足:缺乏详细的计算和通信成本分析
  4. 与更多基线对比:可以与更多最新的边缘计算方法对比

影响力

  1. 学术贡献:为边缘-云协同推理提供了新的解决思路
  2. 实用价值:在自动驾驶、机器人等领域有直接应用潜力
  3. 可复现性:提供了详细的实现代码,便于复现和扩展

适用场景

  1. 自动驾驶:车载系统需要实时且准确的环境感知
  2. 移动机器人:导航和避障需要低延迟响应
  3. AR/VR应用:实时场景理解和渲染
  4. 视频监控:实时目标检测和跟踪

参考文献

论文引用了相关领域的重要工作,包括:

  • EfficientViT系列轻量级模型
  • BDD100K和Cityscapes数据集
  • 边缘计算和分布式推理相关研究
  • 人类视觉系统的生物学研究

总体评价:这是一篇解决实际问题的高质量论文,提出的Dedelayed框架在理论和实践上都具有重要价值。方法简单有效,实验验证充分,为边缘-云协同推理领域提供了有价值的贡献。虽然在评估范围和延迟处理能力上还有改进空间,但整体上是一项有意义的研究工作。