Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
論文ID : 2510.13714タイトル : Dedelayed: Deleting remote inference delay via on-device correction著者 : Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar分類 : eess.IV cs.AI cs.CV cs.LG発表日時 : 2025年10月15日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13714 リモート推論により、軽量デバイスは強力なクラウドモデルを活用できます。しかし、通信ネットワーク遅延により予測結果が陳腐化し、リアルタイムタスクに不適切になります。この問題を解決するため、本論文ではDedelayedを提案します。これは遅延補正手法であり、任意のリモート推論遅延を緩和し、ローカルデバイスがリアルタイムで低遅延出力を生成することを可能にします。本手法は軽量なローカルモデルで現在フレームを処理し、重量級のリモートモデルが過去フレームから計算した特徴と融合します。BDD100Kドライビングデータセットのビデオ上で、Dedelayedは33msを超えるすべての現実的な通信ネットワーク遅延において、純粋なローカルおよび純粋なリモートベースラインの強い方よりもセマンティックセグメンテーション精度を向上させました。追加遅延を生じさせることなく、100msの往復遅延に対して、純粋なローカル推論と比較して6.4 mIoU、リモート推論と比較して9.8 mIoU向上しました。
本研究が解決する中核的な問題は、リアルタイムビデオ処理アプリケーションにおいて、予測精度を保証しながらリモート推論のネットワーク遅延問題をいかに克服するかです。
リアルタイムアプリケーションの需要 :自動運転、ロボット制御、ウェアラブルデバイスなどのアプリケーションは遅延に極めて敏感であり、陳腐化した予測は壊滅的な結果をもたらす可能性がありますリソース制約 :モバイルデバイスは消費電力と計算能力の制限を受けており、複雑なディープラーニングモデルを実行できませんクラウドの利点 :クラウドGPUは強力な計算能力を備えており、高解像度ビデオと複雑なモデルを処理できます既存の分散計算手法には3つの主要な欠陥があります:
すべてのデバイスリソースを単一の線形推論パイプラインに割り当て、ローカルバックアップソリューション用のリソースを予約していない 遅延が予測精度に与える影響を考慮していない 計算コスト管理のため時空間解像度を大幅に低下させ、最新のカメラシステムの豊富な視覚情報を失っている 人間の視覚システムに着想を得ています。視神経は網膜が受け取る情報のごく一部しか伝送できず、初期処理は主に圧縮を行い、その後視覚皮質の深い層で代謝集約的な処理が行われます。同様に、デジタルビデオセンサーを備えた機械も同様の制約に直面しています。
Dedelayedフレームワークの提案 :遅延認識型分散推論フレームワークであり、ローカルリアルタイム情報とリモート遅延特徴を融合してネットワーク遅延の影響を緩和します遅延の定量化分析 :遅延が密集視覚予測精度に与える影響の定量的測定を提供します実際のシステム検証 :都市運転シーンのビデオセグメンテーションタスクでシステムの有効性を検証し、既存のローカルまたはリモート推論方案を上回りますシンプルで効果的な融合戦略 :加算ベースの特徴融合を採用し、展開と他のリアルタイム手法への拡張が容易です時刻tの新しい入力フレームx_tが与えられたとき、最終予測ŷ_tは軽量ローカルモデルf_lightで計算されます。このモデルはx_tを処理し、重量級リモートモデルf_heavyから時間遅延特徴z_{t-τ}と融合します。
数学的表現:
z_{t-τ} = f_heavy(τ, x_{≤t-τ}) (1)
ŷ_t = f_light(x_t, z_{t-τ}) (2)
Dedelayedシステムは2つの主要コンポーネントで構成されます:
ローカル軽量モデル :現在フレームを処理し、リアルタイム応答能力を提供しますリモート予測モデル :履歴フレームシーケンスを処理し、高品質特徴を提供しますEfficientViT-L1を2D ViT骨格ネットワークとして使用、有効パッチサイズは8×8 最近K個フレームのコンテキストウィンドウを維持 各フレーム特徴を時間軸に沿って連結し、空間的に16×16パッチにマージ 測定遅延τに基づく学習遅延埋め込みを追加 3D ViTエンコーダと学習プーリング(MLP-pool-MLP)を通じて遅延条件特徴を生成 第1段階特徴を計算:h = T1(x_t) 要素ごとの加算による早期融合:h' = h + z_{t-τ} 両テンソルの形状は96 × H/8 × W/8で、投影またはサイズ変更は不要 z_{t-τ}が利用不可の場合、ローカルモデルはh' = hにフォールバック 遅延埋め込みメカニズム :テキストまたはビジュアルトランスフォーマーの位置埋め込みに類似し、リモートモデルの動作がチャネル変化に適応することを可能にします時間予測トレーニング :監督付きトレーニング中にD フレーム遅延をシミュレートし、リモートモデルが将来を予測するようにトレーニング混合解像度推論 :ローカルモデルは低解像度を使用し、リモートモデルは高解像度マルチフレーム処理を使用性能保証 :システム性能は独立したモデルのいずれよりも悪くなることはありませんBDD100Kビデオデータセット :30fpsのドライビングシーンビデオを含む事前学習済みEoMTモデルを使用して疑似ラベルを生成、低信頼度ピクセルを無視 Cityscapesの19ラベルサブセットを使用 上行ビデオストリームに対してWebP画像コーデック(品質85)を適用して圧縮 mIoU (平均交差比) :セマンティックセグメンテーションの標準評価指標遅延範囲 :0~5フレーム(0~165ms)、典型的な往復遅延を表現Local image :従来の単一フレームローカル推論Remote image :従来の単一フレームリモート推論Remote video :リモートビデオ処理ですが将来を予測しないRemote predictive :遅延認識型リモート予測モデルLocal + remote predictive :完全なDedelayedシステム多段階トレーニング戦略 :リモートおよびローカルモデルを最初に独立してトレーニングし、その後共同で微調整オプティマイザ :Adanオプティマイザ学習率スケジューリング :台形余弦学習率スケジューリング損失関数 :交差エントロピー損失事前学習 :ImageNet分類 → Cityscapesセグメンテーション → BDD100K微調整顕著な性能向上 :100ms往復遅延下で、純粋なローカル推論と比較して6.4 mIoU向上 リモート推論と比較して9.8 mIoU向上 33msを超えるすべての現実的遅延で最強ベースラインを上回る 遅延ロバスト性 :遅延が長いほど、Dedelayedの利点が顕著 高運動シーンでより良い性能 遅延緩和の分散推論がより効果的に精度を維持 各コンポーネントの貢献を検証した実験:
Remote video vs Remote image:履歴フレームコンテキストのみでは性能改善に不十分 Remote predictive vs Remote video:時間予測トレーニングが遅延ロバスト性を大幅に向上 Local + remote predictive vs Remote predictive:ローカル情報融合がさらに性能を向上 遅延入力と観測遅延が不一致の場合でも、モデルは良好な性能を維持 観測遅延が遅延入力を超える場合、性能低下は緩やか σ=15msの高ジッターネットワークでも優位性を維持 リモート補助のローカルモデルはより低い解像度で精度を損なうことなく実行でき、システムのリソース効率を示します。
EfficientViT、MobileNetV4などの既存研究は計算最小化によるデバイス上のリアルタイム性能に焦点を当てていますが、デバイスの消費電力と計算制限に制限されています。
MPEG AIおよびJPEG AI :帯域幅削減に焦点を当て、遅延補償メカニズムが不足Clockwork Convnets :遅延削減のため陳腐化特徴を再利用しますが、時間推論能力が限定的Accel :光フロー前方変換を使用して重いモデル特徴を変換しますが、ネットワーク間操作には不適切Knowledge Boosting :本論文と最も関連していますが、固定遅延を仮定関連研究と比較して、Dedelayedは調整可能な遅延条件化により、より長く可変遅延に一般化しながら、設計のシンプルさと再利用性を維持しています。
Dedelayedはリアルタイムシステムにおけるリモート計算の中核的課題を成功裏に解決しました:ネットワーク遅延による予測陳腐化の問題 遅延をファーストクラス変数として昇格させることで、システムは現実的なネットワーク条件下で強いベースラインを上回ります フレームワークは広範なリアルタイム問題領域に適用可能であり、インテリジェントシステムを正確かつ時間的に信頼できるものにします 固定遅延の仮定 :現在の実装は相対的に安定した遅延を主に対象としており、極端なジッターへの適応性は限定的計算オーバーヘッド :ローカルモデルは軽量ですが、追加の融合計算が必要データセット限界 :主にドライビングシーンで検証され、他の領域への一般化は未検証ネットワーク依存 :ネットワーク接続に完全に依存し、ネットワーク中断時はローカルモデルのみに依存論文が提案する将来の研究には以下が含まれます:
可変および確率的遅延分布の研究 高運動データの処理 より軽量なローカルモデルの開発 ローカル将来予測能力の探索 問題の重要性 :エッジコンピューティングの重要な問題を解決し、重要な実用価値があります手法の革新性 :遅延埋め込みと時間予測トレーニングの組み合わせは新規性があります実験の充実性 :包括的なアブレーション実験と遅延ジッター分析実用性が高い :既存モデルに基づくシンプルな融合戦略で、展開が容易理論的基礎 :人間の視覚システムに着想を得ており、生物学的妥当性があります評価範囲の限定 :セマンティックセグメンテーションタスクのみで検証、他のタスクの検証が不足遅延範囲 :最大165ms遅延はすべての実際のシナリオをカバーするには不十分な可能性計算コスト分析の不足 :詳細な計算および通信コスト分析が不足より多くのベースラインとの比較 :より多くの最新エッジコンピューティング手法との比較が可能学術的貢献 :エッジ-クラウド協調推論に新しい解決思路を提供実用価値 :自動運転、ロボットなどの領域で直接応用の可能性再現性 :詳細な実装コードを提供し、再現と拡張が容易自動運転 :車載システムはリアルタイムで正確な環境認識が必要移動ロボット :ナビゲーションと障害物回避は低遅延応答が必要AR/VRアプリケーション :リアルタイムシーン理解とレンダリングビデオ監視 :リアルタイム目標検出と追跡論文は関連領域の重要な研究を引用しており、以下を含みます:
EfficientViTシリーズ軽量モデル BDD100KおよびCityscapesデータセット エッジコンピューティングと分散推論関連研究 人間の視覚システムの生物学的研究 総合評価 :これは実際の問題を解決する高品質な論文であり、提案されたDedelayedフレームワークは理論と実践の両面で重要な価値があります。手法はシンプルで効果的であり、実験検証は充実しており、エッジ-クラウド協調推論領域に価値ある貢献を提供しています。評価範囲と遅延処理能力の改善の余地がありますが、全体的には意義のある研究成果です。