2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: 온디바이스 보정을 통한 원격 추론 지연 제거

기본 정보

  • 논문 ID: 2510.13714
  • 제목: Dedelayed: Deleting remote inference delay via on-device correction
  • 저자: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • 분류: eess.IV cs.AI cs.CV cs.LG
  • 발표 시간: 2025년 10월 15일 (arXiv 사전 인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13714

초록

원격 추론을 통해 경량 기기는 강력한 클라우드 모델을 활용할 수 있습니다. 그러나 통신 네트워크 지연으로 인해 예측 결과가 시대에 뒤떨어져 실시간 작업에 부적합합니다. 이 문제를 해결하기 위해 본 논문에서는 Dedelayed를 제시하며, 이는 임의의 원격 추론 지연을 완화할 수 있는 지연 보정 방법으로, 로컬 기기가 실시간으로 저지연 출력을 생성할 수 있게 합니다. 이 방법은 경량 로컬 모델을 사용하여 현재 프레임을 처리하고 과거 프레임에서 계산한 무거운 원격 모델의 특징을 융합합니다. BDD100K 운전 데이터셋의 비디오에서 Dedelayed는 33ms를 초과하는 모든 현실적인 통신 네트워크 지연에서 순수 로컬 및 순수 원격 기준선 중 더 강한 것과 비교하여 의미론적 분할 정확도를 개선했습니다. 추가 지연을 발생시키지 않으면서 100ms 왕복 지연의 경우 순수 로컬 추론 대비 6.4 mIoU, 원격 추론 대비 9.8 mIoU 개선을 달성했습니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 실시간 비디오 처리 애플리케이션에서 예측 정확도를 보장하면서 동시에 원격 추론의 네트워크 지연 문제를 극복하는 방법입니다.

문제의 중요성

  1. 실시간 애플리케이션 요구사항: 자동 운전, 로봇 제어, 웨어러블 기기 등의 애플리케이션은 지연에 매우 민감하며, 시대에 뒤떨어진 예측은 재앙적 결과를 초래할 수 있습니다
  2. 자원 제약: 모바일 기기는 전력 소비 및 계산 능력 제한으로 인해 복잡한 딥러닝 모델을 실행할 수 없습니다
  3. 클라우드 장점: 클라우드 GPU는 강력한 계산 능력을 갖추고 있어 고해상도 비디오 및 복잡한 모델을 처리할 수 있습니다

기존 방법의 한계

기존 분산 컴퓨팅 방법에는 세 가지 주요 결함이 있습니다:

  1. 모든 기기 자원을 단일 선형 추론 파이프라인에 할당하여 로컬 백업 방안을 위한 자원을 예약하지 않습니다
  2. 지연이 예측 정확도에 미치는 영향을 고려하지 않습니다
  3. 계산 비용 관리를 위해 시공간 해상도를 크게 낮추어 현대 카메라 시스템의 풍부한 시각 정보를 손실합니다

연구 동기

인간 시각 시스템에서 영감을 받아, 시신경은 망막이 수신하는 정보의 일부만 전송할 수 있으며, 초기 처리는 주로 압축을 수행한 후 시각 피질의 깊은 층에서 대사 집약적 처리를 수행합니다. 마찬가지로 디지털 비디오 센서를 장착한 기계도 유사한 제약에 직면합니다.

핵심 기여

  1. Dedelayed 프레임워크 제시: 로컬 실시간 정보와 원격 지연 특징을 융합하여 네트워크 지연 영향을 완화하는 지연 인식 분산 추론 프레임워크
  2. 지연 정량화 분석: 지연이 밀집 시각 예측 정확도에 미치는 영향에 대한 정량적 측정 제공
  3. 실제 시스템 검증: 도시 운전 장면 비디오 분할 작업에서 시스템 효과성 검증, 기존 로컬 또는 원격 추론 방안 초과
  4. 단순하고 효과적인 융합 전략: 가산 기반 특징 융합을 채택하여 배포 및 다른 실시간 방법으로의 확장이 용이합니다

방법 상세 설명

작업 정의

시간 t의 새로운 입력 프레임 x_t가 주어졌을 때, 최종 예측 ŷ_t는 경량 로컬 모델 f_light를 통해 계산되며, 이 모델은 x_t를 처리하고 무거운 원격 모델 f_heavy에서 계산한 시간 지연 특징 z_{t-τ}를 융합합니다.

수학적 표현:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

모델 아키텍처

시스템 전체 아키텍처

Dedelayed 시스템은 두 가지 주요 구성 요소를 포함합니다:

  1. 로컬 경량 모델: 현재 프레임을 처리하여 실시간 응답 능력 제공
  2. 원격 예측 모델: 과거 프레임 시퀀스를 처리하여 고품질 특징 제공

원격 예측 모듈

  • 2D ViT 백본 네트워크로 EfficientViT-L1 사용, 유효 패치 크기 8×8
  • K개의 최근 프레임에 대한 컨텍스트 윈도우 유지
  • 각 프레임 특징을 시간축을 따라 연결하고, 공간적으로 더 큰 16×16 패치로 병합
  • 측정된 지연 τ를 기반으로 학습된 지연 임베딩 추가
  • 3D ViT 인코더 및 학습 풀링(MLP-pool-MLP)을 통해 지연 조건 특징 생성

로컬 모델 및 융합

  • 첫 번째 단계 특징 계산: h = T1(x_t)
  • 요소별 덧셈을 통한 초기 융합: h' = h + z_{t-τ}
  • 두 텐서 모두 96 × H/8 × W/8 형태로 투영 또는 크기 조정 불필요
  • z_{t-τ}를 사용할 수 없는 경우 로컬 모델은 h' = h로 폴백

기술 혁신 포인트

  1. 지연 임베딩 메커니즘: 텍스트 또는 시각 트랜스포머의 위치 임베딩과 유사하게, 원격 모델이 채널 변화에 적응하는 동작을 허용합니다
  2. 시간 예측 훈련: 감독 훈련 중 D 프레임 지연을 시뮬레이션하여 원격 모델이 미래를 예측하도록 훈련
  3. 혼합 해상도 추론: 로컬 모델은 저해상도, 원격 모델은 고해상도 다중 프레임 처리 사용
  4. 성능 보장: 시스템 성능은 절대 독립 모델 중 하나보다 나쁘지 않습니다

실험 설정

데이터셋

  • BDD100K 비디오 데이터셋: 30fps 운전 장면 비디오 포함
  • 사전 훈련된 EoMT 모델을 사용하여 의사 레이블 생성, 낮은 신뢰도 픽셀 무시
  • Cityscapes의 19개 레이블 부분집합 사용
  • 상향 비디오 스트림에 WebP 이미지 코덱(품질 85) 적용 압축

평가 지표

  • mIoU (평균 교집합 대 합집합): 의미론적 분할의 표준 평가 지표
  • 지연 범위: 0-5 프레임(0-165ms), 전형적인 왕복 지연을 나타냅니다

비교 방법

  1. 로컬 이미지: 전통적인 단일 프레임 로컬 추론
  2. 원격 이미지: 전통적인 단일 프레임 원격 추론
  3. 원격 비디오: 원격 비디오 처리이지만 미래 예측 없음
  4. 원격 예측: 지연 인식 원격 예측 모델
  5. 로컬 + 원격 예측: 완전한 Dedelayed 시스템

구현 세부사항

  • 다단계 훈련 전략: 원격 및 로컬 모델을 먼저 독립적으로 훈련한 후 공동 미세 조정
  • 최적화기: Adan 최적화기
  • 학습률 스케줄: 사다리꼴 코사인 학습률 스케줄
  • 손실 함수: 교차 엔트로피 손실
  • 사전 훈련: ImageNet 분류 → Cityscapes 분할 → BDD100K 미세 조정

실험 결과

주요 결과

  1. 현저한 성능 향상:
    • 100ms 왕복 지연에서 순수 로컬 추론 대비 6.4 mIoU 개선
    • 원격 추론 대비 9.8 mIoU 개선
    • 33ms를 초과하는 모든 현실적 지연에서 최강 기준선 초과
  2. 지연 견고성:
    • 지연이 길수록 Dedelayed의 장점이 더 명확함
    • 고운동 장면에서 더 나은 성능
    • 지연 완화 분산 추론이 정확도를 더 효과적으로 유지

소거 실험

실험은 각 구성 요소의 기여도를 검증했습니다:

  • 원격 비디오 vs 원격 이미지: 과거 프레임 컨텍스트만 사용하는 것은 성능 개선에 불충분
  • 원격 예측 vs 원격 비디오: 시간 예측 훈련이 지연 견고성을 크게 향상
  • 로컬 + 원격 예측 vs 원격 예측: 로컬 정보 융합이 성능을 추가로 향상

지연 지터 분석

  • 모델은 지연 입력이 관찰된 지연과 일치하지 않을 때도 좋은 성능 유지
  • 관찰된 지연이 지연 입력을 초과할 때 성능 저하가 완만함
  • σ=15ms 높은 지터 네트워크에서도 장점 유지

해상도 적응성

원격 보조 로컬 모델은 정확도 손실 없이 더 낮은 해상도에서 실행될 수 있으며, 시스템의 자원 효율성을 보여줍니다.

관련 연구

경량 아키텍처 연구

EfficientViT, MobileNetV4와 같은 기존 연구는 기기 성능의 실시간 달성을 위해 계산 최소화에 중점을 두지만, 기기 전력 소비 및 계산 제한을 받습니다.

분산 컴퓨팅 방법

  • MPEG AI 및 JPEG AI: 대역폭 감소에 중점을 두며, 지연 보정 메커니즘 부족
  • Clockwork Convnets: 시대에 뒤떨어진 특징 재사용으로 지연 감소, 하지만 시간 추론 능력 제한
  • Accel: 광학 흐름 전방 변환을 사용하여 모델 특징을 재가중화하지만 네트워크 간 작동에 부적합
  • Knowledge Boosting: 본 논문과 가장 관련이 있지만 고정 지연 가정

본 논문의 장점

관련 연구와 비교하여 Dedelayed는 조정 가능한 지연 조건화를 통해 더 길고 가변 지연으로 일반화하면서 설계 단순성과 재사용성을 유지합니다.

결론 및 토론

주요 결론

  1. Dedelayed는 실시간 시스템에서 원격 컴퓨팅의 핵심 과제인 네트워크 지연으로 인한 예측 시대 뒤떨어짐 문제를 성공적으로 해결합니다
  2. 지연을 일등 변수로 승격시킴으로써 시스템은 현실적인 네트워크 조건에서 강력한 기준선을 초과합니다
  3. 프레임워크는 광범위한 실시간 문제 영역에 적용 가능하여 지능형 시스템이 정확하고 시기적절하게 신뢰할 수 있게 합니다

한계

  1. 고정 지연 가정: 현재 구현은 상대적으로 안정적인 지연을 주로 대상으로 하며, 극단적 지터에 대한 적응성 제한
  2. 계산 오버헤드: 로컬 모델이 경량이지만 추가 융합 계산이 필요합니다
  3. 데이터셋 한계: 주로 운전 장면에서 검증되었으며, 다른 영역으로의 일반화 대기 중
  4. 네트워크 의존성: 네트워크 연결에 완전히 의존하며, 네트워크 중단 시 로컬 모델에만 의존할 수 있습니다

향후 방향

논문이 제시한 향후 연구는 다음을 포함합니다:

  1. 가변 및 무작위 지연 분포 연구
  2. 고운동 데이터 처리
  3. 더 경량의 로컬 모델 개발
  4. 로컬 미래 예측 능력 탐색

심층 평가

장점

  1. 문제의 중요성: 엣지 컴퓨팅의 핵심 문제를 해결하며 중요한 실용 가치 보유
  2. 방법의 창의성: 지연 임베딩과 시간 예측 훈련의 결합이 새로운 특성 보유
  3. 실험의 충분성: 포괄적인 소거 실험 및 지연 지터 분석
  4. 강한 실용성: 기존 모델 기반의 단순 융합 전략으로 배포 용이
  5. 이론적 기초: 인간 시각 시스템에서 영감을 받아 생물학적 타당성 보유

부족한 점

  1. 평가 범위 제한: 의미론적 분할 작업에서만 검증되었으며, 다른 작업 검증 부족
  2. 지연 범위: 최대 165ms 지연은 모든 실제 시나리오를 포함하기에 불충분할 수 있습니다
  3. 계산 비용 분석 부족: 상세한 계산 및 통신 비용 분석 부족
  4. 더 많은 기준선과의 비교: 더 많은 최신 엣지 컴퓨팅 방법과 비교 가능

영향력

  1. 학술 기여: 엣지-클라우드 협력 추론에 새로운 해결 사고 제공
  2. 실용 가치: 자동 운전, 로봇 등 분야에 직접 응용 잠재력
  3. 재현성: 상세한 구현 코드 제공으로 재현 및 확장 용이

적용 시나리오

  1. 자동 운전: 차량 시스템은 실시간이고 정확한 환경 인식 필요
  2. 모바일 로봇: 네비게이션 및 장애물 회피는 저지연 응답 필요
  3. AR/VR 애플리케이션: 실시간 장면 이해 및 렌더링
  4. 비디오 감시: 실시간 목표 감지 및 추적

참고 문헌

논문은 관련 분야의 중요한 연구를 인용하며, 다음을 포함합니다:

  • EfficientViT 시리즈 경량 모델
  • BDD100K 및 Cityscapes 데이터셋
  • 엣지 컴퓨팅 및 분산 추론 관련 연구
  • 인간 시각 시스템의 생물학 연구

종합 평가: 이는 실제 문제를 해결하는 고품질 논문으로, 제시된 Dedelayed 프레임워크는 이론과 실제 모두에서 중요한 가치를 가집니다. 방법은 단순하고 효과적이며, 실험 검증이 충분하고, 엣지-클라우드 협력 추론 분야에 가치 있는 기여를 제공합니다. 평가 범위 및 지연 처리 능력에서 개선 여지가 있지만, 전반적으로 의미 있는 연구 작업입니다.