2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Edge Delayed Deep Deterministic Policy Gradient: 엣지 시나리오를 위한 효율적인 연속 제어

기본 정보

논문 ID: 2412.06390
제목: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
저자: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
분류: cs.LG cs.AI
게재 저널: IEEE Transactions on Automation Science and Engineering
논문 링크: https://arxiv.org/abs/2412.06390

초록

심층 강화학습(DRL)은 고차원 입력 공간에서 복잡한 정책을 학습하는 능력으로 주목받고 있습니다. 현대 DRL 알고리즘은 과대평가 편향을 극복하기 위해 일반적으로 이중 네트워크 Q-학습 아키텍처에 의존합니다. 그러나 엣지 컴퓨팅 시나리오의 부상으로 인해 개인정보 보호 관심사와 엄격한 하드웨어 제약이 효율적인 알고리즘을 요구합니다. 본 논문은 엣지 컴퓨팅 환경을 위해 특별히 설계된 새로운 강화학습 알고리즘인 Edge Delayed Deep Deterministic Policy Gradient (EdgeD3)를 제안합니다. EdgeD3는 GPU 시간을 25% 감소시키고 계산 메모리 사용을 30% 감소시키면서 여러 벤치마크 및 실제 작업에서 최첨단 알고리즘의 성능을 지속적으로 달성하거나 초과합니다.

연구 배경 및 동기

문제 정의

과대평가 편향 문제: 기존 Q-학습 알고리즘의 과대평가 편향은 학습 과정을 손상시키고 정책 성능을 저하시킵니다
엣지 컴퓨팅 자원 제약: 엣지 디바이스의 계산 및 메모리 자원이 제한적이며, 기존의 다중 Q-네트워크 방법(TD3, SAC 등)의 계산 오버헤드가 과도합니다
개인정보 보호 요구사항: 엣지 시나리오는 디바이스에서의 학습을 요구하며, 클라우드 전송을 피하고 데이터 개인정보를 보호해야 합니다

연구의 중요성

엣지 컴퓨팅은 자율주행, 스마트 제조, 스마트 의료 등 다양한 분야에서 광범위하게 적용됩니다
기존 알고리즘(TD3, SAC 등)은 최대 10개의 Q-네트워크를 사용하여 메모리와 계산 오버헤드가 원본 알고리즘의 10배입니다
엣지 디바이스는 제한된 자원 하에서 효율적인 학습을 구현해야 합니다

기존 방법의 한계

TD3/SAC: 이중 Q-네트워크 메커니즘 사용으로 메모리 사용량 29-31% 증가, 계산 시간 30% 이상 증가
최신 알고리즘(TQC, REDQ 등): 5-10개의 Q-네트워크 사용으로 계산 오버헤드가 더 크며, 엣지 시나리오에 부적합
CDQ 메커니즘: 편향 트레이드오프에 대한 세밀한 제어 부족

핵심 기여

새로운 Expectile 손실 함수: 기댓값 분위수 기반 손실 함수를 제안하여 단일 Q-네트워크만으로 과대평가 편향을 제어
EdgeD3 알고리즘: Expectile 손실, 지연 업데이트 및 목표 평활 기술을 결합한 효율적인 알고리즘
이론적 분석: Expectile 손실의 단조성 및 점근 수렴성 증명
포괄적 실험 검증: Mujoco 시뮬레이션 환경 및 실제 로봇 네비게이션 작업에서 알고리즘 효과 검증
자원 효율성 향상: DDPG 대비 GPU 시간 25% 감소, SOTA 방법 대비 계산 및 메모리 사용 30% 감소

방법론 상세 설명

작업 정의

연속 제어를 위한 마르코프 결정 과정(MDP)을 연구하며, 5-튜플(S,A,P,R,γ)로 정의합니다:

S: 연속 상태 공간
A: 연속 동작 공간
P: 상태 전이 확률 밀도 함수
R: 보상 함수 r: S×A×S → ℝ
γ: 할인 인자

목표는 정책 μ_φ(a_t|s_t)를 학습하여 기댓값 누적 보상을 최대화하는 것입니다.

핵심 기술 혁신

1. Expectile 손실 함수

기존 MSE 손실의 비대칭 버전:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² if f_θ(x) < y
    β(y - f_θ(x))² otherwise
}

여기서 Z = max(α,β)는 정규화 상수입니다.

주요 특성:

α = β: 표준 MSE로 퇴화
α < β: 저평가 경향, Q-학습의 과대평가에 대항
α > β: 과대평가 경향

2. 이론적 보장

정리 1(Expectile 단조성): Expectile 함수는 τ에 대해 단조 비감소이며, 즉 τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

추론 1.1(점근 수렴): 감쇠 함수 λ(t)를 통해 알고리즘이 최종적으로 불편 추정으로 수렴함을 보장:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. EdgeD3 알고리즘 아키텍처

EdgeDDPG 기본 버전:

비평가 업데이트: MSE 대신 Expectile 손실 사용
배우 업데이트: 표준 결정론적 정책 그래디언트

EdgeD3 완전 버전:

지연 정책 업데이트: k 스텝마다 배우 네트워크 업데이트
목표 평활: 목표 추정에 노이즈 추가
Expectile 손실: 추정 편향 제어

# 주요 업데이트 공식
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

최적화 경관 평활

그래디언트 페널티 대신 목표 노이즈 주입 사용:

기존 방법: L(θ) = MSE + ξ||∇_a Q(s,a)||²(계산 비용 높음)
본 논문 방법: 목표에 노이즈 추가, 그래디언트 페널티와 동등하지만 계산 효율적

실험 설정

시뮬레이션 환경

데이터셋: Mujoco 물리 시뮬레이션 환경 스위트
작업: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
평가: 5000 스텝마다 10개 에피소드 평가, 10개 무작위 시드

실제 로봇 실험

플랫폼: 자작 TurtleBot + Raspberry Pi3B + 2D 레이저 레이더
작업: 복도 네비게이션, 비정형 환경 네비게이션
상태: 16차원 레이저 스캔 + 선속도 + 각속도
동작: 2차원 연속 제어(선속도, 각속도)

비교 방법

DDPG: 기본 심층 결정론적 정책 그래디언트
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

평가 지표

성능: 누적 보상
자원 사용: GPU 시간, 메모리 점유율
훈련 효율: 동일 시간 예산 하에서의 성능

실험 결과

자원 사용 비교

메모리 사용(EdgeD3 대비):

DDPG: -1.2%
TD3: +29.3%
SAC: +31.1%

GPU 시간 비교:

EdgeD3: 214.0±7.1ms
DDPG: 285.5±7.4ms (-25.0%)
TD3: 308.2±2.7ms (-30.5%)
SAC(지연): 320.9±3.6ms (-33.3%)
SAC(원본): 492.9±2.9ms (-56.8%)

성능 비교

시뮬레이션 환경 최고 성능(동일 시간 예산):

환경	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350.04	990.55	2739.81	4208.10
Hopper-v3	3388.44	2222.85	3148.89	2786.22
Walker2d-v3	3788.07	1601.16	2974.40	3580.83
HalfCheetah	10645.8	10309.0	8937.3	9677.5