Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach
Lu, Lai, Xu
Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.
강화학습의 안전 관련 응용 분야에서의 광범위한 배포로 인해 대적 공격 연구가 매우 중요해졌다. 기존 연구는 주로 결정론적 대적 공격 전략을 고려했으며, 피해 에이전트는 결정론적 공격을 역전시켜 방어할 수 있다. 본 논문은 증명 가능하게 "무적"인 대적 공격 방법을 제안하며, 공격자는 율-왜곡 정보이론 방법을 적용하여 에이전트의 전이 핵(transition kernel)에 대한 관찰을 무작위로 변경함으로써 에이전트가 훈련 과정에서 실제 핵에 대한 정보를 얻지 못하거나 극히 적게 얻도록 한다. 본 논문은 피해 에이전트 보상 후회(regret)의 정보이론적 하한을 도출하고, 율-왜곡 공격이 최첨단 모델 기반 및 모델 무관 알고리즘에 미치는 영향을 보여준다.
논문은 강화학습, 정보이론, 대적 공격 등 여러 분야의 중요한 연구를 인용하며, 다음을 포함한다:
고전 RL 교과서 (Sutton & Barto, 2018)
정보이론 기초 (Cover & Thomas, 2006)
분포 견고 MDP 관련 연구 (Iyengar, 2005; Nilim & El Ghaoui, 2003)
최근 RL 대적 공격 연구 (Zhang et al., 2020; Liu & Lai, 2021)
전체 평가: 이는 강화학습 안전성 분야에서 중요한 이론적 기여를 가진 논문으로, 율-왜곡 이론을 도입함으로써 대적 공격에 새로운 관점과 엄격한 이론적 보장을 제공한다. 실제 배포 가능성 및 방어 메커니즘 측면에서 개선의 여지가 있지만, 그 이론적 프레임워크 및 분석 방법은 해당 분야의 추가 연구를 위한 견고한 기초를 마련한다.