Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach
Lu, Lai, Xu
Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.
academic
Доказуемо Непобедимые Противодействующие Атаки на Системы Обучения с Подкреплением: Информационно-Теоретический Подход на Основе Теории Скорость-Искажение
Широкое развертывание обучения с подкреплением в приложениях, критичных по безопасности, делает исследование противодействующих атак критически важным. Предыдущие работы в основном рассматривали детерминированные стратегии противодействующих атак, от которых пострадавший агент может защищаться путем инверсии детерминированной атаки. В данной статье предлагается доказуемо "непобедимый" метод противодействующей атаки, при котором злоумышленник применяет информационно-теоретический метод скорость-искажение для случайного изменения наблюдений агента переходного ядра, обеспечивая, чтобы агент получал нулевую или минимальную информацию об истинном ядре во время обучения. В статье выводятся информационно-теоретические нижние границы сожаления награды пострадавшего агента и демонстрируется влияние атак скорость-искажение на современные алгоритмы на основе моделей и без моделей.
Основная проблема: Существующие противодействующие атаки на обучение с подкреплением в основном используют детерминированные стратегии, которые могут быть отражены пострадавшим агентом путем изучения паттерна атаки и его инверсии, что лишает теоретических гарантий "неотразимости".
Значимость: Обучение с подкреплением широко применяется в критичных по безопасности областях, таких как автономное вождение, финансовые решения, алгоритмы беспилотных летательных аппаратов/робототехники. Исследование противодействующих атак в наихудшем случае критически важно для оценки и повышения устойчивости систем RL.
Ограничения существующих методов:
Детерминированные атаки предполагают, что пострадавший не знает об атаке
Если пострадавший обнаружит атаку, он может найти отображение между ложным и истинным переходным ядром
Невозможно гарантировать эффективность атаки, отсутствуют теоретические доказательства "непобедимости"
Исследовательская мотивация: Разработать метод противодействующей атаки, от которого пострадавший не может эффективно защищаться даже при знании стратегии атаки, с теоретическими гарантиями с информационно-теоретической точки зрения.
Предложение информационно-теоретической атаки скорость-искажение: Впервые применена теория скорость-искажение к противодействующим атакам на обучение с подкреплением путем рандомизации наблюдений переходного ядра для минимизации взаимной информации.
Доказательство теоретических нижних границ: Выведены информационно-теоретические нижние границы сожаления награды пострадавшего агента, доказана "непобедимость" атаки.
Теоретический анализ MDP со случайным ядром: Проанализировано существование оптимальной политики в MDP с неопределенным переходным ядром, обнаружено, что оптимальная политика в традиционном смысле может не существовать.
Новый алгоритм итерации политики: Предложен новый алгоритм итерации политики для MDP со случайным ядром, доказано, что он не всегда сходится к оптимальному решению.
Обширная экспериментальная верификация: Эффективность атаки верифицирована в различных условиях: планирование, табличное Q-обучение и глубокое Q-обучение.
X: случайное переходное ядро, выбранное из априорного распределения p
r: функция награды r: S × A × S → 0,1
γ ∈ 0,1: коэффициент дисконтирования
Установка атаки: Злоумышленник разрабатывает функцию правдоподобия P(Y|X) для случайного отображения истинного переходного ядра X в ложное наблюдаемое ядро Y.
Теоретические гарантии: Предложенная атака скорость-искажение обладает доказуемой "непобедимостью", пострадавший не может эффективно защищаться даже при знании стратегии атаки.
Широкая применимость: Метод атаки применим к алгоритмам обучения с подкреплением как на основе моделей, так и без моделей.
Простота реализации: Атака через случайное наблюдение состояния может быть реализована просто, с минимальными требованиями к злоумышленнику.
Отсутствие оптимальной политики: В MDP со случайным ядром традиционная оптимальная политика может не существовать, требуется новое определение политики.
Сходимость алгоритма: Предложенный алгоритм итерации политики не гарантирует сходимость к оптимальному решению.
Практическое развертывание: Осуществимость и обнаруживаемость реализации атаки в реальных окружениях требуют дальнейшего исследования.
Теоретическая инновативность: Впервые применена теория скорость-искажение к противодействующим атакам на обучение с подкреплением, предоставлен строгий теоретический аналитический фреймворк.
Значимость проблемы: Решена фундаментальная проблема того, что существующие детерминированные атаки могут быть инвертированы, имеет важное значение для безопасности.
Теоретическая строгость: Использование информационно-теоретических инструментов предоставляет математические доказательства эффективности атаки, включая применение нижних границ сожаления и неравенства Фано.
Достаточность экспериментов: Охватывает планирование, табличное обучение, глубокое обучение и другие установки, верифицирует широкую применимость метода.
Практическая осуществимость: Атаки в статье предполагают, что злоумышленник может полностью контролировать наблюдения пострадавшего в окружении, что может быть трудно реализовать на практике.
Недостаточное исследование защиты: Хотя заявляется о "непобедимости", обсуждение возможных механизмов защиты ограничено, таких как обнаружение аномалий, многоисточниковая верификация и т.д.
Анализ вычислительной сложности: Анализ вычислительной сложности поиска оптимальных параметров атаки для больших пространств состояний недостаточен.
Этические соображения: Как метод атаки, отсутствует обсуждение потенциального злоупотребления и защитных мер.
Статья цитирует важные работы из нескольких областей: обучение с подкреплением, теория информации, противодействующие атаки, включая:
Классические учебники по RL (Sutton & Barto, 2018)
Основы теории информации (Cover & Thomas, 2006)
Работы по распределительно-робастным MDP (Iyengar, 2005; Nilim & El Ghaoui, 2003)
Недавние исследования противодействующих атак на RL (Zhang et al., 2020; Liu & Lai, 2021)
Общая оценка: Это статья с важным теоретическим вкладом в область безопасности обучения с подкреплением. Путем введения теории скорость-искажение она предоставляет новую перспективу и строгие теоретические гарантии для противодействующих атак. Хотя в аспектах практической осуществимости развертывания и механизмов защиты еще есть место для совершенствования, ее теоретический фреймворк и методы анализа создают прочную основу для дальнейших исследований в этой области.