2025-11-20T05:04:14.304346

Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach

Lu, Lai, Xu
Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.
academic

Доказуемо Непобедимые Противодействующие Атаки на Системы Обучения с Подкреплением: Информационно-Теоретический Подход на Основе Теории Скорость-Искажение

Основная информация

  • ID статьи: 2510.13792
  • Название: Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach
  • Авторы: Ziqing Lu (Университет Айовы), Lifeng Lai (Университет Калифорнии, Дэвис), Weiyu Xu (Университет Айовы)
  • Классификация: cs.LG cs.AI
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13792

Аннотация

Широкое развертывание обучения с подкреплением в приложениях, критичных по безопасности, делает исследование противодействующих атак критически важным. Предыдущие работы в основном рассматривали детерминированные стратегии противодействующих атак, от которых пострадавший агент может защищаться путем инверсии детерминированной атаки. В данной статье предлагается доказуемо "непобедимый" метод противодействующей атаки, при котором злоумышленник применяет информационно-теоретический метод скорость-искажение для случайного изменения наблюдений агента переходного ядра, обеспечивая, чтобы агент получал нулевую или минимальную информацию об истинном ядре во время обучения. В статье выводятся информационно-теоретические нижние границы сожаления награды пострадавшего агента и демонстрируется влияние атак скорость-искажение на современные алгоритмы на основе моделей и без моделей.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Существующие противодействующие атаки на обучение с подкреплением в основном используют детерминированные стратегии, которые могут быть отражены пострадавшим агентом путем изучения паттерна атаки и его инверсии, что лишает теоретических гарантий "неотразимости".
  2. Значимость: Обучение с подкреплением широко применяется в критичных по безопасности областях, таких как автономное вождение, финансовые решения, алгоритмы беспилотных летательных аппаратов/робототехники. Исследование противодействующих атак в наихудшем случае критически важно для оценки и повышения устойчивости систем RL.
  3. Ограничения существующих методов:
    • Детерминированные атаки предполагают, что пострадавший не знает об атаке
    • Если пострадавший обнаружит атаку, он может найти отображение между ложным и истинным переходным ядром
    • Невозможно гарантировать эффективность атаки, отсутствуют теоретические доказательства "непобедимости"
  4. Исследовательская мотивация: Разработать метод противодействующей атаки, от которого пострадавший не может эффективно защищаться даже при знании стратегии атаки, с теоретическими гарантиями с информационно-теоретической точки зрения.

Основные вклады

  1. Предложение информационно-теоретической атаки скорость-искажение: Впервые применена теория скорость-искажение к противодействующим атакам на обучение с подкреплением путем рандомизации наблюдений переходного ядра для минимизации взаимной информации.
  2. Доказательство теоретических нижних границ: Выведены информационно-теоретические нижние границы сожаления награды пострадавшего агента, доказана "непобедимость" атаки.
  3. Теоретический анализ MDP со случайным ядром: Проанализировано существование оптимальной политики в MDP с неопределенным переходным ядром, обнаружено, что оптимальная политика в традиционном смысле может не существовать.
  4. Новый алгоритм итерации политики: Предложен новый алгоритм итерации политики для MDP со случайным ядром, доказано, что он не всегда сходится к оптимальному решению.
  5. Обширная экспериментальная верификация: Эффективность атаки верифицирована в различных условиях: планирование, табличное Q-обучение и глубокое Q-обучение.

Детальное описание метода

Определение задачи

Рассмотрим пятерку MDP: (S, A, X, r, γ), где:

  • S: пространство состояний, |S| = S
  • A: пространство действий, |A| = A
  • X: случайное переходное ядро, выбранное из априорного распределения p
  • r: функция награды r: S × A × S → 0,1
  • γ ∈ 0,1: коэффициент дисконтирования

Установка атаки: Злоумышленник разрабатывает функцию правдоподобия P(Y|X) для случайного отображения истинного переходного ядра X в ложное наблюдаемое ядро Y.

Архитектура модели

1. Фреймворк атаки скорость-искажение

Целевая функция оптимизации злоумышленника:

min_{p(X,Y)} I(X;Y)                    (1)
s.t. E_{p(X,Y)}C(X → Y) ≤ B          (2)

где I(X;Y) — взаимная информация, B — бюджет атаки.

2. Оптимизация политики пострадавшего

При заданном ложном наблюдении Y_i оптимальная политика пострадавшего:

π*(·|Y_i) = argmin_π E_{P(X|Y_i)}||V_X^π - V_X^{π*(X)}||_∞

3. Определение сожаления

Общее сожаление определяется как:

R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞

Технические инновации

1. Рандомизированная стратегия

  • В отличие от детерминированных атак, используется вероятностное распределение P(Y|X) для случайного отображения
  • Даже если пострадавший знает стратегию атаки, он не может определить конкретное истинное переходное ядро

2. Информационно-теоретические гарантии

  • Минимизация взаимной информации I(X;Y) обеспечивает, что пострадавший получает минимальную информацию
  • Использование неравенства Фано устанавливает связь между нижней границей сожаления и вероятностью ошибки декодирования

3. Методы реализации

  • Модификация гиперпараметров: Изменение гиперпараметров, определяющих динамику обучающей среды
  • Прямая замена: Конструирование ложного ядра для прямой замены истинного ядра
  • Атака на наблюдение состояния: Реализация через случайную перестановку наблюдений состояния, требующая минимальных ресурсов

Экспериментальная установка

Наборы данных и окружения

  1. Block World: Сеточный мир из 12 состояний, 4 действия (восток, запад, север, юг)
  2. CartPole: Непрерывное пространство состояний, 2 действия (влево, вправо)
  3. MDP с 3 состояниями: Простая окружение для теоретического анализа

Метрики оценки

  • Сожаление (Regret): R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞
  • Взаимная информация: I(X;Y)
  • Относительная потеря производительности: Сожаление как процент оптимального значения V

Методы сравнения

  • Детерминированные атаки
  • Базовый уровень без атак
  • Оптимальные атаки при ограничении бюджета

Детали реализации

  • В Block World атака реализуется через "вероятность скольжения" α (α=0.8 или 0.2)
  • В CartPole атака реализуется через шум наблюдения состояния δ
  • Используется равномерное априорное распределение p(X_i) = 1/2

Результаты экспериментов

Основные результаты

1. Верификация теоретических нижних границ

Теорема 3.1: В MDP, удовлетворяющем условиям, сожаление удовлетворяет:

R ≥ εP_e
H(P_e) + P_e log|Ω(X)| ≥ H(X|Y) = H(X) - I(X;Y)

где P_e — вероятность ошибки оптимального декодера, ε > 0 — нижняя граница различия политик.

2. Эффективность атаки планирования

  • В MDP с 3 состояниями атака с I(X;Y) = 0 приводит к потере производительности 44.3%
  • Значение сожаления R = 3.84, составляющее 44.3% оптимального значения V

3. Атаки при обучении без модели

  • Block World: Случайная атака вызывает большую потерю, чем детерминированная атака
  • CartPole: Сожаление при обучении DQN увеличивается с числом итераций обучения
  • Атака перестановкой состояния: Эффективная атака реализуется простой случайной перестановкой состояний

Абляционные исследования

1. Анализ ограничения бюджета

  • При увеличении бюджета атаки B от 0 до 0.711 сожаление монотонно возрастает
  • При достижении B = 0.711 сожаление достигает максимального значения 44.3%

2. Атака с минимизацией взаимной информации

  • Прямая оптимизация минимизации взаимной информации: min I(X;Y)
  • При бюджете B = 0.7285 достигается максимальное сожаление 44.3%

Важные находки

1. Несуществование оптимальной политики

Теорема 4.1: Для MDP со случайным ядром не всегда существует оптимальная политика π*, удовлетворяющая:

π* = argmax_π E_X V_X^π(s), ∀s ∈ S

2. Несходимость итерации политики

Теорема 5.1: Даже при существовании оптимальной политики расширенный алгоритм итерации политики не всегда сходится к оптимальному решению.

Связанные работы

1. Исследования неопределенности переходного ядра

  • Распределительно-робастные MDP: Оптимизация наихудшей производительности на множестве неопределенности переходного ядра
  • Байесовские адаптивные MDP: Предположение априорного распределения параметров переходного ядра, обучение через байесовское обновление

2. Атаки отравления переходного ядра

  • Атаки на гиперпараметры окружения: Изменение гиперпараметров окружения для изменения динамики
  • Автономные атаки отравления: Конструирование оптимального ложного переходного ядра
  • Информационно-теоретические скрытые атаки: Использование ограничений расхождения KL для ограничения обнаруживаемости атаки

Инновации данной работы

  • Впервые применен байесовский подход со случайным переходным ядром в условиях атаки
  • Минимизация взаимной информации через теорию скорость-искажение вместо ограничения обнаруживаемости
  • Предоставлены теоретические гарантии эффективности атаки

Заключение и обсуждение

Основные выводы

  1. Теоретические гарантии: Предложенная атака скорость-искажение обладает доказуемой "непобедимостью", пострадавший не может эффективно защищаться даже при знании стратегии атаки.
  2. Широкая применимость: Метод атаки применим к алгоритмам обучения с подкреплением как на основе моделей, так и без моделей.
  3. Простота реализации: Атака через случайное наблюдение состояния может быть реализована просто, с минимальными требованиями к злоумышленнику.

Ограничения

  1. Отсутствие оптимальной политики: В MDP со случайным ядром традиционная оптимальная политика может не существовать, требуется новое определение политики.
  2. Сходимость алгоритма: Предложенный алгоритм итерации политики не гарантирует сходимость к оптимальному решению.
  3. Практическое развертывание: Осуществимость и обнаруживаемость реализации атаки в реальных окружениях требуют дальнейшего исследования.

Направления будущих исследований

  1. Разработка эффективных политик для случаев, когда традиционная оптимальная политика не существует
  2. Проектирование алгоритмов планирования/обучения с гарантией сходимости
  3. Исследование механизмов защиты и методов обнаружения атак
  4. Расширение на непрерывные пространства состояний и более сложные окружения

Глубокая оценка

Преимущества

  1. Теоретическая инновативность: Впервые применена теория скорость-искажение к противодействующим атакам на обучение с подкреплением, предоставлен строгий теоретический аналитический фреймворк.
  2. Значимость проблемы: Решена фундаментальная проблема того, что существующие детерминированные атаки могут быть инвертированы, имеет важное значение для безопасности.
  3. Теоретическая строгость: Использование информационно-теоретических инструментов предоставляет математические доказательства эффективности атаки, включая применение нижних границ сожаления и неравенства Фано.
  4. Достаточность экспериментов: Охватывает планирование, табличное обучение, глубокое обучение и другие установки, верифицирует широкую применимость метода.

Недостатки

  1. Практическая осуществимость: Атаки в статье предполагают, что злоумышленник может полностью контролировать наблюдения пострадавшего в окружении, что может быть трудно реализовать на практике.
  2. Недостаточное исследование защиты: Хотя заявляется о "непобедимости", обсуждение возможных механизмов защиты ограничено, таких как обнаружение аномалий, многоисточниковая верификация и т.д.
  3. Анализ вычислительной сложности: Анализ вычислительной сложности поиска оптимальных параметров атаки для больших пространств состояний недостаточен.
  4. Этические соображения: Как метод атаки, отсутствует обсуждение потенциального злоупотребления и защитных мер.

Влияние

  1. Академический вклад: Предоставляет новый теоретический фреймворк и аналитические инструменты для исследования безопасности обучения с подкреплением.
  2. Практическая ценность: Помогает оценить производительность систем RL в наихудшем случае, направляет проектирование устойчивых систем.
  3. Воспроизводимость: Предоставляет детальное описание алгоритмов и экспериментальные установки, облегчает воспроизведение и расширение.

Применимые сценарии

  1. Оценка безопасности: Оценка устойчивости систем RL в критичных приложениях
  2. Проектирование алгоритмов: Направление разработки алгоритмов обучения с подкреплением, устойчивых к атакам
  3. Теоретические исследования: Предоставление новой перспективы для теории RL в неопределенных окружениях
  4. Механизмы защиты: Использование в качестве инструмента красной команды для оценки эффективности защиты

Библиография

Статья цитирует важные работы из нескольких областей: обучение с подкреплением, теория информации, противодействующие атаки, включая:

  • Классические учебники по RL (Sutton & Barto, 2018)
  • Основы теории информации (Cover & Thomas, 2006)
  • Работы по распределительно-робастным MDP (Iyengar, 2005; Nilim & El Ghaoui, 2003)
  • Недавние исследования противодействующих атак на RL (Zhang et al., 2020; Liu & Lai, 2021)

Общая оценка: Это статья с важным теоретическим вкладом в область безопасности обучения с подкреплением. Путем введения теории скорость-искажение она предоставляет новую перспективу и строгие теоретические гарантии для противодействующих атак. Хотя в аспектах практической осуществимости развертывания и механизмов защиты еще есть место для совершенствования, ее теоретический фреймворк и методы анализа создают прочную основу для дальнейших исследований в этой области.