2025-11-12T02:22:29.481811

PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network

Qiu, Ouano, Palafox et al.

While game-theoretic planning frameworks are effective at modeling multi-agent interactions, they require solving large optimization problems where the number of variables increases with the number of agents, resulting in long computation times that limit their use in large-scale, real-time systems. To address this issue, we propose 1) PSN Game: a learning-based, game-theoretic prediction and planning framework that reduces runtime by learning a Player Selection Network (PSN); and 2) a Goal Inference Network (GIN) that makes it possible to use the PSN in incomplete information games where agents' intentions are unknown. A PSN outputs a player selection mask that distinguishes influential players from less relevant ones, enabling the ego player to solve a smaller, masked game involving only selected players. By reducing the number of players in the game, and therefore reducing the number of variables in the corresponding optimization problem, PSN directly lowers computation time. The PSN Game framework is more flexible than existing player selection methods as it 1) relies solely on observations of players' past trajectories, without requiring full state, action, or other game-specific information; and 2) requires no online parameter tuning. Experiments in both simulated scenarios and human trajectory datasets demonstrate that PSNs outperform baseline selection methods in 1) prediction accuracy; and 2) planning safety. PSNs also generalize effectively to real-world scenarios in which agents' objectives are unknown without fine-tuning. By selecting only the most relevant players for decision-making, PSN Game offers a general mechanism for reducing planning complexity that can be seamlessly integrated into existing multi-agent planning frameworks.

academic

PSN Game: Теоретико-игровое предсказание и планирование через сеть выбора игроков

Основная информация

ID статьи: 2505.00213
Название: PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network
Авторы: Tianyu Qiu, Eric Ouano, Fernando Palafox, Christian Ellis, David Fridovich-Keil (Техасский университет в Остине)
Классификация: cs.RO (Робототехника), math.OC (Оптимизация и управление)
Дата публикации: 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.00213

Аннотация

Хотя теоретико-игровые фреймворки планирования эффективны при моделировании взаимодействия многоагентных систем, они требуют решения крупномасштабных задач оптимизации, количество переменных в которых растёт с числом агентов, что приводит к чрезмерному времени вычисления и ограничивает применение в крупномасштабных системах реального времени. Для решения этой проблемы авторы предлагают: 1) PSN Game — фреймворк теоретико-игрового предсказания и планирования на основе обучения, который снижает время выполнения путём обучения сети выбора игроков (PSN); 2) сеть вывода целей (GIN), позволяющую PSN использоваться в играх с неполной информацией, когда намерения агентов неизвестны. PSN выводит маску выбора игроков, различая влиятельных игроков и менее релевантных, что позволяет собственному агенту решать меньшие маскированные игры, включающие только выбранных игроков. Путём сокращения количества игроков в игре и, следовательно, количества переменных в соответствующей задаче оптимизации, PSN напрямую снижает время вычисления.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, с которой сталкиваются теоретико-игровые фреймворки планирования в многоагентных системах, заключается в том, что вычислительная сложность растёт кубически с числом агентов. Как показано на рисунке 2, при использовании существующих решателей время вычисления растёт как O(N³), где N — количество игроков. Это делает теоретико-игровые методы непрактичными для крупномасштабных систем реального времени.

Значимость исследования

Требования к реальному времени: Приложения, такие как автономное вождение и навигация роботов, требуют частого переплана, что делает вычислительную эффективность критической
Вызовы масштабируемости: В реальных сценариях количество агентов часто велико (например, в условиях плотного трафика)
Вдохновение человеческим поведением: Исследования показывают, что водители-люди в плотном трафике инстинктивно отдают приоритет близлежащим угрожающим транспортным средствам, а не контролируют все автомобили

Ограничения существующих методов

Существующие методы выбора игроков имеют следующие проблемы:

Сильная зависимость от информации: Требуют управляемые входы, функции стоимости и другую информацию, специфичную для игры
Сложная настройка параметров: Требуют настройку параметров, специфичных для окружения
Окостенелые стратегии выбора: Методы ранжирования, основанные на простых эвристиках (расстояние, градиент), лишены адаптивности

Основные вклады

Предложена неконтролируемая сеть выбора игроков (PSN): Обучается с использованием дифференцируемого решателя динамических игр, поддерживает обратное распространение через маски выбора
Построена контролируемая сеть вывода целей (GIN): Выводит цели агентов из исторических траекторий, позволяя PSN применяться в сценариях с неизвестными намерениями
Разработан фреймворк с уменьшающимся временным горизонтом: Использует PSN для эффективного выявления равновесных стратегий путём решения игр сокращённого размера
Экспериментальная валидация: На многоагентных симуляциях и наборах данных реальных человеческих траекторий PSN Game эффективно сокращает размер игры на 50%-75%, достигая значительного ускорения

Подробное описание методов

Определение задачи

Рассмотрим конечный временной горизонт дискретной открытой игры Нэша N агентов, где каждый агент i имеет состояние $x_k^i \in \mathbb{R}^n$ и управляющий вход $u_k^i \in \mathbb{R}^m$ . Переход состояния агента подчиняется уравнению динамики: $x_{k+1}^i = f^i(x_k^i, u_k^i)$

Цель каждого агента — минимизировать накопленную стоимость: $J^i(x,u;\theta^i) = \sum_{k=0}^T c_k^i(x_k, u_k; \theta^i)$

Архитектура модели

1. Сеть выбора игроков (PSN)

PSN — это нейронная сеть, задача которой состоит в выводе маски $M^i$ для балансирования производительности и разреженности. Предоставляются два варианта:

PSN-Full: На входе полная история состояний всех агентов $x_{0:K}$
PSN-Partial: На входе частичные наблюдения $\{h(x_k)\}_{k=0}^K$ (например, только информация о положении)

Структура сети:

Кодировщик GRU (скрытая размерность 64) обрабатывает K-шаговую последовательность каждого агента
Слои MLP: 256→128→32 (активация ReLU, dropout=0.3)
Выходной слой Sigmoid производит непрерывную маску $m_j^i \in [0,1]$

2. Маскированная игра Нэша

Определим маску выбора игроков $M^i = (m_j^i) \in \{0,1\}^{N-1}$ , где: