2025-11-28T04:01:18.891206

Natural Strategic Ability in Stochastic Multi-Agent Systems

Berthon, Katoen, Mittelmann et al.

Strategies synthesized using formal methods can be complex and often require infinite memory, which does not correspond to the expected behavior when trying to model Multi-Agent Systems (MAS). To capture such behaviors, natural strategies are a recently proposed framework striking a balance between the ability of agents to strategize with memory and the model-checking complexity, but until now has been restricted to fully deterministic settings. For the first time, we consider the probabilistic temporal logics PATL and PATL* under natural strategies (NatPATL and NatPATL*, resp.). As main result we show that, in stochastic MAS, NatPATL model-checking is NP-complete when the active coalition is restricted to deterministic strategies. We also give a 2NEXPTIME complexity result for NatPATL* with the same restriction. In the unrestricted case, we give an EXPSPACE complexity for NatPATL and 3EXPSPACE complexity for NatPATL*.

academic

Естественная стратегическая способность в стохастических многоагентных системах

Основная информация

ID статьи: 2401.12170
Название: Natural Strategic Ability in Stochastic Multi-Agent Systems
Авторы: Raphaël Berthon, Joost-Pieter Katoen (RWTH Aachen University), Munyque Mittelmann, Aniello Murano (University of Naples Federico II)
Классификация: cs.LO (Логика в информатике), cs.AI (Искусственный интеллект)
Время публикации/конференция: AAAI 2024 (расширенная версия, пересмотрена в ноябре 2025)
Ссылка на статью: https://arxiv.org/abs/2401.12170

Аннотация

В данной работе впервые расширяется фреймворк естественных стратегий (natural strategies) на стохастические многоагентные системы (MAS), предлагаются варианты вероятностной чередующейся временной логики PATL и PATL* при естественных стратегиях (NatPATL и NatPATL*). Основные результаты показывают: когда коалиция ограничена детерминированными стратегиями, проверка моделей NatPATL является ∆P₂-полной; NatPATL* имеет сложность 2NEXPTIME. В неограниченном случае (вероятностные стратегии) сложность NatPATL составляет EXPSPACE, NatPATL* — 3EXPSPACE. Данная работа достигает хорошего баланса между верификацией стратегической способности агентов с конечной памятью и вычислительной сложностью.

Исследовательский контекст и мотивация

1. Основная проблема

Стратегии, синтезированные методами формальной верификации, обычно имеют высокую сложность и требуют бесконечной памяти, что нереалистично при моделировании реальных многоагентных систем. Человеческие агенты и искусственные агенты с ограниченными вычислительными ресурсами не могут выполнять такие сложные стратегии.

2. Важность проблемы

Практические требования: Реальные агенты (люди или ограниченные ИИ) нуждаются в исполняемых и понятных стратегиях
Моделирование неопределённости: MAS часто сталкиваются со стохастичностью (природные события, поведение агентов, ошибки датчиков и т.д.)
Критичные по безопасности приложения: Электронные системы голосования, контроль доступа и другие требуют верификации стратегической способности в неопределённой среде

3. Ограничения существующих подходов

PATL/PATL*: Требуют стратегий с бесконечной памятью; хотя сложность проверки моделей находится в NP∩co-NP, это непрактично
PSL: Неразрешима; даже при ограничении до стратегий без памяти требует 3EXPSPACE
Логика стохастических игр: Стратегии без памяти и детерминированные — PSPACE, без памяти и вероятностные — EXPSPACE, но предположение об отсутствии памяти слишком строго
Существующие исследования естественных стратегий: Ограничены полностью детерминированной средой, не могут обрабатывать стохастичность

4. Исследовательская мотивация

Расширить естественные стратегии на стохастическую среду, заполнив теоретический пробел
Достичь баланса между ограниченной памятью и разумной сложностью
Обеспечить теоретическую основу для расширения на многоагентные POMDP

Основные вклады

Теоретическое расширение: Впервые расширяется фреймворк естественных стратегий из детерминированной среды на стохастические многоагентные системы, определяются поведенческие естественные стратегии (behavioral natural strategies)
Новые логические системы: Предлагаются две логические системы NatPATL и NatPATL*, поддерживающие две семантики: без памяти (memoryless, r) и с ограниченным воспоминанием (bounded recall, R)
Результаты сложности (см. таблицу 1):
- Детерминированные стратегии: NatPATLr/R является ∆P₂-полной (нижняя граница NP-hard), NatPATL*r/R — 2NEXPTIME
- Вероятностные стратегии: NatPATLr/R — EXPSPACE, NatPATL*r/R — 3EXPSPACE
Анализ выразительности: Доказано, что NatPATL() и PATL() имеют несравнимую различающую способность и выразительность
Примеры приложений: Демонстрируется практическая ценность на примерах систем электронного голосования и контроля доступа

Детальное описание методов

Определение задачи

Проблема проверки моделей: Дана стохастическая структура параллельных игр (CGS) G, состояние s и формула NatPATL(*) φ, определить, выполняется ли G, s ⊨ρ φ (ρ∈{r,R} обозначает без памяти или с ограниченным воспоминанием).

Входные данные:

CGS G = (St, L, δ, ℓ): множество состояний, функция легальности, функция стохастического перехода, функция разметки
Начальное состояние s ∈ St
Формула NatPATL(*) φ, включающая границу сложности k

Выходные данные: Булево значение, указывающее, выполняется ли формула

Основная концепция: поведенческие естественные стратегии

1. Структура определения

Поведенческая естественная стратегия σₐ — это упорядоченный список пар условие-действие:

σₐ = [(r₁, d₁), (r₂, d₂), ..., (rₙ, dₙ)]

где:

rᵢ ∈ Reg(Bool(AP)): условие регулярного выражения (на основе последовательностей пропозициональных формул)
dᵢ ∈ Dist(Ac): вероятностное распределение над действиями
Последняя пара должна быть (⊤*, d) как действие по умолчанию

2. Механизм сопоставления

Для истории h стратегия выбирает первое правило, удовлетворяющее условию:

match(h, σₐ) = min{i : h согласуется с condᵢ(σₐ) и actᵢ(σₐ) легально в last(h)}

История h согласуется с регулярным выражением r тогда и только тогда, когда существует слово b∈L(r) такое, что каждое состояние h удовлетворяет соответствующей булевой формуле в b.

3. Мера сложности

Сложность стратегии c(σ) = Σ|r| (общее количество символов всех регулярных выражений)

4. Пример (система электронного голосования)

Детерминированная стратегия избирателя без памяти:

1. (hasBallot_v ∧ ¬scanned_v, scanBallot)
2. (¬vot_v ∧ scanned_v, enterVote)
3. (¬vot_v ∧ entVote_{v,s} ∧ ¬(sigOk_s ∨ sigFail_s), checkSig_s)
4. (¬vot_v ∧ entVote_{v,s} ∧ sigFail_s, cnlVote)
5. (¬vot_v ∧ entVote_{v,s} ∧ sigOk_s, conf)
6. (vot_v ∧ rec_{v,r} ∧ ¬shreded_r, shred_r)
7. (⊤, noop)

Вероятностная стратегия шантажиста с воспоминанием:

1. (⊤* · ⋀_v ¬coerced_v, d_V)  // случайно выбрать жертву шантажа
2. (⊤* · coerced_v ∧ ¬requested_v, request_v)
3. (⊤* · ¬requested_v* · (requested_v ∧ ¬vot_v)* ∧ ¬punished_v, punish_v)
4. (⊤* · ¬coerced_v ∧ ¬coerced_{v'}, d_{v,v'})
5. (⊤*, noop)

Синтаксис и семантика логики

Синтаксис NatPATL*

φ ::= p | φ∨φ | ¬φ | Xφ | φUφ | ⟨⟨C⟩⟩_{▷◁d}^k φ

где ⟨⟨C⟩⟩_{▷◁d}^k φ означает: коалиция C имеет стратегию сложности ≤k такую, что вероятность удовлетворения φ находится в отношении ▷◁ к d.

Синтаксис NatPATL (ограниченный)

φ ::= p | φ∨φ | ¬φ | ⟨⟨C⟩⟩_{▷◁d}^k (Xφ) | ⟨⟨C⟩⟩_{▷◁d}^k (φUφ)

Временные операторы должны непосредственно следовать за оператором коалиции.

Конструкция вероятностного пространства

Конфигурация стратегии σ и состояние s индуцируют цепь Маркова M_{σ,s}
Вероятность перехода: p(h, hs') = Σ_c σ(h)(c) × δ(last(h), c)(s')
Порождает каноническую вероятностную меру out(σ, s)
Множество возможных результатов коалиционной стратегии σ_C: out_C(σ_C, s) = {out((σ_C, σ_{-C}), s) : σ_{-C}∈∏_{a∈Ag-C} Str^ρ_a}

Определение семантики

Ключевая семантика оператора коалиции:

G, π ⊨ρ ⟨⟨C⟩⟩_{▷◁d}^k φ ⟺ 
  ∃σ_C ∈ ∏_{a∈C} {α∈Str^ρ_a : c(α)≤k} такая, что
  ∀μ^{σ_C}_{π₀} ∈ out_C(σ_C, π₀), μ^{σ_C}_{π₀}({π' : G,π'⊨ρ φ}) ▷◁ d

Технические инновации

Расширение на вероятностные стратегии: Расширение исходно детерминированных естественных стратегий на вероятностные распределения, более близкое к реальному принятию решений
Условия регулярного выражения: Использование регулярных выражений вместо истории состояний для моделирования неполной информации
Параметризация сложности: Сложность стратегии k как параметр формулы позволяет выражать свойства типа "не существует простой стратегии"
Семантика поведенческих стратегий: Использование поведенческих стратегий (вероятности состояние-действие) вместо смешанных стратегий (вероятности выбора стратегии), связано с эквивалентностью Куна в теории игр
Двухуровневая антагонистичность: Вложенная структура экзистенциальной квантификации коалиционной стратегии и универсальной квантификации стратегии противника

Экспериментальная установка

Примечание: Данная работа — теоретическая статья в области информатики, предоставляющая результаты теории сложности, а не экспериментальные оценки.

Методы теоретического доказательства

Техники доказательства верхних границ

Алгоритм ∆P₂ (Теорема 1):
- Угадать полиномиальные свидетели (стратегии для каждой подформулы, состояния, агента)
- Использовать NP-оракул полиномиальное число раз
- Проверить формулу снизу вверх, преобразовав в задачу достижимости MDP
Алгоритм 2NEXPTIME (Теорема 5):
- Недетерминированно угадать стратегии
- Проверка каждой подформулы требует 2EXPTIME (проверка моделей LTL)
- Полиномиальное число вызовов
Алгоритмы EXPSPACE/3EXPSPACE (Теоремы 7-8):
- Преобразование в арифметику вещественных чисел
- Введение переменных r_{x,s,a,q} для представления вероятности выбора действия a стратегией x в состоянии s и состоянии автомата q
- Количество состояний автомата экспоненциально по k, приводя к экспоненциальному числу переменных

Техники доказательства нижних границ

NP-трудность (Теорема 4): Редукция из почти достоверной достижимости POMDP
2EXPTIME-трудность (Теорема 6): Редукция из проверки моделей LTL на MDP

Примеры систем

1. Система контроля доступа (Пример 3)

Структура: Сетка плиток, робот со случайным движением, двери, контролируемые коалицией
Цель: С вероятностью ≥0.7 бесконечно часто достигать все целевые плитки
Формула: ⟨⟨C⟩⟩^k_{≥0.7} G⋀_{t_j∈T,t_j≠t_i} Ft_j
Результат анализа: Демонстрирует достаточность детерминированных стратегий в стохастической среде

2. Система электронного голосования (Примеры 1, 2, 4)

Агенты: Избиратели V, шантажист C
Действия: Сканирование, голосование, отмена, подтверждение, проверка подписи, уничтожение квитанции и т.д.
Стохастичность: Действия могут не удаться (например, шантаж может быть неудачным)
Проверяемые свойства:
- Проверяемость избирателем: ⟨⟨v⟩⟩^k_{≥0.9} F(sigOk_s ∨ sigFail_s)
- Свобода от квитанций: ¬⟨⟨v⟩⟩^k_{≥0.5} F⋁r (receipt{v,r} ∧ ¬shreded_r)

Результаты экспериментов

Основные результаты сложности

Логика	Детерминированные стратегии	Вероятностные стратегии
NatPATLr	∆P₂-полная	EXPSPACE
NatPATL*r	2NEXPTIME	3EXPSPACE
NatPATLR	∆P₂-полная	EXPSPACE
NatPATL*R	2NEXPTIME	3EXPSPACE

Резюме ключевых теорем

Теоремы 1-4 (NatPATL с детерминированными стратегиями)

Верхняя граница: ∆P₂ = P^NP (может быть вычислена с NP-оракулом полиномиальное число раз)
Нижняя граница: NP-трудная (редукция из POMDP)
Положительный фрагмент: NP-полная (Теорема 3)
Значение: Совпадает со сложностью детерминированных стратегий с ограниченной памятью в POMDP

Теоремы 5-6 (NatPATL* с детерминированными стратегиями)

Верхняя граница: 2NEXPTIME
Нижняя граница: 2EXPTIME-трудная
Зазор: Существует экспоненциальный зазор; улучшение является открытой проблемой

Теоремы 7-8 (вероятностные стратегии)

NatPATL*R: 3EXPSPACE (совпадает со стратегиями без памяти PSL)
NatPATLR: EXPSPACE (избегает двойной экспоненциальной взрывной волны LTL)
Технический ключ: Использование полиномиальной сложности достижимости/инвариантности

Результаты выразительности (Теорема 9)

Заключение: NatPATL() и PATL() имеют несравнимую различающую способность и выразительность

Идея доказательства:

NatPATL ⊀_d PATL: Естественные стратегии могут выражать "не существует стратегии сложности ≤k", что комбинаторные стратегии не могут выразить
PATL ⊀_d NatPATL: Комбинаторные стратегии могут выражать некоторые свойства, требующие бесконечной памяти, которые естественные стратегии не могут выразить
Из различающей способности выводится несравнимость выразительности

Связанные работы

1. Верификация стохастических MAS

Huang & Luo (2013): Детерминированные стратегии + вероятностное знание ATL
Song et al. (2019): Вероятностная чередующаяся временная μ-исчисление
Belardinelli et al. (2023): PATL с неполной информацией и стратегиями без памяти
Chen et al. (2013): PATL с накопленными затратами/вознаграждениями

2. Представление стратегий с конечной памятью

Vester (2013): Представление входо-выходными автоматами
Brázdil et al. (2015): Представление деревьями решений
Ågotnes & Walther (2009): ATL с ограниченной памятью
Deuser & Naumov (2020): Представление машинами Мили, влияние ограниченного воспоминания на способность планирования

3. Предыдущие работы по естественным стратегиям

Jamroga et al. (2019a): Исходное определение, параллельные игры в детерминированной среде, равновесие Нэша, проверка моделей ATL
Jamroga et al. (2019b): Расширение на ATL с неполной информацией
Belardinelli et al. (2022): Расширение на логику стратегий SL

4. Связь с POMDP

Бесконечная память: Büchi/достижимость EXPTIME, нечётные цели неразрешимы
Ограниченная память (Junges et al. 2018):
- Детерминированные стратегии: NP-полная
- Вероятностные стратегии: ETR-полная
Вклад данной работы: Расширение POMDP на многоагентные системы + ограниченная память

Преимущества данной работы

Впервые объединяет вероятностную среду и естественные стратегии
Результаты сложности совпадают с POMDP в детерминированном случае и сравнимы с PSL в вероятностном случае
Обеспечивает хороший баланс между практичностью и сложностью

Заключение и обсуждение

Основные выводы

Теоретический вклад: Успешное расширение естественных стратегий на стохастические MAS, установление полной картины сложности
Практическая ценность:
- Сложность ∆P₂ для детерминированных стратегий имеет практический потенциал
- Может захватить POMDP с ограниченной памятью без значительного увеличения сложности
Теоретические инсайты:
- Двойная экспоненциальная взрывная волна от PATL к PATL* происходит из проверки моделей LTL
- Экспоненциальная взрывная волна пространства для вероятностных стратегий происходит из кодирования арифметики вещественных чисел
- Различие нижних границ между детерминированными и вероятностными стратегиями также не решено в связанных работах

Ограничения

Зазоры в сложности:
- NatPATL* с детерминированными стратегиями: 2EXPTIME-трудная vs 2NEXPTIME верхняя граница
- Улучшение верхней или нижней границы является открытой проблемой
Практическая реализация:
- Сложность 3EXPSPACE может быть непрактичной в реальных системах
- Отсутствуют экспериментальные оценки на реальных системах
Ограничения выразительности:
- Не может выражать некоторые свойства, требующие бесконечной памяти
- Выбор границы сложности k требует знания предметной области
Нижние границы для вероятностных стратегий:
- Не предоставлены доказательства разделения сложности между вероятностными и детерминированными стратегиями
- Может потребоваться новая конструкция из POMDP или Dec-POMDP

Направления будущих исследований

Расширение на PSL: Хотя возможно, но сложно улучшить сложность 3EXPSPACE
Качественные фрагменты: Рассмотрение качественной PATL* или PSL только с пороговыми значениями >0 и =1, возможно получение лучшей сложности
Количественные техники: Применение техник вероятностной проверки моделей (анализ графов, минимизация бисимуляции, символические техники, редукция частичного порядка)
Когнитивные операторы: Расширение на фреймворк когнитивной логики для обработки знания и убеждений
Приближённые алгоритмы: Разработка эвристических или приближённых алгоритмов для практических приложений
Реализация инструментов: Разработка прототипного инструмента и оценка на реальных примерах

Глубокая оценка

Достоинства

Теоретическая строгость:
- Полные доказательства верхних и нижних границ сложности
- Детальные определения семантики (конструкция вероятностного пространства)
- Строгий анализ выразительности
Важность проблемы:
- Заполняет теоретический пробел естественных стратегий в стохастической среде
- Решает ключевые потребности моделирования реальных MAS
- Связывает несколько областей исследований (MAS, POMDP, теория игр)
Технические вклады:
- Элегантный дизайн вероятностного расширения поведенческих стратегий
- Инновационное введение параметризации сложности k
- Использование условий регулярного выражения для моделирования неполной информации
Ориентация на приложения:
- Примеры систем электронного голосования близки к практике
- Пример контроля доступа ясно демонстрирует моделирование стохастичности
- Примеры формул имеют практическое значение
Качество написания:
- Ясная структура, постепенное развитие от мотивации к технике
- Богатые примеры, помогающие понять абстрактные концепции
- Полный обзор связанных работ

Недостатки

Отсутствие экспериментов:
- Полностью теоретическое исследование без оценки реальных систем
- Отсутствует реализация инструментов или примеры использования
- Невозможно оценить практическую осуществимость
Зазоры в сложности:
- NatPATL* с детерминированными стратегиями имеет экспоненциальный зазор
- Нижние границы для вероятностных стратегий не плотные
- Не исследованы глубокие причины зазоров
Анализ выразительности:
- Доказана только несравнимость, без количественной оценки различий
- Отсутствует обсуждение того, какие практические свойства могут/не могут быть выражены
- Отношение к другим логикам (например, SL) не глубоко изучено
Сложность стратегии:
- Мера сложности c(σ) довольно грубая (только количество символов)
- Не учитываются другие факторы, такие как количество состояний автомата
- Отсутствует руководство по практическому выбору k
Вероятностная модель:
- Рассматриваются только конечные CGS
- Не обсуждаются непрерывные пространства состояний/действий
- Вероятностные распределения ограничены рациональными числами

Влияние

Теоретическое влияние:
- Предоставляет новые инструменты для верификации стохастических MAS
- Продвигает развитие теории естественных стратегий
- Связывает сообщества MAS и POMDP
Практическая ценность:
- Системы электронного голосования, контроль доступа и другие критичные по безопасности приложения
- Проектирование систем человеко-машинного взаимодействия
- Планирование для агентов с ограниченными ресурсами
Воспроизводимость:
- Определения и доказательства детальны
- Технический приложение содержит полные доказательства
- Но отсутствуют код и наборы данных
Последующие исследования:
- Расширение на когнитивную логику
- Разработка приближённых алгоритмов
- Реализация инструментов
- Исследования на реальных примерах

Применимые сценарии

Теоретические исследования:
- Формальная верификация многоагентных систем
- Кросс-дисциплинарные исследования теории игр и логики
- Теория сложности
Критичные по безопасности системы:
- Верификация протоколов электронного голосования
- Анализ политик контроля доступа
- Верификация безопасности автономных систем
Человеко-машинное взаимодействие:
- Проектирование интерпретируемых стратегий ИИ
- Планирование, понятное человеку
- Совместные роботы
Среды с ограниченными ресурсами:
- Встроенные системы
- Устройства Интернета вещей
- Мобильные роботы

Неприменимые сценарии:

Системы, требующие точной числовой оптимизации
Непрерывные пространства состояний/действий
Требующие быстрого онлайн-принятия решений (сложность слишком высока)

Избранные ссылки

Jamroga, W., Malvone, V., & Murano, A. (2019). Natural strategic ability. Artificial Intelligence, 277, 103170.
- Исходное определение естественных стратегий
Aminof, B., et al. (2019). Probabilistic Strategy Logic. IJCAI.
- Сложность PSL 3EXPSPACE
Chatterjee, K., Chmelik, M., & Davies, J. (2016). A Symbolic SAT-Based Algorithm for Almost-Sure Reachability with Small Strategies in POMDPs. AAAI.
- NP-полнота стратегий с ограниченной памятью в POMDP
Baier, C., et al. (2012). Stochastic game logic. Acta Informatica, 49(4), 203-224.
- Сложность EXPSPACE логики стохастических игр
Alur, R., Henzinger, T., & Kupferman, O. (2002). Alternating-time temporal logic. J. ACM, 49(5), 672-713.
- Классическая статья по ATL

Общая оценка: Это высококачественная статья в области теоретической информатики, вносящая важный вклад в область верификации стохастических многоагентных систем. Теоретические результаты строги и полны, проблема хорошо мотивирована, технические инновации значительны. Основной недостаток заключается в отсутствии экспериментальной верификации и реализации инструментов. Для теоретиков и исследователей формальных методов это обязательная к прочтению работа; для практиков необходимо дождаться последующей разработки инструментов и исследований на примерах. Результаты сложности в данной работе устанавливают важный теоретический эталон для этой области.