Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
Равномерная ценность и разрешимость в эргодических слепых стохастических играх
Название: Uniform Value and Decidability in Ergodic Blind Stochastic Games
Авторы: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
Классификация: math.OC (Оптимизация и управление), cs.CC (Вычислительная сложность)
В данной работе исследуются слепые стохастические игры (blind stochastic games) — класс двухлиц нулевых стохастических игр, в которых участники не наблюдают состояние и не получают никакой информации о нём. Авторы вводят подкласс эргодических слепых стохастических игр (ergodic blind stochastic games), определяемый путём наложения условий эргодичности на переходы состояний. Для этого подкласса доказывается существование равномерной ценности (uniform value) и предоставляются приближённые алгоритмы, устанавливающие разрешимость приближённой задачи. Этот результат разрешимости является новым даже для частично наблюдаемых марковских процессов принятия решений (POMDP) в однолиц ном случае. Кроме того, доказывается, что ни один алгоритм не может точно вычислить равномерную ценность, что подчёркивает плотность результатов. Наконец, устанавливается, что равномерная ценность не зависит от начального убеждения.
Проблема существования равномерной ценности: Зилиотто Zil16 доказал, что в общих слепых стохастических играх равномерная ценность может не существовать. При каких условиях она существует?
Проблема вычислимости: Даже если равномерная ценность существует, можно ли её вычислить или приблизить алгоритмически? Мадани и др. MHC03 доказали, что в общих слепых MDP вычисление и приближение равномерной ценности неразрешимы.
Теоретическое значение: Слепые стохастические игры представляют собой простейшую модель игр с неполной информацией и служат теоретическим эталоном для изучения более сложных моделей. Они эквивалентны вероятностным конечным автоматам, имеющим широкое применение в информатике.
Практические приложения: Включают лаконичные спецификации языков бесконечных строк BGB12, CT12, анализ последовательностей в вычислительной биологии DEKM98, обработку речи Moh97 и другие области.
Методологический вклад: Выявление условий на данные, обеспечивающих эргодическое поведение динамики убеждений, представляет собой ключевой методологический вклад.
Общие слепые стохастические игры: Не гарантируют существование равномерной ценности Zil16
Обменяемые слепые стохастические игры: Венель Ven15 доказал существование равномерной ценности, но не предоставил алгоритм вычисления
Слепые MDP: Розенберг и др. RSV02 доказали существование равномерной ценности, но Мадани и др. MHC03 доказали неразрешимость вычисления и приближения
Существующие исследования эргодичности: Сосредоточены в основном на стандартных стохастических играх или MDP, без систематического изучения слепых стохастических игр
Определение эргодических слепых стохастических игр: Формализация нового подкласса игр на основе эргодических свойств произведений матриц переходов (определение 3.3)
Существование равномерной ценности и разрешимость приближения (теорема 3.5):
Доказательство того, что все эргодические слепые стохастические игры имеют равномерную ценность
Предоставление приближённого алгоритма, устанавливающего разрешимость приближённой задачи
Верхняя граница сложности: 2-EXPSPACE
Неразрешимость точного вычисления (теорема 3.6):
Доказательство того, что даже для марковских слепых MDP (подкласса эргодических слепых стохастических игр) точное вычисление равномерной ценности неразрешимо
Это демонстрирует плотность результата разрешимости приближения
Независимость от начального убеждения (теорема 3.7):
Доказательство того, что в эргодических слепых стохастических играх равномерная ценность не зависит от начального убеждения
Достаточные условия: Выявление нескольких классов матриц переходов, гарантирующих эргодичность (C1-C5), включая марковские матрицы, scrambling-матрицы, матрицы Сарымсакова и др.
Алгоритм верификации (предложение 3.9): Предоставление алгоритма экспоненциального пространства для проверки, удовлетворяет ли слепая стохастическая игра свойству эргодичности
Слепая стохастическая игра определяется как пятёрка Γ = (K, I, J, p, g):
K: конечное множество состояний
I, J: конечные множества действий игроков 1 и 2
p: K × I × J → Δ(K): функция вероятностного перехода
g: K × I × J → 0,1: функция вознаграждения на этапе
Ключевая особенность: Игроки не наблюдают состояние, они знают только начальное убеждение b₁ ∈ Δ(K) и историю действий.
Определение равномерной ценности: Игра Γ имеет равномерную ценность v: Δ(K) → 0,1, если для всех b₁ ∈ Δ(K) и ε > 0 существуют стратегии (σ*, π*) и n ∈ ℕ*, такие что для всех N ≥ n:
Игрок 1 может гарантировать: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
Игрок 2 может гарантировать: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
где γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m — среднее вознаграждение за N этапов.
Эргодическая слепая стохастическая игра (определение 3.3): Игра Γ эргодична, если для всех ε > 0 существует целое число n₀ такое, что для всех последовательностей пар действий длины n ≥ n₀:
τ₁(Tⁿ(aⁿ)) ≤ ε
где Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) — произведение матриц переходов.
Ключевое свойство (предложение 3.8): Игра Γ эргодична тогда и только тогда, когда существует n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 такое, что для всех последовательностей пар действий длины n₀:
Основной метод работы заключается в построении абстрактной стохастической игры G*(b₁, ε) с конечным числом состояний, которая приближает исходную слепую стохастическую игру с ошибкой ε.
Этапы построения:
Этап 1: Определение временной шкалы (предложение 4.1)
Для заданного ε > 0 вычисляется nε = n₀⌈ln(ε)/ln(sup_(aⁿ⁰) τ₁(Tⁿ⁰(aⁿ⁰)))⌉
Для всех последовательностей длины n ≥ nε имеет место τ₁(Tⁿ(aⁿ)) ≤ ε
Этап 2: Построение множества стабилизированных матриц
T(ε): множество всех матриц переднего произведения длины n, удовлетворяющих условию τ₁
T̃(ε): множество абстрактных стабилизированных матриц, для каждого Tⁿ ∈ T(ε) определяется T̃ⁿ такая, что: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) то есть каждая строка равна среднему значению всех строк, что делает матрицу стабилизированной (все строки одинаковы)
Этап 3: Определение абстрактного пространства состояний
Ключевое наблюдение: Эргодичность гарантирует, что после длины n все матрицы переходов имеют похожие строки (различие ≤ ε)
Техника стабилизации: Построение стабилизированных матриц путём усреднения, так чтобы обновление убеждений было независимо от начального убеждения
Блочная структура: Переход каждые n шагов, использование свойства "забывания памяти" эргодичности
2. Тонкий анализ управления ошибками
Лемма 4.2: Доказательство того, что расстояние убеждений между исходной и абстрактной игрой ограничено: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m)(m,σ,π))||₁ ≤ 4ε
Лемма 4.3: Доказательство того, что разница среднего вознаграждения ограничена: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G*_m| ≤ 4ε
3. Отличие от базовых подходов
vs. Венель Ven15 обменяемые игры: Не только доказательство существования, но и предоставление разрешимого алгоритма
vs. эргодичность в стандартных стохастических играх: Условия применяются к исходным данным, а не к игре убеждений
vs. литература по слепым MDP: Первое установление разрешимости приближения в двухлиц ных играх
4. Изящество доказательства неразрешимости
Редукция от проблемы универсальности вероятностных конечных автоматов (PFA)
Построение действия Restart, позволяющего слепому MDP моделировать PFA
Добавление состояния k̂ так, чтобы все матрицы переходов были марковскими (гарантирующее эргодичность)
Доказательство того, что вероятность принятия > 1/2 эквивалентна долгосрочному среднему > 1/2
MN81 Мертенс и Нейман (1981): Основополагающая работа по существованию равномерной ценности в стандартных стохастических играх
Zil16 Зилиотто (2016): Контрпримеры несуществования равномерной ценности в слепых стохастических играх
MHC03 Мадани, Ханкс и Кондон (2003): Классический результат о неразрешимости в слепых MDP
Sen06 Сенета (2006): Авторитетный обзор теории неотрицательных матриц и эргодичности
Ven15 Венель (2015): Существование равномерной ценности в обменяемых стохастических играх
RSV02 Розенберг, Солан и Виэль (2002): Существование равномерной ценности в слепых MDP
CSZ22 Чаттерджи, Саона и Зилиотто (2022): Конечная память в POMDP
OB21 Олиу-Бартон (2021): Новые алгоритмы для стандартных стохастических игр
Общая оценка: Это отличная статья с глубокой теорией и надёжной техникой. Она достигает важного прорыва в фундаментальной, но сложной проблеме слепых стохастических игр, искусно балансируя между существованием равномерной ценности и вычислимостью путём введения условия эргодичности. Хотя высокая алгоритмическая сложность ограничивает практическое применение, её теоретический вклад и методологические инновации имеют значительное значение для теории игр, теории автоматов и теории вычислительной сложности. Результат плотности (приближение разрешимо, но точное вычисление неразрешимо) особенно впечатляет, чётко определяя вычислительные границы задачи.