2025-11-16T22:46:12.872655

Learnable Mixed Nash Equilibria are Collectively Rational

So, Ma

We extend the study of learning in games to dynamics that exhibit non-asymptotic stability. We do so through the notion of uniform stability, which is concerned with equilibria of individually utility-seeking dynamics. Perhaps surprisingly, it turns out to be closely connected to economic properties of collective rationality. Under mild non-degeneracy conditions and up to strategic equivalence, if a mixed equilibrium is not uniformly stable, then it is not weakly Pareto optimal: there is a way for all players to improve by jointly deviating from the equilibrium. On the other hand, if it is locally uniformly stable, then the equilibrium must be weakly Pareto optimal. Moreover, we show that uniform stability determines the last-iterate convergence behavior for the family of incremental smoothed best-response dynamics, used to model individual and corporate behaviors in the markets. Unlike dynamics around strict equilibria, which can stabilize to socially-inefficient solutions, individually utility-seeking behaviors near mixed Nash equilibria lead to collective rationality.

academic

Learnable Mixed Nash Equilibria are Collectively Rational

基本信息

论文ID: 2510.14907
标题: Learnable Mixed Nash Equilibria are Collectively Rational
作者: Geelon So, Yi-An Ma (University of California, San Diego)
分类: cs.GT (Game Theory), cs.LG (Machine Learning)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14907

摘要

本文将博弈学习研究扩展到展现非渐近稳定性的动态系统。通过引入一致稳定性(uniform stability)概念，研究个体效用寻求动态的均衡。令人惊讶的是，一致稳定性与集体理性的经济学性质密切相关。在温和的非退化条件下，如果混合均衡不是一致稳定的，那么它就不是弱帕累托最优的：所有参与者都可以通过联合偏离均衡来改善自身效用。另一方面，如果均衡是局部一致稳定的，那么它必须是弱帕累托最优的。此外，论文证明一致稳定性决定了增量平滑最佳响应动态的最后迭代收敛行为，该动态用于建模市场中的个体和企业行为。

研究背景与动机

核心问题

本文要解决的核心问题是：哪些Nash均衡可以通过非耦合的学习动态被稳健地学习到？

问题重要性

理论意义: Nash均衡作为博弈论的基础解概念，其可学习性直接影响均衡概念的实际相关性
实际意义: 在市场行为、企业竞争等现实场景中，参与者通过重复交互学习策略，只有可学习的均衡才有实际意义
经济学意义: 连接了个体理性(Nash均衡)和集体理性(帕累托最优)这两个重要概念

现有方法局限性

Hart-Mas-Colell不可能性结果: 证明了没有非耦合的渐近稳定学习动态能收敛到所有Nash均衡
严格均衡的局限: 现有理论主要适用于严格均衡，但严格均衡可能收敛到社会无效率的解
混合均衡的困境: 混合均衡不是严格的，因此在许多学习动态下不是渐近稳定的

研究动机

作者提出了一个关键洞察：需要超越渐近稳定性的严格要求，考虑更弱的非渐近稳定性概念，从而能够分析混合Nash均衡的可学习性。

核心贡献

引入一致稳定性概念: 提出了点态一致稳定性和局部一致稳定性两个新的稳定性概念，适用于广泛的学习动态类别
建立稳定性与集体理性的联系: 证明了一致稳定性与战略帕累托最优性之间的等价关系
提供收敛性刻画: 对增量平滑最佳响应动态给出了完整的收敛性分析
揭示个体vs集体理性的二分性: 证明了在混合均衡附近，个体效用寻求行为导致集体理性

方法详解

任务定义

研究N人标准型博弈中的学习动态：

输入: 博弈 $(Ω, f)$ ，其中 $Ω = Ω_1 \times \cdots \times Ω_N$ 是联合策略空间， $f = (f_1, \ldots, f_N)$ 是效用函数
输出: 确定哪些Nash均衡可以通过非耦合学习动态稳健学习
约束: 学习动态必须是非耦合的(参与者不知道他人的效用或学习规则)