2025-11-27T04:04:18.671150

Evolutionary Prediction Games

Saig, Rosenfeld

When a prediction algorithm serves a collection of users, disparities in prediction quality are likely to emerge. If users respond to accurate predictions by increasing engagement, inviting friends, or adopting trends, repeated learning creates a feedback loop that shapes both the model and the population of its users. In this work, we introduce evolutionary prediction games, a framework grounded in evolutionary game theory which models such feedback loops as natural-selection processes among groups of users. Our theoretical analysis reveals a gap between idealized and real-world learning settings: In idealized settings with unlimited data and computational power, repeated learning creates competition and promotes competitive exclusion across a broad class of behavioral dynamics. However, under realistic constraints such as finite data, limited compute, or risk of overfitting, we show that stable coexistence and mutualistic symbiosis between groups becomes possible. We analyze these possibilities in terms of their stability and feasibility, present mechanisms that can sustain their existence, and empirically demonstrate our findings.

academic

Evolutionary Prediction Games

基本信息

论文ID: 2503.03401
标题: Evolutionary Prediction Games
作者: Eden Saig, Nir Rosenfeld (Technion – Israel Institute of Technology)
分类: cs.LG (Machine Learning), cs.CY (Computers and Society), cs.GT (Game Theory)
发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2503.03401v3

摘要

当预测算法服务于用户群体时，预测质量的差异不可避免。如果用户对准确预测的响应是增加参与度、邀请朋友或采纳趋势，重复学习会创建一个反馈循环，同时塑造模型和用户群体。本文引入进化预测博弈（evolutionary prediction games）框架，基于进化博弈论将这种反馈循环建模为用户群体间的自然选择过程。理论分析揭示了理想化和现实学习场景之间的差距：在无限数据和计算能力的理想化设置中，重复学习在广泛的行为动力学下创造竞争并促进竞争性排斥；然而，在有限数据、有限计算或过拟合风险等现实约束下，稳定共存和群体间互惠共生成为可能。

研究背景与动机

1. 核心问题

论文研究机器学习系统中的反馈循环：当预测算法的准确性影响用户行为（如参与度、留存率），而用户行为又改变训练数据分布时，这种循环如何影响长期的群体组成和模型性能？

2. 问题重要性

普遍性：现代平台（内容推荐、在线市场、医疗服务、个性化教育）广泛依赖机器学习
社会影响：预测质量差异可能导致某些用户群体被系统性边缘化或排除
长期后果：盲目追求准确性可能产生意外和不良的社会后果

3. 现有方法的局限性

传统学习范式：假设数据分布固定，忽略了用户自选择（self-selection）的反馈效应
性能预测（Performative Prediction）：虽然研究模型部署对数据分布的影响，但在有状态设置中分析困难，且缺乏对群体动态的低维表示
公平性研究：静态公平性定义无法捕捉动态环境中群体的消失和出现

4. 研究动机

采用进化视角将学习与用户选择的联合动力学建模为自然选择过程：准确性成为稀缺资源，不同群体为之"竞争"，学习算法成为选择压力的驱动因素。

核心贡献

理论框架：提出进化预测博弈（evolutionary prediction games），将预测准确性与进化适应度关联，统一分析多种反馈循环
理想化设置的刻画（Theorem 1）：证明在oracle分类器下，重复训练导致竞争性排斥（competitive exclusion），只有单一群体能稳定生存
现实约束下的共存机制：展示代理损失（surrogate loss）、有限数据、插值等实践因素如何使稳定共存成为可能（Theorems 2, D.4, D.5）
稳定化算法（Proposition 2）：提出动态感知学习算法，通过重加权样本稳定不稳定的混合均衡
实证验证：在CIFAR-10、MNIST、ACSIncome等数据集上验证理论发现，展示不同设计选择如何塑造社会结果

方法详解

任务定义

监督学习设置：特征 $x \in \mathcal{X}$ ，标签 $y \in \mathcal{Y}$ ，分类器 $h: \mathcal{X} \to \mathcal{Y}$
群体结构：K个群体，每个群体k有固定分布 $D_k$ ，相对大小 $p_k$ 随时间演化
混合分布： $D_p = \sum_k p_k D_k$ ，其中 $p = (p_1, \ldots, p_K) \in \Delta^K$ （单纯形）
动力学：分类器部署 → 用户响应 → 群体比例变化 → 重新训练 → 循环

核心建模：进化预测博弈

定义1（进化预测博弈）：给定学习算法 $\mathcal{A}$ 和群体分布 $D_1, \ldots, D_K$ ，群体k在状态p下的进化适应度为： $F_k(p) = \mathbb{E}_{h \sim \mathcal{A}(p)}[\text{acc}_k(h)]$

其中 $\text{acc}_k(h) = \Pr_{(x,y) \sim D_k}[h(x) = y]$ 是群体k的边际准确率。

关键性质：

Nash均衡： $p^*$ 是均衡当且仅当 $\text{support}(p^*) \subseteq \arg\max_k F_k(p^*)$
公平性联系（Proposition 1）：均衡状态下，分类器满足整体准确率平等（overall accuracy equality）
动力学假设：
1. 连续性： $V_F(p)$ 连续
2. 正相关性： $V_F(p) \cdot F(p) > 0$ （适应度高的群体增长）
3. 均衡对应：固定点对应Nash均衡或模仿动力学的限制均衡

理论结果

Theorem 1: Oracle分类器下的竞争性排斥

对于oracle分类器 $h_p \in \arg\min_{h \in \mathcal{H}} \mathbb{E}_{D_p}[\ell(h)]$ ：

准确率单调性： $\frac{d}{dt}\text{acc}_p(h_p) \geq 0$ （总体准确率随时间提高）
稳定性：稳定均衡总是存在（可能有多个）
竞争性排斥：所有稳定均衡满足 $|\text{support}(p^*)| = 1$ （单一群体主导）
共存可能性： $|\text{support}(p^*)| \geq 2$ 的均衡可能存在，但不稳定

证明核心思路：

利用势博弈（potential game）框架： $f(p) = \text{acc}_p(h_p)$ 是势函数
凸性论证： $f(p)$ 作为线性函数的逐点最大值是凸函数
凸函数在单纯形上的局部最大值位于顶点（单一群体状态）

Theorem 2: 代理损失下的稳定互惠共存

存在使用hinge损失和 $\ell_2$ 正则化的进化预测博弈，其混合均衡既稳定又是适应度最大化的。

构造要点（详见Section D.6）：

两个群体，每个群体有多数类和少数类，且多数类不同
Hinge损失对少数类有偏差
在50-50混合状态，两个群体的偏差相互抵消，达到最优准确率
稳定性：任一群体增长会因另一群体萎缩而损失更多

Proposition 2: 稳定化不稳定均衡

对于有不稳定均衡 $p^*$ 的oracle算法 $\mathcal{A}_{opt}(p)$ ，算法 $\mathcal{A}'(p) = \mathcal{A}_{opt}(2p^* - p)$ 使 $p^*$ 变为稳定。

机制：通过样本重加权 $w_k = \frac{p_k}{2p^*_k - p_k}$ ，"反转"自然动力学趋势。

技术创新点

降维表示：通过用户自选择结构，将高维分布映射到 $(K-1)$ 维单纯形，使有状态性能预测问题可处理
势博弈刻画：证明oracle分类器博弈是势博弈，利用势函数的凸性分析稳定性
互惠共生机制：识别出实践中的学习不完美（代理损失、有限数据、插值）如何通过群体间的互补偏差创造共存条件
反事实公平性视角：提出"当前看似公平可能是因为某些群体已被排除"的观点

实验设置

数据集

CIFAR-10（Section 6.1）
- 60,000张32×32彩色图像，10个类别
- 群体定义：A=原始图像，B=水平翻转图像
- 目的：测试数据增强作为自然共存机制
MNIST（Section 6.2）
- 手写数字识别
- 群体定义：A偏向偶数（4:1），B偏向奇数（4:1）
- 多数类标签噪声：20%概率映射到同奇偶性的下一个数字
- 目的：测试过参数化和标签噪声下的稳定共存
ACSIncome（Section 6.3）
- Folktables收入预测任务（美国人口普查数据）
- 群体定义：加州（195,665点）、纽约（103,021点）、德州（135,924点）
- 目的：展示三群体动态和公平性问题

评价指标

边际准确率： $\text{acc}_k(h)$ 对每个群体k
总体准确率： $\text{acc}_p(h) = \sum_k p_k \text{acc}_k(h)$
群体比例： $p_k(t)$ 随时间演化
稳定性：均衡的吸引域和收敛性

对比方法

Oracle线性分类器：理论基准
实践算法：Soft-SVM, Hard-SVM, k-NN, ResNet-9, CNN
稳定化算法： $\mathcal{A}'(p) = \mathcal{A}(2p^* - p)$

实现细节

CIFAR-10：ResNet-9，ffcv框架，默认优化参数，20次重复
MNIST：2层卷积+2层全连接，SGD（lr=0.01, momentum=0.5），200 epochs，50次重复
ACSIncome：LinearSVC, LogisticRegression, XGBoost，默认正则化，10次重复
动力学模拟：离散复制子方程（Taylor-Jonker形式）
硬件：合成数据用Macbook Pro M2，神经网络用AMD EPYC 7502 + RTX A4000

实验结果

主要结果

实验1：CIFAR-10水平翻转的互惠共存（Figure 4 Left & Center）

博弈结构：三个均衡点
- 两个稳定单群体均衡（92.6±0.1%）
- 一个不稳定混合均衡（93.5±0.1%）
互惠性：混合状态准确率最高，两群体互利
稳定化效果：使用Proposition 2的方法成功稳定50-50状态，总体准确率从92.6%提升至93.2%

实验2：MNIST标签噪声的稳定共存（Figure 4 Right）

博弈结构：标签噪声"翻转"了博弈
- 少数群体准确率更高（ $\text{acc}_B > \text{acc}_A$ 当 $p_B < p_A$ ）
- 稳定共存均衡（80.4±0.2%），接近理论上界84%
机制：群体自然平衡，过参数化网络（训练准确率98.7%）通过插值实现

实验3：ACSIncome三群体动态与公平性（Figure 5）

两阶段演化：
1. 早期（t≤200）：NY群体萎缩，CA和TX保持平衡，群体差异≈2%
2. 后期（t>300）：NY被排除（≤1%），CA和TX竞争，差异降至≈0.2%
公平性悖论：系统在后期看似"更公平"，但仅因一个群体已被淘汰
算法依赖性（Figure 14）：
- LinearSVM → TX主导
- LogisticRegression → 共存鞍点
- XGBoost → CA主导

消融实验

采样噪声的影响（Figure 12）

方法：用高斯过程拟合CIFAR-10数据，模拟不同噪声水平 $\eta$
结果：
- $\eta=0$ （无噪声）：确定性结果
- $\eta=1$ （观测噪声）：相对鲁棒， $p^0_B > 0.5$ 时B群体高概率主导
- $\eta=5$ （5倍噪声）：结果变得嘈杂， $p^0_B \approx 0.55$ 时A群体仍有概率主导

收敛时间分析（Figure 13 Center）

发现：收敛时间在 $p^0_B \in [0.1, 0.4] \cup [0.6, 0.9]$ 时大致线性
临界行为： $p^0_B \to 0.5$ 时收敛时间趋于无穷，选择压力极弱

稳定化敏感性（Figure 13 Right）

结果：估计均衡 $\hat{p}^*$ 与最终状态呈线性关系
鲁棒性：误差主要影响群体组成，不影响总体福利

案例分析

理论构造验证（Figure 3）：

Soft-SVM：α=0.75时出现5个均衡点（2稳定单群体 + 1稳定共存 + 2不稳定共存），验证Theorem 2
1-NN：标签噪声α=0.2，β=0.8时稳定共存，验证Theorem D.4
Hard-SVM：有限数据（n=21）下互惠共存，验证Theorem D.5

实验发现

实践算法的共存潜力：非最优学习算法的偏差可通过群体互补创造稳定共存
数据增强的长期效益：自然增强（如水平翻转）不仅提升短期准确率，还促进长期群体多样性
公平性的动态性：静态公平性度量无法捕捉历史排斥，需要反事实分析
算法选择的社会影响：看似中性的算法选择（SVM vs. XGBoost）可能决定哪些群体生存

结论与讨论

主要结论

理论-实践差距：理想化学习驱动竞争性排斥，实践约束使共存成为可能
稳定性-最优性权衡：最优重训练创造不稳定的有益共存，需要干预稳定
设计选择的影响：算法、正则化、数据大小等看似技术性的选择深刻影响社会结果
保护的必要性：无干预时，学习可能将用户群体推向不利状态，需要类似生态保护的机制

局限性

假设限制：
- 固定群体内分布（无intra-group shift）
- 无外生力量（如营销、补贴）
- 群体间无直接依赖（除通过分类器）
- 简单重训练协议（仅用当前数据）
群体定义：
- 假设非重叠群体，现实中成员资格常流动
- 个体行为对群体结果的依赖未必严格
时间尺度：
- "灭绝"指极限行为，对有限时间点沉默
- 收敛速度可能极慢（图13显示接近均衡时收敛时间趋于无穷）
实证范围：
- 实验主要在计算机视觉和表格数据
- 缺乏真实用户反馈循环的验证

未来方向

机制设计：开发更多促进多样性的稳定化机制（类似生态学中的资源分区、环境变异）
动态感知优化：将进化稳定性纳入学习目标
群体发现：识别历史上被排除的群体
跨领域验证：在金融、医疗、教育等领域测试框架
放松假设：研究群体内分布漂移、跨群体影响、外生干预的效果

深度评价

优点

理论严密性：
- 势博弈刻画优雅地连接了凸优化和进化稳定性
- Theorem 1的证明技术新颖（利用oracle的凸性）
- 扩展到异质适应度（Theorem D.3）和等价群体（Theorem D.2）
实践相关性：
- 识别出代理损失、有限数据、插值等真实因素如何改变理论预测
- 稳定化算法简单实用（仅需样本重加权）
- 实验覆盖多种学习算法和数据类型
跨学科视角：
- 成功将生态学的竞争性排斥原理引入机器学习
- 连接博弈论、公平性、性能预测等多个领域
- 提供"社会保护"的新视角
实证充分性：
- 理论构造（Theorems 2, D.4, D.5）均有数值验证
- 敏感性分析（采样噪声、收敛时间、稳定化鲁棒性）全面
- ACSIncome实验展示了三群体复杂动态
写作清晰度：
- 微观基础（Appendix C）明确了建模假设
- 图示直观（Figures 1-3）
- 附录详尽（150+页证明和扩展）

不足

方法局限性：
- 稳定化算法需要知道或估计 $p^*$ ，实践中可能困难
- 仅考虑准确率最大化，未涉及其他学习目标（如鲁棒性、校准）
- 共存的"好坏"依赖上下文，框架本身不提供规范性指导
实验设置：
- 群体定义人为（水平翻转、州别），真实场景中群体可能模糊
- 缺乏真实反馈循环验证（用户实际不会因预测质量改变群体）
- 动力学模拟依赖复制子方程，其他动力学形式未充分探索
理论-实践鸿沟：
- Theorem 1要求oracle分类器，但实验用有限样本
- 共存机制的构造（Theorems 2, D.4, D.5）高度特定，普适性不明
- 稳定共存的条件（如Soft-SVM的 $\alpha \in (0, 1-\frac{1}{2\beta})$ ）难以先验检验
社会影响分析：
- "多样性"的价值未深入讨论（何时应促进共存？）
- 与市场竞争、标准化收益的权衡分析不足
- 对平台激励的考虑有限（平台可能偏好单一用户群）

影响力

学术贡献：
- 为性能预测提供新的分析工具（势博弈+进化稳定性）
- 揭示学习算法的社会选择效应
- 连接公平性和进化博弈论
实用价值：
- 帮助系统设计者预见长期群体动态
- 提供干预策略（稳定化、目标营销、补贴）
- 警示算法选择的社会后果
可复现性：
- 代码已开源（GitHub: edensaig/evolutionary-prediction-games）
- 理论结果有详细证明（附录D，80+页）
- 实验细节完整（附录E-F）
局限：
- 框架复杂度可能限制快速采用
- 需要领域专家识别相关群体
- 长期验证需要纵向数据

适用场景

推荐系统：内容平台希望维护创作者和受众多样性
信贷市场：监管机构关注算法性信贷对群体的长期影响
医疗AI：确保诊断系统不排除特定患者群体
教育技术：个性化学习平台需平衡不同学习风格的学生
不适用：
- 群体边界模糊或快速变化的场景
- 用户行为与预测质量弱相关的任务
- 需要快速迭代的产品（分析成本高）

参考文献（精选）

Perdomo et al. (2020): Performative Prediction. ICML. 性能预测的奠基性工作
Sandholm (2010): Population Games and Evolutionary Dynamics. MIT Press. 进化博弈论教材
Hashimoto et al. (2018): Fairness Without Demographics in Repeated Loss Minimization. ICML. 长期公平性
Hardin (1960): The Competitive Exclusion Principle. Science. 生态学竞争性排斥原理
Brown et al. (2022): Performative Prediction in a Stateful World. AISTATS. 有状态性能预测

总体评价：这是一篇理论深刻、实证充分、视角新颖的优秀论文。通过进化博弈论的透镜，作者揭示了机器学习系统中隐藏的社会选择机制，为理解和设计负责任的AI系统提供了重要工具。理论结果（特别是oracle分类器的竞争性排斥和实践算法的共存机制）令人信服，实验设计巧妙地验证了关键预测。论文的主要价值在于改变了我们对学习算法社会影响的认知框架——从静态公平性转向动态进化视角。尽管存在假设限制和实证验证挑战，该工作为机器学习、公平性、博弈论的交叉研究开辟了富有前景的方向，值得NeurIPS发表。