When a prediction algorithm serves a collection of users, disparities in prediction quality are likely to emerge. If users respond to accurate predictions by increasing engagement, inviting friends, or adopting trends, repeated learning creates a feedback loop that shapes both the model and the population of its users. In this work, we introduce evolutionary prediction games, a framework grounded in evolutionary game theory which models such feedback loops as natural-selection processes among groups of users. Our theoretical analysis reveals a gap between idealized and real-world learning settings: In idealized settings with unlimited data and computational power, repeated learning creates competition and promotes competitive exclusion across a broad class of behavioral dynamics. However, under realistic constraints such as finite data, limited compute, or risk of overfitting, we show that stable coexistence and mutualistic symbiosis between groups becomes possible. We analyze these possibilities in terms of their stability and feasibility, present mechanisms that can sustain their existence, and empirically demonstrate our findings.
- ID del Artículo: 2503.03401
- Título: Evolutionary Prediction Games
- Autores: Eden Saig, Nir Rosenfeld (Technion – Israel Institute of Technology)
- Clasificación: cs.LG (Aprendizaje Automático), cs.CY (Computadoras y Sociedad), cs.GT (Teoría de Juegos)
- Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
- Enlace del Artículo: https://arxiv.org/abs/2503.03401v3
Cuando algoritmos de predicción sirven a poblaciones de usuarios, las variaciones en la calidad de predicción son inevitables. Si la respuesta de los usuarios a predicciones precisas es aumentar la participación, invitar amigos o adoptar tendencias, el reaprendizaje repetido crea un ciclo de retroalimentación que simultáneamente moldea el modelo y la población de usuarios. Este artículo introduce el marco de juegos de predicción evolutiva (evolutionary prediction games), basado en teoría de juegos evolutiva para modelar este ciclo de retroalimentación como un proceso de selección natural entre poblaciones de usuarios. El análisis teórico revela la brecha entre escenarios de aprendizaje idealizados y realistas: en configuraciones idealizadas con datos y capacidad computacional infinitos, el reaprendizaje repetido crea competencia y promueve exclusión competitiva bajo una amplia gama de dinámicas de comportamiento; sin embargo, bajo restricciones realistas como datos limitados, capacidad computacional limitada o riesgo de sobreajuste, se hacen posibles la coexistencia estable y el mutualismo recíproco entre grupos.
El artículo estudia ciclos de retroalimentación en sistemas de aprendizaje automático: cuando la precisión de un algoritmo de predicción afecta el comportamiento del usuario (como participación, retención), y el comportamiento del usuario cambia la distribución de datos de entrenamiento, ¿cómo afecta este ciclo a la composición de población a largo plazo y al desempeño del modelo?
- Universalidad: Las plataformas modernas (recomendación de contenido, mercados en línea, servicios médicos, educación personalizada) dependen ampliamente del aprendizaje automático
- Impacto Social: Las variaciones en calidad de predicción pueden llevar a la marginación o exclusión sistemática de ciertos grupos de usuarios
- Consecuencias a Largo Plazo: La búsqueda ciega de precisión puede producir consecuencias sociales inesperadas y adversas
- Paradigmas de Aprendizaje Tradicionales: Asumen distribución de datos fija, ignorando efectos de retroalimentación de auto-selección
- Predicción de Desempeño (Performative Prediction): Aunque estudia el impacto del despliegue del modelo en la distribución de datos, el análisis es difícil en configuraciones con estado, y carece de representaciones de baja dimensión de dinámicas de grupo
- Investigación de Equidad: Las definiciones estáticas de equidad no pueden capturar la desaparición y aparición de grupos en entornos dinámicos
Adoptar una perspectiva evolutiva para modelar la dinámica conjunta del aprendizaje y la selección de usuarios como un proceso de selección natural: la precisión se convierte en un recurso escaso, diferentes grupos "compiten" por él, y el algoritmo de aprendizaje se convierte en el impulsor de la presión de selección.
- Marco Teórico: Propone juegos de predicción evolutiva, asociando precisión de predicción con aptitud evolutiva, unificando el análisis de múltiples ciclos de retroalimentación
- Caracterización de Configuración Idealizada (Teorema 1): Demuestra que bajo clasificadores oráculo, el entrenamiento repetido conduce a exclusión competitiva, donde solo una única población puede sobrevivir establemente
- Mecanismos de Coexistencia bajo Restricciones Realistas: Muestra cómo factores prácticos como pérdida sustituta, datos limitados e interpolación hacen posible la coexistencia estable (Teoremas 2, D.4, D.5)
- Algoritmo de Estabilización (Proposición 2): Propone un algoritmo de aprendizaje consciente de dinámicas que estabiliza equilibrios mixtos inestables mediante reponderación de muestras
- Verificación Empírica: Verifica hallazgos teóricos en conjuntos de datos CIFAR-10, MNIST, ACSIncome, demostrando cómo diferentes opciones de diseño moldean resultados sociales
- Configuración de Aprendizaje Supervisado: Características x∈X, etiquetas y∈Y, clasificador h:X→Y
- Estructura de Población: K poblaciones, cada población k con distribución fija Dk, tamaño relativo pk que evoluciona en el tiempo
- Distribución Mixta: Dp=∑kpkDk, donde p=(p1,…,pK)∈ΔK (símplex)
- Dinámicas: Despliegue de clasificador → Respuesta del usuario → Cambio en proporciones de población → Reentrenamiento → Ciclo
Definición 1 (Juegos de Predicción Evolutiva):
Dado un algoritmo de aprendizaje A y distribuciones de población D1,…,DK, la aptitud evolutiva de la población k en estado p es:
Fk(p)=Eh∼A(p)[acck(h)]
donde acck(h)=Pr(x,y)∼Dk[h(x)=y] es la tasa de precisión marginal de la población k.
Propiedades Clave:
- Equilibrio de Nash: p∗ es equilibrio si y solo si support(p∗)⊆argmaxkFk(p∗)
- Conexión de Equidad (Proposición 1): En estado de equilibrio, el clasificador satisface igualdad de precisión general (overall accuracy equality)
- Supuestos de Dinámicas:
- Continuidad: VF(p) es continua
- Correlación Positiva: VF(p)⋅F(p)>0 (poblaciones con mayor aptitud crecen)
- Correspondencia de Equilibrio: Los puntos fijos corresponden a equilibrios de Nash o equilibrios límite de dinámicas de imitación
Para clasificadores oráculo hp∈argminh∈HEDp[ℓ(h)]:
- Monotonicidad de Precisión: dtdaccp(hp)≥0 (la precisión general mejora con el tiempo)
- Estabilidad: Los equilibrios estables siempre existen (posiblemente múltiples)
- Exclusión Competitiva: Todos los equilibrios estables satisfacen ∣support(p∗)∣=1 (una única población dominante)
- Posibilidad de Coexistencia: Pueden existir equilibrios con ∣support(p∗)∣≥2, pero son inestables
Núcleo de la Prueba:
- Utiliza marco de juego potencial: f(p)=accp(hp) es función potencial
- Argumento de convexidad: f(p) como máximo puntual de funciones lineales es convexa
- Los máximos locales de funciones convexas en el símplex están en vértices (estados de población única)
Existen juegos de predicción evolutiva usando pérdida hinge y regularización ℓ2 donde el equilibrio mixto es tanto estable como maximizador de aptitud.
Puntos de Construcción (ver Sección D.6):
- Dos poblaciones, cada una con clase mayoritaria y minoritaria, con clases mayoritarias diferentes
- La pérdida hinge tiene sesgo hacia la clase minoritaria
- En estado de mezcla 50-50, los sesgos de ambas poblaciones se cancelan mutuamente, logrando precisión óptima
- Estabilidad: El crecimiento de cualquier población causa que pierda más por el encogimiento de la otra población
Para algoritmo oráculo Aopt(p) con equilibrio inestable p∗, el algoritmo A′(p)=Aopt(2p∗−p) hace que p∗ sea estable.
Mecanismo: Mediante reponderación de muestras wk=2pk∗−pkpk, "invierte" la tendencia de dinámicas naturales.
- Representación de Baja Dimensión: Mediante estructura de auto-selección de usuarios, mapea distribuciones de alta dimensión a símplex (K−1)-dimensional, haciendo manejable el problema de predicción de desempeño con estado
- Caracterización de Juego Potencial: Demuestra que el juego de clasificador oráculo es un juego potencial, utilizando convexidad de función potencial para analizar estabilidad
- Mecanismo de Mutualismo Recíproco: Identifica cómo imperfecciones prácticas de aprendizaje (pérdida sustituta, datos limitados, interpolación) crean condiciones de coexistencia mediante sesgos complementarios entre grupos
- Perspectiva de Equidad Contrafáctica: Propone el punto de vista "lo que parece justo ahora puede ser porque ciertos grupos ya han sido excluidos"
- CIFAR-10 (Sección 6.1)
- 60,000 imágenes de color 32×32, 10 clases
- Definición de población: A=imágenes originales, B=imágenes volteadas horizontalmente
- Propósito: Probar aumento de datos como mecanismo de coexistencia natural
- MNIST (Sección 6.2)
- Reconocimiento de dígitos manuscritos
- Definición de población: A sesgado hacia números pares (4:1), B sesgado hacia números impares (4:1)
- Ruido de etiqueta en clase mayoritaria: 20% de probabilidad de mapeo al siguiente dígito con la misma paridad
- Propósito: Probar coexistencia estable bajo sobreparametrización y ruido de etiqueta
- ACSIncome (Sección 6.3)
- Tarea de predicción de ingresos de Folktables (datos del censo estadounidense)
- Definición de población: California (195,665 puntos), Nueva York (103,021 puntos), Texas (135,924 puntos)
- Propósito: Demostrar dinámicas de tres poblaciones y problemas de equidad
- Precisión Marginal: acck(h) para cada población k
- Precisión General: accp(h)=∑kpkacck(h)
- Proporciones de Población: pk(t) evolucionando en el tiempo
- Estabilidad: Dominio de atracción del equilibrio y convergencia
- Clasificador Lineal Oráculo: Referencia teórica
- Algoritmos Prácticos: Soft-SVM, Hard-SVM, k-NN, ResNet-9, CNN
- Algoritmo de Estabilización: A′(p)=A(2p∗−p)
- CIFAR-10: ResNet-9, marco ffcv, parámetros de optimización por defecto, 20 repeticiones
- MNIST: 2 capas convolucionales + 2 capas completamente conectadas, SGD (lr=0.01, momentum=0.5), 200 épocas, 50 repeticiones
- ACSIncome: LinearSVC, LogisticRegression, XGBoost, regularización por defecto, 10 repeticiones
- Simulación de Dinámicas: Ecuación de replicador discreto (forma Taylor-Jonker)
- Hardware: Datos sintéticos en Macbook Pro M2, redes neuronales en AMD EPYC 7502 + RTX A4000
- Estructura del Juego: Tres puntos de equilibrio
- Dos equilibrios estables de población única (92.6±0.1%)
- Un equilibrio mixto inestable (93.5±0.1%)
- Reciprocidad: La precisión en estado mixto es máxima, ambas poblaciones se benefician mutuamente
- Efecto de Estabilización: Usar el método de Proposición 2 estabiliza exitosamente el estado 50-50, mejorando precisión general de 92.6% a 93.2%
- Estructura del Juego: El ruido de etiqueta "invierte" el juego
- La población minoritaria tiene mayor precisión (accB>accA cuando pB<pA)
- Equilibrio de coexistencia estable (80.4±0.2%), cercano al límite teórico de 84%
- Mecanismo: La población se equilibra naturalmente, la red sobreparametrizada (precisión de entrenamiento 98.7%) logra interpolación
- Evolución de Dos Fases:
- Fase temprana (t≤200): La población de NY se reduce, CA y TX mantienen equilibrio, diferencia entre grupos ≈2%
- Fase tardía (t>300): NY es excluida (≤1%), CA y TX compiten, diferencia se reduce a ≈0.2%
- Paradoja de Equidad: El sistema parece "más justo" en la fase tardía, pero solo porque una población ha sido eliminada
- Dependencia de Algoritmo (Figura 14):
- LinearSVM → TX dominante
- LogisticRegression → Punto de silla de coexistencia
- XGBoost → CA dominante
- Método: Ajustar datos CIFAR-10 con proceso gaussiano, simular diferentes niveles de ruido η
- Resultados:
- η=0 (sin ruido): Resultado determinista
- η=1 (ruido de observación): Relativamente robusto, cuando pB0>0.5 la población B tiene alta probabilidad de dominar
- η=5 (ruido 5x): Resultados se vuelven ruidosos, cuando pB0≈0.55 la población A aún tiene probabilidad de dominar
- Hallazgo: El tiempo de convergencia es aproximadamente lineal cuando pB0∈[0.1,0.4]∪[0.6,0.9]
- Comportamiento Crítico: Cuando pB0→0.5 el tiempo de convergencia tiende a infinito, la presión de selección es extremadamente débil
- Resultado: Relación lineal entre equilibrio estimado p^∗ y estado final
- Robustez: El error afecta principalmente la composición de población, no el bienestar general
Verificación de Construcción Teórica (Figura 3):
- Soft-SVM: Cuando α=0.75 aparecen 5 puntos de equilibrio (2 población única estable + 1 coexistencia estable + 2 coexistencia inestable), verificando Teorema 2
- 1-NN: Ruido de etiqueta α=0.2, β=0.8 produce coexistencia estable, verificando Teorema D.4
- Hard-SVM: Coexistencia recíproca bajo datos limitados (n=21), verificando Teorema D.5
- Potencial de Coexistencia de Algoritmos Prácticos: Los sesgos de algoritmos de aprendizaje no óptimos pueden crear coexistencia estable mediante complementariedad entre grupos
- Beneficios a Largo Plazo del Aumento de Datos: El aumento natural (como volteo horizontal) no solo mejora precisión a corto plazo, sino que también promueve diversidad de población a largo plazo
- Naturaleza Dinámica de la Equidad: Las métricas de equidad estática no pueden capturar exclusión histórica, requiere análisis contrafáctico
- Impacto Social de la Selección de Algoritmo: Las opciones de algoritmo aparentemente neutrales (SVM vs. XGBoost) pueden determinar qué poblaciones sobreviven
- Origen Biológico: Maynard Smith & Price (1973), modelando selección natural
- Aplicaciones Económicas: Sandholm (2010), interacciones de agentes miopes a gran escala
- Innovación del Artículo: El juego se define implícitamente como solución de problema de optimización estadística, conectando principios de exclusión competitiva con problemas de coexistencia
- Literatura Central: Perdomo et al. (2020), estudiando impacto del despliegue de modelo en distribución de datos
- Configuración con Estado: Brown et al. (2022), ambiente dinámico desafiante
- Contribución del Artículo: Proporciona representación de baja dimensión mediante auto-selección de usuarios, caracterizando conceptos de estabilidad más fuertes
- Trabajo Existente:
- Liu et al. (2018): Garantías de equidad se erosionan con el tiempo
- Hashimoto et al. (2018): Dinámicas de precisión del grupo más desfavorecido, dependiendo de fuerte afluencia de usuarios
- Raab & Liu (2021): Persistencia de diferencias en tasas de calificación
- Perspectiva del Artículo: Equidad contrafáctica—la equidad actual puede deberse a exclusión histórica
- Sistemas Prácticos: Aprendizaje reforzado en recomendación (Afsar et al. 2022), adaptación de preferencias de usuario (Carroll et al. 2022)
- Posicionamiento del Artículo: Enfocado en reglas de aprendizaje local, proporcionando perspectiva evolutiva para aprendizaje consciente de dinámicas
- Brecha Teoría-Práctica: El aprendizaje idealizado impulsa exclusión competitiva, restricciones prácticas hacen posible la coexistencia
- Compensación Estabilidad-Optimalidad: El reentrenamiento óptimo crea coexistencia beneficiosa pero inestable, requiere intervención para estabilizar
- Impacto de Opciones de Diseño: Opciones aparentemente técnicas como algoritmo, regularización, tamaño de datos impactan profundamente resultados sociales
- Necesidad de Protección: Sin intervención, el aprendizaje puede empujar grupos de usuarios a estados desfavorables, requiere mecanismos similares a protección ecológica
- Restricciones de Supuestos:
- Distribución fija dentro de población (sin cambio intra-grupo)
- Sin fuerzas exógenas (como marketing, subsidios)
- Sin dependencias directas entre grupos (excepto a través del clasificador)
- Protocolo de reentrenamiento simple (solo usa datos actuales)
- Definición de Población:
- Asume poblaciones no superpuestas, en realidad la membresía frecuentemente fluye
- La dependencia del comportamiento individual en resultados de grupo no es necesariamente estricta
- Escala de Tiempo:
- "Extinción" se refiere a comportamiento límite, silencioso sobre puntos de tiempo finitos
- La velocidad de convergencia puede ser extremadamente lenta (Figura 13 muestra que cerca del equilibrio el tiempo de convergencia tiende a infinito)
- Alcance Empírico:
- Experimentos principalmente en visión por computadora y datos tabulares
- Falta verificación con ciclos de retroalimentación de usuario real
- Diseño de Mecanismos: Desarrollar más mecanismos de estabilización que promuevan diversidad (similar a partición de recursos en ecología, variación ambiental)
- Optimización Consciente de Dinámicas: Incorporar estabilidad evolutiva en objetivos de aprendizaje
- Descubrimiento de Población: Identificar poblaciones históricamente excluidas
- Verificación Interdisciplinaria: Probar marco en finanzas, medicina, educación
- Relajación de Supuestos: Estudiar cambio de distribución intra-población, impactos entre grupos, efectos de intervenciones exógenas
- Rigor Teórico:
- La caracterización de juego potencial conecta elegantemente optimización convexa y estabilidad evolutiva
- La técnica de prueba del Teorema 1 es novedosa (utilizando convexidad del oráculo)
- Extensiones a aptitud heterogénea (Teorema D.3) y poblaciones equivalentes (Teorema D.2)
- Relevancia Práctica:
- Identifica cómo factores reales como pérdida sustituta, datos limitados, interpolación cambian predicciones teóricas
- Algoritmo de estabilización es simple y práctico (solo requiere reponderación de muestras)
- Experimentos cubren múltiples algoritmos de aprendizaje y tipos de datos
- Perspectiva Interdisciplinaria:
- Conecta exitosamente principios de exclusión competitiva de ecología con aprendizaje automático
- Vincula teoría de juegos, equidad, predicción de desempeño
- Proporciona nueva perspectiva de "protección social"
- Suficiencia Empírica:
- Construcciones teóricas (Teoremas 2, D.4, D.5) todas verificadas numéricamente
- Análisis de sensibilidad completo (ruido de muestreo, tiempo de convergencia, robustez de estabilización)
- Experimento ACSIncome demuestra dinámicas complejas de tres poblaciones
- Claridad de Escritura:
- Fundamentos microeconómicos (Apéndice C) aclaran supuestos de modelado
- Ilustraciones intuitivas (Figuras 1-3)
- Apéndice detallado (150+ páginas de pruebas y extensiones)
- Limitaciones de Método:
- El algoritmo de estabilización requiere conocer o estimar p∗, potencialmente difícil en práctica
- Solo considera maximización de precisión, no aborda otros objetivos de aprendizaje (robustez, calibración)
- La "bondad" de coexistencia depende del contexto, el marco no proporciona orientación normativa
- Configuración Experimental:
- Definiciones de población son artificiales (volteo horizontal, estado), en escenarios reales las poblaciones pueden ser borrosas
- Falta verificación con ciclos de retroalimentación real de usuario (usuarios reales no necesariamente cambian de población por calidad de predicción)
- Simulación de dinámicas depende de ecuación de replicador, otras formas de dinámicas no exploradas suficientemente
- Brecha Teoría-Práctica:
- Teorema 1 requiere clasificador oráculo, pero experimentos usan muestras finitas
- Construcción de mecanismos de coexistencia (Teoremas 2, D.4, D.5) es altamente específica, generalidad cuestionable
- Condiciones para coexistencia estable (como Soft-SVM con α∈(0,1−2β1)) difíciles de verificar a priori
- Análisis de Impacto Social:
- El valor de "diversidad" no se discute profundamente (¿cuándo se debe promover coexistencia?)
- Análisis insuficiente de compensaciones con competencia de mercado, beneficios de estandarización
- Consideración limitada de incentivos de plataforma (plataformas pueden preferir grupo de usuario único)
- Contribución Académica:
- Proporciona nueva herramienta analítica para predicción de desempeño (juego potencial + estabilidad evolutiva)
- Revela efectos de selección social de algoritmos de aprendizaje
- Conecta equidad y teoría de juegos evolutiva
- Valor Práctico:
- Ayuda a diseñadores de sistema prever dinámicas de grupo a largo plazo
- Proporciona estrategias de intervención (estabilización, marketing dirigido, subsidios)
- Advierte sobre consecuencias sociales de opciones de algoritmo
- Reproducibilidad:
- Código de código abierto (GitHub: edensaig/evolutionary-prediction-games)
- Resultados teóricos con pruebas detalladas (Apéndice D, 80+ páginas)
- Detalles experimentales completos (Apéndices E-F)
- Limitaciones:
- La complejidad del marco puede limitar adopción rápida
- Requiere expertos de dominio para identificar poblaciones relevantes
- La verificación a largo plazo requiere datos longitudinales
- Sistemas de Recomendación: Plataformas de contenido desean mantener diversidad de creadores y audiencia
- Mercados de Crédito: Reguladores preocupados por impacto a largo plazo de crédito algorítmico en grupos
- IA Médica: Asegurar que sistemas de diagnóstico no excluyen grupos de pacientes específicos
- Tecnología Educativa: Plataformas de aprendizaje personalizado necesitan equilibrar estudiantes con diferentes estilos de aprendizaje
- No Aplicable:
- Escenarios donde límites de población son borrosos o cambian rápidamente
- Tareas donde comportamiento de usuario débilmente correlaciona con calidad de predicción
- Productos que requieren iteración rápida (costo de análisis alto)
- Perdomo et al. (2020): Performative Prediction. ICML. Trabajo fundamental en predicción de desempeño
- Sandholm (2010): Population Games and Evolutionary Dynamics. MIT Press. Libro de texto de teoría de juegos evolutiva
- Hashimoto et al. (2018): Fairness Without Demographics in Repeated Loss Minimization. ICML. Equidad a largo plazo
- Hardin (1960): The Competitive Exclusion Principle. Science. Principio de exclusión competitiva en ecología
- Brown et al. (2022): Performative Prediction in a Stateful World. AISTATS. Predicción de desempeño con estado
Evaluación General: Este es un artículo excelente con teoría profunda, verificación empírica suficiente y perspectiva novedosa. A través de la lente de la teoría de juegos evolutiva, los autores revelan mecanismos ocultos de selección social en sistemas de aprendizaje automático, proporcionando herramientas importantes para entender y diseñar sistemas de IA responsables. Los resultados teóricos (particularmente la exclusión competitiva bajo clasificadores oráculo y mecanismos de coexistencia en algoritmos prácticos) son convincentes, y el diseño experimental ingeniosamente verifica predicciones clave. El valor principal del trabajo radica en cambiar nuestro marco conceptual sobre impacto social de algoritmos de aprendizaje—de equidad estática a perspectiva evolutiva dinámica. Aunque existen limitaciones en supuestos y desafíos de verificación empírica, este trabajo abre una dirección prometedora para investigación interdisciplinaria en aprendizaje automático, equidad y teoría de juegos, mereciendo publicación en NeurIPS.