2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka
We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
academic

Estrategia de búsqueda estadística basada en aprendizaje por refuerzo para un modelo de axión a partir de sabor

Información Básica

  • ID del Artículo: 2409.10023
  • Título: Estrategia de búsqueda estadística basada en aprendizaje por refuerzo para un modelo de axión a partir de sabor
  • Autores: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Universidad de Kyushu)
  • Clasificación: hep-ph (Fenomenología de Física de Altas Energías), cs.LG (Aprendizaje Automático), hep-th (Teoría de Física de Altas Energías)
  • Fecha de Publicación: arXiv:2409.10023v2 hep-ph 11 Oct 2025
  • Enlace del Artículo: https://arxiv.org/abs/2409.10023

Resumen

Este artículo propone una estrategia de búsqueda basada en aprendizaje por refuerzo para explorar nueva física más allá del Modelo Estándar. El aprendizaje por refuerzo, como método de aprendizaje automático, constituye un enfoque poderoso para encontrar parámetros de modelo que satisfacen restricciones fenomenológicas. Como ejemplo concreto, los autores se centran en el modelo de axión mínimo con simetría global U(1) de sabor. El agente de aprendizaje logró encontrar exitosamente asignaciones de carga U(1) de quarks y leptones que resuelven los problemas de sabor y cosmología del Modelo Estándar, descubriendo más de 150 soluciones realistas para el sector de quarks considerando efectos de renormalización. Para las soluciones encontradas mediante análisis de aprendizaje por refuerzo, los autores discuten la sensibilidad de experimentos futuros para detectar axiones, que son bosones de Nambu-Goldstone de la ruptura espontánea de U(1). Los autores también verifican la velocidad del método de búsqueda por aprendizaje por refuerzo en comparación con métodos de optimización tradicionales para encontrar parámetros discretos óptimos.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problemas sin resolver del Modelo Estándar: El Modelo Estándar presenta problemas sin resolver como la jerarquía de sabor (jerarquía de masas y ángulos de mezcla de quarks y leptones), el problema fuerte de CP, el origen de la materia oscura y el mecanismo inflacionario
  2. Desafíos en la búsqueda del espacio de parámetros: Las teorías más allá del Modelo Estándar típicamente involucran espacios de parámetros enormes, donde los métodos de optimización tradicionales son ineficientes en la búsqueda de parámetros discretos
  3. Complejidad del modelo de axión: El modelo de axión mínimo combina el mecanismo de Froggatt-Nielsen (FN) y el mecanismo de Peccei-Quinn (PQ), requiriendo satisfacer simultáneamente restricciones de física de sabor y cosmología

Motivación de la Investigación

  • Los métodos tradicionales de descenso de gradiente no pueden manejar efectivamente problemas de optimización de parámetros discretos
  • Se necesitan métodos estadísticos para explorar sistemáticamente el vasto espacio de parámetros
  • El aprendizaje por refuerzo puede descubrir autónomamente soluciones con datos limitados, siendo apropiado para este tipo de problemas

Contribuciones Principales

  1. Primera aplicación de aprendizaje por refuerzo a la búsqueda de parámetros del modelo de axión: Desarrollo de una estrategia de búsqueda basada en Deep Q-Network (DQN)
  2. Descubrimiento de numerosas soluciones realistas: Hallazgo de 156 soluciones en estado terminal que satisfacen restricciones de masa de renormalización y mezcla
  3. Mejora de eficiencia: Reducción del tiempo computacional de al menos 55 días a 6 días en comparación con métodos tradicionales
  4. Análisis estadístico: Análisis sistemático de la distribución de soluciones en diferentes escalas de energía
  5. Predicciones fenomenológicas: Cálculo del acoplamiento axión-fotón, proporcionando predicciones para experimentos futuros como DMRadio-m3

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Vector de asignación de carga U(1) Qa={q(Qi),q(ui),q(di),q(ϕ)}Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\} (i=1,2,3) Salida: Asignaciones de carga que satisfacen restricciones de física de sabor y cosmología Restricciones:

  • Reproducción de masa de renormalización (Eα<1.75E_\alpha < 1.75)
  • Reproducción de matriz de mezcla CKM (EijC<0.2E_{ij}^C < 0.2)
  • Índices FN de enteros positivos nijn_{ij}

Arquitectura del Modelo

Diseño del Entorno

  • Espacio de estados: Vector entero de 10 dimensiones, cada componente en rango -9, 9
  • Espacio de acciones: 20 acciones (cambios de ±1 en cada carga)
  • Condiciones de restricción:
    • Restricción de masa del quark top: q(Qˉ3Hcu3)=0q(\bar{Q}_3H^cu_3) = 0
    • Requisito de índices FN de enteros positivos

Arquitectura de Red Neuronal

Capa de entrada(Z^10) → Capa oculta 1(R^64) → Capa oculta 2(R^64) → Capa oculta 3(R^64) → Capa de salida(R^20)
  • Función de activación: SELU (capas ocultas), Softmax (capa de salida)
  • Optimizador: ADAM
  • Función de pérdida: Pérdida de Huber

Diseño del Mecanismo de Recompensa

R(Q,a) = {
    V(Q') - V(Q)  si V(Q') - V(Q) > 0
    -10           si V(Q') - V(Q) ≤ 0
    +100          si Q' es estado terminal
}

Función de Valor Intrínseco

V(Q)=minη[Mquark+C]V(Q) = -\min_\eta [M_{quark} + C]

Donde:

  • Mquark=α=u,dEαM_{quark} = \sum_{\alpha=u,d} E_\alpha (error de masa)
  • C=i,jEijCC = \sum_{i,j} E_{ij}^C (error de ángulo de mezcla)
  • Eα=log10(mα/mα,RG)E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|

Puntos de Innovación Técnica

  1. Estrategia ε-greedy: Equilibrio entre exploración y explotación, con valor ε decayendo de 1 a 0.01
  2. Análisis multi-escala de energía: Consideración de efectos de renormalización en cuatro escalas de energía M=101417M = 10^{14-17} GeV
  3. Optimización en dos etapas: Primero usar RL para encontrar parámetros discretos, luego optimización de Monte Carlo para acoplamientos de Yukawa continuos
  4. Ajuste de umbral estadístico: Ajuste del umbral de error de masa de 1.0 a 1.75 para adaptarse a masas de renormalización

Configuración Experimental

Conjunto de Datos

  • Masas de renormalización: Basadas en masas de quarks en diferentes escalas de energía de la literatura 29
  • Elementos de matriz CKM: Valores experimentales medidos y sus errores
  • Parámetros cosmológicos: Restricciones de resultados de Planck 2018

Métricas de Evaluación

  • Precisión de reproducción de masa: 1.78×102rmass56.21.78 \times 10^{-2} \leq r_{mass} \leq 56.2
  • Precisión de ángulo de mezcla: 0.63rmixings1.580.63 \leq r_{mixings} \leq 1.58
  • Condiciones de estado terminal: V(Q)<10.0|V(Q)| < 10.0, Eα<1.75E_\alpha < 1.75, EijC<0.2E_{ij}^C < 0.2

Detalles de Implementación

  • Parámetros de entrenamiento: 20 agentes, 10510^5 episodios, 32 pasos/episodio
  • Tasa de aprendizaje: α=2.5×104\alpha = 2.5 \times 10^{-4}
  • Tamaño de lote: 32
  • Rango de búsqueda de VEV: 0.01η0.30.01 \leq |\eta| \leq 0.3

Resultados Experimentales

Resultados Principales

Estadísticas de Descubrimiento de Estados Terminales

Escala de Energía (GeV)Número de Estados Terminalesnijn_{ij} PositivosNúmero Extraído con V1=1.0V_1=1.0
101410^{14}71043444
101510^{15}55532352
101610^{16}37423624
101710^{17}54632336
Total2,1851,316156

Comparación de Eficiencia

  • Método RL: 6 días (CPU único)
  • Estimación de método tradicional: >55 días
  • Factor de aceleración: >9 veces

Hallazgos del Análisis Estadístico

  1. Dependencia de escala de energía: Se descubren más soluciones de alta calidad en M=1014,1015M = 10^{14}, 10^{15} GeV
  2. Distribución de número de dominios: La mayoría de soluciones se encuentran en NDW30N_{DW} \approx 30, con valor mínimo de 20
  3. Distribución de valor intrínseco: Medianas similares entre diferentes escalas de energía, indicando estabilidad del entrenamiento

Restricciones Cosmológicas

  • Materia oscura: Determinada a través de la relación entre ángulo de desalineación θi\theta_i y escala de PQ faf_a
  • Perturbaciones de curvatura isocurvatura: Proporciona límite superior en escala inflacionaria HinfH_{inf}
  • Restricción inflacionaria: Modelos con M1015M \gtrsim 10^{15} GeV son más favorecidos cosmológicamente

Resultados del Sector Leptónico

  • M=1015M = 10^{15} GeV: Se encuentran 23 modelos que satisfacen restricciones de ángulo de mezcla a 3σ
  • M=1016M = 10^{16} GeV: Se encuentran 7 modelos que satisfacen restricciones
  • Masa de neutrino: Satisface restricción mν<85\sum m_\nu < 85 meV

Trabajo Relacionado

Aplicaciones de Aprendizaje Automático en Física de Partículas

  • Harvey & Lukas (2021): Aplicación de RL a modelos de masa de quarks
  • Trabajo previo de los autores 8: RL en investigación de estructura de sabor leptónico

Investigación de Modelos de Axión

  • Ema et al. (2017): Propuesta del marco del modelo flaxion
  • Calibbi et al. (2017): Construcción del modelo de axión mínimo
  • Los métodos tradicionales dependen principalmente de estimaciones analíticas y muestreo limitado

Comparación de Métodos de Optimización

  • Método tradicional: Biblioteca de optimización scipy, SLSQP más rápido requiere 0.274 ms/iteración
  • Método de Monte Carlo: Búsqueda aleatoria con baja eficiencia
  • Algoritmo genético: No comparado sistemáticamente en este artículo

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del método: RL encuentra exitosamente numerosas asignaciones de carga U(1) realistas, demostrando la efectividad del método
  2. Eficiencia computacional: Mejora significativa en eficiencia de búsqueda en comparación con métodos tradicionales
  3. Perspectivas estadísticas: Revela características de distribución de soluciones en diferentes escalas de energía y preferencias cosmológicas
  4. Predicciones experimentales: Proporciona predicciones de parámetros específicas para experimentos futuros como DMRadio-m3

Limitaciones

  1. Restricción de un solo flavon: Solo considera un campo flavon, incapaz de manejar violación de CP
  2. Enfoque en sector de quarks: Análisis principal en sector de quarks, análisis del sector leptónico relativamente limitado
  3. Dependencia de hiperparámetros: Diseño de recompensa y selección de umbral contienen cierta subjetividad
  4. Recursos computacionales: Aún requiere recursos computacionales considerables para entrenamiento

Direcciones Futuras

  1. Extensión multi-flavon: Introducción de dos flavones para manejar violación de CP
  2. Acoplamientos de Yukawa complejos: Consideración de constantes de acoplamiento complejas
  3. Optimización de arquitectura de red: Desarrollo de redes neuronales más grandes y más generales
  4. Otros modelos de axión: Generalización del método a otros modelos de axión y modelos de sabor

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera aplicación sistemática de aprendizaje por refuerzo a búsqueda de parámetros de modelo de axión
  2. Alto valor práctico: Mejora significativa en eficiencia computacional, haciendo posible la búsqueda en espacios de parámetros a gran escala
  3. Resultados ricos: No solo encuentra numerosas soluciones, sino también realiza análisis estadístico detallado
  4. Orientación experimental: Proporciona predicciones experimentales específicas, conectando teoría y experimento

Insuficiencias

  1. Generalidad del método: Diseño de función de recompensa altamente dependiente del problema específico, generalización limitada
  2. Profundidad teórica: Carece de análisis teórico profundo sobre por qué RL es efectivo en este problema
  3. Comparación insuficiente: Comparación inadecuada con otros métodos de optimización modernos (como optimización bayesiana)
  4. Verificación limitada: Verificación principalmente en un modelo específico, requiere más verificación de universalidad

Impacto

  1. Interdisciplinariedad: Promueve la fusión interdisciplinaria entre aprendizaje automático y teoría de física de altas energías
  2. Contribución metodológica: Proporciona nuevas perspectivas para problemas similares de optimización de parámetros discretos
  3. Guía experimental: Proporciona orientación de espacio de parámetros específica para experimentos de búsqueda de axiones
  4. Física computacional: Impulsa la aplicación de métodos de física computacional en física teórica

Escenarios Aplicables

  1. Modelos de física de sabor: Otros modelos de sabor con simetrías discretas
  2. Modelos supersimétricos: Modelos supersimétricos con gran cantidad de parámetros discretos
  3. Modelos de dimensiones extra: Teorías de dimensiones extra que requieren búsqueda en espacio de parámetros grande
  4. Análisis fenomenológico: Cualquier investigación fenomenológica que requiera búsqueda de parámetros discretos bajo restricciones

Referencias Bibliográficas

Las referencias principales incluyen:

  • 1,2 Ema et al., Calibbi et al.: Propuesta original del modelo flaxion
  • 8 Nishimura et al.: Aplicación previa de RL en física de sabor de los autores
  • 25 Sutton & Barto: Teoría fundamental del aprendizaje por refuerzo
  • 29 Huang & Zhou: Cálculo preciso de masas de renormalización
  • 9 Colaboración DMRadio: Experimento futuro de búsqueda de axiones

Este artículo representa un avance importante en la aplicación de métodos de aprendizaje automático en física teórica, demostrando particularmente las ventajas del aprendizaje por refuerzo en la optimización de parámetros discretos bajo restricciones complejas. Aunque presenta algunas limitaciones, su método innovador y resultados ricos proporcionan referencias valiosas para investigaciones en campos relacionados.