Reinforcement learning-based statistical search strategy for an axion model from flavor
Nishimura, Miyao, Otsuka
We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
academic
Estrategia de búsqueda estadística basada en aprendizaje por refuerzo para un modelo de axión a partir de sabor
Este artículo propone una estrategia de búsqueda basada en aprendizaje por refuerzo para explorar nueva física más allá del Modelo Estándar. El aprendizaje por refuerzo, como método de aprendizaje automático, constituye un enfoque poderoso para encontrar parámetros de modelo que satisfacen restricciones fenomenológicas. Como ejemplo concreto, los autores se centran en el modelo de axión mínimo con simetría global U(1) de sabor. El agente de aprendizaje logró encontrar exitosamente asignaciones de carga U(1) de quarks y leptones que resuelven los problemas de sabor y cosmología del Modelo Estándar, descubriendo más de 150 soluciones realistas para el sector de quarks considerando efectos de renormalización. Para las soluciones encontradas mediante análisis de aprendizaje por refuerzo, los autores discuten la sensibilidad de experimentos futuros para detectar axiones, que son bosones de Nambu-Goldstone de la ruptura espontánea de U(1). Los autores también verifican la velocidad del método de búsqueda por aprendizaje por refuerzo en comparación con métodos de optimización tradicionales para encontrar parámetros discretos óptimos.
Problemas sin resolver del Modelo Estándar: El Modelo Estándar presenta problemas sin resolver como la jerarquía de sabor (jerarquía de masas y ángulos de mezcla de quarks y leptones), el problema fuerte de CP, el origen de la materia oscura y el mecanismo inflacionario
Desafíos en la búsqueda del espacio de parámetros: Las teorías más allá del Modelo Estándar típicamente involucran espacios de parámetros enormes, donde los métodos de optimización tradicionales son ineficientes en la búsqueda de parámetros discretos
Complejidad del modelo de axión: El modelo de axión mínimo combina el mecanismo de Froggatt-Nielsen (FN) y el mecanismo de Peccei-Quinn (PQ), requiriendo satisfacer simultáneamente restricciones de física de sabor y cosmología
Primera aplicación de aprendizaje por refuerzo a la búsqueda de parámetros del modelo de axión: Desarrollo de una estrategia de búsqueda basada en Deep Q-Network (DQN)
Descubrimiento de numerosas soluciones realistas: Hallazgo de 156 soluciones en estado terminal que satisfacen restricciones de masa de renormalización y mezcla
Mejora de eficiencia: Reducción del tiempo computacional de al menos 55 días a 6 días en comparación con métodos tradicionales
Análisis estadístico: Análisis sistemático de la distribución de soluciones en diferentes escalas de energía
Predicciones fenomenológicas: Cálculo del acoplamiento axión-fotón, proporcionando predicciones para experimentos futuros como DMRadio-m3
Entrada: Vector de asignación de carga U(1) Qa={q(Qi),q(ui),q(di),q(ϕ)} (i=1,2,3)
Salida: Asignaciones de carga que satisfacen restricciones de física de sabor y cosmología
Restricciones:
Reproducción de masa de renormalización (Eα<1.75)
Estrategia ε-greedy: Equilibrio entre exploración y explotación, con valor ε decayendo de 1 a 0.01
Análisis multi-escala de energía: Consideración de efectos de renormalización en cuatro escalas de energía M=1014−17 GeV
Optimización en dos etapas: Primero usar RL para encontrar parámetros discretos, luego optimización de Monte Carlo para acoplamientos de Yukawa continuos
Ajuste de umbral estadístico: Ajuste del umbral de error de masa de 1.0 a 1.75 para adaptarse a masas de renormalización
1,2 Ema et al., Calibbi et al.: Propuesta original del modelo flaxion
8 Nishimura et al.: Aplicación previa de RL en física de sabor de los autores
25 Sutton & Barto: Teoría fundamental del aprendizaje por refuerzo
29 Huang & Zhou: Cálculo preciso de masas de renormalización
9 Colaboración DMRadio: Experimento futuro de búsqueda de axiones
Este artículo representa un avance importante en la aplicación de métodos de aprendizaje automático en física teórica, demostrando particularmente las ventajas del aprendizaje por refuerzo en la optimización de parámetros discretos bajo restricciones complejas. Aunque presenta algunas limitaciones, su método innovador y resultados ricos proporcionan referencias valiosas para investigaciones en campos relacionados.