2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.

academic

Estrategia de búsqueda estadística basada en aprendizaje por refuerzo para un modelo de axión a partir de sabor

Información Básica

ID del Artículo: 2409.10023
Título: Estrategia de búsqueda estadística basada en aprendizaje por refuerzo para un modelo de axión a partir de sabor
Autores: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Universidad de Kyushu)
Clasificación: hep-ph (Fenomenología de Física de Altas Energías), cs.LG (Aprendizaje Automático), hep-th (Teoría de Física de Altas Energías)
Fecha de Publicación: arXiv:2409.10023v2 hep-ph 11 Oct 2025
Enlace del Artículo: https://arxiv.org/abs/2409.10023

Resumen

Este artículo propone una estrategia de búsqueda basada en aprendizaje por refuerzo para explorar nueva física más allá del Modelo Estándar. El aprendizaje por refuerzo, como método de aprendizaje automático, constituye un enfoque poderoso para encontrar parámetros de modelo que satisfacen restricciones fenomenológicas. Como ejemplo concreto, los autores se centran en el modelo de axión mínimo con simetría global U(1) de sabor. El agente de aprendizaje logró encontrar exitosamente asignaciones de carga U(1) de quarks y leptones que resuelven los problemas de sabor y cosmología del Modelo Estándar, descubriendo más de 150 soluciones realistas para el sector de quarks considerando efectos de renormalización. Para las soluciones encontradas mediante análisis de aprendizaje por refuerzo, los autores discuten la sensibilidad de experimentos futuros para detectar axiones, que son bosones de Nambu-Goldstone de la ruptura espontánea de U(1). Los autores también verifican la velocidad del método de búsqueda por aprendizaje por refuerzo en comparación con métodos de optimización tradicionales para encontrar parámetros discretos óptimos.

Antecedentes de Investigación y Motivación

Definición del Problema

Problemas sin resolver del Modelo Estándar: El Modelo Estándar presenta problemas sin resolver como la jerarquía de sabor (jerarquía de masas y ángulos de mezcla de quarks y leptones), el problema fuerte de CP, el origen de la materia oscura y el mecanismo inflacionario
Desafíos en la búsqueda del espacio de parámetros: Las teorías más allá del Modelo Estándar típicamente involucran espacios de parámetros enormes, donde los métodos de optimización tradicionales son ineficientes en la búsqueda de parámetros discretos
Complejidad del modelo de axión: El modelo de axión mínimo combina el mecanismo de Froggatt-Nielsen (FN) y el mecanismo de Peccei-Quinn (PQ), requiriendo satisfacer simultáneamente restricciones de física de sabor y cosmología

Motivación de la Investigación

Los métodos tradicionales de descenso de gradiente no pueden manejar efectivamente problemas de optimización de parámetros discretos
Se necesitan métodos estadísticos para explorar sistemáticamente el vasto espacio de parámetros
El aprendizaje por refuerzo puede descubrir autónomamente soluciones con datos limitados, siendo apropiado para este tipo de problemas

Contribuciones Principales

Primera aplicación de aprendizaje por refuerzo a la búsqueda de parámetros del modelo de axión: Desarrollo de una estrategia de búsqueda basada en Deep Q-Network (DQN)
Descubrimiento de numerosas soluciones realistas: Hallazgo de 156 soluciones en estado terminal que satisfacen restricciones de masa de renormalización y mezcla
Mejora de eficiencia: Reducción del tiempo computacional de al menos 55 días a 6 días en comparación con métodos tradicionales
Análisis estadístico: Análisis sistemático de la distribución de soluciones en diferentes escalas de energía
Predicciones fenomenológicas: Cálculo del acoplamiento axión-fotón, proporcionando predicciones para experimentos futuros como DMRadio-m3

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Vector de asignación de carga U(1) $Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\}$ (i=1,2,3) Salida: Asignaciones de carga que satisfacen restricciones de física de sabor y cosmología Restricciones:

Reproducción de masa de renormalización ( $E_\alpha < 1.75$ )
Reproducción de matriz de mezcla CKM ( $E_{ij}^C < 0.2$ )
Índices FN de enteros positivos $n_{ij}$

Arquitectura del Modelo

Diseño del Entorno

Espacio de estados: Vector entero de 10 dimensiones, cada componente en rango -9, 9
Espacio de acciones: 20 acciones (cambios de ±1 en cada carga)
Condiciones de restricción:
- Restricción de masa del quark top: $q(\bar{Q}_3H^cu_3) = 0$
- Requisito de índices FN de enteros positivos

Arquitectura de Red Neuronal

Capa de entrada(Z^10) → Capa oculta 1(R^64) → Capa oculta 2(R^64) → Capa oculta 3(R^64) → Capa de salida(R^20)

Función de activación: SELU (capas ocultas), Softmax (capa de salida)
Optimizador: ADAM
Función de pérdida: Pérdida de Huber

Diseño del Mecanismo de Recompensa

R(Q,a) = {
    V(Q') - V(Q)  si V(Q') - V(Q) > 0
    -10           si V(Q') - V(Q) ≤ 0
    +100          si Q' es estado terminal
}

Función de Valor Intrínseco

$V(Q) = -\min_\eta [M_{quark} + C]$

Donde:

$M_{quark} = \sum_{\alpha=u,d} E_\alpha$ (error de masa)
$C = \sum_{i,j} E_{ij}^C$ (error de ángulo de mezcla)
$E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|$

Puntos de Innovación Técnica

Estrategia ε-greedy: Equilibrio entre exploración y explotación, con valor ε decayendo de 1 a 0.01
Análisis multi-escala de energía: Consideración de efectos de renormalización en cuatro escalas de energía $M = 10^{14-17}$ GeV
Optimización en dos etapas: Primero usar RL para encontrar parámetros discretos, luego optimización de Monte Carlo para acoplamientos de Yukawa continuos
Ajuste de umbral estadístico: Ajuste del umbral de error de masa de 1.0 a 1.75 para adaptarse a masas de renormalización

Configuración Experimental

Conjunto de Datos

Masas de renormalización: Basadas en masas de quarks en diferentes escalas de energía de la literatura 29
Elementos de matriz CKM: Valores experimentales medidos y sus errores
Parámetros cosmológicos: Restricciones de resultados de Planck 2018

Métricas de Evaluación

Precisión de reproducción de masa: $1.78 \times 10^{-2} \leq r_{mass} \leq 56.2$
Precisión de ángulo de mezcla: $0.63 \leq r_{mixings} \leq 1.58$
Condiciones de estado terminal: $|V(Q)| < 10.0$ , $E_\alpha < 1.75$ , $E_{ij}^C < 0.2$

Detalles de Implementación

Parámetros de entrenamiento: 20 agentes, $10^5$ episodios, 32 pasos/episodio
Tasa de aprendizaje: $\alpha = 2.5 \times 10^{-4}$
Tamaño de lote: 32
Rango de búsqueda de VEV: $0.01 \leq |\eta| \leq 0.3$

Resultados Experimentales

Resultados Principales

Estadísticas de Descubrimiento de Estados Terminales

Escala de Energía (GeV)	Número de Estados Terminales	$n_{ij}$ Positivos	Número Extraído con $V_1=1.0$
$10^{14}$	710	434	44
$10^{15}$	555	323	52
$10^{16}$	374	236	24
$10^{17}$	546	323	36
Total	2,185	1,316	156

Comparación de Eficiencia

Método RL: 6 días (CPU único)
Estimación de método tradicional: >55 días
Factor de aceleración: >9 veces

Hallazgos del Análisis Estadístico

Dependencia de escala de energía: Se descubren más soluciones de alta calidad en $M = 10^{14}, 10^{15}$ GeV
Distribución de número de dominios: La mayoría de soluciones se encuentran en $N_{DW} \approx 30$ , con valor mínimo de 20
Distribución de valor intrínseco: Medianas similares entre diferentes escalas de energía, indicando estabilidad del entrenamiento

Restricciones Cosmológicas

Materia oscura: Determinada a través de la relación entre ángulo de desalineación $\theta_i$ y escala de PQ $f_a$
Perturbaciones de curvatura isocurvatura: Proporciona límite superior en escala inflacionaria $H_{inf}$
Restricción inflacionaria: Modelos con $M \gtrsim 10^{15}$ GeV son más favorecidos cosmológicamente

Resultados del Sector Leptónico

$M = 10^{15}$ GeV: Se encuentran 23 modelos que satisfacen restricciones de ángulo de mezcla a 3σ
$M = 10^{16}$ GeV: Se encuentran 7 modelos que satisfacen restricciones
Masa de neutrino: Satisface restricción $\sum m_\nu < 85$ meV

Trabajo Relacionado

Aplicaciones de Aprendizaje Automático en Física de Partículas

Harvey & Lukas (2021): Aplicación de RL a modelos de masa de quarks
Trabajo previo de los autores 8: RL en investigación de estructura de sabor leptónico

Investigación de Modelos de Axión

Ema et al. (2017): Propuesta del marco del modelo flaxion
Calibbi et al. (2017): Construcción del modelo de axión mínimo
Los métodos tradicionales dependen principalmente de estimaciones analíticas y muestreo limitado

Comparación de Métodos de Optimización

Método tradicional: Biblioteca de optimización scipy, SLSQP más rápido requiere 0.274 ms/iteración
Método de Monte Carlo: Búsqueda aleatoria con baja eficiencia
Algoritmo genético: No comparado sistemáticamente en este artículo

Conclusiones y Discusión

Conclusiones Principales

Efectividad del método: RL encuentra exitosamente numerosas asignaciones de carga U(1) realistas, demostrando la efectividad del método
Eficiencia computacional: Mejora significativa en eficiencia de búsqueda en comparación con métodos tradicionales
Perspectivas estadísticas: Revela características de distribución de soluciones en diferentes escalas de energía y preferencias cosmológicas
Predicciones experimentales: Proporciona predicciones de parámetros específicas para experimentos futuros como DMRadio-m3

Limitaciones

Restricción de un solo flavon: Solo considera un campo flavon, incapaz de manejar violación de CP
Enfoque en sector de quarks: Análisis principal en sector de quarks, análisis del sector leptónico relativamente limitado
Dependencia de hiperparámetros: Diseño de recompensa y selección de umbral contienen cierta subjetividad
Recursos computacionales: Aún requiere recursos computacionales considerables para entrenamiento

Direcciones Futuras

Extensión multi-flavon: Introducción de dos flavones para manejar violación de CP
Acoplamientos de Yukawa complejos: Consideración de constantes de acoplamiento complejas
Optimización de arquitectura de red: Desarrollo de redes neuronales más grandes y más generales
Otros modelos de axión: Generalización del método a otros modelos de axión y modelos de sabor

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera aplicación sistemática de aprendizaje por refuerzo a búsqueda de parámetros de modelo de axión
Alto valor práctico: Mejora significativa en eficiencia computacional, haciendo posible la búsqueda en espacios de parámetros a gran escala
Resultados ricos: No solo encuentra numerosas soluciones, sino también realiza análisis estadístico detallado
Orientación experimental: Proporciona predicciones experimentales específicas, conectando teoría y experimento

Insuficiencias

Generalidad del método: Diseño de función de recompensa altamente dependiente del problema específico, generalización limitada
Profundidad teórica: Carece de análisis teórico profundo sobre por qué RL es efectivo en este problema
Comparación insuficiente: Comparación inadecuada con otros métodos de optimización modernos (como optimización bayesiana)
Verificación limitada: Verificación principalmente en un modelo específico, requiere más verificación de universalidad

Impacto

Interdisciplinariedad: Promueve la fusión interdisciplinaria entre aprendizaje automático y teoría de física de altas energías
Contribución metodológica: Proporciona nuevas perspectivas para problemas similares de optimización de parámetros discretos
Guía experimental: Proporciona orientación de espacio de parámetros específica para experimentos de búsqueda de axiones
Física computacional: Impulsa la aplicación de métodos de física computacional en física teórica

Escenarios Aplicables

Modelos de física de sabor: Otros modelos de sabor con simetrías discretas
Modelos supersimétricos: Modelos supersimétricos con gran cantidad de parámetros discretos
Modelos de dimensiones extra: Teorías de dimensiones extra que requieren búsqueda en espacio de parámetros grande
Análisis fenomenológico: Cualquier investigación fenomenológica que requiera búsqueda de parámetros discretos bajo restricciones

Referencias Bibliográficas

Las referencias principales incluyen:

1,2 Ema et al., Calibbi et al.: Propuesta original del modelo flaxion
8 Nishimura et al.: Aplicación previa de RL en física de sabor de los autores
25 Sutton & Barto: Teoría fundamental del aprendizaje por refuerzo
29 Huang & Zhou: Cálculo preciso de masas de renormalización
9 Colaboración DMRadio: Experimento futuro de búsqueda de axiones

Este artículo representa un avance importante en la aplicación de métodos de aprendizaje automático en física teórica, demostrando particularmente las ventajas del aprendizaje por refuerzo en la optimización de parámetros discretos bajo restricciones complejas. Aunque presenta algunas limitaciones, su método innovador y resultados ricos proporcionan referencias valiosas para investigaciones en campos relacionados.