2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.

academic

Strategia di ricerca statistica basata su apprendimento per rinforzo per un modello di assione dalla flavor

Informazioni Fondamentali

ID Articolo: 2409.10023
Titolo: Reinforcement learning-based statistical search strategy for an axion model from flavor
Autori: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Kyushu University)
Classificazione: hep-ph (Fenomenologia della Fisica delle Alte Energie), cs.LG (Apprendimento Automatico), hep-th (Teoria della Fisica delle Alte Energie)
Data di Pubblicazione: arXiv:2409.10023v2 hep-ph 11 Ott 2025
Link Articolo: https://arxiv.org/abs/2409.10023

Riassunto

Questo articolo propone una strategia di ricerca basata su apprendimento per rinforzo per esplorare la nuova fisica oltre il Modello Standard. L'apprendimento per rinforzo, come metodo di apprendimento automatico, rappresenta un approccio efficace per trovare parametri del modello che soddisfano i vincoli fenomenologici. Come esempio concreto, gli autori si concentrano sul modello minimo di assione con simmetria globale U(1) di flavor. L'agente di apprendimento ha trovato con successo le assegnazioni di carica U(1) per quark e leptoni che risolvono i problemi di flavor e cosmologici nel Modello Standard, scoprendo oltre 150 soluzioni realistiche per il settore dei quark considerando gli effetti di rinormalizzazione. Per le soluzioni trovate dall'analisi di apprendimento per rinforzo, gli autori discutono la sensibilità della rivelazione sperimentale futura dell'assione, che è il bosone di Nambu-Goldstone della rottura spontanea di U(1). Gli autori verificano inoltre la velocità del metodo di ricerca di apprendimento per rinforzo rispetto ai metodi di ottimizzazione tradizionali nel trovare i parametri discreti ottimali.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problemi irrisolti del Modello Standard: Il Modello Standard presenta problemi irrisolti come la gerarchia di flavor (gerarchia di massa e angoli di mescolamento di quark e leptoni), il problema della CP forte, l'origine della materia oscura e il meccanismo inflazionario
Sfide nella ricerca dello spazio dei parametri: Le teorie oltre il Modello Standard tipicamente coinvolgono spazi parametrici enormi, dove i metodi di ottimizzazione tradizionali sono inefficienti nella ricerca di parametri discreti
Complessità del modello di assione: Il modello minimo di assione combina il meccanismo di Froggatt-Nielsen (FN) e il meccanismo di Peccei-Quinn (PQ), richiedendo di soddisfare simultaneamente i vincoli di fisica di flavor e cosmologici

Motivazione della Ricerca

I metodi tradizionali di discesa del gradiente non possono gestire efficacemente i problemi di ottimizzazione di parametri discreti
È necessario un approccio statistico per esplorare sistematicamente lo spazio parametrico vastissimo
L'apprendimento per rinforzo può scoprire autonomamente soluzioni con dati limitati, rendendolo adatto a questo tipo di problema

Contributi Principali

Prima applicazione di apprendimento per rinforzo alla ricerca di parametri del modello di assione: Sviluppo di una strategia di ricerca basata su Deep Q-Network (DQN)
Scoperta di numerose soluzioni realistiche: Trovate 156 soluzioni di stato finale che soddisfano i vincoli di massa rinormalizzata e mescolamento
Miglioramento dell'efficienza: Riduzione del tempo di calcolo da almeno 55 giorni a 6 giorni rispetto ai metodi tradizionali
Analisi statistica: Analisi sistematica della distribuzione delle soluzioni a diverse scale energetiche
Previsioni fenomenologiche: Calcolo dell'accoppiamento assione-fotone, fornendo previsioni per esperimenti futuri come DMRadio-m3

Dettagli Metodologici

Definizione del Compito

Input: Vettore di assegnazione di carica U(1) $Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\}$ (i=1,2,3) Output: Assegnazioni di carica che soddisfano i vincoli di fisica di flavor e cosmologici Vincoli:

Riproduzione della massa rinormalizzata ( $E_\alpha < 1.75$ )
Riproduzione della matrice di mescolamento CKM ( $E_{ij}^C < 0.2$ )
Indici FN interi positivi $n_{ij}$

Architettura del Modello

Progettazione dell'Ambiente

Spazio degli stati: Vettore intero 10-dimensionale, ogni componente nell'intervallo -9, 9
Spazio delle azioni: 20 azioni (variazioni di ±1 per ogni carica)
Condizioni di vincolo:
- Vincolo di massa del quark top: $q(\bar{Q}_3H^cu_3) = 0$
- Requisito di indici FN interi positivi

Architettura della Rete Neurale

Strato di input(Z^10) → Strato nascosto1(R^64) → Strato nascosto2(R^64) → Strato nascosto3(R^64) → Strato di output(R^20)

Funzione di attivazione: SELU (strati nascosti), Softmax (strato di output)
Ottimizzatore: ADAM
Funzione di perdita: Perdita di Huber

Progettazione del Meccanismo di Ricompensa

R(Q,a) = {
    V(Q') - V(Q)  se V(Q') - V(Q) > 0
    -10           se V(Q') - V(Q) ≤ 0
    +100          se Q' è stato terminale
}

Funzione di Valore Intrinseco

$V(Q) = -\min_\eta [M_{quark} + C]$

dove:

$M_{quark} = \sum_{\alpha=u,d} E_\alpha$ (errore di massa)
$C = \sum_{i,j} E_{ij}^C$ (errore di angolo di mescolamento)
$E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|$

Punti di Innovazione Tecnica

Strategia ε-greedy: Bilancia esplorazione e sfruttamento, con ε che decade da 1 a 0.01
Analisi multi-scala energetica: Considera gli effetti di rinormalizzazione a quattro scale energetiche $M = 10^{14-17}$ GeV
Ottimizzazione in due fasi: Prima utilizza RL per trovare parametri discreti, poi utilizza Monte Carlo per ottimizzare gli accoppiamenti di Yukawa continui
Regolazione della soglia statistica: Adatta la soglia di errore di massa da 1.0 a 1.75 per adattarsi alla massa rinormalizzata

Configurazione Sperimentale

Dataset

Masse rinormalizzate: Basate su masse di quark a diverse scale energetiche dalla letteratura 29
Elementi della matrice CKM: Valori misurati sperimentalmente e incertezze
Parametri cosmologici: Vincoli dai risultati Planck 2018

Metriche di Valutazione

Precisione di riproduzione della massa: $1.78 \times 10^{-2} \leq r_{mass} \leq 56.2$
Precisione di angolo di mescolamento: $0.63 \leq r_{mixings} \leq 1.58$
Condizioni di stato finale: $|V(Q)| < 10.0$ , $E_\alpha < 1.75$ , $E_{ij}^C < 0.2$

Dettagli di Implementazione

Parametri di addestramento: 20 agenti, $10^5$ episodi, 32 passi/episodio
Tasso di apprendimento: $\alpha = 2.5 \times 10^{-4}$
Dimensione del batch: 32
Intervallo di ricerca VEV: $0.01 \leq |\eta| \leq 0.3$

Risultati Sperimentali

Risultati Principali

Statistiche di Scoperta dello Stato Finale

Scala Energetica (GeV)	Numero Stati Finali	$n_{ij}$ Positivi	Estratti con $V_1=1.0$
$10^{14}$	710	434	44
$10^{15}$	555	323	52
$10^{16}$	374	236	24
$10^{17}$	546	323	36
Totale	2,185	1,316	156

Confronto di Efficienza

Metodo RL: 6 giorni (singolo CPU)
Stima metodo tradizionale: >55 giorni
Rapporto di accelerazione: >9 volte

Risultati dell'Analisi Statistica

Dipendenza dalla scala energetica: Più soluzioni di alta qualità scoperte a $M = 10^{14}, 10^{15}$ GeV
Distribuzione del numero di domini: La maggior parte delle soluzioni si trova a $N_{DW} \approx 30$ , con valore minimo di 20
Distribuzione del valore intrinseco: Mediane simili tra diverse scale energetiche, indicando addestramento stabile

Vincoli Cosmologici

Materia oscura: Determinata attraverso la relazione tra l'angolo di disallineamento $\theta_i$ e la scala PQ $f_a$
Perturbazioni di curvatura isocurva: Fornisce vincoli superiori sulla scala inflazionaria $H_{inf}$
Vincoli inflazionari: I modelli con $M \gtrsim 10^{15}$ GeV sono favoriti cosmologicamente

Risultati del Settore dei Leptoni

$M = 10^{15}$ GeV: Trovati 23 modelli che soddisfano i vincoli di angolo di mescolamento a 3σ
$M = 10^{16}$ GeV: Trovati 7 modelli che soddisfano i vincoli
Massa dei neutrini: Soddisfa il vincolo $\sum m_\nu < 85$ meV

Lavori Correlati

Applicazioni di Apprendimento Automatico in Fisica delle Particelle

Harvey & Lukas (2021): Applicazione di RL a modelli di massa di quark
Lavoro precedente degli autori 8: RL nello studio della struttura di flavor nel settore leptonico

Ricerca su Modelli di Assione

Ema et al. (2017): Proposta del quadro del modello flaxion
Calibbi et al. (2017): Costruzione del modello minimo di assione
I metodi tradizionali si basano principalmente su stime analitiche e campionamento limitato

Confronto di Metodi di Ottimizzazione

Metodo tradizionale: Libreria di ottimizzazione scipy, SLSQP più veloce richiede 0.274 ms/iterazione
Metodo Monte Carlo: Ricerca casuale con efficienza bassa
Algoritmi genetici: Non confrontati sistematicamente in questo articolo

Conclusioni e Discussione

Conclusioni Principali

Efficacia del metodo: RL ha trovato con successo numerose assegnazioni di carica U(1) realistiche, provando l'efficacia del metodo
Efficienza computazionale: Miglioramento significativo dell'efficienza di ricerca rispetto ai metodi tradizionali
Intuizioni statistiche: Rivela le caratteristiche di distribuzione delle soluzioni a diverse scale energetiche e le preferenze cosmologiche
Previsioni sperimentali: Fornisce previsioni di parametri specifiche per esperimenti futuri come DMRadio-m3

Limitazioni

Limitazione a singolo flavone: Considera solo un campo flavone, non può gestire la violazione di CP
Enfasi sul settore dei quark: L'analisi principale riguarda il settore dei quark, con analisi del settore leptonico relativamente limitata
Dipendenza da iperparametri: La progettazione della ricompensa e la scelta della soglia comportano una certa soggettività
Risorse computazionali: Richiede ancora risorse computazionali considerevoli per l'addestramento

Direzioni Future

Estensione a multi-flavone: Introduzione di due flavoni per gestire la violazione di CP
Accoppiamenti di Yukawa complessi: Considerazione di costanti di accoppiamento complesse
Ottimizzazione dell'architettura di rete: Sviluppo di reti neurali più grandi e universali
Altri modelli di assione: Generalizzazione del metodo ad altri modelli di assione e modelli di flavor

Valutazione Approfondita

Punti di Forza

Forte innovatività: Prima applicazione sistematica di apprendimento per rinforzo alla ricerca di parametri del modello di assione
Alto valore pratico: Miglioramento significativo dell'efficienza computazionale, rendendo possibile la ricerca su larga scala dello spazio parametrico
Risultati ricchi: Non solo scoperta di numerose soluzioni, ma anche analisi statistica dettagliata
Orientamento sperimentale: Fornisce previsioni sperimentali concrete, collegando la teoria all'esperimento

Insufficienze

Universalità del metodo: La progettazione della funzione di ricompensa è altamente dipendente dal problema specifico, con generalizzabilità limitata
Profondità teorica: Manca un'analisi teorica profonda del perché RL sia efficace in questo problema
Confronti insufficienti: Il confronto con altri metodi di ottimizzazione moderni (come l'ottimizzazione bayesiana) è inadeguato
Validazione limitata: Principalmente verificato su un modello specifico, necessita di più validazioni su modelli diversi per la universalità

Impatto

Interdisciplinarità: Promuove la fusione interdisciplinare tra apprendimento automatico e teoria della fisica delle alte energie
Contributo metodologico: Fornisce nuovi approcci per problemi simili di ottimizzazione di parametri discreti
Guida sperimentale: Fornisce guida dello spazio parametrico specifico per esperimenti di ricerca di assioni
Fisica computazionale: Promuove l'applicazione di metodi di fisica computazionale nella fisica teorica

Scenari Applicabili

Modelli di fisica di flavor: Altri modelli di flavor con simmetrie discrete
Modelli supersimmetrici: Modelli supersimmetrici con numerosi parametri discreti
Modelli con dimensioni extra: Teorie con dimensioni extra che richiedono ricerca su spazi parametrici ampi
Analisi fenomenologica: Qualsiasi ricerca fenomenologica che richieda ricerca di parametri discreti sotto vincoli

Riferimenti Bibliografici

I principali riferimenti includono:

1,2 Ema et al., Calibbi et al.: Proposte originali del modello flaxion
8 Nishimura et al.: Applicazione precedente di RL in fisica di flavor degli autori
25 Sutton & Barto: Teoria fondamentale dell'apprendimento per rinforzo
29 Huang & Zhou: Calcoli precisi delle masse rinormalizzate
9 Collaborazione DMRadio: Esperimenti futuri di ricerca di assioni

Questo articolo rappresenta un importante progresso nell'applicazione di metodi di apprendimento automatico alla fisica teorica, in particolare nel dimostrare i vantaggi dell'apprendimento per rinforzo nel risolvere problemi di ottimizzazione di parametri discreti sotto vincoli complessi. Sebbene presenti alcune limitazioni, il suo metodo pioneristico e i risultati ricchi forniscono riferimenti preziosi per la ricerca nei campi correlati.