2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka
We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
academic

Strategia di ricerca statistica basata su apprendimento per rinforzo per un modello di assione dalla flavor

Informazioni Fondamentali

  • ID Articolo: 2409.10023
  • Titolo: Reinforcement learning-based statistical search strategy for an axion model from flavor
  • Autori: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Kyushu University)
  • Classificazione: hep-ph (Fenomenologia della Fisica delle Alte Energie), cs.LG (Apprendimento Automatico), hep-th (Teoria della Fisica delle Alte Energie)
  • Data di Pubblicazione: arXiv:2409.10023v2 hep-ph 11 Ott 2025
  • Link Articolo: https://arxiv.org/abs/2409.10023

Riassunto

Questo articolo propone una strategia di ricerca basata su apprendimento per rinforzo per esplorare la nuova fisica oltre il Modello Standard. L'apprendimento per rinforzo, come metodo di apprendimento automatico, rappresenta un approccio efficace per trovare parametri del modello che soddisfano i vincoli fenomenologici. Come esempio concreto, gli autori si concentrano sul modello minimo di assione con simmetria globale U(1) di flavor. L'agente di apprendimento ha trovato con successo le assegnazioni di carica U(1) per quark e leptoni che risolvono i problemi di flavor e cosmologici nel Modello Standard, scoprendo oltre 150 soluzioni realistiche per il settore dei quark considerando gli effetti di rinormalizzazione. Per le soluzioni trovate dall'analisi di apprendimento per rinforzo, gli autori discutono la sensibilità della rivelazione sperimentale futura dell'assione, che è il bosone di Nambu-Goldstone della rottura spontanea di U(1). Gli autori verificano inoltre la velocità del metodo di ricerca di apprendimento per rinforzo rispetto ai metodi di ottimizzazione tradizionali nel trovare i parametri discreti ottimali.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problemi irrisolti del Modello Standard: Il Modello Standard presenta problemi irrisolti come la gerarchia di flavor (gerarchia di massa e angoli di mescolamento di quark e leptoni), il problema della CP forte, l'origine della materia oscura e il meccanismo inflazionario
  2. Sfide nella ricerca dello spazio dei parametri: Le teorie oltre il Modello Standard tipicamente coinvolgono spazi parametrici enormi, dove i metodi di ottimizzazione tradizionali sono inefficienti nella ricerca di parametri discreti
  3. Complessità del modello di assione: Il modello minimo di assione combina il meccanismo di Froggatt-Nielsen (FN) e il meccanismo di Peccei-Quinn (PQ), richiedendo di soddisfare simultaneamente i vincoli di fisica di flavor e cosmologici

Motivazione della Ricerca

  • I metodi tradizionali di discesa del gradiente non possono gestire efficacemente i problemi di ottimizzazione di parametri discreti
  • È necessario un approccio statistico per esplorare sistematicamente lo spazio parametrico vastissimo
  • L'apprendimento per rinforzo può scoprire autonomamente soluzioni con dati limitati, rendendolo adatto a questo tipo di problema

Contributi Principali

  1. Prima applicazione di apprendimento per rinforzo alla ricerca di parametri del modello di assione: Sviluppo di una strategia di ricerca basata su Deep Q-Network (DQN)
  2. Scoperta di numerose soluzioni realistiche: Trovate 156 soluzioni di stato finale che soddisfano i vincoli di massa rinormalizzata e mescolamento
  3. Miglioramento dell'efficienza: Riduzione del tempo di calcolo da almeno 55 giorni a 6 giorni rispetto ai metodi tradizionali
  4. Analisi statistica: Analisi sistematica della distribuzione delle soluzioni a diverse scale energetiche
  5. Previsioni fenomenologiche: Calcolo dell'accoppiamento assione-fotone, fornendo previsioni per esperimenti futuri come DMRadio-m3

Dettagli Metodologici

Definizione del Compito

Input: Vettore di assegnazione di carica U(1) Qa={q(Qi),q(ui),q(di),q(ϕ)}Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\} (i=1,2,3) Output: Assegnazioni di carica che soddisfano i vincoli di fisica di flavor e cosmologici Vincoli:

  • Riproduzione della massa rinormalizzata (Eα<1.75E_\alpha < 1.75)
  • Riproduzione della matrice di mescolamento CKM (EijC<0.2E_{ij}^C < 0.2)
  • Indici FN interi positivi nijn_{ij}

Architettura del Modello

Progettazione dell'Ambiente

  • Spazio degli stati: Vettore intero 10-dimensionale, ogni componente nell'intervallo -9, 9
  • Spazio delle azioni: 20 azioni (variazioni di ±1 per ogni carica)
  • Condizioni di vincolo:
    • Vincolo di massa del quark top: q(Qˉ3Hcu3)=0q(\bar{Q}_3H^cu_3) = 0
    • Requisito di indici FN interi positivi

Architettura della Rete Neurale

Strato di input(Z^10) → Strato nascosto1(R^64) → Strato nascosto2(R^64) → Strato nascosto3(R^64) → Strato di output(R^20)
  • Funzione di attivazione: SELU (strati nascosti), Softmax (strato di output)
  • Ottimizzatore: ADAM
  • Funzione di perdita: Perdita di Huber

Progettazione del Meccanismo di Ricompensa

R(Q,a) = {
    V(Q') - V(Q)  se V(Q') - V(Q) > 0
    -10           se V(Q') - V(Q) ≤ 0
    +100          se Q' è stato terminale
}

Funzione di Valore Intrinseco

V(Q)=minη[Mquark+C]V(Q) = -\min_\eta [M_{quark} + C]

dove:

  • Mquark=α=u,dEαM_{quark} = \sum_{\alpha=u,d} E_\alpha (errore di massa)
  • C=i,jEijCC = \sum_{i,j} E_{ij}^C (errore di angolo di mescolamento)
  • Eα=log10(mα/mα,RG)E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|

Punti di Innovazione Tecnica

  1. Strategia ε-greedy: Bilancia esplorazione e sfruttamento, con ε che decade da 1 a 0.01
  2. Analisi multi-scala energetica: Considera gli effetti di rinormalizzazione a quattro scale energetiche M=101417M = 10^{14-17} GeV
  3. Ottimizzazione in due fasi: Prima utilizza RL per trovare parametri discreti, poi utilizza Monte Carlo per ottimizzare gli accoppiamenti di Yukawa continui
  4. Regolazione della soglia statistica: Adatta la soglia di errore di massa da 1.0 a 1.75 per adattarsi alla massa rinormalizzata

Configurazione Sperimentale

Dataset

  • Masse rinormalizzate: Basate su masse di quark a diverse scale energetiche dalla letteratura 29
  • Elementi della matrice CKM: Valori misurati sperimentalmente e incertezze
  • Parametri cosmologici: Vincoli dai risultati Planck 2018

Metriche di Valutazione

  • Precisione di riproduzione della massa: 1.78×102rmass56.21.78 \times 10^{-2} \leq r_{mass} \leq 56.2
  • Precisione di angolo di mescolamento: 0.63rmixings1.580.63 \leq r_{mixings} \leq 1.58
  • Condizioni di stato finale: V(Q)<10.0|V(Q)| < 10.0, Eα<1.75E_\alpha < 1.75, EijC<0.2E_{ij}^C < 0.2

Dettagli di Implementazione

  • Parametri di addestramento: 20 agenti, 10510^5 episodi, 32 passi/episodio
  • Tasso di apprendimento: α=2.5×104\alpha = 2.5 \times 10^{-4}
  • Dimensione del batch: 32
  • Intervallo di ricerca VEV: 0.01η0.30.01 \leq |\eta| \leq 0.3

Risultati Sperimentali

Risultati Principali

Statistiche di Scoperta dello Stato Finale

Scala Energetica (GeV)Numero Stati Finalinijn_{ij} PositiviEstratti con V1=1.0V_1=1.0
101410^{14}71043444
101510^{15}55532352
101610^{16}37423624
101710^{17}54632336
Totale2,1851,316156

Confronto di Efficienza

  • Metodo RL: 6 giorni (singolo CPU)
  • Stima metodo tradizionale: >55 giorni
  • Rapporto di accelerazione: >9 volte

Risultati dell'Analisi Statistica

  1. Dipendenza dalla scala energetica: Più soluzioni di alta qualità scoperte a M=1014,1015M = 10^{14}, 10^{15} GeV
  2. Distribuzione del numero di domini: La maggior parte delle soluzioni si trova a NDW30N_{DW} \approx 30, con valore minimo di 20
  3. Distribuzione del valore intrinseco: Mediane simili tra diverse scale energetiche, indicando addestramento stabile

Vincoli Cosmologici

  • Materia oscura: Determinata attraverso la relazione tra l'angolo di disallineamento θi\theta_i e la scala PQ faf_a
  • Perturbazioni di curvatura isocurva: Fornisce vincoli superiori sulla scala inflazionaria HinfH_{inf}
  • Vincoli inflazionari: I modelli con M1015M \gtrsim 10^{15} GeV sono favoriti cosmologicamente

Risultati del Settore dei Leptoni

  • M=1015M = 10^{15} GeV: Trovati 23 modelli che soddisfano i vincoli di angolo di mescolamento a 3σ
  • M=1016M = 10^{16} GeV: Trovati 7 modelli che soddisfano i vincoli
  • Massa dei neutrini: Soddisfa il vincolo mν<85\sum m_\nu < 85 meV

Lavori Correlati

Applicazioni di Apprendimento Automatico in Fisica delle Particelle

  • Harvey & Lukas (2021): Applicazione di RL a modelli di massa di quark
  • Lavoro precedente degli autori 8: RL nello studio della struttura di flavor nel settore leptonico

Ricerca su Modelli di Assione

  • Ema et al. (2017): Proposta del quadro del modello flaxion
  • Calibbi et al. (2017): Costruzione del modello minimo di assione
  • I metodi tradizionali si basano principalmente su stime analitiche e campionamento limitato

Confronto di Metodi di Ottimizzazione

  • Metodo tradizionale: Libreria di ottimizzazione scipy, SLSQP più veloce richiede 0.274 ms/iterazione
  • Metodo Monte Carlo: Ricerca casuale con efficienza bassa
  • Algoritmi genetici: Non confrontati sistematicamente in questo articolo

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del metodo: RL ha trovato con successo numerose assegnazioni di carica U(1) realistiche, provando l'efficacia del metodo
  2. Efficienza computazionale: Miglioramento significativo dell'efficienza di ricerca rispetto ai metodi tradizionali
  3. Intuizioni statistiche: Rivela le caratteristiche di distribuzione delle soluzioni a diverse scale energetiche e le preferenze cosmologiche
  4. Previsioni sperimentali: Fornisce previsioni di parametri specifiche per esperimenti futuri come DMRadio-m3

Limitazioni

  1. Limitazione a singolo flavone: Considera solo un campo flavone, non può gestire la violazione di CP
  2. Enfasi sul settore dei quark: L'analisi principale riguarda il settore dei quark, con analisi del settore leptonico relativamente limitata
  3. Dipendenza da iperparametri: La progettazione della ricompensa e la scelta della soglia comportano una certa soggettività
  4. Risorse computazionali: Richiede ancora risorse computazionali considerevoli per l'addestramento

Direzioni Future

  1. Estensione a multi-flavone: Introduzione di due flavoni per gestire la violazione di CP
  2. Accoppiamenti di Yukawa complessi: Considerazione di costanti di accoppiamento complesse
  3. Ottimizzazione dell'architettura di rete: Sviluppo di reti neurali più grandi e universali
  4. Altri modelli di assione: Generalizzazione del metodo ad altri modelli di assione e modelli di flavor

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Prima applicazione sistematica di apprendimento per rinforzo alla ricerca di parametri del modello di assione
  2. Alto valore pratico: Miglioramento significativo dell'efficienza computazionale, rendendo possibile la ricerca su larga scala dello spazio parametrico
  3. Risultati ricchi: Non solo scoperta di numerose soluzioni, ma anche analisi statistica dettagliata
  4. Orientamento sperimentale: Fornisce previsioni sperimentali concrete, collegando la teoria all'esperimento

Insufficienze

  1. Universalità del metodo: La progettazione della funzione di ricompensa è altamente dipendente dal problema specifico, con generalizzabilità limitata
  2. Profondità teorica: Manca un'analisi teorica profonda del perché RL sia efficace in questo problema
  3. Confronti insufficienti: Il confronto con altri metodi di ottimizzazione moderni (come l'ottimizzazione bayesiana) è inadeguato
  4. Validazione limitata: Principalmente verificato su un modello specifico, necessita di più validazioni su modelli diversi per la universalità

Impatto

  1. Interdisciplinarità: Promuove la fusione interdisciplinare tra apprendimento automatico e teoria della fisica delle alte energie
  2. Contributo metodologico: Fornisce nuovi approcci per problemi simili di ottimizzazione di parametri discreti
  3. Guida sperimentale: Fornisce guida dello spazio parametrico specifico per esperimenti di ricerca di assioni
  4. Fisica computazionale: Promuove l'applicazione di metodi di fisica computazionale nella fisica teorica

Scenari Applicabili

  1. Modelli di fisica di flavor: Altri modelli di flavor con simmetrie discrete
  2. Modelli supersimmetrici: Modelli supersimmetrici con numerosi parametri discreti
  3. Modelli con dimensioni extra: Teorie con dimensioni extra che richiedono ricerca su spazi parametrici ampi
  4. Analisi fenomenologica: Qualsiasi ricerca fenomenologica che richieda ricerca di parametri discreti sotto vincoli

Riferimenti Bibliografici

I principali riferimenti includono:

  • 1,2 Ema et al., Calibbi et al.: Proposte originali del modello flaxion
  • 8 Nishimura et al.: Applicazione precedente di RL in fisica di flavor degli autori
  • 25 Sutton & Barto: Teoria fondamentale dell'apprendimento per rinforzo
  • 29 Huang & Zhou: Calcoli precisi delle masse rinormalizzate
  • 9 Collaborazione DMRadio: Esperimenti futuri di ricerca di assioni

Questo articolo rappresenta un importante progresso nell'applicazione di metodi di apprendimento automatico alla fisica teorica, in particolare nel dimostrare i vantaggi dell'apprendimento per rinforzo nel risolvere problemi di ottimizzazione di parametri discreti sotto vincoli complessi. Sebbene presenti alcune limitazioni, il suo metodo pioneristico e i risultati ricchi forniscono riferimenti preziosi per la ricerca nei campi correlati.