We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
論文ID : 2409.10023タイトル : Reinforcement learning-based statistical search strategy for an axion model from flavor著者 : 西村紗月、宮尾聡、大塚肇(九州大学)分類 : hep-ph(高エネルギー物理現象論)、cs.LG(機械学習)、hep-th(高エネルギー物理理論)発表日時 : arXiv:2409.10023v2 hep-ph 2025年10月11日論文リンク : https://arxiv.org/abs/2409.10023 本論文は、標準模型を超える新物理を探索するための強化学習に基づく探索戦略を提案している。機械学習方法の一つである強化学習は、現象論的制約を満たすモデルパラメータを見つけるための強力な手法である。具体例として、著者らはグローバルU(1)フレーバー対称性を持つ最小アクシオンモデルに焦点を当てている。学習エージェントは、標準模型におけるフレーバーおよび宇宙論的問題を解決するクォークおよびレプトンのU(1)電荷割り当てを成功裏に発見し、再正規化効果を考慮した場合、クォーク部門に対して150個以上の現実的解を見つけた。強化学習分析によって見つかった解に対して、著者らはU(1)の自発的破れのナムブ・ゴールドストーン粒子であるアクシオンの将来の実験検出感度について議論している。また、著者らは強化学習探索方法が従来の最適化方法と比較して離散パラメータの最適値を見つける速度を検証している。
標準模型の未解決問題 : 標準模型はフレーバー階層問題(クォークおよびレプトンの質量階層と混合角)、強CP問題、暗物質起源、およびインフレーション機構などの未解決問題を抱えているパラメータ空間探索の課題 : 標準模型を超える理論は通常、巨大なパラメータ空間を含み、従来の最適化方法は離散パラメータ探索において効率が低いアクシオンモデルの複雑性 : 最小アクシオンモデルはFroggatt-Nielsen (FN)機構とPeccei-Quinn (PQ)機構を組み合わせており、フレーバー物理と宇宙論的制約を同時に満たす必要がある従来の勾配降下法は離散パラメータ最適化問題を効果的に処理できない 広大なパラメータ空間を体系的に探索するための統計的方法が必要である 強化学習は限定的なデータの下で自律的に解を発見でき、このタイプの問題に適している アクシオンモデルパラメータ探索への強化学習の初適用 : Deep Q-Network (DQN)に基づく探索戦略を開発大量の現実的解の発見 : 再正規化質量および混合制約を満たす156個の終端状態解を発見効率の向上 : 従来の方法と比較して、計算時間を最低55日から6日に短縮統計分析 : 異なるエネルギースケールにおける解の分布の体系的統計分析現象論的予測 : アクシオン・光子結合を計算し、DMRadio-m3などの将来実験に予測を提供入力 : U(1)電荷割り当てベクトル Q a = { q ( Q i ) , q ( u i ) , q ( d i ) , q ( ϕ ) } Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\} Q a = { q ( Q i ) , q ( u i ) , q ( d i ) , q ( ϕ )} (i=1,2,3)
出力 : フレーバー物理および宇宙論的制約を満たす電荷割り当て
制約 :
再正規化質量再現 (E α < 1.75 E_\alpha < 1.75 E α < 1.75 ) CKM混合行列再現 (E i j C < 0.2 E_{ij}^C < 0.2 E ij C < 0.2 ) 正整数FN指数 n i j n_{ij} n ij 状態空間 : 10次元整数ベクトル、各成分の範囲-9, 9 行動空間 : 20個の行動(各電荷の±1変化)制約条件 :
トップクォーク質量制約: q ( Q ˉ 3 H c u 3 ) = 0 q(\bar{Q}_3H^cu_3) = 0 q ( Q ˉ 3 H c u 3 ) = 0 正整数FN指数要件 入力層(Z^10) → 隠れ層1(R^64) → 隠れ層2(R^64) → 隠れ層3(R^64) → 出力層(R^20)
活性化関数: SELU(隠れ層)、Softmax(出力層) オプティマイザー: ADAM 損失関数: Huber損失 R(Q,a) = {
V(Q') - V(Q) if V(Q') - V(Q) > 0
-10 if V(Q') - V(Q) ≤ 0
+100 if Q' is terminal state
}
V ( Q ) = − min η [ M q u a r k + C ] V(Q) = -\min_\eta [M_{quark} + C] V ( Q ) = − min η [ M q u a r k + C ]
ここで:
M q u a r k = ∑ α = u , d E α M_{quark} = \sum_{\alpha=u,d} E_\alpha M q u a r k = ∑ α = u , d E α (質量誤差)C = ∑ i , j E i j C C = \sum_{i,j} E_{ij}^C C = ∑ i , j E ij C (混合角誤差)E α = ∣ log 10 ( ∣ m α ∣ / ∣ m α , R G ∣ ) ∣ E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)| E α = ∣ log 10 ( ∣ m α ∣/∣ m α , RG ∣ ) ∣ ε-貪欲戦略 : 探索と利用のバランスを取り、εを1から0.01に減衰マルチエネルギースケール分析 : M = 10 14 − 17 M = 10^{14-17} M = 1 0 14 − 17 GeVの4つのエネルギースケールにおける再正規化効果を考慮二段階最適化 : 最初にRLで離散パラメータを見つけ、次にモンテカルロで連続Yukawa結合を最適化統計閾値調整 : 質量誤差閾値を1.0から1.75に調整して再正規化質量に適応再正規化質量 : 文献29 に基づく異なるエネルギースケールでのクォーク質量CKM行列要素 : 実験測定値および誤差宇宙論パラメータ : Planck 2018結果による制約質量再現精度 : 1.78 × 10 − 2 ≤ r m a s s ≤ 56.2 1.78 \times 10^{-2} \leq r_{mass} \leq 56.2 1.78 × 1 0 − 2 ≤ r ma ss ≤ 56.2 混合角精度 : 0.63 ≤ r m i x i n g s ≤ 1.58 0.63 \leq r_{mixings} \leq 1.58 0.63 ≤ r mi x in g s ≤ 1.58 終端条件 : ∣ V ( Q ) ∣ < 10.0 |V(Q)| < 10.0 ∣ V ( Q ) ∣ < 10.0 、E α < 1.75 E_\alpha < 1.75 E α < 1.75 、E i j C < 0.2 E_{ij}^C < 0.2 E ij C < 0.2 訓練パラメータ : 20個のエージェント、10 5 10^5 1 0 5 エピソード、32ステップ/エピソード学習率 : α = 2.5 × 10 − 4 \alpha = 2.5 \times 10^{-4} α = 2.5 × 1 0 − 4 バッチサイズ : 32VEV探索範囲 : 0.01 ≤ ∣ η ∣ ≤ 0.3 0.01 \leq |\eta| \leq 0.3 0.01 ≤ ∣ η ∣ ≤ 0.3 エネルギースケール (GeV) 終端状態数 正n i j n_{ij} n ij V 1 = 1.0 V_1=1.0 V 1 = 1.0 抽出数10 14 10^{14} 1 0 14 710 434 44 10 15 10^{15} 1 0 15 555 323 52 10 16 10^{16} 1 0 16 374 236 24 10 17 10^{17} 1 0 17 546 323 36 合計 2,185 1,316 156
RL方法 : 6日(単一CPU)従来の方法推定 : >55日加速比 : >9倍エネルギースケール依存性 : M = 10 14 , 10 15 M = 10^{14}, 10^{15} M = 1 0 14 , 1 0 15 GeVでより多くの高品質解が発見されるドメインウォール数分布 : ほとんどの解はN D W ≈ 30 N_{DW} \approx 30 N D W ≈ 30 に位置し、最小値は20内在価値分布 : 異なるエネルギースケール間で中央値が類似しており、訓練の安定性を示す暗物質 : 失調角θ i \theta_i θ i とPQスケールf a f_a f a の関係を通じて決定等曲率摂動 : インフレーションスケールH i n f H_{inf} H in f に上限制約を課すインフレーション制約 : M ≳ 10 15 M \gtrsim 10^{15} M ≳ 1 0 15 GeVのモデルがより宇宙論的に好まれるM = 10 15 M = 10^{15} M = 1 0 15 GeV : 3σ混合角制約を満たす23個のモデルを発見M = 10 16 M = 10^{16} M = 1 0 16 GeV : 制約を満たす7個のモデルを発見ニュートリノ質量 : ∑ m ν < 85 \sum m_\nu < 85 ∑ m ν < 85 meV制約を満たすHarvey & Lukas (2021): クォーク質量モデルへのRL適用 本論文の先行研究8 : レプトン部門フレーバー構造研究におけるRL Ema等(2017): flaxionモデルフレームワークの提案 Calibbi等(2017): 最小アクシオンモデルの構築 従来の方法は主に解析的推定と限定的サンプリングに依存 従来の方法: scipyライブラリ、最速SLSQP 0.274ms/回 モンテカルロ法: ランダム探索の効率は低い 遺伝的アルゴリズム: 本論文では体系的に比較されていない 方法の有効性 : RLは大量の現実的なU(1)電荷割り当てを成功裏に発見し、方法の有効性を証明計算効率 : 従来の方法と比較して探索効率が大幅に向上統計的洞察 : 異なるエネルギースケール下での解の分布特性と宇宙論的嗜好を明らかに実験予測 : DMRadio-m3などの将来実験に対して具体的なパラメータ予測を提供単一フレーバオン制限 : 1つのフレーバオン場のみを考慮し、CP破れを処理できないクォーク部門への焦点 : 主にクォーク部門の分析に焦点を当て、レプトン部門の分析は相対的に限定的超パラメータ依存性 : 報酬設計と閾値選択にはある程度の主観性がある計算資源 : 訓練にはかなりの計算資源が必要マルチフレーバオン拡張 : CP破れを処理するための2つのフレーバオンの導入複素Yukawa結合 : 複素結合定数の場合を考慮ネットワークアーキテクチャの最適化 : より大規模で汎用的なニューラルネットワークの開発他のアクシオンモデル : 他のアクシオンモデルおよびフレーバーモデルへの方法の一般化革新性が高い : アクシオンモデルパラメータ探索に強化学習を体系的に適用した初の例実用価値が高い : 計算効率を大幅に向上させ、大規模パラメータ空間探索を可能に結果が豊富 : 大量の解を見つけるだけでなく、詳細な統計分析を実施実験指向 : 理論と実験を結びつける具体的な実験予測を提供方法の汎用性 : 報酬関数の設計は特定の問題に高度に依存し、推広性が限定的理論的深さ : なぜRLがこの問題で有効なのかについての深層的理論分析が不足比較が不十分 : 他の現代的最適化方法(ベイズ最適化など)との比較が不足検証が限定的 : 主に1つの特定モデルで検証され、汎用性を確認するにはより多くのモデル検証が必要学際的融合 : 機械学習と高エネルギー物理理論の学際的融合を促進方法論的貢献 : 類似の離散パラメータ最適化問題に新しい視点を提供実験指導 : アクシオン探索実験に具体的なパラメータ空間指導を提供計算物理学 : 計算物理学的方法の理論物理学への応用を推進フレーバー物理モデル : 離散対称性を持つ他のフレーバーモデル超対称モデル : 大量の離散パラメータを持つ超対称モデル余剰次元モデル : 大きなパラメータ空間探索が必要な余剰次元理論現象論的分析 : 制約下で離散パラメータ探索が必要な任意の現象論的研究主要な参考文献には以下が含まれる:
1,2 Ema等、Calibbi等: flaxionモデルの原始提案8 Nishimura等: フレーバー物理におけるRL適用の先行研究25 Sutton & Barto: 強化学習の基礎理論29 Huang & Zhou: 再正規化質量の精密計算9 DMRadioコラボレーション: 将来のアクシオン探索実験本論文は、複雑な制約下での離散パラメータ最適化問題の処理において強化学習の優位性を示す、理論物理学における機械学習方法の応用の重要な進展を代表している。いくつかの制限事項は存在するが、その開創的な方法と豊富な結果は、関連分野の研究に貴重な参考資料を提供している。