2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.

academic

強化学習に基づく味由来のアクシオンモデルの統計的探索戦略

基本情報

論文ID: 2409.10023
タイトル: Reinforcement learning-based statistical search strategy for an axion model from flavor
著者: 西村紗月、宮尾聡、大塚肇（九州大学）
分類: hep-ph（高エネルギー物理現象論）、cs.LG（機械学習）、hep-th（高エネルギー物理理論）
発表日時: arXiv:2409.10023v2 hep-ph 2025年10月11日
論文リンク: https://arxiv.org/abs/2409.10023

要旨

本論文は、標準模型を超える新物理を探索するための強化学習に基づく探索戦略を提案している。機械学習方法の一つである強化学習は、現象論的制約を満たすモデルパラメータを見つけるための強力な手法である。具体例として、著者らはグローバルU(1)フレーバー対称性を持つ最小アクシオンモデルに焦点を当てている。学習エージェントは、標準模型におけるフレーバーおよび宇宙論的問題を解決するクォークおよびレプトンのU(1)電荷割り当てを成功裏に発見し、再正規化効果を考慮した場合、クォーク部門に対して150個以上の現実的解を見つけた。強化学習分析によって見つかった解に対して、著者らはU(1)の自発的破れのナムブ・ゴールドストーン粒子であるアクシオンの将来の実験検出感度について議論している。また、著者らは強化学習探索方法が従来の最適化方法と比較して離散パラメータの最適値を見つける速度を検証している。

研究背景と動機

問題定義

標準模型の未解決問題: 標準模型はフレーバー階層問題（クォークおよびレプトンの質量階層と混合角）、強CP問題、暗物質起源、およびインフレーション機構などの未解決問題を抱えている
パラメータ空間探索の課題: 標準模型を超える理論は通常、巨大なパラメータ空間を含み、従来の最適化方法は離散パラメータ探索において効率が低い
アクシオンモデルの複雑性: 最小アクシオンモデルはFroggatt-Nielsen (FN)機構とPeccei-Quinn (PQ)機構を組み合わせており、フレーバー物理と宇宙論的制約を同時に満たす必要がある

研究動機

従来の勾配降下法は離散パラメータ最適化問題を効果的に処理できない
広大なパラメータ空間を体系的に探索するための統計的方法が必要である
強化学習は限定的なデータの下で自律的に解を発見でき、このタイプの問題に適している

核心的貢献

アクシオンモデルパラメータ探索への強化学習の初適用: Deep Q-Network (DQN)に基づく探索戦略を開発
大量の現実的解の発見: 再正規化質量および混合制約を満たす156個の終端状態解を発見
効率の向上: 従来の方法と比較して、計算時間を最低55日から6日に短縮
統計分析: 異なるエネルギースケールにおける解の分布の体系的統計分析
現象論的予測: アクシオン・光子結合を計算し、DMRadio-m3などの将来実験に予測を提供

方法の詳細

タスク定義

入力: U(1)電荷割り当てベクトル $Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\}$ (i=1,2,3) 出力: フレーバー物理および宇宙論的制約を満たす電荷割り当て制約:

再正規化質量再現 ( $E_\alpha < 1.75$ )
CKM混合行列再現 ( $E_{ij}^C < 0.2$ )
正整数FN指数 $n_{ij}$

モデルアーキテクチャ

環境設計

状態空間: 10次元整数ベクトル、各成分の範囲-9, 9
行動空間: 20個の行動（各電荷の±1変化）
制約条件:
- トップクォーク質量制約: $q(\bar{Q}_3H^cu_3) = 0$
- 正整数FN指数要件

ニューラルネットワークアーキテクチャ

入力層(Z^10) → 隠れ層1(R^64) → 隠れ層2(R^64) → 隠れ層3(R^64) → 出力層(R^20)

活性化関数: SELU（隠れ層）、Softmax（出力層）
オプティマイザー: ADAM
損失関数: Huber損失

報酬メカニズム設計

R(Q,a) = {
    V(Q') - V(Q)  if V(Q') - V(Q) > 0
    -10           if V(Q') - V(Q) ≤ 0
    +100          if Q' is terminal state
}

内在価値関数

$V(Q) = -\min_\eta [M_{quark} + C]$

ここで:

$M_{quark} = \sum_{\alpha=u,d} E_\alpha$ （質量誤差）
$C = \sum_{i,j} E_{ij}^C$ （混合角誤差）
$E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|$

技術的革新点

ε-貪欲戦略: 探索と利用のバランスを取り、εを1から0.01に減衰
マルチエネルギースケール分析: $M = 10^{14-17}$ GeVの4つのエネルギースケールにおける再正規化効果を考慮
二段階最適化: 最初にRLで離散パラメータを見つけ、次にモンテカルロで連続Yukawa結合を最適化
統計閾値調整: 質量誤差閾値を1.0から1.75に調整して再正規化質量に適応

実験設定

データセット

再正規化質量: 文献29に基づく異なるエネルギースケールでのクォーク質量
CKM行列要素: 実験測定値および誤差
宇宙論パラメータ: Planck 2018結果による制約

評価指標

質量再現精度: $1.78 \times 10^{-2} \leq r_{mass} \leq 56.2$
混合角精度: $0.63 \leq r_{mixings} \leq 1.58$
終端条件: $|V(Q)| < 10.0$ 、 $E_\alpha < 1.75$ 、 $E_{ij}^C < 0.2$

実装詳細

訓練パラメータ: 20個のエージェント、 $10^5$ エピソード、32ステップ/エピソード
学習率: $\alpha = 2.5 \times 10^{-4}$
バッチサイズ: 32
VEV探索範囲: $0.01 \leq |\eta| \leq 0.3$

実験結果

主要結果

終端状態発見統計

エネルギースケール (GeV)	終端状態数	正 $n_{ij}$	$V_1=1.0$ 抽出数
$10^{14}$	710	434	44
$10^{15}$	555	323	52
$10^{16}$	374	236	24
$10^{17}$	546	323	36
合計	2,185	1,316	156

効率比較

RL方法: 6日（単一CPU）
従来の方法推定: >55日
加速比: >9倍

統計分析の発見

エネルギースケール依存性: $M = 10^{14}, 10^{15}$ GeVでより多くの高品質解が発見される
ドメインウォール数分布: ほとんどの解は $N_{DW} \approx 30$ に位置し、最小値は20
内在価値分布: 異なるエネルギースケール間で中央値が類似しており、訓練の安定性を示す

宇宙論的制約

暗物質: 失調角 $\theta_i$ とPQスケール $f_a$ の関係を通じて決定
等曲率摂動: インフレーションスケール $H_{inf}$ に上限制約を課す
インフレーション制約: $M \gtrsim 10^{15}$ GeVのモデルがより宇宙論的に好まれる

レプトン部門の結果

$M = 10^{15}$ GeV: 3σ混合角制約を満たす23個のモデルを発見
$M = 10^{16}$ GeV: 制約を満たす7個のモデルを発見
ニュートリノ質量: $\sum m_\nu < 85$ meV制約を満たす

結論と考察

主要な結論

方法の有効性: RLは大量の現実的なU(1)電荷割り当てを成功裏に発見し、方法の有効性を証明
計算効率: 従来の方法と比較して探索効率が大幅に向上
統計的洞察: 異なるエネルギースケール下での解の分布特性と宇宙論的嗜好を明らかに
実験予測: DMRadio-m3などの将来実験に対して具体的なパラメータ予測を提供

制限事項

単一フレーバオン制限: 1つのフレーバオン場のみを考慮し、CP破れを処理できない
クォーク部門への焦点: 主にクォーク部門の分析に焦点を当て、レプトン部門の分析は相対的に限定的
超パラメータ依存性: 報酬設計と閾値選択にはある程度の主観性がある
計算資源: 訓練にはかなりの計算資源が必要

将来の方向性

マルチフレーバオン拡張: CP破れを処理するための2つのフレーバオンの導入
複素Yukawa結合: 複素結合定数の場合を考慮
ネットワークアーキテクチャの最適化: より大規模で汎用的なニューラルネットワークの開発
他のアクシオンモデル: 他のアクシオンモデルおよびフレーバーモデルへの方法の一般化

深い評価

利点

革新性が高い: アクシオンモデルパラメータ探索に強化学習を体系的に適用した初の例
実用価値が高い: 計算効率を大幅に向上させ、大規模パラメータ空間探索を可能に
結果が豊富: 大量の解を見つけるだけでなく、詳細な統計分析を実施
実験指向: 理論と実験を結びつける具体的な実験予測を提供

不足点

方法の汎用性: 報酬関数の設計は特定の問題に高度に依存し、推広性が限定的
理論的深さ: なぜRLがこの問題で有効なのかについての深層的理論分析が不足
比較が不十分: 他の現代的最適化方法（ベイズ最適化など）との比較が不足
検証が限定的: 主に1つの特定モデルで検証され、汎用性を確認するにはより多くのモデル検証が必要

影響力

学際的融合: 機械学習と高エネルギー物理理論の学際的融合を促進
方法論的貢献: 類似の離散パラメータ最適化問題に新しい視点を提供
実験指導: アクシオン探索実験に具体的なパラメータ空間指導を提供
計算物理学: 計算物理学的方法の理論物理学への応用を推進

適用可能なシナリオ

フレーバー物理モデル: 離散対称性を持つ他のフレーバーモデル
超対称モデル: 大量の離散パラメータを持つ超対称モデル
余剰次元モデル: 大きなパラメータ空間探索が必要な余剰次元理論
現象論的分析: 制約下で離散パラメータ探索が必要な任意の現象論的研究

参考文献

主要な参考文献には以下が含まれる：

1,2 Ema等、Calibbi等: flaxionモデルの原始提案
8 Nishimura等: フレーバー物理におけるRL適用の先行研究
25 Sutton & Barto: 強化学習の基礎理論
29 Huang & Zhou: 再正規化質量の精密計算
9 DMRadioコラボレーション: 将来のアクシオン探索実験

本論文は、複雑な制約下での離散パラメータ最適化問題の処理において強化学習の優位性を示す、理論物理学における機械学習方法の応用の重要な進展を代表している。いくつかの制限事項は存在するが、その開創的な方法と豊富な結果は、関連分野の研究に貴重な参考資料を提供している。