2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.

academic

Reinforcement learning-based statistical search strategy for an axion model from flavor

基本信息

论文ID: 2409.10023
标题: Reinforcement learning-based statistical search strategy for an axion model from flavor
作者: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Kyushu University)
分类: hep-ph (High Energy Physics - Phenomenology), cs.LG (Machine Learning), hep-th (High Energy Physics - Theory)
发表时间: arXiv:2409.10023v2 hep-ph 11 Oct 2025
论文链接: https://arxiv.org/abs/2409.10023

摘要

本文提出了一种基于强化学习的搜索策略来探索超越标准模型的新物理。强化学习作为机器学习方法之一，是寻找满足现象学约束的模型参数的有力方法。作为具体例子，作者专注于具有全局U(1)味对称性的最小轴子模型。学习智能体成功找到了解决标准模型中味和宇宙学难题的夸克和轻子U(1)电荷分配，在考虑重整化效应的情况下为夸克部门找到了超过150个现实解。对于强化学习分析找到的解，作者讨论了未来实验探测轴子的敏感性，轴子是自发破缺U(1)的Nambu-Goldstone玻色子。作者还检验了强化学习搜索方法相比传统优化方法找到最佳离散参数的速度。

研究背景与动机

问题定义

标准模型的未解难题: 标准模型存在味层次问题（夸克和轻子的质量层次和混合角）、强CP问题、暗物质起源和暴胀机制等未解问题
参数空间搜索挑战: 超越标准模型的理论通常涉及巨大的参数空间，传统优化方法在离散参数搜索中效率低下
轴子模型的复杂性: 最小轴子模型结合了Froggatt-Nielsen (FN)机制和Peccei-Quinn (PQ)机制，需要同时满足味物理和宇宙学约束

研究动机

传统的梯度下降方法无法有效处理离散参数优化问题
需要统计性方法来系统探索vast参数空间
强化学习在有限数据下能够自主发现解，适合这类问题

核心贡献

首次将强化学习应用于轴子模型参数搜索: 开发了基于Deep Q-Network (DQN)的搜索策略
发现大量现实解: 找到156个满足重整化质量和混合约束的终态解
效率提升: 相比传统方法，计算时间从至少55天缩短到6天
统计分析: 对不同能标下的解分布进行了系统性统计分析
现象学预测: 计算了轴子-光子耦合，为未来实验如DMRadio-m3提供预测

方法详解

任务定义

输入: U(1)电荷分配向量 $Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\}$ (i=1,2,3) 输出: 满足味物理和宇宙学约束的电荷分配约束:

重整化质量再现 ( $E_\alpha < 1.75$ )
CKM混合矩阵再现 ( $E_{ij}^C < 0.2$ )
正整数FN指数 $n_{ij}$

模型架构

环境设计

状态空间: 10维整数向量，每个分量范围-9, 9
动作空间: 20个动作（每个电荷±1的变化）
约束条件:
- 顶夸克质量约束: $q(\bar{Q}_3H^cu_3) = 0$
- 正整数FN指数要求

神经网络架构

输入层(Z^10) → 隐藏层1(R^64) → 隐藏层2(R^64) → 隐藏层3(R^64) → 输出层(R^20)

激活函数: SELU (隐藏层), Softmax (输出层)
优化器: ADAM
损失函数: Huber损失

奖励机制设计

R(Q,a) = {
    V(Q') - V(Q)  if V(Q') - V(Q) > 0
    -10           if V(Q') - V(Q) ≤ 0
    +100          if Q' is terminal state
}

内在价值函数

$V(Q) = -\min_\eta [M_{quark} + C]$

其中:

$M_{quark} = \sum_{\alpha=u,d} E_\alpha$ (质量误差)
$C = \sum_{i,j} E_{ij}^C$ (混合角误差)
$E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|$

技术创新点

ε-贪心策略: 平衡探索与利用，ε值从1衰减到0.01
多能标分析: 考虑 $M = 10^{14-17}$ GeV四个能标的重整化效应
两阶段优化: 先用RL找离散参数，再用Monte Carlo优化连续Yukawa耦合
统计阈值调整: 将质量误差阈值从1.0调整到1.75以适应重整化质量

实验设置

数据集

重整化质量: 基于文献29的不同能标下夸克质量
CKM矩阵元: 实验测量值及误差
宇宙学参数: Planck 2018结果约束

评价指标

质量再现精度: $1.78 \times 10^{-2} \leq r_{mass} \leq 56.2$
混合角精度: $0.63 \leq r_{mixings} \leq 1.58$
终态条件: $|V(Q)| < 10.0$ , $E_\alpha < 1.75$ , $E_{ij}^C < 0.2$

实现细节

训练参数: 20个智能体， $10^5$ 回合，32步/回合
学习率: $\alpha = 2.5 \times 10^{-4}$
批大小: 32
VEV搜索范围: $0.01 \leq |\eta| \leq 0.3$

实验结果

主要结果

终态发现统计

能标 (GeV)	终态数	正 $n_{ij}$	$V_1=1.0$ 提取数
$10^{14}$	710	434	44
$10^{15}$	555	323	52
$10^{16}$	374	236	24
$10^{17}$	546	323	36
总计	2,185	1,316	156

效率对比

RL方法: 6天（单CPU）
传统方法估计: >55天
加速比: >9倍

统计分析发现

能标依赖性: $M = 10^{14}, 10^{15}$ GeV处发现更多高质量解
畴壁数分布: 大部分解位于 $N_{DW} \approx 30$ ，最小值为20
内在价值分布: 不同能标间中位数相近，表明训练稳定

宇宙学约束

暗物质: 通过失调角 $\theta_i$ 与PQ尺度 $f_a$ 关系确定
等曲率扰动: 对暴胀尺度 $H_{inf}$ 给出上界约束
暴胀约束: $M \gtrsim 10^{15}$ GeV的模型更受宇宙学青睐

轻子部门结果

$M = 10^{15}$ GeV: 找到23个满足3σ混合角约束的模型
$M = 10^{16}$ GeV: 找到7个满足约束的模型
中微子质量: 满足 $\sum m_\nu < 85$ meV约束

结论与讨论

主要结论

方法有效性: RL成功找到大量现实的U(1)电荷分配，证明了方法的有效性
计算效率: 相比传统方法显著提升搜索效率
统计洞察: 揭示了不同能标下解的分布特征和宇宙学偏好
实验预测: 为DMRadio-m3等未来实验提供了具体的参数预测

局限性

单flavon限制: 仅考虑一个flavon场，无法处理CP破缺
夸克部门专注: 主要分析夸克部门，轻子部门分析相对有限
超参数依赖: 奖励设计和阈值选择带有一定主观性
计算资源: 仍需要相当的计算资源进行训练

未来方向

多flavon扩展: 引入两个flavon处理CP破缺
复Yukawa耦合: 考虑复数耦合常数的情况
网络架构优化: 开发更大规模、更通用的神经网络
其他轴子模型: 将方法推广到其他轴子模型和味模型

深度评价

优点

创新性强: 首次系统性地将强化学习应用于轴子模型参数搜索
实用价值高: 显著提升了计算效率，使大规模参数空间搜索成为可能
结果丰富: 不仅找到大量解，还进行了详细的统计分析
实验导向: 提供了具体的实验预测，连接理论与实验

不足

方法通用性: 奖励函数设计高度依赖具体问题，推广性有限
理论深度: 缺乏对为什么RL在此问题上有效的深层理论分析
对比不充分: 与其他现代优化方法（如贝叶斯优化）的比较不够
验证有限: 主要在一个特定模型上验证，需要更多模型验证通用性

影响力

学科交叉: 促进了机器学习与高能物理理论的交叉融合
方法论贡献: 为类似的离散参数优化问题提供了新思路
实验指导: 为轴子搜索实验提供了具体的参数空间指导
计算物理: 推动了计算物理方法在理论物理中的应用

适用场景

味物理模型: 其他具有离散对称性的味模型
超对称模型: 具有大量离散参数的超对称模型
额外维模型: 需要搜索大参数空间的额外维理论
现象学分析: 任何需要在约束下搜索离散参数的现象学研究

参考文献

主要参考文献包括：

1,2 Ema et al., Calibbi et al.: flaxion模型的原始提出
8 Nishimura et al.: 作者前期RL在味物理中的应用
25 Sutton & Barto: 强化学习基础理论
29 Huang & Zhou: 重整化质量的精确计算
9 DMRadio collaboration: 未来轴子搜索实验

这篇论文代表了机器学习方法在理论物理中应用的重要进展，特别是在处理复杂约束下的离散参数优化问题方面展现了强化学习的优势。虽然存在一些局限性，但其开创性的方法和丰富的结果为相关领域的研究提供了宝贵的参考。