2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.

academic

Стратегия статистического поиска на основе обучения с подкреплением для аксионной модели из флейвора

Основная информация

ID статьи: 2409.10023
Название: Reinforcement learning-based statistical search strategy for an axion model from flavor
Авторы: Satsuki Nishimura, Coh Miyao, Hajime Otsuka (Kyushu University)
Классификация: hep-ph (Феноменология физики высоких энергий), cs.LG (Машинное обучение), hep-th (Теория физики высоких энергий)
Дата публикации: arXiv:2409.10023v2 hep-ph 11 октября 2025
Ссылка на статью: https://arxiv.org/abs/2409.10023

Аннотация

В данной работе предложена стратегия поиска на основе обучения с подкреплением для исследования новой физики за пределами Стандартной модели. Обучение с подкреплением как один из методов машинного обучения является мощным инструментом для поиска параметров модели, удовлетворяющих феноменологическим ограничениям. В качестве конкретного примера авторы сосредоточились на минимальной аксионной модели с глобальной симметрией U(1) флейвора. Обучаемый агент успешно нашел распределения U(1)-зарядов кварков и лептонов, решающие проблемы флейвора и космологии в Стандартной модели, обнаружив более 150 реалистичных решений для кваркового сектора с учетом эффектов перенормировки. Для решений, найденных методом обучения с подкреплением, авторы обсудили чувствительность будущих экспериментов по обнаружению аксионов — бозонов Намбу-Голдстоуна спонтанно нарушенной симметрии U(1). Авторы также проверили скорость метода поиска на основе обучения с подкреплением по сравнению с традиционными методами оптимизации при поиске оптимальных дискретных параметров.

Исследовательский контекст и мотивация

Определение проблемы

Нерешённые проблемы Стандартной модели: Стандартная модель содержит нерешённые проблемы иерархии флейвора (иерархия масс кварков и лептонов и углы смешивания), сильную CP-проблему, происхождение тёмной материи и механизм инфляции
Вызовы поиска в пространстве параметров: Теории за пределами Стандартной модели обычно включают огромное пространство параметров, где традиционные методы оптимизации неэффективны при поиске дискретных параметров
Сложность аксионной модели: Минимальная аксионная модель объединяет механизм Фроггатта-Нильсена (FN) и механизм Печеи-Куинна (PQ), требуя одновременного удовлетворения ограничений физики флейвора и космологии

Исследовательская мотивация

Традиционные методы градиентного спуска не могут эффективно решать задачи оптимизации дискретных параметров
Требуется статистический метод для систематического исследования обширного пространства параметров
Обучение с подкреплением при ограниченных данных способно самостоятельно обнаруживать решения, что подходит для данного класса задач

Основные вклады

Первое применение обучения с подкреплением к поиску параметров аксионной модели: Разработана стратегия поиска на основе Deep Q-Network (DQN)
Обнаружение большого количества реалистичных решений: Найдено 156 финальных решений, удовлетворяющих ограничениям на перенормированные массы и смешивание
Повышение эффективности: Время вычисления сокращено с минимум 55 дней до 6 дней по сравнению с традиционными методами
Статистический анализ: Проведён систематический статистический анализ распределения решений при различных энергетических масштабах
Феноменологические предсказания: Вычислены связи аксион-фотон, обеспечивающие предсказания для будущих экспериментов, таких как DMRadio-m3

Подробное описание методов

Определение задачи

Входные данные: Вектор распределения U(1)-зарядов $Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\}$ (i=1,2,3) Выходные данные: Распределения U(1)-зарядов, удовлетворяющие ограничениям физики флейвора и космологии Ограничения:

Воспроизведение перенормированных масс ( $E_\alpha < 1.75$ )
Воспроизведение матрицы смешивания CKM ( $E_{ij}^C < 0.2$ )
Положительные целые индексы FN $n_{ij}$

Архитектура модели

Проектирование окружения

Пространство состояний: 10-мерный целочисленный вектор, каждая компонента в диапазоне -9, 9
Пространство действий: 20 действий (изменения каждого заряда на ±1)
Условия ограничений:
- Ограничение на массу топ-кварка: $q(\bar{Q}_3H^cu_3) = 0$
- Требование положительных целых индексов FN

Архитектура нейронной сети

Входной слой(Z^10) → Скрытый слой 1(R^64) → Скрытый слой 2(R^64) → Скрытый слой 3(R^64) → Выходной слой(R^20)

Функция активации: SELU (скрытые слои), Softmax (выходной слой)
Оптимизатор: ADAM
Функция потерь: потеря Хубера

Проектирование механизма вознаграждения

R(Q,a) = {
    V(Q') - V(Q)  если V(Q') - V(Q) > 0
    -10           если V(Q') - V(Q) ≤ 0
    +100          если Q' — терминальное состояние
}

Внутренняя функция стоимости

$V(Q) = -\min_\eta [M_{quark} + C]$

где:

$M_{quark} = \sum_{\alpha=u,d} E_\alpha$ (ошибка массы)
$C = \sum_{i,j} E_{ij}^C$ (ошибка угла смешивания)
$E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|$

Технические инновации

ε-жадная стратегия: Балансировка исследования и использования, значение ε убывает от 1 до 0.01
Анализ при различных энергетических масштабах: Рассмотрение эффектов перенормировки при четырёх энергетических масштабах $M = 10^{14-17}$ ГэВ
Двухэтапная оптимизация: Сначала использование RL для поиска дискретных параметров, затем оптимизация непрерывных констант Юкавы методом Монте-Карло
Регулировка статистических пороговых значений: Корректировка порога ошибки массы с 1.0 до 1.75 для адаптации к перенормированным массам

Экспериментальная установка

Набор данных

Перенормированные массы: Основаны на массах кварков при различных энергетических масштабах из литературы 29
Элементы матрицы CKM: Экспериментально измеренные значения и погрешности
Космологические параметры: Ограничения из результатов Planck 2018

Метрики оценки

Точность воспроизведения масс: $1.78 \times 10^{-2} \leq r_{mass} \leq 56.2$
Точность углов смешивания: $0.63 \leq r_{mixings} \leq 1.58$
Условия терминального состояния: $|V(Q)| < 10.0$ , $E_\alpha < 1.75$ , $E_{ij}^C < 0.2$

Детали реализации

Параметры обучения: 20 агентов, $10^5$ эпизодов, 32 шага/эпизод
Скорость обучения: $\alpha = 2.5 \times 10^{-4}$
Размер пакета: 32
Диапазон поиска VEV: $0.01 \leq |\eta| \leq 0.3$

Результаты экспериментов

Основные результаты

Статистика обнаружения терминальных состояний

Энергетический масштаб (ГэВ)	Кол-во терминальных состояний	Положительные $n_{ij}$	Извлечено при $V_1=1.0$
$10^{14}$	710	434	44
$10^{15}$	555	323	52
$10^{16}$	374	236	24
$10^{17}$	546	323	36
Итого	2,185	1,316	156

Сравнение эффективности

Метод RL: 6 дней (одиночный процессор)
Оценка традиционного метода: >55 дней
Коэффициент ускорения: >9 раз

Результаты статистического анализа

Зависимость от энергетического масштаба: При $M = 10^{14}, 10^{15}$ ГэВ обнаружено больше высококачественных решений
Распределение числа доменных стенок: Большинство решений находятся при $N_{DW} \approx 30$ , минимальное значение 20
Распределение внутренней стоимости: Медианные значения при различных энергетических масштабах близки, что указывает на стабильность обучения

Космологические ограничения

Тёмная материя: Определяется через связь угла неправильной ориентации $\theta_i$ и масштаба PQ $f_a$
Возмущения кривизны: Накладывают верхние ограничения на масштаб инфляции $H_{inf}$
Ограничения инфляции: Модели с $M \gtrsim 10^{15}$ ГэВ более предпочтительны с космологической точки зрения

Результаты лептонного сектора

$M = 10^{15}$ ГэВ: Найдено 23 модели, удовлетворяющие ограничениям углов смешивания на уровне 3σ
$M = 10^{16}$ ГэВ: Найдено 7 моделей, удовлетворяющих ограничениям
Массы нейтрино: Удовлетворяют ограничению $\sum m_\nu < 85$ мэВ

Связанные работы

Применение машинного обучения в физике частиц

Harvey & Lukas (2021): Применение RL к моделям кварковых масс
Предыдущая работа авторов 8: RL в исследовании структуры флейвора лептонного сектора

Исследования аксионных моделей

Ema и др. (2017): Предложение модели flaxion
Calibbi и др. (2017): Построение минимальной аксионной модели
Традиционные методы в основном полагаются на аналитические оценки и ограниченную выборку

Сравнение методов оптимизации

Традиционные методы: библиотека scipy, самый быстрый SLSQP требует 0.274 мс/итерация
Метод Монте-Карло: низкая эффективность случайного поиска
Генетические алгоритмы: систематическое сравнение не проводилось в данной работе

Выводы и обсуждение

Основные выводы

Эффективность метода: RL успешно нашёл большое количество реалистичных распределений U(1)-зарядов, доказав эффективность метода
Вычислительная эффективность: Значительное повышение эффективности поиска по сравнению с традиционными методами
Статистические закономерности: Выявлены характеристики распределения решений при различных энергетических масштабах и космологические предпочтения
Экспериментальные предсказания: Предоставлены конкретные параметрические предсказания для будущих экспериментов, таких как DMRadio-m3

Ограничения

Ограничение на один флейвон: Рассмотрен только один флейвон-поле, что не позволяет обрабатывать нарушение CP
Фокус на кварковый сектор: Основной анализ сосредоточен на кварковом секторе, анализ лептонного сектора относительно ограничен
Зависимость от гиперпараметров: Проектирование вознаграждения и выбор пороговых значений содержат элементы субъективности
Вычислительные ресурсы: Требуются значительные вычислительные ресурсы для обучения

Направления будущих исследований

Расширение на несколько флейвонов: Введение двух флейвон-полей для обработки нарушения CP
Комплексные константы Юкавы: Рассмотрение случаев с комплексными константами связи
Оптимизация архитектуры сети: Разработка более крупных и универсальных нейронных сетей
Другие аксионные модели: Обобщение метода на другие аксионные модели и модели флейвора

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое применение обучения с подкреплением к поиску параметров аксионной модели
Высокая практическая ценность: Значительное повышение вычислительной эффективности, делающее возможным поиск в больших пространствах параметров
Богатые результаты: Не только обнаружено большое количество решений, но и проведён детальный статистический анализ
Ориентация на эксперимент: Предоставлены конкретные экспериментальные предсказания, связывающие теорию и эксперимент

Недостатки

Универсальность метода: Проектирование функции вознаграждения сильно зависит от конкретной задачи, что ограничивает обобщаемость
Теоретическая глубина: Отсутствует глубокий теоретический анализ того, почему RL эффективен для данной задачи
Недостаточное сравнение: Сравнение с другими современными методами оптимизации (например, байесовской оптимизацией) недостаточно
Ограниченная верификация: Основная верификация проведена на одной конкретной модели, требуется верификация на большем количестве моделей для подтверждения универсальности

Влияние

Междисциплинарное взаимодействие: Способствует взаимопроникновению машинного обучения и теоретической физики высоких энергий
Методологический вклад: Предоставляет новый подход для решения аналогичных задач оптимизации дискретных параметров
Экспериментальное руководство: Обеспечивает конкретное руководство по пространству параметров для экспериментов по поиску аксионов
Вычислительная физика: Способствует применению методов вычислительной физики в теоретической физике

Применимые сценарии

Модели физики флейвора: Другие модели флейвора с дискретными симметриями
Суперсимметричные модели: Суперсимметричные модели с большим количеством дискретных параметров
Модели с дополнительными измерениями: Теории с дополнительными измерениями, требующие поиска в больших пространствах параметров
Феноменологический анализ: Любые феноменологические исследования, требующие поиска дискретных параметров при наличии ограничений

Библиография

Основные цитируемые работы включают:

1,2 Ema и др., Calibbi и др.: Первоначальное предложение модели flaxion
8 Nishimura и др.: Предыдущее применение RL в физике флейвора авторами
25 Sutton & Barto: Фундаментальная теория обучения с подкреплением
29 Huang & Zhou: Точные вычисления перенормированных масс
9 Сотрудничество DMRadio: Будущие эксперименты по поиску аксионов

Данная статья представляет важный прогресс в применении методов машинного обучения в теоретической физике, особенно демонстрируя преимущества обучения с подкреплением при решении задач оптимизации дискретных параметров при наличии сложных ограничений. Несмотря на некоторые ограничения, её новаторский метод и богатые результаты предоставляют ценные ориентиры для исследований в соответствующих областях.