Reinforcement learning-based statistical search strategy for an axion model from flavor
Nishimura, Miyao, Otsuka
We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
academic
Стратегия статистического поиска на основе обучения с подкреплением для аксионной модели из флейвора
В данной работе предложена стратегия поиска на основе обучения с подкреплением для исследования новой физики за пределами Стандартной модели. Обучение с подкреплением как один из методов машинного обучения является мощным инструментом для поиска параметров модели, удовлетворяющих феноменологическим ограничениям. В качестве конкретного примера авторы сосредоточились на минимальной аксионной модели с глобальной симметрией U(1) флейвора. Обучаемый агент успешно нашел распределения U(1)-зарядов кварков и лептонов, решающие проблемы флейвора и космологии в Стандартной модели, обнаружив более 150 реалистичных решений для кваркового сектора с учетом эффектов перенормировки. Для решений, найденных методом обучения с подкреплением, авторы обсудили чувствительность будущих экспериментов по обнаружению аксионов — бозонов Намбу-Голдстоуна спонтанно нарушенной симметрии U(1). Авторы также проверили скорость метода поиска на основе обучения с подкреплением по сравнению с традиционными методами оптимизации при поиске оптимальных дискретных параметров.
Нерешённые проблемы Стандартной модели: Стандартная модель содержит нерешённые проблемы иерархии флейвора (иерархия масс кварков и лептонов и углы смешивания), сильную CP-проблему, происхождение тёмной материи и механизм инфляции
Вызовы поиска в пространстве параметров: Теории за пределами Стандартной модели обычно включают огромное пространство параметров, где традиционные методы оптимизации неэффективны при поиске дискретных параметров
Сложность аксионной модели: Минимальная аксионная модель объединяет механизм Фроггатта-Нильсена (FN) и механизм Печеи-Куинна (PQ), требуя одновременного удовлетворения ограничений физики флейвора и космологии
Первое применение обучения с подкреплением к поиску параметров аксионной модели: Разработана стратегия поиска на основе Deep Q-Network (DQN)
Обнаружение большого количества реалистичных решений: Найдено 156 финальных решений, удовлетворяющих ограничениям на перенормированные массы и смешивание
Повышение эффективности: Время вычисления сокращено с минимум 55 дней до 6 дней по сравнению с традиционными методами
Статистический анализ: Проведён систематический статистический анализ распределения решений при различных энергетических масштабах
Феноменологические предсказания: Вычислены связи аксион-фотон, обеспечивающие предсказания для будущих экспериментов, таких как DMRadio-m3
Универсальность метода: Проектирование функции вознаграждения сильно зависит от конкретной задачи, что ограничивает обобщаемость
Теоретическая глубина: Отсутствует глубокий теоретический анализ того, почему RL эффективен для данной задачи
Недостаточное сравнение: Сравнение с другими современными методами оптимизации (например, байесовской оптимизацией) недостаточно
Ограниченная верификация: Основная верификация проведена на одной конкретной модели, требуется верификация на большем количестве моделей для подтверждения универсальности
9 Сотрудничество DMRadio: Будущие эксперименты по поиску аксионов
Данная статья представляет важный прогресс в применении методов машинного обучения в теоретической физике, особенно демонстрируя преимущества обучения с подкреплением при решении задач оптимизации дискретных параметров при наличии сложных ограничений. Несмотря на некоторые ограничения, её новаторский метод и богатые результаты предоставляют ценные ориентиры для исследований в соответствующих областях.