2025-11-13T23:34:11.432936

Reinforcement learning-based statistical search strategy for an axion model from flavor

Nishimura, Miyao, Otsuka
We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
academic

स्वाद से एक्सियॉन मॉडल के लिए सुदृढ़ीकरण शिक्षा-आधारित सांख्यिकीय खोज रणनीति

मौलिक जानकारी

  • पेपर ID: 2409.10023
  • शीर्षक: स्वाद से एक्सियॉन मॉडल के लिए सुदृढ़ीकरण शिक्षा-आधारित सांख्यिकीय खोज रणनीति
  • लेखक: सत्सुकी निशिमुरा, कोह मियाओ, हाजिमे ओत्सुका (क्यूशू विश्वविद्यालय)
  • वर्गीकरण: hep-ph (उच्च ऊर्जा भौतिकी - घटना विज्ञान), cs.LG (मशीन लर्निंग), hep-th (उच्च ऊर्जा भौतिकी - सिद्धांत)
  • प्रकाशन समय: arXiv:2409.10023v2 hep-ph 11 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2409.10023

सारांश

यह पेपर मानक मॉडल से परे नई भौतिकी की खोज के लिए सुदृढ़ीकरण शिक्षा-आधारित खोज रणनीति प्रस्तावित करता है। सुदृढ़ीकरण शिक्षा, मशीन लर्निंग विधियों में से एक, घटना विज्ञान संबंधी बाधाओं को संतुष्ट करने वाले मॉडल मापदंडों को खोजने का एक शक्तिशाली तरीका है। एक ठोस उदाहरण के रूप में, लेखक वैश्विक U(1) स्वाद समरूपता वाले न्यूनतम एक्सियॉन मॉडल पर ध्यान केंद्रित करते हैं। सीखने वाले एजेंट ने मानक मॉडल में स्वाद और ब्रह्मांडीय समस्याओं को हल करने वाले क्वार्क और लेप्टॉन U(1) आवेश वितरण को सफलतापूर्वक खोजा, पुनर्सामान्यीकरण प्रभावों पर विचार करते हुए क्वार्क क्षेत्र के लिए 150 से अधिक यथार्थवादी समाधान खोजे। सुदृढ़ीकरण शिक्षा विश्लेषण द्वारा खोजे गए समाधानों के लिए, लेखक भविष्य के प्रयोगों में एक्सियॉन का पता लगाने की संवेदनशीलता पर चर्चा करते हैं, जहां एक्सियॉन U(1) के सहज टूटने का नम्बु-गोल्डस्टोन बोसॉन है। लेखक सुदृढ़ीकरण शिक्षा खोज विधि की तुलना पारंपरिक अनुकूलन विधियों से असतत मापदंडों को खोजने की गति की भी जांच करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मानक मॉडल की अनसुलझी समस्याएं: मानक मॉडल में स्वाद पदानुक्रम समस्या (क्वार्क और लेप्टॉन के द्रव्यमान पदानुक्रम और मिश्रण कोण), मजबूत CP समस्या, अंधकार पदार्थ की उत्पत्ति और मुद्रास्फीति तंत्र जैसी अनसुलझी समस्याएं हैं
  2. पैरामीटर स्पेस खोज चुनौतियां: मानक मॉडल से परे के सिद्धांत आमतौर पर विशाल पैरामीटर स्पेस में शामिल होते हैं, जहां पारंपरिक अनुकूलन विधियां असतत पैरामीटर खोज में अक्षम हैं
  3. एक्सियॉन मॉडल की जटिलता: न्यूनतम एक्सियॉन मॉडल फ्रॉगट-निल्सन (FN) तंत्र और पेक्केई-क्विन (PQ) तंत्र को जोड़ता है, जिसे स्वाद भौतिकी और ब्रह्मांडीय बाधाओं दोनों को एक साथ संतुष्ट करना होता है

अनुसंधान प्रेरणा

  • पारंपरिक ग्रेडिएंट डिसेंट विधियां असतत पैरामीटर अनुकूलन समस्या को प्रभावी ढंग से संभाल नहीं सकती हैं
  • विशाल पैरामीटर स्पेस को व्यवस्थित रूप से खोजने के लिए सांख्यिकीय विधियों की आवश्यकता है
  • सुदृढ़ीकरण शिक्षा सीमित डेटा के तहत स्वायत्त रूप से समाधान खोज सकती है, जो इस प्रकार की समस्याओं के लिए उपयुक्त है

मुख्य योगदान

  1. एक्सियॉन मॉडल पैरामीटर खोज के लिए सुदृढ़ीकरण शिक्षा का पहली बार अनुप्रयोग: डीप Q-नेटवर्क (DQN) आधारित खोज रणनीति विकसित की गई
  2. बड़ी संख्या में यथार्थवादी समाधान खोजना: पुनर्सामान्यीकरण द्रव्यमान और मिश्रण बाधाओं को संतुष्ट करने वाले 156 अंतिम-अवस्था समाधान खोजे गए
  3. दक्षता में सुधार: पारंपरिक विधि की तुलना में, कम्प्यूटेशनल समय कम से कम 55 दिनों से घटकर 6 दिन हो गया
  4. सांख्यिकीय विश्लेषण: विभिन्न ऊर्जा पैमानों पर समाधान वितरण का व्यवस्थित विश्लेषण
  5. घटना विज्ञान संबंधी भविष्यवाणियां: एक्सियॉन-फोटॉन युग्मन की गणना की गई, DMRadio-m3 जैसे भविष्य के प्रयोगों के लिए भविष्यवाणियां प्रदान की गईं

विधि विवरण

कार्य परिभाषा

इनपुट: U(1) आवेश वितरण वेक्टर Qa={q(Qi),q(ui),q(di),q(ϕ)}Q_a = \{q(Q_i), q(u_i), q(d_i), q(\phi)\} (i=1,2,3) आउटपुट: स्वाद भौतिकी और ब्रह्मांडीय बाधाओं को संतुष्ट करने वाले आवेश वितरण बाधाएं:

  • पुनर्सामान्यीकरण द्रव्यमान पुनरुत्पादन (Eα<1.75E_\alpha < 1.75)
  • CKM मिश्रण मैट्रिक्स पुनरुत्पादन (EijC<0.2E_{ij}^C < 0.2)
  • सकारात्मक पूर्णांक FN सूचकांक nijn_{ij}

मॉडल आर्किटेक्चर

पर्यावरण डिजाइन

  • अवस्था स्पेस: 10-आयामी पूर्णांक वेक्टर, प्रत्येक घटक सीमा -9, 9
  • कार्य स्पेस: 20 कार्य (प्रत्येक आवेश ±1 परिवर्तन)
  • बाधा शर्तें:
    • शीर्ष क्वार्क द्रव्यमान बाधा: q(Qˉ3Hcu3)=0q(\bar{Q}_3H^cu_3) = 0
    • सकारात्मक पूर्णांक FN सूचकांक आवश्यकता

तंत्रिका नेटवर्क आर्किटेक्चर

इनपुट परत(Z^10) → छिपी परत1(R^64) → छिपी परत2(R^64) → छिपी परत3(R^64) → आउटपुट परत(R^20)
  • सक्रियण फलन: SELU (छिपी परतें), Softmax (आउटपुट परत)
  • अनुकूलक: ADAM
  • हानि फलन: Huber हानि

पुरस्कार तंत्र डिजाइन

R(Q,a) = {
    V(Q') - V(Q)  यदि V(Q') - V(Q) > 0
    -10           यदि V(Q') - V(Q) ≤ 0
    +100          यदि Q' अंतिम अवस्था है
}

आंतरिक मूल्य फलन

V(Q)=minη[Mquark+C]V(Q) = -\min_\eta [M_{quark} + C]

जहां:

  • Mquark=α=u,dEαM_{quark} = \sum_{\alpha=u,d} E_\alpha (द्रव्यमान त्रुटि)
  • C=i,jEijCC = \sum_{i,j} E_{ij}^C (मिश्रण कोण त्रुटि)
  • Eα=log10(mα/mα,RG)E_\alpha = |\log_{10}(|m_\alpha|/|m_{\alpha,RG}|)|

तकनीकी नवाचार बिंदु

  1. ε-लालची रणनीति: अन्वेषण और दोहन को संतुलित करता है, ε मान 1 से 0.01 तक क्षय होता है
  2. बहु-ऊर्जा पैमाना विश्लेषण: M=101417M = 10^{14-17} GeV चार ऊर्जा पैमानों पर पुनर्सामान्यीकरण प्रभावों पर विचार
  3. दो-चरणीय अनुकूलन: पहले RL से असतत पैरामीटर खोजें, फिर मोंटे कार्लो से निरंतर Yukawa युग्मन अनुकूलित करें
  4. सांख्यिकीय थ्रेशोल्ड समायोजन: द्रव्यमान त्रुटि थ्रेशोल्ड को 1.0 से 1.75 तक समायोजित किया गया पुनर्सामान्यीकृत द्रव्यमान के अनुकूल

प्रयोगात्मक सेटअप

डेटासेट

  • पुनर्सामान्यीकृत द्रव्यमान: विभिन्न ऊर्जा पैमानों पर साहित्य 29 पर आधारित क्वार्क द्रव्यमान
  • CKM मैट्रिक्स तत्व: प्रायोगिक मापित मान और त्रुटियां
  • ब्रह्मांडीय पैरामीटर: Planck 2018 परिणाम बाधाएं

मूल्यांकन मेट्रिक्स

  • द्रव्यमान पुनरुत्पादन सटीकता: 1.78×102rmass56.21.78 \times 10^{-2} \leq r_{mass} \leq 56.2
  • मिश्रण कोण सटीकता: 0.63rmixings1.580.63 \leq r_{mixings} \leq 1.58
  • अंतिम अवस्था शर्त: V(Q)<10.0|V(Q)| < 10.0, Eα<1.75E_\alpha < 1.75, EijC<0.2E_{ij}^C < 0.2

कार्यान्वयन विवरण

  • प्रशिक्षण पैरामीटर: 20 एजेंट, 10510^5 एपिसोड, 32 कदम/एपिसोड
  • सीखने की दर: α=2.5×104\alpha = 2.5 \times 10^{-4}
  • बैच आकार: 32
  • VEV खोज सीमा: 0.01η0.30.01 \leq |\eta| \leq 0.3

प्रयोगात्मक परिणाम

मुख्य परिणाम

अंतिम अवस्था खोज सांख्यिकी

ऊर्जा पैमाना (GeV)अंतिम अवस्था संख्यासकारात्मक nijn_{ij}V1=1.0V_1=1.0 निष्कर्षण संख्या
101410^{14}71043444
101510^{15}55532352
101610^{16}37423624
101710^{17}54632336
कुल2,1851,316156

दक्षता तुलना

  • RL विधि: 6 दिन (एकल CPU)
  • पारंपरिक विधि अनुमान: >55 दिन
  • त्वरण अनुपात: >9 गुना

सांख्यिकीय विश्लेषण निष्कर्ष

  1. ऊर्जा पैमाना निर्भरता: M=1014,1015M = 10^{14}, 10^{15} GeV पर अधिक उच्च-गुणवत्ता समाधान खोजे गए
  2. डोमेन वॉल संख्या वितरण: अधिकांश समाधान NDW30N_{DW} \approx 30 पर स्थित हैं, न्यूनतम मान 20 है
  3. आंतरिक मूल्य वितरण: विभिन्न ऊर्जा पैमानों के बीच माध्यिका समान है, जो प्रशिक्षण स्थिरता दर्शाता है

ब्रह्मांडीय बाधाएं

  • अंधकार पदार्थ: विफलता कोण θi\theta_i और PQ पैमाने faf_a के संबंध के माध्यम से निर्धारित
  • समविक्रता विक्षोभ: मुद्रास्फीति पैमाने HinfH_{inf} पर ऊपरी सीमा बाधा देता है
  • मुद्रास्फीति बाधा: M1015M \gtrsim 10^{15} GeV के मॉडल ब्रह्मांडीय दृष्टिकोण से अधिक अनुकूल हैं

लेप्टॉन क्षेत्र परिणाम

  • M=1015M = 10^{15} GeV: 3σ मिश्रण कोण बाधा को संतुष्ट करने वाले 23 मॉडल खोजे गए
  • M=1016M = 10^{16} GeV: बाधा को संतुष्ट करने वाले 7 मॉडल खोजे गए
  • न्यूट्रिनो द्रव्यमान: mν<85\sum m_\nu < 85 meV बाधा को संतुष्ट करता है

संबंधित कार्य

कणों की भौतिकी में मशीन लर्निंग का अनुप्रयोग

  • हार्वे और लुकास (2021): क्वार्क द्रव्यमान मॉडल के लिए RL का अनुप्रयोग
  • पेपर का पूर्व कार्य 8: लेप्टॉन क्षेत्र स्वाद संरचना अनुसंधान में RL

एक्सियॉन मॉडल अनुसंधान

  • एमा आदि (2017): flaxion मॉडल ढांचा प्रस्तावित
  • कैलिब्बी आदि (2017): न्यूनतम एक्सियॉन मॉडल निर्माण
  • पारंपरिक विधियां मुख्य रूप से विश्लेषणात्मक अनुमान और सीमित नमूनाकरण पर निर्भर करती हैं

अनुकूलन विधि तुलना

  • पारंपरिक विधि: scipy अनुकूलन लाइब्रेरी, सबसे तेज़ SLSQP को 0.274ms/बार की आवश्यकता है
  • मोंटे कार्लो विधि: यादृच्छिक खोज कम दक्षता
  • आनुवंशिक एल्गोरिदम: इस पेपर में व्यवस्थित रूप से तुलना नहीं की गई

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. विधि प्रभावकारिता: RL ने सफलतापूर्वक बड़ी संख्या में यथार्थवादी U(1) आवेश वितरण खोजे, विधि की प्रभावकारिता को प्रमाणित किया
  2. कम्प्यूटेशनल दक्षता: पारंपरिक विधि की तुलना में खोज दक्षता में महत्वपूर्ण सुधार
  3. सांख्यिकीय अंतर्दृष्टि: विभिन्न ऊर्जा पैमानों पर समाधान वितरण विशेषताओं और ब्रह्मांडीय वरीयताओं का खुलासा
  4. प्रायोगिक भविष्यवाणियां: DMRadio-m3 आदि भविष्य के प्रयोगों के लिए विशिष्ट पैरामीटर भविष्यवाणियां प्रदान की गईं

सीमाएं

  1. एकल flavon सीमा: केवल एक flavon क्षेत्र पर विचार, CP उल्लंघन को संभाल नहीं सकता
  2. क्वार्क क्षेत्र फोकस: मुख्य रूप से क्वार्क क्षेत्र विश्लेषण, लेप्टॉन क्षेत्र विश्लेषण अपेक्षाकृत सीमित
  3. हाइपरपैरामीटर निर्भरता: पुरस्कार डिजाइन और थ्रेशोल्ड चयन में कुछ व्यक्तिपरकता
  4. कम्प्यूटेशनल संसाधन: प्रशिक्षण के लिए अभी भी काफी कम्प्यूटेशनल संसाधनों की आवश्यकता है

भविष्य की दिशाएं

  1. बहु-flavon विस्तार: CP उल्लंघन को संभालने के लिए दो flavon का परिचय
  2. जटिल Yukawa युग्मन: जटिल युग्मन स्थिरांक के मामले पर विचार
  3. नेटवर्क आर्किटेक्चर अनुकूलन: बड़े पैमाने पर, अधिक सामान्य तंत्रिका नेटवर्क विकसित करें
  4. अन्य एक्सियॉन मॉडल: विधि को अन्य एक्सियॉन मॉडल और स्वाद मॉडल में सामान्यीकृत करें

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: एक्सियॉन मॉडल पैरामीटर खोज के लिए सुदृढ़ीकरण शिक्षा का पहली बार व्यवस्थित अनुप्रयोग
  2. उच्च व्यावहारिक मूल्य: कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार, बड़े पैमाने पर पैरामीटर स्पेस खोज को संभव बनाता है
  3. समृद्ध परिणाम: न केवल बड़ी संख्या में समाधान खोजे गए, बल्कि विस्तृत सांख्यिकीय विश्लेषण भी किया गया
  4. प्रयोग-केंद्रित: विशिष्ट प्रायोगिक भविष्यवाणियां प्रदान करता है, सिद्धांत और प्रयोग को जोड़ता है

कमजोरियां

  1. विधि सामान्यता: पुरस्कार फलन डिजाइन विशिष्ट समस्या पर अत्यधिक निर्भर है, सामान्यीकरण सीमित है
  2. सैद्धांतिक गहराई: यह समझाने में कमी कि RL इस समस्या पर प्रभावी क्यों है
  3. अपर्याप्त तुलना: अन्य आधुनिक अनुकूलन विधियों (जैसे बेयेसियन अनुकूलन) के साथ तुलना अपर्याप्त है
  4. सीमित सत्यापन: मुख्य रूप से एक विशिष्ट मॉडल पर सत्यापित, सामान्यता के लिए अधिक मॉडल सत्यापन की आवश्यकता है

प्रभाव

  1. अनुशासन अंतर्संबंध: मशीन लर्निंग और उच्च ऊर्जा भौतिकी सिद्धांत के बीच अंतर्संबंध को बढ़ावा देता है
  2. पद्धति योगदान: समान असतत पैरामीटर अनुकूलन समस्याओं के लिए नई सोच प्रदान करता है
  3. प्रायोगिक मार्गदर्शन: एक्सियॉन खोज प्रयोगों के लिए विशिष्ट पैरामीटर स्पेस मार्गदर्शन प्रदान करता है
  4. कम्प्यूटेशनल भौतिकी: सैद्धांतिक भौतिकी में कम्प्यूटेशनल भौतिकी विधियों के अनुप्रयोग को बढ़ावा देता है

लागू परिदृश्य

  1. स्वाद भौतिकी मॉडल: असतत समरूपता वाले अन्य स्वाद मॉडल
  2. सुपरसिमेट्रिक मॉडल: बड़ी संख्या में असतत पैरामीटर वाले सुपरसिमेट्रिक मॉडल
  3. अतिरिक्त आयाम मॉडल: बड़े पैरामीटर स्पेस खोज की आवश्यकता वाले अतिरिक्त आयाम सिद्धांत
  4. घटना विज्ञान विश्लेषण: बाधाओं के तहत असतत पैरामीटर खोज की आवश्यकता वाला कोई भी घटना विज्ञान अनुसंधान

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

  • 1,2 एमा आदि, कैलिब्बी आदि: flaxion मॉडल का मूल प्रस्ताव
  • 8 निशिमुरा आदि: लेखकों का पूर्व RL स्वाद भौतिकी में अनुप्रयोग
  • 25 सटन और बार्टो: सुदृढ़ीकरण शिक्षा मौलिक सिद्धांत
  • 29 हुआंग और झोउ: पुनर्सामान्यीकृत द्रव्यमान की सटीक गणना
  • 9 DMRadio सहयोग: भविष्य एक्सियॉन खोज प्रयोग

यह पेपर सैद्धांतिक भौतिकी में मशीन लर्निंग विधियों के अनुप्रयोग में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, विशेष रूप से जटिल बाधाओं के तहत असतत पैरामीटर अनुकूलन समस्याओं को संभालने में सुदृढ़ीकरण शिक्षा के लाभ को प्रदर्शित करता है। हालांकि कुछ सीमाएं हैं, इसकी अग्रणी विधि और समृद्ध परिणाम संबंधित क्षेत्र के अनुसंधान के लिए मूल्यवान संदर्भ प्रदान करते हैं।