2025-11-23T16:40:17.365633

Detecting wide binaries using machine learning algorithms

Ashesh, Kaur, Aashish

We present a machine learning (ML) framework for the detection of wide binary star systems using Gaia DR3 data. By training supervised ML models on established wide binary catalogues, we efficiently classify wide binaries and employ clustering and nearest neighbour search to pair candidate systems. Our approach incorporates data preprocessing techniques such as SMOTE, correlation analysis, and PCA, and achieves high accuracy and recall in the task of wide binary classification. The resulting publicly available code enables rapid, scalable, and customizable analysis of wide binaries, complementing conventional analyses and providing a valuable resource for future astrophysical studies.

academic

मशीन लर्निंग एल्गोरिदम का उपयोग करके विस्तृत बाइनरी का पता लगाना

मूल जानकारी

पेपर ID: 2506.19942
शीर्षक: मशीन लर्निंग एल्गोरिदम का उपयोग करके विस्तृत बाइनरी का पता लगाना
लेखक: अमॉय अशेष (भारतीय प्रौद्योगिकी संस्थान पटना & ट्रिनिटी कॉलेज डबलिन), हरसिमरन कौर (भारतीय प्रौद्योगिकी संस्थान पटना), संदीप आशीष (भारतीय प्रौद्योगिकी संस्थान पटना)
वर्गीकरण: astro-ph.GA gr-qc
प्रकाशन तिथि: 17 अक्टूबर 2025 संस्करण
पेपर लिंक: https://arxiv.org/abs/2506.19942

सारांश

यह पेपर Gaia DR3 डेटा का उपयोग करके विस्तृत बाइनरी सिस्टम का पता लगाने के लिए एक मशीन लर्निंग ढांचा प्रस्तावित करता है। स्थापित विस्तृत बाइनरी कैटलॉग पर पर्यवेक्षित मशीन लर्निंग मॉडल को प्रशिक्षित करके, शोधकर्ताओं ने विस्तृत बाइनरी का कुशलतापूर्वक वर्गीकरण किया है, और क्लस्टरिंग तथा निकटतम पड़ोसी खोज का उपयोग करके उम्मीदवार सिस्टम को जोड़ा है। यह विधि SMOTE, सहसंबंध विश्लेषण और PCA जैसी डेटा पूर्व-प्रसंस्करण तकनीकों को एकीकृत करती है, विस्तृत बाइनरी वर्गीकरण कार्य में उच्च सटीकता और रिकॉल प्राप्त करती है। यह अनुसंधान प्रदान किया गया सार्वजनिक कोड विस्तृत बाइनरी के तेजी से, स्केलेबल और अनुकूलन योग्य विश्लेषण को सक्षम बनाता है, पारंपरिक विश्लेषण विधियों के लिए एक प्रभावी पूरक प्रदान करता है, और भविष्य के खगोल भौतिकी अनुसंधान के लिए मूल्यवान संसाधन प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

विस्तृत बाइनरी सिस्टम दो तारों की जोड़ी हैं जो हजारों से लेकर दसियों हजार खगोलीय इकाइयों की दूरी पर गुरुत्वाकर्षण से बंधे होते हैं। ये सिस्टम कम त्वरण वाले वातावरण में संचालित होते हैं, और संशोधित गुरुत्वाकर्षण सिद्धांत और मानक गुरुत्वाकर्षण विचलन का परीक्षण करने के लिए आदर्श प्रयोगशाला हैं।

अनुसंधान का महत्व

खगोल भौतिकी मूल्य: विस्तृत बाइनरी का उपयोग तारकीय विकास, गतिविज्ञान, आकाशगंगा संरचना का अध्ययन करने के लिए किया जा सकता है
गुरुत्वाकर्षण सिद्धांत परीक्षण: कम त्वरण वाले वातावरण में संशोधित गुरुत्वाकर्षण प्रभाव के संकेत प्रकट हो सकते हैं
Gaia डेटा अवसर: Gaia DR3 अभूतपूर्व उच्च-सटीकता डेटा प्रदान करता है, जो संपूर्ण आकाशगंगा को कवर करता है

मौजूदा विधियों की सीमाएं

कम्प्यूटेशनल जटिलता: पारंपरिक सांख्यिकीय विधियां मोंटे कार्लो सिमुलेशन और जटिल संभाव्यता विश्लेषण पर निर्भर करती हैं, जिनकी कम्प्यूटेशनल लागत अधिक है
शोर और प्रदूषण: वास्तविक गुरुत्वाकर्षण-बंधे जोड़ों की पहचान करना और उनके गतिशील विसंगतियों का पता लगाना शोर, प्रदूषण और डेटा पैमाने के जटिल प्रभाव से प्रभावित होता है
संयोगवश संरेखण: अलगाव दूरी बढ़ने के साथ, संयोगवश संरेखण की संख्या बढ़ती है, जो सटीक पहचान में चुनौती पेश करती है

अनुसंधान प्रेरणा

मशीन लर्निंग विधियां क्लस्टरिंग एल्गोरिदम और निकटतम पड़ोसी खोज तकनीकों के माध्यम से, शोर पृष्ठभूमि जनसंख्या से बाइनरी सिस्टम को कुशलतापूर्वक भविष्यवाणी करने के लिए स्केलेबल विकल्प प्रदान करती हैं, नई भौतिकी की खोज के लिए उपकरण प्रदान करती हैं।

मुख्य योगदान

मशीन लर्निंग ढांचा: Gaia DR3 डेटासेट में विस्तृत बाइनरी वर्गीकरण समस्या में मशीन लर्निंग-सहायक खोज का पहली बार परिचय
डेटा पूर्व-प्रसंस्करण पाइपलाइन: SMOTE संतुलन, सहसंबंध विश्लेषण और PCA जैसी पूर्व-प्रसंस्करण तकनीकों को एकीकृत करता है
बहु-एल्गोरिदम तुलना: कई पर्यवेक्षित शिक्षण एल्गोरिदम के प्रदर्शन का व्यवस्थित मूल्यांकन
सार्वजनिक उपकरण: अनुकूलन योग्य सार्वजनिक कोड उपकरण प्रदान करता है (https://github.com/DespCAP/G-ML)
उच्च-प्रदर्शन वर्गीकरण: विस्तृत बाइनरी वर्गीकरण कार्य में उच्च सटीकता (99.8%) और रिकॉल (92.3%) प्राप्त करता है

विधि विवरण

कार्य परिभाषा

इनपुट: Gaia DR3 कच्चे डेटा में तारकीय रिकॉर्ड आउटपुट: बाइनरी वर्गीकरण लेबल (विस्तृत बाइनरी सिस्टम सदस्य है या नहीं) + बाइनरी जोड़ी बाधा: El-Badry आदि द्वारा स्थापित विस्तृत बाइनरी कैटलॉग पर आधारित पर्यवेक्षित शिक्षण

मॉडल आर्किटेक्चर

1. डेटा पूर्व-प्रसंस्करण मॉड्यूल

SMOTE संतुलन: डेटा असंतुलन समस्या को हल करता है (कच्चे डेटा में विस्तृत बाइनरी केवल ~1% है)
सहसंबंध विश्लेषण: पियर्सन सहसंबंध गुणांक का उपयोग करके विशेषताओं के बीच रैखिक संबंध को मापता है
विशेषता चयन: स्थान जानकारी (दाएं आरोहण, विचलन) को हटाता है ओवरफिटिंग से बचने के लिए

2. मशीन लर्निंग वर्गीकारक

अनुसंधान ने कई एल्गोरिदम का परीक्षण किया:

रैंडम फॉरेस्ट वर्गीकारक (RFC): समूह शिक्षण पर आधारित, सर्वोत्तम प्रदर्शन
लॉजिस्टिक प्रतिगमन (LR): संभाव्य आउटपुट का रैखिक वर्गीकारक
सपोर्ट वेक्टर मशीन (SVM): RBF कर्नल का उपयोग करके उच्च-आयामी अलगाव
निर्णय वृक्ष (DTC): वृक्ष-संरचित निर्णय
K निकटतम पड़ोसी (KNN): निकटता पर आधारित गैर-पैरामीट्रिक विधि
नैव बेयस (NB): संभाव्य वर्गीकारक

3. जोड़ी मॉड्यूल

K-means क्लस्टरिंग: स्थान (ra, dec) और लंबन के आधार पर क्लस्टरिंग, कम्प्यूटेशनल जटिलता को कम करता है
निकटतम पड़ोसी खोज: 3D यूक्लिडियन स्पेस में बाइनरी जोड़ी की खोज

तकनीकी नवाचार बिंदु

1. SMOTE संतुलन रणनीति

कच्चे डेटा वितरण अत्यंत असंतुलित है (494,664 vs 5,336), SMOTE तकनीक प्रक्षेप के माध्यम से सिंथेटिक अल्पसंख्यक वर्ग नमूने उत्पन्न करती है, मॉडल प्रदर्शन में उल्लेखनीय सुधार करती है।

2. 3D स्पेस जोड़ी एल्गोरिदम

3D कार्टेशियन निर्देशांक प्रणाली में निकटतम पड़ोसी खोज का उपयोग करता है:

D3D = √[(xA - xB)² + (yA - yB)² + (zA - zB)²]

3. स्तरीय प्रसंस्करण रणनीति

पहले क्लस्टरिंग आयाम में कमी करता है, फिर प्रत्येक क्लस्टर के भीतर निकटतम पड़ोसी खोज करता है, O(n²) जोड़ी जटिलता को प्रभावी ढंग से कम करता है।

प्रयोगात्मक सेटअप

डेटासेट

स्रोत: Gaia DR3 कच्चा डेटा
एनोटेशन: El-Badry आदि का विस्तृत बाइनरी कैटलॉग ground truth के रूप में
पैमाना: कुल 500,000 रिकॉर्ड, जिनमें से 5,336 विस्तृत बाइनरी चिह्नित हैं
विभाजन: 80:20 प्रशिक्षण परीक्षण अनुपात

फ़िल्टरिंग शर्तें

El-Badry आदि के मानदंड के आधार पर:

प्रक्षेपित अलगाव शर्त: s ≤ 1pc
लंबन शर्त: |ω̃₁ - ω̃₂| < b√(σ²ω̃,1 + σ²ω̃,2)
कक्षीय गति शर्त: गति अंतर को केप्लर कक्षीय बाधा का पालन करना चाहिए

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy): सही भविष्यवाणी का अनुपात
रिकॉल (Recall): सच्चे सकारात्मक पहचान क्षमता
F1 स्कोर: सटीकता और रिकॉल का हार्मोनिक माध्य
भ्रम मैट्रिक्स: विस्तृत वर्गीकरण प्रदर्शन विश्लेषण

कार्यान्वयन विवरण

क्लस्टर संख्या: K-means को 10 क्लस्टर के लिए सेट किया गया
दूरी मापी: 3D यूक्लिडियन दूरी
विशेषता चयन: स्थान जानकारी को बाहर करता है, भौतिक विशेषताओं को बनाए रखता है

प्रयोगात्मक परिणाम

मुख्य परिणाम

प्रदर्शन तुलना तालिका

एल्गोरिदम	सटीकता	रिकॉल	F1 स्कोर	सटीकता
RFC(कच्चा)	0.375	0.008	0.016	0.989
RFC(SMOTE)	0.917	0.923	0.920	0.998

वर्गीकरण विश्लेषण

एल्गोरिदम	सच्चे सकारात्मक	सच्चे सकारात्मक दर(%)	गलत वर्गीकरण	गलत वर्गीकरण दर(%)
RFC(कच्चा)	9	0.82	1099	100.5
RFC(SMOTE)	1009	92.31	175	16.01

विलोपन प्रयोग

SMOTE संतुलन तकनीक का प्रभाव महत्वपूर्ण है:

रिकॉल सुधार: 0.8% से 92.3% तक
गलत वर्गीकरण दर में कमी: 100.5% से 16.0% तक
F1 स्कोर सुधार: 0.016 से 0.920 तक

एल्गोरिदम तुलना विश्लेषण

रैंडम फॉरेस्ट: सर्वोत्तम प्रदर्शन, SMOTE संतुलन के बाद 99.8% सटीकता प्राप्त करता है
निर्णय वृक्ष: दूसरा सर्वोत्तम विकल्प, 90.0% रिकॉल
बैगिंग वर्गीकारक: तीसरा स्थान, 83.9% रिकॉल
अन्य एल्गोरिदम: असंतुलित डेटा पर कमजोर प्रदर्शन

क्लस्टरिंग और जोड़ी परिणाम

सफलतापूर्वक भविष्यवाणी की गई विस्तृत बाइनरी को 10 स्थानिक क्लस्टर में विभाजित किया
प्रत्येक क्लस्टर के भीतर बाइनरी जोड़ी संबंध को प्रभावी ढंग से पहचाना
स्थानीय तारकीय घनत्व का मात्रात्मक माप प्रदान किया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तकनीकी व्यवहार्यता: मशीन लर्निंग विधि विस्तृत बाइनरी पहचान में उत्कृष्ट प्रदर्शन करती है
SMOTE महत्वपूर्णता: डेटा संतुलन तकनीक प्रदर्शन सुधार के लिए महत्वपूर्ण है
रैंडम फॉरेस्ट सर्वोत्तम: कई एल्गोरिदम में सर्वोत्तम प्रदर्शन
व्यावहारिक मूल्य: तेजी से, स्केलेबल विश्लेषण उपकरण प्रदान करता है

सीमाएं

एनोटेशन गुणवत्ता पर निर्भरता: मॉडल प्रदर्शन प्रशिक्षण डेटा गुणवत्ता द्वारा सीमित है
दूरी अनिश्चितता: 3D दूरी गणना में त्रुटि प्रसार होता है
विशेषता इंजीनियरिंग: महत्वपूर्ण भौतिक विशेषताओं को छोड़ सकता है
सामान्यीकरण क्षमता: विभिन्न आकाश क्षेत्रों में प्रदर्शन सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएं

विसंगति पहचान: ML को पर्यवेक्षित विसंगति पहचान समस्या तक विस्तारित करना
गुरुत्वाकर्षण सिद्धांत परीक्षण: न्यूटनियन गुरुत्वाकर्षण से विचलित असामान्य विस्तृत बाइनरी की पहचान
बहु-स्रोत डेटा संलयन: प्रदर्शन सुधारने के लिए अधिक अवलोकन डेटा को एकीकृत करना
गहन शिक्षा: अधिक जटिल तंत्रिका नेटवर्क आर्किटेक्चर की खोज

गहन मूल्यांकन

शक्तियां

विधि नवाचार: Gaia DR3 विस्तृत बाइनरी पहचान में ML का पहली बार व्यवस्थित अनुप्रयोग
तकनीकी व्यापकता: कई पूर्व-प्रसंस्करण और वर्गीकरण तकनीकों को एकीकृत करता है
उत्कृष्ट प्रदर्शन: मुख्य मेट्रिक्स में महत्वपूर्ण सुधार प्राप्त करता है
व्यावहारिक मूल्य: खुला स्रोत उपकरण क्षेत्र विकास को बढ़ावा देता है
पर्याप्त प्रयोग: बहु-एल्गोरिदम तुलना और विस्तृत प्रदर्शन विश्लेषण

कमजोरियां

सैद्धांतिक विश्लेषण: खगोल भौतिकी अनुप्रयोगों में ML विधि के लिए सैद्धांतिक गारंटी की कमी
सत्यापन सीमा: केवल एकल कैटलॉग पर सत्यापित, सामान्यीकरण क्षमता की पुष्टि की प्रतीक्षा में है
भौतिक व्याख्या: ML निर्णयों के भौतिक अर्थ की व्याख्या अपर्याप्त है
शोर मॉडलिंग: अवलोकन शोर के प्रभाव को पर्याप्त रूप से विचार नहीं किया गया है

प्रभाव

शैक्षणिक योगदान: खगोलीय बड़े डेटा विश्लेषण के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: उपकरण सीधे वैज्ञानिक अनुसंधान में उपयोग किया जा सकता है
पुनरुत्पादनशीलता: कोड खुला स्रोत परिणामों की पुनरुत्पादनशीलता सुनिश्चित करता है
क्षेत्र प्रवर्धन: खगोल भौतिकी में ML अनुप्रयोग को बढ़ावा देता है

लागू परिदृश्य

बड़े पैमाने पर खगोलीय सर्वेक्षण: Gaia जैसे बड़े डेटासेट के लिए उपयुक्त
तेजी से फ़िल्टरिंग: उम्मीदवार विस्तृत बाइनरी सिस्टम की प्रारंभिक फ़िल्टरिंग
सहायक विश्लेषण: पारंपरिक विधियों के साथ सत्यापन के लिए
शिक्षण अनुसंधान: ML खगोल अनुप्रयोग के उदाहरण के रूप में

संदर्भ

El-Badry et al. (2021) - विस्तृत बाइनरी कैटलॉग निर्माण का मूल कार्य
Chawla et al. (2002) - SMOTE तकनीक का मूल पेपर
Breiman (2001) - रैंडम फॉरेस्ट एल्गोरिदम
Baron (2019) - खगोल विज्ञान में मशीन लर्निंग अनुप्रयोग सर्वेक्षण

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और व्यावहारिक मूल्य वाला अनुप्रयोग-उन्मुख पेपर है। लेखकों ने खगोल भौतिकी की एक विशिष्ट समस्या में मशीन लर्निंग तकनीक को सफलतापूर्वक लागू किया है, महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए हैं। हालांकि सैद्धांतिक नवाचार के मामले में अपेक्षाकृत सीमित है, लेकिन इसका खुला स्रोत उपकरण और व्यवस्थित विधि क्षेत्र विकास में वास्तविक योगदान देती है। यह कार्य बाद के गुरुत्वाकर्षण सिद्धांत परीक्षण और असामान्य विस्तृत बाइनरी पहचान के लिए एक महत्वपूर्ण आधार स्थापित करता है।