We present a machine learning (ML) framework for the detection of wide binary star systems using Gaia DR3 data. By training supervised ML models on established wide binary catalogues, we efficiently classify wide binaries and employ clustering and nearest neighbour search to pair candidate systems. Our approach incorporates data preprocessing techniques such as SMOTE, correlation analysis, and PCA, and achieves high accuracy and recall in the task of wide binary classification. The resulting publicly available code enables rapid, scalable, and customizable analysis of wide binaries, complementing conventional analyses and providing a valuable resource for future astrophysical studies.
论文ID : 2506.19942标题 : Detecting wide binaries using machine learning algorithms作者 : Amoy Ashesh (印度理工学院巴特那分校 & 都柏林三一学院), Harsimran Kaur (印度理工学院巴特那分校), Sandeep Aashish (印度理工学院巴特那分校)分类 : astro-ph.GA gr-qc发表时间 : 2025年10月17日版本论文链接 : https://arxiv.org/abs/2506.19942 本文提出了一个基于Gaia DR3数据检测宽双星系统的机器学习框架。通过在已建立的宽双星目录上训练监督机器学习模型,研究者高效地对宽双星进行分类,并采用聚类和最近邻搜索来配对候选系统。该方法集成了SMOTE、相关性分析和PCA等数据预处理技术,在宽双星分类任务中实现了高准确率和召回率。研究提供的公开代码能够快速、可扩展且可定制地分析宽双星,为传统分析方法提供了有效补充,并为未来的天体物理研究提供了宝贵资源。
宽双星系统是由两颗在数千到数万天文单位距离上引力束缚的恒星对。这些系统在低加速度环境中运行,是检验修正引力理论和标准引力偏差的理想实验室。
天体物理价值 : 宽双星可用于研究恒星演化、动力学、银河系结构引力理论检验 : 在低加速度环境下可能显现修正引力效应的迹象Gaia数据机遇 : Gaia DR3提供了前所未有的高精度数据,覆盖全银河系范围计算复杂度 : 传统统计方法依赖蒙特卡罗模拟和复杂概率分析,计算成本高昂噪声和污染 : 识别真正的引力束缚对并检测其动力学异常受到噪声、污染和数据规模的复杂影响偶然对齐 : 随着分离距离增加,偶然对齐的数量增加,给准确识别带来挑战机器学习方法能够提供可扩展的替代方案,通过聚类算法和最近邻搜索技术,从噪声背景群体中高效预测双星系统,为寻找新物理提供工具。
机器学习框架 : 首次将机器学习辅助搜索引入Gaia DR3数据集的宽双星分类问题数据预处理管道 : 集成SMOTE平衡、相关性分析和PCA等预处理技术多算法比较 : 系统评估了多种监督学习算法的性能公开工具 : 提供了可定制的公开代码工具(https://github.com/DespCAP/G-ML )高性能分类 : 在宽双星分类任务中实现了高准确率(99.8%)和召回率(92.3%)输入 : Gaia DR3原始数据中的恒星记录
输出 : 二元分类标签(是否为宽双星系统成员) + 双星配对
约束 : 基于El-Badry等人建立的宽双星目录进行监督学习
SMOTE平衡 : 解决数据不平衡问题(原始数据中宽双星占比仅约1%)相关性分析 : 使用Pearson相关系数量化特征间线性关系特征筛选 : 移除位置信息(赤经、赤纬)避免过拟合研究测试了多种算法:
随机森林分类器(RFC) : 基于集成学习,表现最佳逻辑回归(LR) : 概率输出的线性分类器支持向量机(SVM) : 使用RBF核的高维分离决策树(DTC) : 树状结构决策K近邻(KNN) : 基于邻近度的非参数方法朴素贝叶斯(NB) : 概率分类器K-means聚类 : 基于空间位置(ra, dec)和视差进行聚类,减少计算复杂度最近邻搜索 : 在3D欧几里得空间中搜索双星配对原始数据分布极不平衡(494,664 vs 5,336),SMOTE技术通过插值生成合成少数类样本,显著提升了模型性能。
使用3D笛卡尔坐标系进行最近邻搜索:
D3D = √[(xA - xB)² + (yA - yB)² + (zA - zB)²]
先进行聚类降维,再在各聚类内进行最近邻搜索,有效降低了O(n²)的配对复杂度。
来源 : Gaia DR3原始数据标注 : El-Badry等人的宽双星目录作为ground truth规模 : 总计500,000条记录,其中5,336条宽双星标记划分 : 80:20训练测试比例基于El-Badry等人的标准:
投影分离条件 : s ≤ 1pc视差条件 : |ω̃₁ - ω̃₂| < b√(σ²ω̃,1 + σ²ω̃,2)轨道自行条件 : 自行差异需符合开普勒轨道约束准确率(Accuracy) : 正确预测比例召回率(Recall) : 真阳性识别能力F1分数 : 精确率和召回率的调和平均混淆矩阵 : 详细的分类性能分析聚类数 : K-means设置为10个聚类距离度量 : 3D欧几里得距离特征选择 : 排除位置信息,保留物理特征算法 精确率 召回率 F1分数 准确率 RFC(原始) 0.375 0.008 0.016 0.989 RFC(SMOTE) 0.917 0.923 0.920 0.998
算法 真阳性 真阳性率(%) 误分类 误分类率(%) RFC(原始) 9 0.82 1099 100.5 RFC(SMOTE) 1009 92.31 175 16.01
SMOTE平衡技术的效果显著:
召回率提升 : 从0.8%提升到92.3%误分类率降低 : 从100.5%降低到16.0%F1分数改善 : 从0.016提升到0.920随机森林 : 表现最佳,在SMOTE平衡后达到99.8%准确率决策树 : 次优选择,召回率90.0%装袋分类器 : 第三位,召回率83.9%其他算法 : 在不平衡数据上表现较差成功将预测的宽双星分为10个空间聚类 在各聚类内有效识别双星配对关系 提供了局部恒星密度的定量测量 统计方法 : El-Badry等人使用蒙特卡罗模拟排除偶然对齐自行分析 : Chanamé和Gould引入自行信息提高识别精度视差约束 : Andrews等人利用视差和径向速度恒星分类 : Cody等人在SIMBAD数据库上的应用黑洞吸积态 : Sreehari和Nandi的分类研究引力波检测 : Koloniari等人的参数估计首次系统性 : 首个针对Gaia DR3宽双星的ML框架端到端方案 : 从分类到配对的完整流程开源工具 : 提供可复用的代码资源技术可行性 : 机器学习方法在宽双星检测中表现优异SMOTE关键性 : 数据平衡技术对性能提升至关重要随机森林最优 : 在多种算法中表现最佳实用价值 : 提供了快速、可扩展的分析工具依赖标注质量 : 模型性能受训练数据质量限制距离不确定性 : 3D距离计算存在误差传播特征工程 : 可能遗漏重要的物理特征泛化能力 : 在不同天区的表现有待验证异常检测 : 将ML扩展到监督异常检测问题引力理论检验 : 识别偏离牛顿引力的异常宽双星多源数据融合 : 整合更多观测数据提升性能深度学习 : 探索更复杂的神经网络架构方法创新 : 首次将ML系统性应用于Gaia DR3宽双星检测技术全面 : 集成多种预处理和分类技术性能优异 : 在关键指标上实现显著提升实用价值 : 提供开源工具促进领域发展实验充分 : 多算法对比和详细的性能分析理论分析 : 缺乏对ML方法在天体物理应用中的理论保证验证范围 : 仅在单一目录上验证,泛化性有待确认物理解释 : 对ML决策的物理意义解释不足噪声建模 : 未充分考虑观测噪声的影响学术贡献 : 为天文大数据分析提供新思路实用价值 : 工具可直接用于科研实践可复现性 : 代码开源保证结果可重现领域推动 : 促进ML在天体物理中的应用大规模天文调查 : 适用于Gaia等大型数据集快速筛选 : 初步筛选候选宽双星系统辅助分析 : 配合传统方法进行验证教学研究 : 作为ML天文应用的范例El-Badry et al. (2021) - 宽双星目录构建的基础工作 Chawla et al. (2002) - SMOTE技术的原始论文 Breiman (2001) - 随机森林算法 Baron (2019) - 天文学中机器学习应用综述 总体评价 : 这是一篇技术扎实、实用价值高的应用型论文。作者将机器学习技术成功应用于天体物理学的具体问题,取得了显著的性能提升。虽然在理论创新方面相对有限,但其开源工具和系统性方法为领域发展做出了实质性贡献。该工作为后续的引力理论检验和异常宽双星检测奠定了重要基础。