Detecting wide binaries using machine learning algorithms
Ashesh, Kaur, Aashish
We present a machine learning (ML) framework for the detection of wide binary star systems using Gaia DR3 data. By training supervised ML models on established wide binary catalogues, we efficiently classify wide binaries and employ clustering and nearest neighbour search to pair candidate systems. Our approach incorporates data preprocessing techniques such as SMOTE, correlation analysis, and PCA, and achieves high accuracy and recall in the task of wide binary classification. The resulting publicly available code enables rapid, scalable, and customizable analysis of wide binaries, complementing conventional analyses and providing a valuable resource for future astrophysical studies.
academic
Обнаружение широких двойных звёзд с использованием алгоритмов машинного обучения
В данной работе предложена структура машинного обучения для обнаружения систем широких двойных звёзд на основе данных Gaia DR3. Путём обучения контролируемых моделей машинного обучения на установленном каталоге широких двойных звёзд исследователи эффективно классифицируют широкие двойные звёзды и используют кластеризацию и поиск ближайших соседей для спаривания кандидатных систем. Метод интегрирует методы предварительной обработки данных, включая SMOTE, анализ корреляции и PCA, достигая высокой точности и полноты при классификации широких двойных звёзд. Предоставленный авторами открытый код позволяет быстро, масштабируемо и гибко анализировать широкие двойные звёзды, обеспечивая эффективное дополнение к традиционным методам анализа и представляя ценный ресурс для будущих астрофизических исследований.
Системы широких двойных звёзд состоят из пар звёзд, гравитационно связанных на расстояниях в тысячи или десятки тысяч астрономических единиц. Эти системы функционируют в среде с низким ускорением и являются идеальной лабораторией для проверки модифицированных теорий гравитации и стандартных гравитационных аномалий.
Вычислительная сложность: традиционные статистические методы зависят от моделирования методом Монте-Карло и сложного вероятностного анализа, что требует значительных вычислительных затрат
Шум и загрязнение: идентификация истинно гравитационно связанных пар и обнаружение их динамических аномалий осложнены шумом, загрязнением и масштабом данных
Случайное совпадение: с увеличением расстояния разделения количество случайных совпадений возрастает, что создаёт проблемы для точной идентификации
Методы машинного обучения предоставляют масштабируемую альтернативу, позволяя эффективно предсказывать системы двойных звёзд из шумного фонового населения через алгоритмы кластеризации и методы поиска ближайших соседей, предоставляя инструменты для поиска новой физики.
Структура машинного обучения: первое применение поиска с помощью машинного обучения к задаче классификации широких двойных звёзд в наборе данных Gaia DR3
Конвейер предварительной обработки данных: интеграция методов балансировки SMOTE, анализа корреляции и PCA
Сравнение нескольких алгоритмов: систематическая оценка производительности различных алгоритмов контролируемого обучения
Входные данные: записи звёзд из исходных данных Gaia DR3
Выходные данные: двоичные метки классификации (является ли членом системы широких двойных звёзд) + спаривание двойных звёзд
Ограничения: контролируемое обучение на основе каталога широких двойных звёзд, установленного El-Badry и др.
Исходное распределение данных крайне несбалансировано (494 664 vs 5 336). Техника SMOTE генерирует синтетические образцы меньшинства путём интерполяции, значительно улучшая производительность модели.
Сначала выполняется кластеризация для снижения размерности, затем поиск ближайших соседей в каждом кластере, эффективно снижая сложность O(n²) спаривания.
El-Badry et al. (2021) - фундаментальная работа по построению каталога широких двойных звёзд
Chawla et al. (2002) - оригинальная статья по технике SMOTE
Breiman (2001) - алгоритм случайного леса
Baron (2019) - обзор приложений машинного обучения в астрономии
Общая оценка: Это технически обоснованная и практически ценная прикладная работа. Авторы успешно применили методы машинного обучения к конкретной задаче астрофизики, достигнув значительного улучшения производительности. Хотя работа имеет ограниченную теоретическую новизну, её открытый инструмент и систематический подход представляют существенный вклад в развитие области. Данная работа закладывает важную основу для последующей проверки теорий гравитации и обнаружения аномальных широких двойных звёзд.