2025-11-23T16:40:17.365633

Detecting wide binaries using machine learning algorithms

Ashesh, Kaur, Aashish

We present a machine learning (ML) framework for the detection of wide binary star systems using Gaia DR3 data. By training supervised ML models on established wide binary catalogues, we efficiently classify wide binaries and employ clustering and nearest neighbour search to pair candidate systems. Our approach incorporates data preprocessing techniques such as SMOTE, correlation analysis, and PCA, and achieves high accuracy and recall in the task of wide binary classification. The resulting publicly available code enables rapid, scalable, and customizable analysis of wide binaries, complementing conventional analyses and providing a valuable resource for future astrophysical studies.

academic

Detección de binarias anchas utilizando algoritmos de aprendizaje automático

Información Básica

ID del Artículo: 2506.19942
Título: Detecting wide binaries using machine learning algorithms
Autores: Amoy Ashesh (Instituto Tecnológico Indio, Campus Patna & Trinity College Dublín), Harsimran Kaur (Instituto Tecnológico Indio, Campus Patna), Sandeep Aashish (Instituto Tecnológico Indio, Campus Patna)
Clasificación: astro-ph.GA gr-qc
Fecha de Publicación: Versión del 17 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2506.19942

Resumen

Este artículo propone un marco de aprendizaje automático basado en datos de Gaia DR3 para la detección de sistemas binarios anchos. Mediante el entrenamiento de modelos de aprendizaje automático supervisado en catálogos de binarias anchas establecidos, los investigadores clasifican eficientemente binarias anchas y emplean agrupamiento y búsqueda de vecinos más cercanos para emparejar sistemas candidatos. El método integra técnicas de preprocesamiento de datos como SMOTE, análisis de correlación y PCA, logrando alta precisión y exhaustividad en la tarea de clasificación de binarias anchas. El código abierto proporcionado por la investigación permite el análisis rápido, escalable y personalizable de binarias anchas, ofreciendo un complemento efectivo a los métodos de análisis tradicionales y proporcionando recursos valiosos para futuras investigaciones astrofísicas.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los sistemas binarios anchos son pares de estrellas ligadas gravitacionalmente a distancias de miles a decenas de miles de unidades astronómicas. Estos sistemas operan en entornos de baja aceleración, siendo laboratorios ideales para probar teorías de gravitación modificada y desviaciones de la gravedad estándar.

Importancia de la Investigación

Valor Astrofísico: Las binarias anchas pueden utilizarse para estudiar evolución estelar, dinámica y estructura galáctica
Prueba de Teorías Gravitacionales: En entornos de baja aceleración pueden manifestarse indicios de efectos de gravitación modificada
Oportunidad de Datos Gaia: Gaia DR3 proporciona datos de precisión sin precedentes, cubriendo toda la galaxia

Limitaciones de Métodos Existentes

Complejidad Computacional: Los métodos estadísticos tradicionales dependen de simulaciones de Montecarlo y análisis probabilístico complejo, con alto costo computacional
Ruido y Contaminación: La identificación de pares verdaderamente ligados gravitacionalmente y la detección de anomalías dinámicas se ven afectadas por la complejidad del ruido, contaminación y escala de datos
Alineamientos Casuales: Con el aumento de la distancia de separación, aumenta el número de alineamientos casuales, presentando desafíos para la identificación precisa

Motivación de la Investigación

Los métodos de aprendizaje automático pueden proporcionar alternativas escalables que, mediante algoritmos de agrupamiento y técnicas de búsqueda de vecinos más cercanos, predicen eficientemente sistemas binarios a partir de poblaciones ruidosas de fondo, proporcionando herramientas para la búsqueda de nueva física.

Contribuciones Principales

Marco de Aprendizaje Automático: Primera aplicación de búsqueda asistida por aprendizaje automático al problema de clasificación de binarias anchas en el conjunto de datos Gaia DR3
Tubería de Preprocesamiento de Datos: Integración de técnicas de preprocesamiento incluyendo equilibrio SMOTE, análisis de correlación y PCA
Comparación de Múltiples Algoritmos: Evaluación sistemática del desempeño de diversos algoritmos de aprendizaje supervisado
Herramienta de Código Abierto: Provisión de código personalizable de acceso abierto (https://github.com/DespCAP/G-ML)
Clasificación de Alto Desempeño: Logro de alta precisión (99.8%) y exhaustividad (92.3%) en la tarea de clasificación de binarias anchas

Explicación Detallada del Método

Definición de la Tarea

Entrada: Registros de estrellas en datos brutos de Gaia DR3 Salida: Etiquetas de clasificación binaria (miembro de sistema binario ancho o no) + emparejamiento binario Restricción: Aprendizaje supervisado basado en el catálogo de binarias anchas establecido por El-Badry et al.

Arquitectura del Modelo

1. Módulo de Preprocesamiento de Datos

Equilibrio SMOTE: Aborda el problema de desequilibrio de datos (binarias anchas representan solo ~1% de los datos originales)
Análisis de Correlación: Utiliza coeficiente de correlación de Pearson para cuantificar relaciones lineales entre características
Selección de Características: Elimina información de posición (ascensión recta, declinación) para evitar sobreajuste

2. Clasificadores de Aprendizaje Automático

La investigación prueba múltiples algoritmos:

Clasificador de Bosque Aleatorio (RFC): Basado en aprendizaje conjunto, con mejor desempeño
Regresión Logística (LR): Clasificador lineal con salida probabilística
Máquina de Vectores de Soporte (SVM): Separación de alta dimensión usando núcleo RBF
Árbol de Decisión (DTC): Decisión con estructura de árbol
K Vecinos Más Cercanos (KNN): Método no paramétrico basado en proximidad
Clasificador Bayesiano Ingenuo (NB): Clasificador probabilístico

3. Módulo de Emparejamiento

Agrupamiento K-means: Agrupamiento basado en posición espacial (ra, dec) y paralaje, reduciendo complejidad computacional
Búsqueda de Vecinos Más Cercanos: Búsqueda de emparejamientos binarios en espacio euclidiano 3D

Puntos de Innovación Técnica

1. Estrategia de Equilibrio SMOTE

La distribución de datos original es extremadamente desequilibrada (494,664 vs 5,336). La técnica SMOTE genera muestras sintéticas de la clase minoritaria mediante interpolación, mejorando significativamente el desempeño del modelo.

2. Algoritmo de Emparejamiento Espacial 3D

Utiliza sistema de coordenadas cartesianas 3D para búsqueda de vecinos más cercanos:

D3D = √[(xA - xB)² + (yA - yB)² + (zA - zB)²]

3. Estrategia de Procesamiento Jerárquico

Primero realiza agrupamiento para reducción de dimensionalidad, luego busca vecinos más cercanos dentro de cada agrupamiento, reduciendo efectivamente la complejidad O(n²) del emparejamiento.

Configuración Experimental

Conjunto de Datos

Fuente: Datos brutos de Gaia DR3
Anotación: Catálogo de binarias anchas de El-Badry et al. como verdad fundamental
Escala: Total de 500,000 registros, con 5,336 binarias anchas etiquetadas
División: Proporción de entrenamiento-prueba de 80:20

Criterios de Filtrado

Basados en estándares de El-Badry et al.:

Condición de Separación Proyectada: s ≤ 1pc
Condición de Paralaje: |ω̃₁ - ω̃₂| < b√(σ²ω̃,1 + σ²ω̃,2)
Condición de Movimiento Propio Orbital: Las diferencias de movimiento propio deben cumplir restricciones de órbita kepleriana

Métricas de Evaluación

Precisión (Accuracy): Proporción de predicciones correctas
Exhaustividad (Recall): Capacidad de identificación de verdaderos positivos
Puntuación F1: Media armónica de precisión y exhaustividad
Matriz de Confusión: Análisis detallado del desempeño de clasificación

Detalles de Implementación

Número de Agrupamientos: K-means configurado con 10 agrupamientos
Métrica de Distancia: Distancia euclidiana 3D
Selección de Características: Excluye información de posición, retiene características físicas

Resultados Experimentales

Resultados Principales

Tabla de Comparación de Desempeño

Algoritmo	Precisión	Exhaustividad	Puntuación F1	Precisión
RFC(Original)	0.375	0.008	0.016	0.989
RFC(SMOTE)	0.917	0.923	0.920	0.998

Análisis de Clasificación

Algoritmo	Verdaderos Positivos	Tasa de Verdaderos Positivos (%)	Clasificaciones Erróneas	Tasa de Clasificación Errónea (%)
RFC(Original)	9	0.82	1099	100.5
RFC(SMOTE)	1009	92.31	175	16.01

Experimentos de Ablación

El efecto de la técnica de equilibrio SMOTE es significativo:

Mejora de Exhaustividad: De 0.8% a 92.3%
Reducción de Tasa de Clasificación Errónea: De 100.5% a 16.0%
Mejora de Puntuación F1: De 0.016 a 0.920

Análisis Comparativo de Algoritmos

Bosque Aleatorio: Mejor desempeño, alcanzando 99.8% de precisión después del equilibrio SMOTE
Árbol de Decisión: Segunda opción, exhaustividad del 90.0%
Clasificador de Embolsado: Tercera posición, exhaustividad del 83.9%
Otros Algoritmos: Desempeño inferior en datos desequilibrados

Resultados de Agrupamiento y Emparejamiento

Agrupamiento exitoso de binarias anchas predichas en 10 agrupamientos espaciales
Identificación efectiva de relaciones de emparejamiento binario dentro de cada agrupamiento
Proporción de mediciones cuantitativas de densidad estelar local

Trabajo Relacionado

Métodos Tradicionales

Métodos Estadísticos: El-Badry et al. utilizan simulaciones de Montecarlo para excluir alineamientos casuales
Análisis de Movimiento Propio: Chanamé y Gould introducen información de movimiento propio para mejorar precisión
Restricciones de Paralaje: Andrews et al. aprovechan paralaje e información de velocidad radial

Aplicaciones de Aprendizaje Automático

Clasificación Estelar: Aplicación de Cody et al. en base de datos SIMBAD
Estado de Acreción de Agujeros Negros: Investigación de clasificación de Sreehari y Nandi
Detección de Ondas Gravitacionales: Estimación de parámetros de Koloniari et al.

Ventajas de Este Trabajo

Sistematicidad Inaugural: Primer marco de ML para binarias anchas de Gaia DR3
Solución Integral: Proceso completo desde clasificación hasta emparejamiento
Herramienta de Código Abierto: Provisión de recursos de código reutilizable

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: Los métodos de aprendizaje automático muestran desempeño excelente en detección de binarias anchas
Criticidad de SMOTE: La técnica de equilibrio de datos es crucial para mejora de desempeño
Optimalidad del Bosque Aleatorio: Mejor desempeño entre múltiples algoritmos
Valor Práctico: Proporciona herramienta rápida, escalable y de análisis

Limitaciones

Dependencia de Calidad de Anotación: El desempeño del modelo está limitado por la calidad de datos de entrenamiento
Incertidumbre de Distancia: El cálculo de distancia 3D contiene propagación de error
Ingeniería de Características: Posible omisión de características físicas importantes
Capacidad de Generalización: El desempeño en diferentes regiones celestes requiere validación

Direcciones Futuras

Detección de Anomalías: Extensión de ML a problema de detección de anomalías supervisada
Prueba de Teorías Gravitacionales: Identificación de binarias anchas anómalas que se desvían de gravitación newtoniana
Fusión de Datos Multifuente: Integración de más datos observacionales para mejorar desempeño
Aprendizaje Profundo: Exploración de arquitecturas de redes neuronales más complejas

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación sistemática de ML a detección de binarias anchas en Gaia DR3
Técnica Integral: Integración de múltiples técnicas de preprocesamiento y clasificación
Desempeño Excelente: Mejora significativa en métricas clave
Valor Práctico: Herramienta de código abierto que promueve desarrollo del campo
Experimentación Exhaustiva: Comparación de múltiples algoritmos y análisis detallado de desempeño

Deficiencias

Análisis Teórico: Falta de garantías teóricas para aplicación de métodos ML en astrofísica
Alcance de Validación: Validación solo en catálogo único, generalización requiere confirmación
Interpretación Física: Explicación insuficiente del significado físico de decisiones de ML
Modelado de Ruido: Consideración insuficiente del impacto de ruido observacional

Impacto

Contribución Académica: Proporciona nuevas perspectivas para análisis de grandes datos astronómicos
Valor Práctico: Herramienta aplicable directamente a práctica científica
Reproducibilidad: Código de acceso abierto garantiza reproducibilidad de resultados
Impulso del Campo: Promueve aplicación de ML en astrofísica

Escenarios de Aplicación

Encuestas Astronómicas a Gran Escala: Aplicable a conjuntos de datos grandes como Gaia
Filtrado Rápido: Preselección inicial de sistemas binarios anchos candidatos
Análisis Complementario: Verificación conjunta con métodos tradicionales
Investigación Educativa: Ejemplo de aplicación de ML en astrofísica

Referencias

El-Badry et al. (2021) - Trabajo fundamental en construcción de catálogo de binarias anchas
Chawla et al. (2002) - Artículo original de técnica SMOTE
Breiman (2001) - Algoritmo de Bosque Aleatorio
Baron (2019) - Revisión de aplicaciones de aprendizaje automático en astronomía

Evaluación General: Este es un artículo técnicamente sólido y de alto valor práctico. Los autores aplican exitosamente técnicas de aprendizaje automático a un problema específico de astrofísica, logrando mejora significativa de desempeño. Aunque la innovación teórica es relativamente limitada, su herramienta de código abierto y método sistemático hacen contribuciones sustanciales al desarrollo del campo. Este trabajo establece una base importante para futuras verificaciones de teorías gravitacionales y detección de binarias anchas anómalas.