2025-11-23T20:22:17.730418

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

Oshino, Sakai, Meyer-Conde et al.
Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.
academic

Clasificación de ruido de fallo en datos de observación KAGRA O3GK usando aprendizaje automático no supervisado

Información Básica

  • ID del Artículo: 2510.14291
  • Título: Clasificación de ruido de fallo en datos de observación KAGRA O3GK usando aprendizaje automático no supervisado
  • Autores: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
  • Clasificación: gr-qc (Relatividad General y Cosmología Cuántica), astro-ph.IM (Instrumentación y Métodos para Astrofísica)
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14291

Resumen

Los interferómetros de ondas gravitacionales se ven afectados por diversos tipos de ruido no estacionario (denominado ruido de fallo) que impacta el análisis de datos y la sensibilidad del interferómetro. La identificación y clasificación precisas del ruido de fallo son cruciales para mejorar la confiabilidad de las observaciones de ondas gravitacionales. Este estudio demuestra la efectividad del aprendizaje automático no supervisado en la clasificación de imágenes de ruido no estacionario en datos KAGRA O3GK. Utilizando un codificador automático variacional (VAE) combinado con agrupamiento espectral, se identificaron ocho categorías distintas de ruido de fallo. Las variables latentes obtenidas del VAE se comprimieron mediante reducción de dimensionalidad, se visualizaron en un espacio tridimensional y se clasificaron utilizando agrupamiento espectral para comprender mejor las características del ruido de fallo de KAGRA durante O3GK.

Antecedentes de Investigación y Motivación

Definición del Problema

Los detectores de ondas gravitacionales experimentan interferencia de diversos ruidos transitorios ambientales e instrumentales durante las observaciones, tales como vibración del terreno, rayos, señales de control de péndulo y fluctuaciones láser. Estos ruidos no estacionarios y no gaussianos se denominan ruido de "fallo" (glitch), que se mezcla con datos de ondas gravitacionales, afectando la calidad del análisis de datos.

Importancia del Problema

La importancia de la detección y clasificación del ruido de fallo se manifiesta en tres aspectos:

  1. Separación de Señales: Las técnicas de detección de fallos pueden separar el ruido de fallo de las ondas gravitacionales producidas por fenómenos astrofísicos
  2. Identificación de Fuentes: Las técnicas de clasificación de fallos ayudan a identificar las fuentes del ruido de fallo
  3. Mejora del Desempeño: Identificar las fuentes del ruido de fallo facilita su eliminación, aumentando la cantidad de datos disponibles para análisis y mejorando la sensibilidad del interferómetro

Limitaciones de Métodos Existentes

Aunque el proyecto Gravity Spy de LIGO logró clasificación de aprendizaje supervisado de alta precisión para 22 tipos de ruido de fallo mediante anotaciones de científicos ciudadanos, este método enfrenta los siguientes desafíos en KAGRA:

  1. Falta de Anotaciones Manuales: KAGRA no cuenta con asistencia de científicos ciudadanos como el proyecto Gravity Spy para clasificación y anotación manual
  2. Diferencias de Interferómetro: Las configuraciones de interferómetro de KAGRA y LIGO son diferentes, y la manifestación del mismo ruido de fallo puede no ser idéntica
  3. Diferencias de Sensibilidad: Los interferómetros KAGRA y LIGO tienen diferentes sensibilidades, lo que puede resultar en diferencias en las características del ruido de fallo

Motivación de la Investigación

Basándose en los desafíos anteriores, este estudio se enfoca por primera vez en utilizar métodos de aprendizaje no supervisado para clasificar el ruido de fallo en datos KAGRA O3GK, abordando el problema de la falta de datos anotados.

Contribuciones Principales

  1. Primera Aplicación de Aprendizaje No Supervisado a Datos KAGRA: Verifica la efectividad y capacidad de generalización de la arquitectura VAE en la clasificación del ruido de fallo de KAGRA
  2. Establecimiento de Marco Completo de Clasificación No Supervisada: Propone un proceso completo desde preprocesamiento de datos hasta clasificación final, incluyendo extracción de características VAE, visualización de reducción de dimensionalidad UMAP y clasificación mediante agrupamiento espectral
  3. Identificación de Tipos de Ruido de Fallo Específicos de KAGRA: Identifica 8 categorías distintas de ruido de fallo en datos O3GK, estableciendo una línea base para las características de ruido de KAGRA
  4. Provisión de Herramienta Práctica de Análisis de Ruido: Proporciona un método efectivo de análisis del ruido de fallo para futuras actualizaciones de KAGRA y desarrollo de observatorios de ondas gravitacionales de tercera generación

Explicación Detallada de Métodos

Definición de Tarea

Entrada: Series temporales de datos de deformación durante el período de observación KAGRA O3GK Salida: Etiquetas de clasificación de eventos de ruido de fallo (8 categorías) Restricción: Entorno de aprendizaje no supervisado, sin datos anotados manualmente

Arquitectura del Modelo

1. Flujo de Preprocesamiento de Datos

  • Detección de Disparo Omicron: Utiliza software Omicron para identificar eventos de ruido transitorio de datos de deformación, generando base de datos de marcas de tiempo GPS
  • Transformada Q: Aplica tubería Omega Scan para crear espectrogramas tiempo-frecuencia, configurando cuatro ventanas temporales (0.5s, 1.0s, 2.0s, 4.0s)
  • Procesamiento de Imagen: Reescala imágenes originales de 800×600 píxeles a 224×224 píxeles, apila cuatro ventanas temporales formando datos de entrada 4×224×224, y convierte a escala de grises

2. Diseño de Arquitectura VAE

Estructura del Codificador:

  • Entrada: Imagen de 4 canales (4, 224, 224)
  • EncoderBlock(64, ks=7, s=2, p=3) + Agrupamiento máximo
  • EncoderBlock(128, ks=3, s=2, p=1)
  • EncoderBlock(256, ks=3, s=2, p=1)
  • EncoderBlock(512, ks=3, s=2, p=1)
  • Capa de agrupamiento promedio adaptativo
  • Capa lineal que genera variable latente z ∈ R^dz

Estructura del Decodificador:

  • Entrada: Variable latente z
  • Capa lineal: R^dz → R^(dz×7×7)
  • Normalización por lotes + ReLU + Sobremuestreo
  • Cuatro capas DecoderBlock para reconstruir progresivamente la imagen

3. Visualización de Reducción de Dimensionalidad UMAP

Utiliza UMAP para reducir variables latentes de alta dimensión a espacio 3D para visualización:

  • Métrica de Distancia: Distancia euclidiana
  • Número de Vecinos: k = 10
  • Parámetro de Compacidad: δ = 0.05

4. Clasificación mediante Agrupamiento Espectral

Utiliza función de núcleo gaussiano para calcular matriz de adyacencia: aij=exp(xixj22σ2)a_{ij} = \exp\left(-\frac{||x_i - x_j||^2}{2\sigma^2}\right)

Adopta método heurístico de mediana para seleccionar σ²: σMH2=Mediana{xixj21i<jn}\sigma^2_{MH} = \text{Mediana}\{||x_i - x_j||^2 | 1 \leq i < j \leq n\}

Puntos de Innovación Técnica

  1. Fusión de Características Multi-Escala Temporal: Mediante apilamiento de espectrogramas de cuatro ventanas temporales diferentes, captura características del ruido de fallo en diferentes escalas temporales
  2. Espacio Latente de Alta Dimensión: Adopta variable latente de 512 dimensiones, proporcionando mayor capacidad expresiva en comparación con representaciones de baja dimensión tradicionales
  3. Optimización de Agrupamiento Espectral: En comparación con k-means++, el agrupamiento espectral maneja mejor distribuciones de datos no convexas, adecuado para patrones complejos de ruido de fallo

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: Datos de observación KAGRA O3GK, aproximadamente 178 horas
  • Parámetros de Detección: Frecuencia pico 10-2048 Hz, relación señal-ruido >7.5
  • Número de Eventos de Fallo: 45,345 eventos de ruido de fallo, tasa de detección 4.63 eventos/minuto
  • División de Datos: Conjunto de entrenamiento 80%, conjunto de prueba 20%

Métricas de Evaluación

  • Índice Davies-Bouldin (DBI): Evalúa la calidad del agrupamiento, valores más cercanos a 0 indican mejor segmentación
  • Coeficiente de Silueta: Cuantifica la conformidad de muestras con su agrupamiento asignado, valores cercanos a 1 indican agrupamiento compacto y bien separado

Métodos de Comparación

  • k-means++: Método de agrupamiento de línea base para comparación

Detalles de Implementación

  • Hiperparámetros VAE: Dimensión de variable latente 512, tamaño de lote 96, épocas de entrenamiento 100, tasa de aprendizaje 5×10⁻⁴
  • Optimizador: Optimizador Adam
  • Número de Agrupamientos: Prueba de 4-12 agrupamientos

Resultados Experimentales

Resultados Principales

Evaluación de Calidad de Agrupamiento

  • Número de Agrupamiento Óptimo: Basado en evaluación DBI, el agrupamiento espectral logra mejor desempeño con 8 categorías
  • Comparación de Métodos: El agrupamiento espectral supera significativamente a k-means++ en evaluación DBI, siendo que este último muestra DBI continuamente decreciente con aumento de agrupamientos
  • Validación de Coeficiente de Silueta: Los resultados del coeficiente de silueta son consistentes con evaluación DBI, confirmando la racionalidad de 8 agrupamientos

Resultados de Clasificación de Ruido de Fallo

Las 8 categorías de ruido de fallo identificadas y su distribución:

CategoríaCantidad (Porcentaje)Forma de RuidoDescripción
0621 (1.4%)Línea CentralEstructura lineal central
1294 (0.6%)Línea InferiorEstructura lineal inferior
235925 (79.2%)BlipsForma de lágrima, tipo más común
344 (0.1%)ComplejoForma compleja
44016 (8.9%)Blip & LíneaLínea vertical más línea horizontal
54358 (9.6%)Blips SeparadosBlips separados
660 (1.3%)RuidosoRuido ruidoso
727 (0.6%)Luz DispersadaLuz dispersada

Hallazgos Clave

  1. Tipo de Ruido Dominante: La categoría #2 (Blips) constituye el 79.2% del ruido total, siendo el tipo de ruido de fallo más común durante KAGRA O3GK
  2. Comparación con LIGO: Los tipos de fallo identificados en KAGRA (8 tipos) son menos que los del proyecto Gravity Spy de LIGO (22 tipos), posiblemente relacionado con la menor sensibilidad de KAGRA durante O3GK
  3. Características de Ruido: Se identificó exitosamente el tipo "Luz Dispersada" similar al de LIGO, validando la efectividad del método

Análisis de Visualización

La visualización 3D UMAP muestra:

  • El ruido de fallo exhibe estructura de agrupamiento evidente
  • Contiene varios agrupamientos pequeños y 1-2 agrupamientos grandes
  • Diferencias evidentes en efectos de segmentación bajo diferentes configuraciones de número de agrupamientos

Trabajo Relacionado

Campo de Detección de Fallos en Ondas Gravitacionales

  • Proyecto Gravity Spy: Sistema de clasificación de fallos de aprendizaje supervisado desarrollado por LIGO, logrando clasificación de alta precisión de 22 tipos de fallo mediante anotaciones de científicos ciudadanos
  • Análisis de Ruido KAGRA: Investigaciones previas se enfocaron principalmente en comprensión preliminar del ruido en datos O3GK, careciendo de métodos de clasificación sistemáticos

Aplicaciones de Aprendizaje No Supervisado

  • Trabajo de Sakai et al.: Primera aplicación del método VAE+UMAP+agrupamiento a datos Gravity Spy; este artículo es la primera aplicación y validación del método en datos KAGRA

Métodos Técnicos

  • Aplicación de VAE en Astrofísica: Aplicaciones crecientes de codificadores automáticos variacionales en análisis de datos astrofísicos
  • Agrupamiento Espectral: Supera métodos de agrupamiento tradicionales en manejo de distribuciones de datos complejas

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: El método de aprendizaje no supervisado se aplicó exitosamente a datos KAGRA, demostrando que la arquitectura VAE exhibe buena capacidad de generalización entre diferentes conjuntos de datos
  2. Identificación de Características de Ruido: Se identificaron 8 categorías distintas de ruido de fallo en datos O3GK, estableciendo una línea base para características de ruido de KAGRA
  3. Valor Práctico: Proporciona herramientas de análisis efectivas para futuras actualizaciones de KAGRA y desarrollo de observatorios de ondas gravitacionales de tercera generación

Limitaciones

  1. Limitaciones de Datos: Utiliza solo datos del período O3GK, con horizonte temporal relativamente corto (178 horas)
  2. Impacto de Sensibilidad: La menor sensibilidad de KAGRA durante O3GK puede enmascarar algunos tipos de ruido de fallo débil
  3. Validación Faltante: Carece de comparación con resultados de clasificación manual de expertos

Direcciones Futuras

  1. Aplicación a Datos O4: Aplicar el mismo método a datos de observación O4 actuales, investigando el impacto de cambios de configuración del interferómetro en la topología del ruido de fallo
  2. Análisis en Tiempo Real: Utilizar capacidades de aprendizaje incremental de UMAP para desarrollar sistema de agrupamiento de ruido de fallo en tiempo real
  3. Fusión Multi-Detector: Extender a análisis de ruido de fallo de red conjunta LIGO-Virgo-KAGRA

Evaluación Profunda

Fortalezas

  1. Innovación de Método: Primera aplicación exitosa de marco de aprendizaje no supervisado maduro a datos KAGRA, resolviendo el problema práctico de falta de datos anotados
  2. Completitud Técnica: Proporciona proceso técnico completo desde datos crudos hasta clasificación final, con fuerte reproducibilidad
  3. Suficiencia Experimental: Valida confiabilidad de resultados mediante múltiples métricas de evaluación (DBI, coeficiente de silueta) y métodos de comparación
  4. Valor Práctico: Proporciona herramientas y métodos prácticos para análisis de ruido de detectores de ondas gravitacionales

Insuficiencias

  1. Limitaciones de Validación: Carece de comparación con clasificación de expertos humanos, dificultando evaluación de precisión de clasificación
  2. Sensibilidad de Parámetros: Falta análisis de sensibilidad suficiente para selección de parámetros de UMAP y agrupamiento espectral
  3. Interpretación Física: Análisis insuficiente de causas físicas del ruido de fallo, enfocándose principalmente en características morfológicas

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de aprendizaje no supervisado para campo de análisis de datos de ondas gravitacionales
  2. Valor Práctico: Sirve directamente a optimización de desempeño del detector KAGRA y mejora de calidad de datos
  3. Escalabilidad: El método exhibe buena escalabilidad, aplicable a otros detectores de ondas gravitacionales

Escenarios Aplicables

  1. Depuración de Nuevos Detectores: Aplicable a nuevos detectores de ondas gravitacionales que carecen de datos históricos anotados
  2. Monitoreo de Ruido: Puede utilizarse para monitoreo y clasificación de ruido en tiempo real durante operación del detector
  3. Actualización de Detector: Proporciona herramientas para análisis de cambios de características de ruido después de actualización del detector

Referencias

Las referencias clave citadas en el artículo incluyen:

  • Zevin et al. (2017, 2024): Literatura central del proyecto Gravity Spy
  • Sakai et al. (2022, 2024): Trabajo pionero en aprendizaje no supervisado para clasificación de fallos de ondas gravitacionales
  • Kingma and Welling (2013): Artículo original sobre codificadores automáticos variacionales
  • McInnes et al. (2018): Método de reducción de dimensionalidad UMAP
  • von Luxburg (2007): Tutorial clásico sobre método de agrupamiento espectral

Evaluación General: Este es un artículo de alta calidad técnicamente sólido y orientado a aplicaciones, que resuelve exitosamente el problema práctico de clasificación del ruido de fallo del detector KAGRA. Aunque es relativamente limitado en innovación teórica, su valor práctico y contribución al campo de detección de ondas gravitacionales son significativos. La metodología del artículo es rigurosa, el diseño experimental es razonable, y proporciona referencias valiosas para investigación en campos relacionados.