Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.
- ID de l'article : 2510.14291
- Titre : Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
- Auteurs : Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
- Classification : gr-qc (Relativité générale et cosmologie quantique), astro-ph.IM (Instrumentation et méthodes pour l'astrophysique)
- Date de publication : 16 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.14291
Les interféromètres de détection d'ondes gravitationnelles sont affectés par diverses formes de bruit non stationnaire (appelé bruit de scintillement) qui compromettent l'analyse des données et la sensibilité de l'interféromètre. L'identification et la classification précises du bruit de scintillement sont essentielles pour améliorer la fiabilité des observations d'ondes gravitationnelles. Cette étude démontre l'efficacité de l'apprentissage automatique non supervisé pour la classification d'images de bruit non stationnaire dans les données KAGRA O3GK. En utilisant un autoencodeur variationnel (VAE) combiné au clustering spectral, huit catégories distinctes de bruit de scintillement ont été identifiées. Les variables latentes obtenues du VAE ont été comprimées par réduction de dimensionnalité, visualisées dans un espace tridimensionnel et classifiées à l'aide du clustering spectral pour mieux comprendre les caractéristiques du bruit de scintillement de KAGRA pendant O3GK.
Les détecteurs d'ondes gravitationnelles sont perturbés lors des observations par diverses formes de bruit transitoire environnemental et instrumental, tels que les vibrations du sol, les éclairs, les signaux de contrôle du pendule et les fluctuations laser. Ces bruits non stationnaires et non gaussiens sont appelés bruits de « scintillement » (glitch), qui se mélangent aux données d'ondes gravitationnelles et dégradent la qualité de l'analyse des données.
L'importance de la détection et de la classification du bruit de scintillement se manifeste sous trois aspects :
- Séparation du signal : Les techniques de détection de scintillement permettent de séparer le bruit de scintillement des ondes gravitationnelles produites par des phénomènes astrophysiques
- Identification de la source : Les techniques de classification du scintillement aident à identifier les sources du bruit de scintillement
- Amélioration des performances : L'identification des sources de bruit de scintillement facilite leur élimination, augmente la quantité de données disponibles pour l'analyse et améliore la sensibilité de l'interféromètre
Bien que le projet Gravity Spy de LIGO ait réalisé une classification d'apprentissage supervisé de haute précision pour 22 types de bruit de scintillement grâce aux annotations de citoyens scientifiques, cette approche fait face aux défis suivants sur KAGRA :
- Absence d'annotations manuelles : KAGRA ne dispose pas d'assistance de citoyens scientifiques comme le projet Gravity Spy pour la classification et l'annotation manuelles
- Différences d'interféromètres : Les configurations d'interféromètres KAGRA et LIGO diffèrent, et les mêmes bruits de scintillement peuvent se manifester différemment
- Différences de sensibilité : Les sensibilités des interféromètres KAGRA et LIGO diffèrent, ce qui peut entraîner des variations dans les caractéristiques du bruit de scintillement
Face à ces défis, cette étude se concentre pour la première fois sur l'utilisation de méthodes d'apprentissage non supervisé pour classifier le bruit de scintillement dans les données KAGRA O3GK, afin de résoudre le problème du manque de données annotées.
- Application novatrice de l'apprentissage non supervisé aux données KAGRA : Validation de l'efficacité et de la capacité de généralisation de l'architecture VAE pour la classification du bruit de scintillement de KAGRA
- Établissement d'un cadre de classification non supervisée complet : Proposition d'un processus complet allant du prétraitement des données à la classification finale, incluant l'extraction de caractéristiques VAE, la visualisation par réduction de dimensionnalité UMAP et la classification par clustering spectral
- Identification des types de bruit de scintillement spécifiques à KAGRA : Identification de 8 catégories distinctes de bruit de scintillement dans les données O3GK, établissant une base de référence pour les caractéristiques du bruit de KAGRA
- Fourniture d'outils pratiques d'analyse du bruit : Fourniture de méthodes efficaces d'analyse du bruit de scintillement pour les futures mises à niveau de KAGRA et le développement d'observatoires d'ondes gravitationnelles de troisième génération
Entrée : Séries temporelles de données de déformation pendant la période d'observation KAGRA O3GK
Sortie : Étiquettes de classification des événements de bruit de scintillement (8 catégories)
Contraintes : Environnement d'apprentissage non supervisé, absence de données annotées manuellement
- Détection par déclenchement Omicron : Utilisation du logiciel Omicron pour identifier les événements de bruit transitoire à partir des données de déformation, générant une base de données d'horodatage GPS
- Transformation Q : Application du pipeline Omega Scan pour créer des spectrogrammes temps-fréquence, avec quatre fenêtres temporelles (0,5s, 1,0s, 2,0s, 4,0s)
- Traitement d'image : Redimensionnement des images brutes 800×600 pixels à 224×224 pixels, empilement de quatre fenêtres temporelles formant des données d'entrée 4×224×224, conversion en images en niveaux de gris
Structure de l'encodeur :
- Entrée : Image 4 canaux (4, 224, 224)
- EncoderBlock(64, ks=7, s=2, p=3) + Max-pooling
- EncoderBlock(128, ks=3, s=2, p=1)
- EncoderBlock(256, ks=3, s=2, p=1)
- EncoderBlock(512, ks=3, s=2, p=1)
- Couche de pooling moyen adaptatif
- Couche linéaire produisant la variable latente z ∈ R^dz
Structure du décodeur :
- Entrée : Variable latente z
- Couche linéaire : R^dz → R^(dz×7×7)
- Normalisation par batch + ReLU + suréchantillonnage
- Quatre couches DecoderBlock pour la reconstruction progressive de l'image
Utilisation d'UMAP pour réduire les variables latentes de haute dimension à un espace 3D pour la visualisation :
- Métrique de distance : Distance euclidienne
- Nombre de voisins : k = 10
- Paramètre de compacité : δ = 0,05
Utilisation d'une fonction noyau gaussien pour calculer la matrice d'adjacence :
aij=exp(−2σ2∣∣xi−xj∣∣2)
Adoption d'une méthode heuristique médiane pour la sélection de σ² :
σMH2=Meˊdiane{∣∣xi−xj∣∣2∣1≤i<j≤n}
- Fusion de caractéristiques multi-échelles temporelles : Capture des caractéristiques du bruit de scintillement à différentes échelles temporelles par empilement de quatre spectrogrammes avec des fenêtres temporelles différentes
- Espace latent de haute dimension : Utilisation de variables latentes de 512 dimensions, offrant une capacité d'expression plus forte par rapport aux représentations traditionnelles de faible dimension
- Optimisation du clustering spectral : Comparé à k-means++, le clustering spectral gère mieux les distributions de données non convexes, adapté aux motifs complexes du bruit de scintillement
- Source des données : Données d'observation KAGRA O3GK, environ 178 heures
- Paramètres de détection : Fréquence de pic 10-2048 Hz, rapport signal-bruit > 7,5
- Nombre d'événements de scintillement : 45 345 événements de bruit de scintillement, taux de détection 4,63 événements/minute
- Division des données : Ensemble d'entraînement 80%, ensemble de test 20%
- Indice Davies-Bouldin (DBI) : Évaluation de la qualité du clustering, les valeurs proches de 0 indiquent une meilleure segmentation
- Coefficient de silhouette : Quantification de la conformité d'un échantillon avec son cluster assigné, les valeurs proches de 1 indiquent un clustering dense et bien séparé
- k-means++ : Méthode de clustering de base pour la comparaison
- Hyperparamètres VAE : Dimension de variable latente 512, taille de batch 96, nombre d'épochs 100, taux d'apprentissage 5×10⁻⁴
- Optimiseur : Optimiseur Adam
- Nombre de clusters : Test de 4 à 12 clusters
- Nombre de clusters optimal : Basé sur l'évaluation DBI, le clustering spectral atteint les meilleures performances avec 8 catégories
- Comparaison des méthodes : Le clustering spectral surpasse clairement k-means++ dans l'évaluation DBI, ce dernier montrant une dégradation continue du DBI avec l'augmentation du nombre de clusters
- Validation du coefficient de silhouette : Les résultats du coefficient de silhouette sont cohérents avec l'évaluation DBI, confirmant la rationalité des 8 clusters
Les 8 catégories de bruit de scintillement identifiées et leur distribution :
| Catégorie | Nombre (%) | Forme du bruit | Description |
|---|
| 0 | 621 (1,4%) | Ligne centrale | Structure linéaire centrale |
| 1 | 294 (0,6%) | Ligne inférieure | Structure linéaire inférieure |
| 2 | 35925 (79,2%) | Gouttes | Forme de larme, type le plus courant |
| 3 | 44 (0,1%) | Complexe | Forme complexe |
| 4 | 4016 (8,9%) | Goutte & Ligne | Ligne verticale plus ligne horizontale |
| 5 | 4358 (9,6%) | Gouttes séparées | Gouttes séparées |
| 6 | 60 (1,3%) | Bruyant | Bruit fort |
| 7 | 27 (0,6%) | Lumière diffusée | Lumière diffusée |
- Type de bruit dominant : La catégorie #2 (Gouttes) représente 79,2% du bruit total, constituant le type de bruit de scintillement le plus courant pendant KAGRA O3GK
- Comparaison avec LIGO : Les types de scintillement identifiés par KAGRA (8 types) sont moins nombreux que ceux du projet Gravity Spy de LIGO (22 types), probablement en raison de la sensibilité plus faible de KAGRA pendant O3GK
- Caractéristiques du bruit : Identification réussie du type « Lumière diffusée » similaire à celui de LIGO, validant l'efficacité de la méthode
La visualisation 3D UMAP révèle :
- Le bruit de scintillement présente une structure de clustering évidente
- Présence de plusieurs petits clusters et 1-2 grands clusters
- Différences marquées dans les effets de segmentation selon les différents paramètres de nombre de clusters
- Projet Gravity Spy : Système de classification de scintillement d'apprentissage supervisé développé par LIGO, réalisant une classification de haute précision de 22 types de scintillement grâce aux annotations de citoyens scientifiques
- Analyse du bruit KAGRA : Les recherches antérieures se concentraient principalement sur la compréhension préliminaire du bruit dans les données O3GK, manquant d'une méthode de classification systématique
- Travaux de Sakai et al. : Application pionnière de la méthode VAE+UMAP+clustering aux données Gravity Spy, cet article constituant la première application et validation de cette méthode sur les données KAGRA
- Application du VAE en astrophysique : L'utilisation croissante des autoencodeurs variationnels dans l'analyse des données astrophysiques
- Clustering spectral : Supériorité du clustering spectral par rapport aux méthodes de clustering traditionnelles dans le traitement des distributions de données complexes
- Efficacité de la méthode : La méthode d'apprentissage non supervisé s'applique avec succès aux données KAGRA, l'architecture VAE démontrant une bonne capacité de généralisation entre différents ensembles de données
- Identification des caractéristiques du bruit : Identification de 8 catégories distinctes de bruit de scintillement dans les données O3GK, établissant une base de référence pour les caractéristiques du bruit de KAGRA
- Valeur pratique : Fourniture d'outils d'analyse efficaces pour les mises à niveau futures de KAGRA et le développement d'observatoires d'ondes gravitationnelles de troisième génération
- Limitations des données : Utilisation uniquement des données de la période O3GK, avec une portée temporelle relativement courte (178 heures)
- Impact de la sensibilité : La sensibilité plus faible de KAGRA pendant O3GK peut masquer certains types de bruit de scintillement faible
- Absence de validation : Manque de comparaison avec les résultats de classification manuelle d'experts
- Application aux données O4 : Application de la même méthode aux données d'observation O4 actuelles, étudiant l'impact des changements de configuration de l'interféromètre sur la topologie du bruit de scintillement
- Analyse en temps réel : Développement d'un système de clustering de bruit de scintillement en temps réel en exploitant la capacité d'apprentissage incrémental d'UMAP
- Fusion multi-détecteurs : Extension à l'analyse du bruit de scintillement du réseau conjoint LIGO-Virgo-KAGRA
- Innovativité de la méthode : Application réussie pour la première fois d'un cadre d'apprentissage non supervisé mature aux données KAGRA, résolvant le problème pratique du manque de données annotées
- Complétude technique : Fourniture d'un processus technique complet allant des données brutes à la classification finale, avec une très forte reproductibilité
- Suffisance expérimentale : Validation de la fiabilité des résultats par plusieurs métriques d'évaluation (DBI, coefficient de silhouette) et méthodes de comparaison
- Valeur pratique : Fourniture d'outils et de méthodes pratiques pour l'analyse du bruit des détecteurs d'ondes gravitationnelles
- Limitations de validation : Absence de comparaison avec la classification manuelle d'experts, rendant difficile l'évaluation de la précision de la classification
- Sensibilité des paramètres : Analyse insuffisante de la sensibilité aux paramètres de sélection d'UMAP et du clustering spectral
- Interprétation physique : Analyse insuffisante des causes physiques du bruit de scintillement, se concentrant principalement sur les caractéristiques morphologiques
- Contribution académique : Fourniture d'un nouveau paradigme d'apprentissage non supervisé pour le domaine de l'analyse des données d'ondes gravitationnelles
- Valeur pratique : Service direct à l'optimisation des performances du détecteur KAGRA et à l'amélioration de la qualité des données
- Extensibilité : La méthode possède une bonne extensibilité et peut s'appliquer à d'autres détecteurs d'ondes gravitationnelles
- Débogage de nouveaux détecteurs : Applicable aux nouveaux détecteurs d'ondes gravitationnelles manquant de données historiques annotées
- Surveillance du bruit : Utilisable pour la surveillance et la classification du bruit en temps réel pendant l'exploitation du détecteur
- Mise à niveau du détecteur : Fourniture d'outils pour l'analyse des changements de caractéristiques du bruit après la mise à niveau du détecteur
Les références clés citées dans l'article incluent :
- Zevin et al. (2017, 2024) : Littérature fondamentale du projet Gravity Spy
- Sakai et al. (2022, 2024) : Travaux pionniers en apprentissage non supervisé pour la classification de scintillement d'ondes gravitationnelles
- Kingma and Welling (2013) : Article original sur l'autoencodeur variationnel
- McInnes et al. (2018) : Méthode de réduction de dimensionnalité UMAP
- von Luxburg (2007) : Tutoriel classique sur la méthode du clustering spectral
Évaluation générale : Cet article est un travail de haute qualité techniquement solide et orienté vers l'application, qui résout avec succès le problème pratique de la classification du bruit de scintillement du détecteur KAGRA. Bien que relativement limité en innovation théorique, sa valeur pratique et sa contribution au domaine de la détection d'ondes gravitationnelles sont significatives. La méthodologie de l'article est rigoureuse, la conception expérimentale est rationnelle, et elle fournit une référence précieuse pour la recherche dans les domaines connexes.