Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.
- Papier-ID: 2510.14291
- Titel: Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
- Autoren: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
- Klassifizierung: gr-qc (Allgemeine Relativitätstheorie und Quantenkosmologie), astro-ph.IM (Instrumentierung und Methoden für Astrophysik)
- Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.14291
Gravitationswellen-Interferometer werden durch verschiedene Arten von instationären Rauschen (sogenanntes Glitch-Rauschen) beeinträchtigt, die die Datenanalyse und die Interferometer-Empfindlichkeit beeinflussen. Die genaue Identifizierung und Klassifizierung von Glitch-Rauschen ist entscheidend für die Verbesserung der Zuverlässigkeit von Gravitationswellenmessungen. Diese Studie demonstriert die Wirksamkeit unüberwachten maschinellen Lernens bei der Bildklassifizierung instationären Rauschens in KAGRA O3GK-Daten. Mit Hilfe von Variationalen Autoencodern (VAE) in Kombination mit Spektral-Clustering werden acht verschiedene Glitch-Rausch-Kategorien identifiziert. Die aus dem VAE gewonnenen latenten Variablen werden durch Dimensionsreduktion komprimiert, im dreidimensionalen Raum visualisiert und mittels Spektral-Clustering klassifiziert, um die Glitch-Rausch-Charakteristiken von KAGRA während O3GK besser zu verstehen.
Gravitationswellen-Detektoren werden während der Beobachtung durch verschiedene Umwelt- und Instrumenten-Transienten-Rauschen beeinträchtigt, wie Bodenvibration, Blitzschlag, Pendel-Kontrollsignale und Laserschwankungen. Diese instationären, nicht-gaußschen Rauschsignale werden als „Glitches" bezeichnet und vermischen sich mit Gravitationswellendaten, was die Datenanalysqualität beeinträchtigt.
Die Bedeutung der Glitch-Rausch-Erkennung und -Klassifizierung zeigt sich in drei Aspekten:
- Signaltrennung: Glitch-Erkennungstechniken können Glitch-Rauschen von Gravitationswellen astrophysikalischen Ursprungs trennen
- Quellenidentifizierung: Glitch-Klassifizierungstechniken helfen bei der Identifizierung von Glitch-Rausch-Quellen
- Leistungsverbesserung: Die Identifizierung von Glitch-Rausch-Quellen ermöglicht deren Beseitigung, erhöht die für die Analyse verfügbare Datenmenge und verbessert die Interferometer-Empfindlichkeit
Obwohl das Gravity Spy-Projekt des LIGO durch Bürgerwissenschaftler gekennzeichnete Trainingsdaten für hochpräzises überwachtes Lernen zur Klassifizierung von 22 Glitch-Rausch-Typen nutzt, sieht sich diese Methode bei KAGRA mit folgenden Herausforderungen konfrontiert:
- Fehlende manuelle Kennzeichnung: KAGRA verfügt nicht über Bürgerwissenschaftler-Unterstützung wie das Gravity Spy-Projekt für manuelle Klassifizierung und Kennzeichnung
- Interferometer-Unterschiede: KAGRA und LIGO haben unterschiedliche Interferometer-Konfigurationen, und identische Glitch-Rausch-Typen können sich unterschiedlich manifestieren
- Empfindlichkeitsunterschiede: KAGRA und LIGO haben unterschiedliche Interferometer-Empfindlichkeiten, was zu Unterschieden in den Glitch-Rausch-Charakteristiken führen kann
Basierend auf diesen Herausforderungen konzentriert sich diese Studie erstmals auf die Verwendung unüberwachter Lernmethoden zur Klassifizierung von Glitch-Rauschen in KAGRA O3GK-Daten, um das Problem fehlender gekennzeichneter Daten zu lösen.
- Erstmalige Anwendung unüberwachten Lernens auf KAGRA-Daten: Validierung der Wirksamkeit und Generalisierungsfähigkeit der VAE-Architektur bei der Glitch-Rausch-Klassifizierung von KAGRA
- Etablierung eines vollständigen unüberwachten Klassifizierungsrahmens: Vorschlag eines vollständigen Prozesses von der Datenvorbereitung bis zur endgültigen Klassifizierung, einschließlich VAE-Merkmalsextraktion, UMAP-Dimensionsreduktions-Visualisierung und Spektral-Clustering-Klassifizierung
- Identifizierung KAGRA-spezifischer Glitch-Rausch-Typen: Identifizierung von 8 verschiedenen Glitch-Rausch-Kategorien in O3GK-Daten und Etablierung einer Grundlage für KAGRA-Rausch-Charakteristiken
- Bereitstellung praktischer Rausch-Analyse-Tools: Bereitstellung effektiver Glitch-Rausch-Analysemethoden für zukünftige KAGRA-Upgrades und die Entwicklung von Gravitationswellen-Observatorien der dritten Generation
Eingabe: Zeitreihen der Dehnungsdaten während der KAGRA O3GK-Beobachtungsperiode
Ausgabe: Klassifizierungsetiketten für Glitch-Rausch-Ereignisse (8 Kategorien)
Einschränkung: Unüberwachte Lernumgebung ohne manuelle Kennzeichnungsdaten
- Omicron-Trigger-Erkennung: Verwendung der Omicron-Software zur Identifizierung transienter Rausch-Ereignisse aus Dehnungsdaten, Generierung einer GPS-Zeitstempel-Datenbank
- Q-Transformation: Anwendung der Omega Scan-Pipeline zur Erstellung von Zeit-Frequenz-Spektrogrammen mit vier Zeitfenstern (0,5s, 1,0s, 2,0s, 4,0s)
- Bildverarbeitung: Neuskalierung von 800×600-Pixel-Rohbildern auf 224×224 Pixel, Stapeln von vier Zeitfenstern zu 4×224×224-Eingabedaten und Umwandlung in Graustufen
Encoder-Struktur:
- Eingabe: 4-Kanal-Bild (4, 224, 224)
- EncoderBlock(64, ks=7, s=2, p=3) + Max-Pooling
- EncoderBlock(128, ks=3, s=2, p=1)
- EncoderBlock(256, ks=3, s=2, p=1)
- EncoderBlock(512, ks=3, s=2, p=1)
- Adaptive durchschnittliche Pooling-Schicht
- Lineare Schicht zur Ausgabe der latenten Variable z ∈ ℝ^dz
Decoder-Struktur:
- Eingabe: Latente Variable z
- Lineare Schicht: ℝ^dz → ℝ^(dz×7×7)
- Batch-Normalisierung + ReLU + Upsampling
- Vier DecoderBlock-Schichten zur schrittweisen Bildrekonstruktion
Verwendung von UMAP zur Reduktion hochdimensionaler latenter Variablen auf 3D-Raum für Visualisierung:
- Distanzmetrik: Euklidische Distanz
- Nachbarzahl: k = 10
- Kompaktheit-Parameter: δ = 0,05
Verwendung einer Gaußschen Kernfunktion zur Berechnung der Adjazenzmatrix:
aij=exp(−2σ2∣∣xi−xj∣∣2)
Anwendung der Median-Heuristik-Methode zur Auswahl von σ²:
σMH2=Median{∣∣xi−xj∣∣2∣1≤i<j≤n}
- Multi-Zeitskalen-Merkmals-Fusion: Durch Stapeln von Spektrogrammen mit vier verschiedenen Zeitfenstern werden Glitch-Rausch-Charakteristiken auf verschiedenen Zeitskalen erfasst
- Hochdimensionaler latenter Raum: Verwendung von 512-dimensionalen latenten Variablen bietet stärkere Ausdruckskraft im Vergleich zu traditionellen niedrigdimensionalen Darstellungen
- Spektral-Clustering-Optimierung: Im Vergleich zu k-means++ kann Spektral-Clustering nicht-konvexe Datenverteilungen besser handhaben und ist für komplexe Glitch-Rausch-Muster geeignet
- Datenquelle: KAGRA O3GK-Beobachtungsdaten, ca. 178 Stunden
- Erkennungsparameter: Spitzenfrequenz 10-2048 Hz, Signal-Rausch-Verhältnis > 7,5
- Glitch-Ereignisse: 45.345 Glitch-Rausch-Ereignisse, Erkennungsrate 4,63 Ereignisse/Minute
- Datenteilung: Trainingssatz 80%, Testsatz 20%
- Davies-Bouldin-Index (DBI): Bewertet die Clustering-Qualität; Werte näher an 0 zeigen bessere Segmentierungsergebnisse an
- Silhouette-Koeffizient: Quantifiziert die Übereinstimmung von Proben mit ihrem zugewiesenen Cluster; Werte nahe 1 zeigen dichtes und gut getrenntes Clustering an
- k-means++: Als Baseline-Clustering-Methode für Vergleiche
- VAE-Hyperparameter: Latente Variable Dimension 512, Batch-Größe 96, Trainings-Epochen 100, Lernrate 5×10⁻⁴
- Optimierer: Adam-Optimierer
- Cluster-Anzahl: Test mit 4-12 Clustern
- Optimale Cluster-Anzahl: Basierend auf DBI-Bewertung erreicht Spektral-Clustering bei 8 Kategorien optimale Leistung
- Methodenvergleich: Spektral-Clustering zeigt deutlich bessere DBI-Bewertungen als k-means++, wobei letzteres mit zunehmender Cluster-Anzahl kontinuierlich verschlechtert
- Silhouette-Koeffizient-Validierung: Silhouette-Koeffizient-Ergebnisse stimmen mit DBI-Bewertung überein und bestätigen die Angemessenheit von 8 Clustern
Identifizierte 8 Glitch-Rausch-Kategorien und deren Verteilung:
| Kategorie | Anzahl (Anteil) | Rausch-Form | Beschreibung |
|---|
| 0 | 621 (1,4%) | Middle line | Mittlere lineare Struktur |
| 1 | 294 (0,6%) | Lower line | Untere lineare Struktur |
| 2 | 35925 (79,2%) | Blips | Tränenform, häufigster Typ |
| 3 | 44 (0,1%) | Complex | Komplexe Form |
| 4 | 4016 (8,9%) | Blip & Line | Vertikale plus horizontale Linie |
| 5 | 4358 (9,6%) | Separated Blips | Getrennte Blips |
| 6 | 60 (1,3%) | Loud | Lautes Rauschen |
| 7 | 27 (0,6%) | Scattered Light | Gestreutes Licht |
- Dominanter Rausch-Typ: Kategorie #2 (Blips) macht 79,2% des Gesamtrauschens aus und ist der häufigste Glitch-Rausch-Typ während KAGRA O3GK
- LIGO-Vergleich: Die von KAGRA identifizierten Glitch-Typen (8) sind weniger als die 22 des LIGO Gravity Spy-Projekts, möglicherweise aufgrund der niedrigeren Empfindlichkeit von KAGRA während O3GK
- Rausch-Charakteristiken: Erfolgreiche Identifizierung des ähnlichen „Scattered Light"-Typs wie bei LIGO, was die Methodenwirksamkeit validiert
UMAP 3D-Visualisierung zeigt:
- Glitch-Rauschen weist eine deutliche Clustering-Struktur auf
- Enthält mehrere kleine Cluster und 1-2 große Cluster
- Deutliche Unterschiede in den Segmentierungsergebnissen bei verschiedenen Cluster-Anzahl-Einstellungen
- Gravity Spy-Projekt: Von LIGO entwickeltes überwachtes Lernglitch-Klassifizierungssystem, das durch Bürgerwissenschaftler-Kennzeichnung hochpräzise Klassifizierung von 22 Glitch-Typen erreicht
- KAGRA-Rausch-Analyse: Frühere Forschung konzentrierte sich hauptsächlich auf vorläufiges Verständnis von O3GK-Daten-Rauschen, fehlte aber systematische Klassifizierungsmethoden
- Arbeiten von Sakai et al.: Erstmalige Anwendung der VAE+UMAP+Clustering-Methode auf Gravity Spy-Daten; diese Arbeit ist die erste Anwendung und Validierung dieser Methode auf KAGRA-Daten
- VAE-Anwendungen in der Astrophysik: Zunehmende Anwendung von Variationalen Autoencodern in der astrophysikalischen Datenanalyse
- Spektral-Clustering: Übertrifft traditionelle Clustering-Methoden bei der Behandlung komplexer Datenverteilungen
- Methodenwirksamkeit: Unüberwachte Lernmethoden wurden erfolgreich auf KAGRA-Daten angewendet; die VAE-Architektur zeigt gute Generalisierungsfähigkeit über verschiedene Datensätze hinweg
- Rausch-Charakteristiken-Identifizierung: 8 verschiedene Glitch-Rausch-Kategorien in O3GK-Daten identifiziert und Grundlage für KAGRA-Rausch-Charakteristiken etabliert
- Praktischer Wert: Bereitstellung effektiver Analysewerkzeuge für KAGRA-Upgrades und die Entwicklung von Gravitationswellen-Observatorien der dritten Generation
- Datenbeschränkungen: Nur O3GK-Daten verwendet, relativ kurze Zeitspanne (178 Stunden)
- Empfindlichkeitsauswirkungen: Niedrigere KAGRA-Empfindlichkeit während O3GK könnte einige schwache Glitch-Rausch-Typen maskieren
- Fehlende Validierung: Fehlender Vergleich mit manuellen Expertenbewertungen
- O4-Daten-Anwendung: Anwendung derselben Methode auf aktuelle O4-Beobachtungsdaten, Untersuchung der Auswirkungen von Interferometer-Konfigurationsänderungen auf die Glitch-Rausch-Topologie
- Echtzeit-Analyse: Nutzung der inkrementellen Lernfähigkeit von UMAP zur Entwicklung eines Echtzeit-Glitch-Rausch-Clustering-Systems
- Multi-Detektor-Fusion: Erweiterung auf Glitch-Rausch-Analyse des LIGO-Virgo-KAGRA-Netzwerks
- Methodische Innovation: Erstmalige erfolgreiche Anwendung eines ausgereiften unüberwachten Lernrahmens auf KAGRA-Daten, Lösung des praktischen Problems fehlender gekennzeichneter Daten
- Technische Vollständigkeit: Bereitstellung eines vollständigen technischen Prozesses von Rohdaten bis zur endgültigen Klassifizierung mit starker Reproduzierbarkeit
- Experimentelle Gründlichkeit: Validierung der Ergebniszuverlässigkeit durch mehrere Bewertungsmetriken (DBI, Silhouette-Koeffizient) und Vergleichsmethoden
- Praktischer Wert: Bereitstellung praktischer Werkzeuge und Methoden für die Rausch-Analyse von Gravitationswellen-Detektoren
- Validierungsbeschränkungen: Fehlender Vergleich mit manuellen Expertenbewertungen, schwierig zu bewertende Klassifizierungsgenauigkeit
- Parameterempfindlichkeit: Unzureichende Sensitivitätsanalyse der Parameter-Auswahl für UMAP und Spektral-Clustering
- Physikalische Interpretation: Unzureichende Analyse der physikalischen Ursachen von Glitch-Rauschen, Fokus hauptsächlich auf morphologische Merkmale
- Akademischer Beitrag: Bereitstellung eines neuen unüberwachten Lernparadigmas für die Gravitationswellen-Datenanalysefield
- Praktischer Wert: Direkte Unterstützung der Leistungsoptimierung und Datenqualitätsverbesserung des KAGRA-Detektors
- Skalierbarkeit: Methode hat gute Skalierbarkeit und kann auf andere Gravitationswellen-Detektoren angewendet werden
- Neuer Detektor-Debugging: Geeignet für neu gebaute Gravitationswellen-Detektoren ohne historische gekennzeichnete Daten
- Rausch-Überwachung: Kann für Echtzeit-Rausch-Überwachung und -Klassifizierung während des Detektorbetribs verwendet werden
- Detektor-Upgrade: Bereitstellung von Werkzeugen zur Analyse von Rausch-Charakteristiken-Änderungen nach Detektor-Upgrades
Wichtige in der Arbeit zitierte Literatur umfasst:
- Zevin et al. (2017, 2024): Kernliteratur des Gravity Spy-Projekts
- Sakai et al. (2022, 2024): Pionierarbeiten zu unüberwachtem Lernen in der Gravitationswellen-Glitch-Klassifizierung
- Kingma and Welling (2013): Originalarbeit zu Variationalen Autoencodern
- McInnes et al. (2018): UMAP-Dimensionsreduktionsmethode
- von Luxburg (2007): Klassisches Tutorial zur Spektral-Clustering-Methode
Gesamtbewertung: Dies ist eine technisch solide, anwendungsorientierte hochwertige Arbeit, die das praktische Problem der Glitch-Rausch-Klassifizierung des KAGRA-Detektors erfolgreich löst. Obwohl die theoretische Innovation relativ begrenzt ist, sind ihr praktischer Wert und ihr Beitrag zum Gravitationswellen-Detektionsfeld erheblich. Die Methodologie der Arbeit ist streng, das Experimentaldesign angemessen, und sie bietet wertvolle Referenzen für verwandte Forschung.