2025-11-23T20:22:17.730418

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

Oshino, Sakai, Meyer-Conde et al.

Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.

academic

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

基本信息

论文ID: 2510.14291
标题: Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
作者: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
分类: gr-qc (General Relativity and Quantum Cosmology), astro-ph.IM (Instrumentation and Methods for Astrophysics)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14291

摘要

引力波干涉仪会受到各种类型的非平稳噪声（称为故障噪声）的干扰，这些噪声会影响数据分析和干涉仪灵敏度。准确识别和分类故障噪声对于提高引力波观测的可靠性至关重要。本研究展示了无监督机器学习在KAGRA O3GK数据中非平稳噪声图像分类方面的有效性。使用变分自编码器(VAE)结合谱聚类，识别出八个不同的故障噪声类别。从VAE获得的潜在变量经过降维压缩，在三维空间中可视化，并使用谱聚类进行分类，以更好地理解KAGRA在O3GK期间的故障噪声特征。

研究背景与动机

问题定义

引力波探测器在观测过程中会受到各种环境和仪器瞬态噪声的干扰，如地面振动、闪电、摆控制信号和激光波动等。这些非平稳、非高斯的噪声被称为"故障"(glitch)噪声，会与引力波数据混合，影响数据分析质量。

问题重要性

故障噪声检测和分类的重要性体现在三个方面：

信号分离：故障检测技术能够将故障噪声从天体物理现象产生的引力波中分离出来
源头识别：故障分类技术有助于识别故障噪声的来源
性能提升：识别故障噪声源头有助于其消除，增加可用于分析的数据量并提高干涉仪灵敏度

现有方法局限性

虽然LIGO的Gravity Spy项目通过公民科学家标注训练数据，实现了22种故障噪声的高精度监督学习分类，但该方法在KAGRA上面临以下挑战：

缺乏人工标注：KAGRA没有像Gravity Spy项目那样的公民科学家协助手动分类和标注
干涉仪差异：KAGRA和LIGO的干涉仪配置不同，相同故障噪声的表现形式不一定相同
灵敏度差异：KAGRA和LIGO干涉仪的灵敏度不同，可能导致故障噪声特征的差异

研究动机

基于上述挑战，本研究首次专注于使用无监督学习方法对KAGRA O3GK数据中的故障噪声进行分类，以解决缺乏标注数据的问题。

核心贡献

首次应用无监督学习到KAGRA数据：验证了VAE架构在KAGRA故障噪声分类中的有效性和泛化能力
建立完整的无监督分类框架：提出了从数据预处理到最终分类的完整流程，包括VAE特征提取、UMAP降维可视化和谱聚类分类
识别KAGRA特有的故障噪声类型：在O3GK数据中识别出8个不同的故障噪声类别，为KAGRA的噪声特征建立了基线
提供实用的噪声分析工具：为未来KAGRA升级和第三代引力波天文台的发展提供了有效的故障噪声分析方法

方法详解

任务定义

输入：KAGRA O3GK观测期间的应变数据时间序列输出：故障噪声事件的分类标签（8个类别）约束：无监督学习环境，无人工标注数据

模型架构

1. 数据预处理流程

Omicron触发检测：使用Omicron软件从应变数据中识别瞬态噪声事件，生成GPS时间戳数据库
Q变换：应用Omega Scan流水线创建时频谱图，设置四个时间窗口（0.5s, 1.0s, 2.0s, 4.0s）
图像处理：将原始800×600像素图像重新缩放为224×224像素，堆叠四个时间窗口形成4×224×224的输入数据，并转换为灰度图

2. VAE架构设计

编码器结构：

输入：4通道图像 (4, 224, 224)
EncoderBlock(64, ks=7, s=2, p=3) + Max-pooling
EncoderBlock(128, ks=3, s=2, p=1)
EncoderBlock(256, ks=3, s=2, p=1)
EncoderBlock(512, ks=3, s=2, p=1)
自适应平均池化层
线性层输出潜在变量 z ∈ R^dz

解码器结构：

输入：潜在变量z
线性层：R^dz → R^(dz×7×7)
批归一化 + ReLU + 上采样
四个DecoderBlock层逐步重构图像

3. UMAP降维可视化

使用UMAP将高维潜在变量降维到3D空间进行可视化：

距离度量：欧几里得距离
邻居数：k = 10
紧密度参数：δ = 0.05

4. 谱聚类分类

使用高斯核函数计算邻接矩阵： $a_{ij} = \exp\left(-\frac{||x_i - x_j||^2}{2\sigma^2}\right)$

采用中位数启发式方法选择σ²： $\sigma^2_{MH} = \text{Median}\{||x_i - x_j||^2 | 1 \leq i < j \leq n\}$

技术创新点

多时间尺度特征融合：通过堆叠四个不同时间窗口的谱图，捕获故障噪声在不同时间尺度上的特征
高维潜在空间：采用512维潜在变量，相比传统的低维表示提供更强的表达能力
谱聚类优化：相比k-means++，谱聚类能更好地处理非凸数据分布，适合复杂的故障噪声模式

实验设置

数据集

数据来源：KAGRA O3GK观测数据，约178小时
检测参数：峰值频率10-2048 Hz，信噪比>7.5
故障事件数：45,345个故障噪声事件，检测率4.63事件/分钟
数据划分：训练集80%，测试集20%

评价指标

Davies-Bouldin指数(DBI)：评估聚类质量，数值越接近0表示分割效果越好
轮廓系数(Silhouette Coefficient)：量化样本与其分配簇的符合程度，接近1表示聚类紧密且分离良好

对比方法

k-means++：作为baseline聚类方法进行对比

实现细节

VAE超参数：潜在变量维度512，批大小96，训练轮数100，学习率5×10⁻⁴
优化器：Adam优化器
聚类数量：测试4-12个聚类数

实验结果

主要结果

聚类质量评估

最优聚类数：基于DBI评估，谱聚类在8个类别时达到最佳性能
方法对比：谱聚类在DBI评估中明显优于k-means++，后者随着聚类数增加而DBI持续下降
轮廓系数验证：轮廓系数结果与DBI评估一致，证实8个聚类的合理性

故障噪声分类结果

识别出的8个故障噪声类别及其分布：

类别	数量(占比)	噪声形状	描述
0	621 (1.4%)	Middle line	中央线性结构
1	294 (0.6%)	Lower line	底部线性结构
2	35925 (79.2%)	Blips	泪滴状，最常见类型
3	44 (0.1%)	Complex	复杂形状
4	4016 (8.9%)	Blip & Line	垂直线加水平线
5	4358 (9.6%)	Separated Blips	分离的Blips
6	60 (1.3%)	Loud	响亮噪声
7	27 (0.6%)	Scattered Light	散射光