2025-11-23T20:22:17.730418

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

Oshino, Sakai, Meyer-Conde et al.
Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.
academic

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

基本信息

  • 论文ID: 2510.14291
  • 标题: Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
  • 作者: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
  • 分类: gr-qc (General Relativity and Quantum Cosmology), astro-ph.IM (Instrumentation and Methods for Astrophysics)
  • 发表时间: 2025年10月16日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14291

摘要

引力波干涉仪会受到各种类型的非平稳噪声(称为故障噪声)的干扰,这些噪声会影响数据分析和干涉仪灵敏度。准确识别和分类故障噪声对于提高引力波观测的可靠性至关重要。本研究展示了无监督机器学习在KAGRA O3GK数据中非平稳噪声图像分类方面的有效性。使用变分自编码器(VAE)结合谱聚类,识别出八个不同的故障噪声类别。从VAE获得的潜在变量经过降维压缩,在三维空间中可视化,并使用谱聚类进行分类,以更好地理解KAGRA在O3GK期间的故障噪声特征。

研究背景与动机

问题定义

引力波探测器在观测过程中会受到各种环境和仪器瞬态噪声的干扰,如地面振动、闪电、摆控制信号和激光波动等。这些非平稳、非高斯的噪声被称为"故障"(glitch)噪声,会与引力波数据混合,影响数据分析质量。

问题重要性

故障噪声检测和分类的重要性体现在三个方面:

  1. 信号分离:故障检测技术能够将故障噪声从天体物理现象产生的引力波中分离出来
  2. 源头识别:故障分类技术有助于识别故障噪声的来源
  3. 性能提升:识别故障噪声源头有助于其消除,增加可用于分析的数据量并提高干涉仪灵敏度

现有方法局限性

虽然LIGO的Gravity Spy项目通过公民科学家标注训练数据,实现了22种故障噪声的高精度监督学习分类,但该方法在KAGRA上面临以下挑战:

  1. 缺乏人工标注:KAGRA没有像Gravity Spy项目那样的公民科学家协助手动分类和标注
  2. 干涉仪差异:KAGRA和LIGO的干涉仪配置不同,相同故障噪声的表现形式不一定相同
  3. 灵敏度差异:KAGRA和LIGO干涉仪的灵敏度不同,可能导致故障噪声特征的差异

研究动机

基于上述挑战,本研究首次专注于使用无监督学习方法对KAGRA O3GK数据中的故障噪声进行分类,以解决缺乏标注数据的问题。

核心贡献

  1. 首次应用无监督学习到KAGRA数据:验证了VAE架构在KAGRA故障噪声分类中的有效性和泛化能力
  2. 建立完整的无监督分类框架:提出了从数据预处理到最终分类的完整流程,包括VAE特征提取、UMAP降维可视化和谱聚类分类
  3. 识别KAGRA特有的故障噪声类型:在O3GK数据中识别出8个不同的故障噪声类别,为KAGRA的噪声特征建立了基线
  4. 提供实用的噪声分析工具:为未来KAGRA升级和第三代引力波天文台的发展提供了有效的故障噪声分析方法

方法详解

任务定义

输入:KAGRA O3GK观测期间的应变数据时间序列 输出:故障噪声事件的分类标签(8个类别) 约束:无监督学习环境,无人工标注数据

模型架构

1. 数据预处理流程

  • Omicron触发检测:使用Omicron软件从应变数据中识别瞬态噪声事件,生成GPS时间戳数据库
  • Q变换:应用Omega Scan流水线创建时频谱图,设置四个时间窗口(0.5s, 1.0s, 2.0s, 4.0s)
  • 图像处理:将原始800×600像素图像重新缩放为224×224像素,堆叠四个时间窗口形成4×224×224的输入数据,并转换为灰度图

2. VAE架构设计

编码器结构

  • 输入:4通道图像 (4, 224, 224)
  • EncoderBlock(64, ks=7, s=2, p=3) + Max-pooling
  • EncoderBlock(128, ks=3, s=2, p=1)
  • EncoderBlock(256, ks=3, s=2, p=1)
  • EncoderBlock(512, ks=3, s=2, p=1)
  • 自适应平均池化层
  • 线性层输出潜在变量 z ∈ R^dz

解码器结构

  • 输入:潜在变量z
  • 线性层:R^dz → R^(dz×7×7)
  • 批归一化 + ReLU + 上采样
  • 四个DecoderBlock层逐步重构图像

3. UMAP降维可视化

使用UMAP将高维潜在变量降维到3D空间进行可视化:

  • 距离度量:欧几里得距离
  • 邻居数:k = 10
  • 紧密度参数:δ = 0.05

4. 谱聚类分类

使用高斯核函数计算邻接矩阵: aij=exp(xixj22σ2)a_{ij} = \exp\left(-\frac{||x_i - x_j||^2}{2\sigma^2}\right)

采用中位数启发式方法选择σ²: σMH2=Median{xixj21i<jn}\sigma^2_{MH} = \text{Median}\{||x_i - x_j||^2 | 1 \leq i < j \leq n\}

技术创新点

  1. 多时间尺度特征融合:通过堆叠四个不同时间窗口的谱图,捕获故障噪声在不同时间尺度上的特征
  2. 高维潜在空间:采用512维潜在变量,相比传统的低维表示提供更强的表达能力
  3. 谱聚类优化:相比k-means++,谱聚类能更好地处理非凸数据分布,适合复杂的故障噪声模式

实验设置

数据集

  • 数据来源:KAGRA O3GK观测数据,约178小时
  • 检测参数:峰值频率10-2048 Hz,信噪比>7.5
  • 故障事件数:45,345个故障噪声事件,检测率4.63事件/分钟
  • 数据划分:训练集80%,测试集20%

评价指标

  • Davies-Bouldin指数(DBI):评估聚类质量,数值越接近0表示分割效果越好
  • 轮廓系数(Silhouette Coefficient):量化样本与其分配簇的符合程度,接近1表示聚类紧密且分离良好

对比方法

  • k-means++:作为baseline聚类方法进行对比

实现细节

  • VAE超参数:潜在变量维度512,批大小96,训练轮数100,学习率5×10⁻⁴
  • 优化器:Adam优化器
  • 聚类数量:测试4-12个聚类数

实验结果

主要结果

聚类质量评估

  • 最优聚类数:基于DBI评估,谱聚类在8个类别时达到最佳性能
  • 方法对比:谱聚类在DBI评估中明显优于k-means++,后者随着聚类数增加而DBI持续下降
  • 轮廓系数验证:轮廓系数结果与DBI评估一致,证实8个聚类的合理性

故障噪声分类结果

识别出的8个故障噪声类别及其分布:

类别数量(占比)噪声形状描述
0621 (1.4%)Middle line中央线性结构
1294 (0.6%)Lower line底部线性结构
235925 (79.2%)Blips泪滴状,最常见类型
344 (0.1%)Complex复杂形状
44016 (8.9%)Blip & Line垂直线加水平线
54358 (9.6%)Separated Blips分离的Blips
660 (1.3%)Loud响亮噪声
727 (0.6%)Scattered Light散射光

关键发现

  1. 主导噪声类型:类别#2 (Blips)占总噪声的79.2%,是KAGRA O3GK期间最常见的故障噪声
  2. LIGO对比:KAGRA识别的故障类型(8种)少于LIGO Gravity Spy项目的22种,可能与KAGRA在O3GK期间较低的灵敏度有关
  3. 噪声特征:成功识别了与LIGO类似的"Scattered Light"类型,验证了方法的有效性

可视化分析

通过UMAP 3D可视化显示:

  • 故障噪声具有明显的聚类结构
  • 包含几个小聚类和1-2个大聚类
  • 不同聚类数设置下的分割效果差异明显

相关工作

引力波故障检测领域

  • Gravity Spy项目:LIGO开发的监督学习故障分类系统,通过公民科学家标注实现22种故障类型的高精度分类
  • KAGRA噪声分析:之前的研究主要集中在O3GK数据的初步噪声理解,缺乏系统性的分类方法

无监督学习应用

  • Sakai等人的工作:首次将VAE+UMAP+聚类的方法应用于Gravity Spy数据,本文是该方法在KAGRA数据上的首次应用和验证

技术方法

  • VAE在天体物理中的应用:变分自编码器在天体物理数据分析中的应用日益增多
  • 谱聚类:在处理复杂数据分布方面优于传统聚类方法

结论与讨论

主要结论

  1. 方法有效性:无监督学习方法成功应用于KAGRA数据,VAE架构在不同数据集间表现出良好的泛化能力
  2. 噪声特征识别:在O3GK数据中识别出8个不同的故障噪声类别,建立了KAGRA噪声特征的基线
  3. 实用价值:为KAGRA升级和未来第三代引力波天文台的发展提供了有效的分析工具

局限性

  1. 数据限制:仅使用O3GK期间的数据,时间跨度相对较短(178小时)
  2. 灵敏度影响:KAGRA在O3GK期间的灵敏度较低,可能掩盖了一些微弱的故障噪声类型
  3. 验证缺失:缺乏与专家手动分类结果的对比验证

未来方向

  1. O4数据应用:将相同方法应用于当前O4观测数据,研究干涉仪配置变化对故障噪声拓扑结构的影响
  2. 实时分析:利用UMAP的增量学习能力,开发实时故障噪声聚类系统
  3. 多探测器融合:扩展到LIGO-Virgo-KAGRA联合网络的故障噪声分析

深度评价

优点

  1. 方法创新性:首次将成熟的无监督学习框架成功应用于KAGRA数据,解决了缺乏标注数据的实际问题
  2. 技术完整性:提供了从原始数据到最终分类的完整技术流程,具有很强的可复现性
  3. 实验充分性:通过多种评价指标(DBI、轮廓系数)和对比方法验证了结果的可靠性
  4. 实用价值:为引力波探测器的噪声分析提供了实用的工具和方法

不足

  1. 验证局限:缺乏与人工专家分类的对比,难以评估分类的准确性
  2. 参数敏感性:对UMAP和谱聚类的参数选择缺乏充分的敏感性分析
  3. 物理解释:对故障噪声的物理成因分析不足,主要集中在形态学特征

影响力

  1. 学术贡献:为引力波数据分析领域提供了新的无监督学习范式
  2. 实用价值:直接服务于KAGRA探测器的性能优化和数据质量提升
  3. 可扩展性:方法具有良好的可扩展性,可应用于其他引力波探测器

适用场景

  1. 新探测器调试:适用于缺乏历史标注数据的新建引力波探测器
  2. 噪声监测:可用于探测器运行期间的实时噪声监测和分类
  3. 探测器升级:为探测器升级后的噪声特征变化分析提供工具

参考文献

论文中引用的关键文献包括:

  • Zevin et al. (2017, 2024): Gravity Spy项目的核心文献
  • Sakai et al. (2022, 2024): 无监督学习在引力波故障分类中的先驱工作
  • Kingma and Welling (2013): 变分自编码器的原始论文
  • McInnes et al. (2018): UMAP降维方法
  • von Luxburg (2007): 谱聚类方法的经典教程

总体评价:这是一篇技术扎实、应用导向的高质量论文,成功解决了KAGRA探测器故障噪声分类的实际问题。虽然在理论创新方面相对有限,但其实用价值和对引力波探测领域的贡献是显著的。论文的方法学严谨,实验设计合理,为相关领域的研究提供了有价值的参考。