2025-11-23T20:22:17.730418

Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning

Oshino, Sakai, Meyer-Conde et al.

Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.

academic

Классификация шумов сбоев в данных наблюдений KAGRA O3GK с использованием неконтролируемого машинного обучения

Основная информация

ID статьи: 2510.14291
Название: Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
Авторы: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
Классификация: gr-qc (General Relativity and Quantum Cosmology), astro-ph.IM (Instrumentation and Methods for Astrophysics)
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14291

Аннотация

Гравитационно-волновые интерферометры подвергаются воздействию различных типов нестационарного шума (называемого шумом сбоев), которые влияют на анализ данных и чувствительность интерферометра. Точное выявление и классификация шумов сбоев имеет решающее значение для повышения надежности наблюдений гравитационных волн. В данном исследовании продемонстрирована эффективность неконтролируемого машинного обучения при классификации изображений нестационарного шума в данных KAGRA O3GK. С использованием вариационного автокодировщика (VAE) в сочетании со спектральной кластеризацией выявлены восемь различных категорий шумов сбоев. Скрытые переменные, полученные из VAE, подвергнуты снижению размерности, визуализированы в трехмерном пространстве и классифицированы с помощью спектральной кластеризации для лучшего понимания характеристик шумов сбоев KAGRA в период O3GK.

Предпосылки и мотивация исследования

Определение проблемы

Детекторы гравитационных волн во время наблюдений подвергаются воздействию различных переходных шумов окружающей среды и приборов, таких как колебания грунта, молнии, сигналы управления маятником и колебания лазера. Эти нестационарные негауссовы шумы называются шумами "сбоев" (glitch), которые смешиваются с данными гравитационных волн и влияют на качество анализа данных.

Значимость проблемы

Значимость обнаружения и классификации шумов сбоев проявляется в трех аспектах:

Разделение сигналов: Методы обнаружения сбоев способны отделить шумы сбоев от гравитационных волн, порождаемых астрофизическими явлениями
Идентификация источников: Методы классификации сбоев помогают выявить источники шумов сбоев
Повышение производительности: Выявление источников шумов сбоев способствует их устранению, увеличивает объем данных, доступных для анализа, и повышает чувствительность интерферометра

Ограничения существующих методов

Хотя проект Gravity Spy компании LIGO достиг высокоточной контролируемой классификации 22 типов шумов сбоев путем привлечения граждан-ученых для аннотирования обучающих данных, этот метод сталкивается со следующими проблемами при применении к KAGRA:

Отсутствие ручной аннотации: KAGRA не имеет помощи граждан-ученых, как в проекте Gravity Spy, для ручной классификации и аннотирования
Различия в интерферометрах: Конфигурации интерферометров KAGRA и LIGO различаются, и одинаковые шумы сбоев могут проявляться по-разному
Различия в чувствительности: Чувствительность интерферометров KAGRA и LIGO различается, что может привести к различиям в характеристиках шумов сбоев

Мотивация исследования

На основе вышеуказанных проблем данное исследование впервые сосредоточено на использовании методов неконтролируемого обучения для классификации шумов сбоев в данных KAGRA O3GK с целью решения проблемы отсутствия аннотированных данных.

Основные вклады

Первое применение неконтролируемого обучения к данным KAGRA: Подтверждена эффективность и обобщающая способность архитектуры VAE при классификации шумов сбоев KAGRA
Разработка полной структуры неконтролируемой классификации: Предложен полный процесс от предварительной обработки данных до окончательной классификации, включающий извлечение признаков VAE, визуализацию снижения размерности UMAP и спектральную кластеризацию
Выявление типов шумов сбоев, характерных для KAGRA: В данных O3GK выявлены 8 различных категорий шумов сбоев, установлена базовая линия характеристик шумов KAGRA
Предоставление практических инструментов анализа шумов: Предложены эффективные методы анализа шумов сбоев для будущих модернизаций KAGRA и развития детекторов гравитационных волн третьего поколения

Подробное описание методов

Определение задачи

Входные данные: Временные ряды данных деформации во время периода наблюдений KAGRA O3GK Выходные данные: Метки классификации событий шумов сбоев (8 категорий) Ограничения: Среда неконтролируемого обучения без ручной аннотации данных

Архитектура модели

1. Процесс предварительной обработки данных

Обнаружение триггеров Omicron: Использование программного обеспечения Omicron для выявления переходных событий шума из данных деформации, создание базы данных временных меток GPS
Q-преобразование: Применение конвейера Omega Scan для создания спектрограмм времени-частоты с четырьмя временными окнами (0.5s, 1.0s, 2.0s, 4.0s)
Обработка изображений: Масштабирование исходных изображений размером 800×600 пикселей до 224×224 пикселей, объединение четырех временных окон в данные размером 4×224×224, преобразование в полутоновые изображения

2. Архитектура VAE

Структура кодировщика:

Входные данные: 4-канальное изображение (4, 224, 224)
EncoderBlock(64, ks=7, s=2, p=3) + Max-pooling
EncoderBlock(128, ks=3, s=2, p=1)
EncoderBlock(256, ks=3, s=2, p=1)
EncoderBlock(512, ks=3, s=2, p=1)
Адаптивный слой среднего пулинга
Линейный слой, выводящий скрытую переменную z ∈ R^dz

Структура декодировщика:

Входные данные: скрытая переменная z
Линейный слой: R^dz → R^(dz×7×7)
Пакетная нормализация + ReLU + повышение дискретизации
Четыре слоя DecoderBlock для постепенной реконструкции изображения

3. Снижение размерности UMAP и визуализация

Использование UMAP для снижения размерности высокомерных скрытых переменных до 3D-пространства для визуализации:

Метрика расстояния: Евклидово расстояние
Количество соседей: k = 10
Параметр плотности: δ = 0.05

4. Спектральная кластеризация

Использование гауссовой функции ядра для вычисления матрицы смежности: $a_{ij} = \exp\left(-\frac{||x_i - x_j||^2}{2\sigma^2}\right)$

Применение эвристики медианы для выбора σ²: $\sigma^2_{MH} = \text{Median}\{||x_i - x_j||^2 | 1 \leq i < j \leq n\}$

Технические инновации

Объединение признаков на нескольких временных шкалах: Путем объединения спектрограмм четырех различных временных окон захватываются характеристики шумов сбоев на разных временных шкалах
Высокомерное скрытое пространство: Использование 512-мерной скрытой переменной обеспечивает более сильную выразительную способность по сравнению с традиционными низкомерными представлениями
Оптимизация спектральной кластеризации: По сравнению с k-means++, спектральная кластеризация лучше справляется с невыпуклым распределением данных, что подходит для сложных паттернов шумов сбоев

Экспериментальная установка

Набор данных

Источник данных: Данные наблюдений KAGRA O3GK, примерно 178 часов
Параметры обнаружения: Пиковая частота 10-2048 Гц, отношение сигнал-шум > 7.5
Количество событий сбоев: 45,345 событий шумов сбоев, частота обнаружения 4.63 события/минуту
Разделение данных: Обучающий набор 80%, тестовый набор 20%

Метрики оценки

Индекс Дэвиса-Болдина (DBI): Оценка качества кластеризации, значения ближе к 0 указывают на лучшее разделение
Коэффициент силуэта (Silhouette Coefficient): Количественная оценка соответствия образца назначенному кластеру, значения близкие к 1 указывают на плотную и хорошо разделенную кластеризацию

Методы сравнения

k-means++: Используется как базовый метод кластеризации для сравнения

Детали реализации

Гиперпараметры VAE: Размерность скрытой переменной 512, размер пакета 96, количество эпох обучения 100, скорость обучения 5×10⁻⁴
Оптимизатор: Оптимизатор Adam
Количество кластеров: Тестирование 4-12 кластеров

Результаты экспериментов

Основные результаты

Оценка качества кластеризации

Оптимальное количество кластеров: На основе оценки DBI спектральная кластеризация достигает оптимальной производительности при 8 категориях
Сравнение методов: Спектральная кластеризация явно превосходит k-means++ в оценке DBI, при этом последний показывает постоянное снижение DBI с увеличением количества кластеров
Проверка коэффициента силуэта: Результаты коэффициента силуэта согласуются с оценкой DBI, подтверждая обоснованность 8 кластеров

Результаты классификации шумов сбоев

Выявленные 8 категорий шумов сбоев и их распределение:

Категория	Количество (доля)	Форма шума	Описание
0	621 (1.4%)	Middle line	Центральная линейная структура
1	294 (0.6%)	Lower line	Нижняя линейная структура
2	35925 (79.2%)	Blips	Каплевидная форма, наиболее распространенный тип
3	44 (0.1%)	Complex	Сложная форма
4	4016 (8.9%)	Blip & Line	Вертикальная линия плюс горизонтальная линия
5	4358 (9.6%)	Separated Blips	Разделенные Blips
6	60 (1.3%)	Loud	Громкий шум
7	27 (0.6%)	Scattered Light	Рассеянный свет

Ключевые выводы

Доминирующий тип шума: Категория #2 (Blips) составляет 79.2% от общего шума, являясь наиболее распространенным типом шумов сбоев в KAGRA O3GK
Сравнение с LIGO: Количество выявленных типов сбоев в KAGRA (8 типов) меньше, чем в проекте LIGO Gravity Spy (22 типа), что может быть связано с более низкой чувствительностью KAGRA в период O3GK
Характеристики шумов: Успешно выявлены типы шумов, аналогичные LIGO, такие как "Scattered Light", что подтверждает эффективность метода

Анализ визуализации

Трехмерная визуализация UMAP показывает:

Явную кластерную структуру шумов сбоев
Наличие нескольких малых кластеров и 1-2 больших кластеров
Явные различия в эффектах разделения при различных настройках количества кластеров

Связанные работы

Область обнаружения сбоев гравитационных волн

Проект Gravity Spy: Система контролируемой классификации сбоев, разработанная LIGO, достигающая высокоточной классификации 22 типов сбоев путем аннотирования граждан-ученых
Анализ шумов KAGRA: Предыдущие исследования в основном сосредоточены на предварительном понимании шумов данных O3GK, без систематического метода классификации

Применение неконтролируемого обучения

Работа Sakai и др.: Первое применение метода VAE+UMAP+кластеризация к данным Gravity Spy; данная статья является первым применением и проверкой этого метода на данных KAGRA

Технические методы

Применение VAE в астрофизике: Растущее применение вариационных автокодировщиков в анализе астрофизических данных
Спектральная кластеризация: Превосходит традиционные методы кластеризации при работе со сложным распределением данных

Заключение и обсуждение

Основные выводы

Эффективность метода: Метод неконтролируемого обучения успешно применен к данным KAGRA, архитектура VAE демонстрирует хорошую обобщающую способность между различными наборами данных
Выявление характеристик шумов: В данных O3GK выявлены 8 различных категорий шумов сбоев, установлена базовая линия характеристик шумов KAGRA
Практическая ценность: Предоставлены эффективные инструменты анализа для модернизации KAGRA и развития детекторов гравитационных волн третьего поколения

Ограничения

Ограничения данных: Использованы только данные периода O3GK с относительно коротким временным диапазоном (178 часов)
Влияние чувствительности: Более низкая чувствительность KAGRA в период O3GK может скрывать некоторые слабые типы шумов сбоев
Отсутствие проверки: Отсутствует сравнение с результатами ручной классификации экспертов

Направления будущих исследований

Применение к данным O4: Применение того же метода к текущим данным наблюдений O4, исследование влияния изменений конфигурации интерферометра на топологическую структуру шумов сбоев
Анализ в реальном времени: Использование возможностей инкрементного обучения UMAP для разработки системы кластеризации шумов сбоев в реальном времени
Объединение нескольких детекторов: Расширение на анализ шумов сбоев объединенной сети LIGO-Virgo-KAGRA

Глубокая оценка

Преимущества

Методологическая инновативность: Впервые успешно применена зрелая структура неконтролируемого обучения к данным KAGRA, решена практическая проблема отсутствия аннотированных данных
Техническая полнота: Предоставлен полный технический процесс от исходных данных до окончательной классификации с высокой воспроизводимостью
Достаточность экспериментов: Результаты проверены с использованием множества метрик оценки (DBI, коэффициент силуэта) и методов сравнения
Практическая ценность: Предоставлены практические инструменты и методы для анализа шумов детекторов гравитационных волн

Недостатки

Ограничения проверки: Отсутствует сравнение с классификацией человеческих экспертов, что затрудняет оценку точности классификации
Чувствительность параметров: Недостаточный анализ чувствительности к выбору параметров UMAP и спектральной кластеризации
Физическая интерпретация: Недостаточный анализ физических причин шумов сбоев, основное внимание уделяется морфологическим характеристикам

Влияние

Академический вклад: Предоставлена новая парадигма неконтролируемого обучения для области анализа данных гравитационных волн
Практическая ценность: Прямое применение для оптимизации производительности детектора KAGRA и повышения качества данных
Масштабируемость: Метод обладает хорошей масштабируемостью и может быть применен к другим детекторам гравитационных волн

Применимые сценарии

Отладка новых детекторов: Применимо к новым детекторам гравитационных волн, не имеющим исторических аннотированных данных
Мониторинг шумов: Может использоваться для мониторинга и классификации шумов в реальном времени во время работы детектора
Модернизация детектора: Предоставляет инструменты для анализа изменений характеристик шумов после модернизации детектора

Библиография

Ключевые источники, цитируемые в статье:

Zevin et al. (2017, 2024): Основные работы проекта Gravity Spy
Sakai et al. (2022, 2024): Пионерские работы по неконтролируемому обучению в классификации сбоев гравитационных волн
Kingma and Welling (2013): Оригинальная статья о вариационных автокодировщиках
McInnes et al. (2018): Метод снижения размерности UMAP
von Luxburg (2007): Классический учебник по методу спектральной кластеризации

Общая оценка: Это высококачественная статья с прочной технической базой и прикладной ориентацией, успешно решившая практическую проблему классификации шумов сбоев детектора KAGRA. Хотя теоретические инновации относительно ограничены, практическая ценность и вклад в область обнаружения гравитационных волн значительны. Методология статьи строга, экспериментальный дизайн обоснован, что предоставляет ценные ориентиры для соответствующих исследований.