Gravitational wave interferometers are disrupted by various types of nonstationary noise, referred to as glitch noise, that affect data analysis and interferometer sensitivity. The accurate identification and classification of glitch noise are essential for improving the reliability of gravitational wave observations. In this study, we demonstrated the effectiveness of unsupervised machine learning for classifying images with nonstationary noise in the KAGRA O3GK data. Using a variational autoencoder (VAE) combined with spectral clustering, we identified eight distinct glitch noise categories. The latent variables obtained from VAE were dimensionally compressed, visualized in three-dimensional space, and classified using spectral clustering to better understand the glitch noise characteristics of KAGRA during the O3GK period. Our results highlight the potential of unsupervised learning for efficient glitch noise classification, which may in turn potentially facilitate interferometer upgrades and the development of future third-generation gravitational wave observatories.
- ID статьи: 2510.14291
- Название: Glitch noise classification in KAGRA O3GK observing data using unsupervised machine learning
- Авторы: Shoichi Oshino, Yusuke Sakai, Marco Meyer-Conde, Takashi Uchiyama, Yousuke Itoh, Yutaka Shikano, Yoshikazu Terada, Hirotaka Takahashi
- Классификация: gr-qc (General Relativity and Quantum Cosmology), astro-ph.IM (Instrumentation and Methods for Astrophysics)
- Дата публикации: 16 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.14291
Гравитационно-волновые интерферометры подвергаются воздействию различных типов нестационарного шума (называемого шумом сбоев), которые влияют на анализ данных и чувствительность интерферометра. Точное выявление и классификация шумов сбоев имеет решающее значение для повышения надежности наблюдений гравитационных волн. В данном исследовании продемонстрирована эффективность неконтролируемого машинного обучения при классификации изображений нестационарного шума в данных KAGRA O3GK. С использованием вариационного автокодировщика (VAE) в сочетании со спектральной кластеризацией выявлены восемь различных категорий шумов сбоев. Скрытые переменные, полученные из VAE, подвергнуты снижению размерности, визуализированы в трехмерном пространстве и классифицированы с помощью спектральной кластеризации для лучшего понимания характеристик шумов сбоев KAGRA в период O3GK.
Детекторы гравитационных волн во время наблюдений подвергаются воздействию различных переходных шумов окружающей среды и приборов, таких как колебания грунта, молнии, сигналы управления маятником и колебания лазера. Эти нестационарные негауссовы шумы называются шумами "сбоев" (glitch), которые смешиваются с данными гравитационных волн и влияют на качество анализа данных.
Значимость обнаружения и классификации шумов сбоев проявляется в трех аспектах:
- Разделение сигналов: Методы обнаружения сбоев способны отделить шумы сбоев от гравитационных волн, порождаемых астрофизическими явлениями
- Идентификация источников: Методы классификации сбоев помогают выявить источники шумов сбоев
- Повышение производительности: Выявление источников шумов сбоев способствует их устранению, увеличивает объем данных, доступных для анализа, и повышает чувствительность интерферометра
Хотя проект Gravity Spy компании LIGO достиг высокоточной контролируемой классификации 22 типов шумов сбоев путем привлечения граждан-ученых для аннотирования обучающих данных, этот метод сталкивается со следующими проблемами при применении к KAGRA:
- Отсутствие ручной аннотации: KAGRA не имеет помощи граждан-ученых, как в проекте Gravity Spy, для ручной классификации и аннотирования
- Различия в интерферометрах: Конфигурации интерферометров KAGRA и LIGO различаются, и одинаковые шумы сбоев могут проявляться по-разному
- Различия в чувствительности: Чувствительность интерферометров KAGRA и LIGO различается, что может привести к различиям в характеристиках шумов сбоев
На основе вышеуказанных проблем данное исследование впервые сосредоточено на использовании методов неконтролируемого обучения для классификации шумов сбоев в данных KAGRA O3GK с целью решения проблемы отсутствия аннотированных данных.
- Первое применение неконтролируемого обучения к данным KAGRA: Подтверждена эффективность и обобщающая способность архитектуры VAE при классификации шумов сбоев KAGRA
- Разработка полной структуры неконтролируемой классификации: Предложен полный процесс от предварительной обработки данных до окончательной классификации, включающий извлечение признаков VAE, визуализацию снижения размерности UMAP и спектральную кластеризацию
- Выявление типов шумов сбоев, характерных для KAGRA: В данных O3GK выявлены 8 различных категорий шумов сбоев, установлена базовая линия характеристик шумов KAGRA
- Предоставление практических инструментов анализа шумов: Предложены эффективные методы анализа шумов сбоев для будущих модернизаций KAGRA и развития детекторов гравитационных волн третьего поколения
Входные данные: Временные ряды данных деформации во время периода наблюдений KAGRA O3GK
Выходные данные: Метки классификации событий шумов сбоев (8 категорий)
Ограничения: Среда неконтролируемого обучения без ручной аннотации данных
- Обнаружение триггеров Omicron: Использование программного обеспечения Omicron для выявления переходных событий шума из данных деформации, создание базы данных временных меток GPS
- Q-преобразование: Применение конвейера Omega Scan для создания спектрограмм времени-частоты с четырьмя временными окнами (0.5s, 1.0s, 2.0s, 4.0s)
- Обработка изображений: Масштабирование исходных изображений размером 800×600 пикселей до 224×224 пикселей, объединение четырех временных окон в данные размером 4×224×224, преобразование в полутоновые изображения
Структура кодировщика:
- Входные данные: 4-канальное изображение (4, 224, 224)
- EncoderBlock(64, ks=7, s=2, p=3) + Max-pooling
- EncoderBlock(128, ks=3, s=2, p=1)
- EncoderBlock(256, ks=3, s=2, p=1)
- EncoderBlock(512, ks=3, s=2, p=1)
- Адаптивный слой среднего пулинга
- Линейный слой, выводящий скрытую переменную z ∈ R^dz
Структура декодировщика:
- Входные данные: скрытая переменная z
- Линейный слой: R^dz → R^(dz×7×7)
- Пакетная нормализация + ReLU + повышение дискретизации
- Четыре слоя DecoderBlock для постепенной реконструкции изображения
Использование UMAP для снижения размерности высокомерных скрытых переменных до 3D-пространства для визуализации:
- Метрика расстояния: Евклидово расстояние
- Количество соседей: k = 10
- Параметр плотности: δ = 0.05
Использование гауссовой функции ядра для вычисления матрицы смежности:
aij=exp(−2σ2∣∣xi−xj∣∣2)
Применение эвристики медианы для выбора σ²:
σMH2=Median{∣∣xi−xj∣∣2∣1≤i<j≤n}
- Объединение признаков на нескольких временных шкалах: Путем объединения спектрограмм четырех различных временных окон захватываются характеристики шумов сбоев на разных временных шкалах
- Высокомерное скрытое пространство: Использование 512-мерной скрытой переменной обеспечивает более сильную выразительную способность по сравнению с традиционными низкомерными представлениями
- Оптимизация спектральной кластеризации: По сравнению с k-means++, спектральная кластеризация лучше справляется с невыпуклым распределением данных, что подходит для сложных паттернов шумов сбоев
- Источник данных: Данные наблюдений KAGRA O3GK, примерно 178 часов
- Параметры обнаружения: Пиковая частота 10-2048 Гц, отношение сигнал-шум > 7.5
- Количество событий сбоев: 45,345 событий шумов сбоев, частота обнаружения 4.63 события/минуту
- Разделение данных: Обучающий набор 80%, тестовый набор 20%
- Индекс Дэвиса-Болдина (DBI): Оценка качества кластеризации, значения ближе к 0 указывают на лучшее разделение
- Коэффициент силуэта (Silhouette Coefficient): Количественная оценка соответствия образца назначенному кластеру, значения близкие к 1 указывают на плотную и хорошо разделенную кластеризацию
- k-means++: Используется как базовый метод кластеризации для сравнения
- Гиперпараметры VAE: Размерность скрытой переменной 512, размер пакета 96, количество эпох обучения 100, скорость обучения 5×10⁻⁴
- Оптимизатор: Оптимизатор Adam
- Количество кластеров: Тестирование 4-12 кластеров
- Оптимальное количество кластеров: На основе оценки DBI спектральная кластеризация достигает оптимальной производительности при 8 категориях
- Сравнение методов: Спектральная кластеризация явно превосходит k-means++ в оценке DBI, при этом последний показывает постоянное снижение DBI с увеличением количества кластеров
- Проверка коэффициента силуэта: Результаты коэффициента силуэта согласуются с оценкой DBI, подтверждая обоснованность 8 кластеров
Выявленные 8 категорий шумов сбоев и их распределение:
| Категория | Количество (доля) | Форма шума | Описание |
|---|
| 0 | 621 (1.4%) | Middle line | Центральная линейная структура |
| 1 | 294 (0.6%) | Lower line | Нижняя линейная структура |
| 2 | 35925 (79.2%) | Blips | Каплевидная форма, наиболее распространенный тип |
| 3 | 44 (0.1%) | Complex | Сложная форма |
| 4 | 4016 (8.9%) | Blip & Line | Вертикальная линия плюс горизонтальная линия |
| 5 | 4358 (9.6%) | Separated Blips | Разделенные Blips |
| 6 | 60 (1.3%) | Loud | Громкий шум |
| 7 | 27 (0.6%) | Scattered Light | Рассеянный свет |
- Доминирующий тип шума: Категория #2 (Blips) составляет 79.2% от общего шума, являясь наиболее распространенным типом шумов сбоев в KAGRA O3GK
- Сравнение с LIGO: Количество выявленных типов сбоев в KAGRA (8 типов) меньше, чем в проекте LIGO Gravity Spy (22 типа), что может быть связано с более низкой чувствительностью KAGRA в период O3GK
- Характеристики шумов: Успешно выявлены типы шумов, аналогичные LIGO, такие как "Scattered Light", что подтверждает эффективность метода
Трехмерная визуализация UMAP показывает:
- Явную кластерную структуру шумов сбоев
- Наличие нескольких малых кластеров и 1-2 больших кластеров
- Явные различия в эффектах разделения при различных настройках количества кластеров
- Проект Gravity Spy: Система контролируемой классификации сбоев, разработанная LIGO, достигающая высокоточной классификации 22 типов сбоев путем аннотирования граждан-ученых
- Анализ шумов KAGRA: Предыдущие исследования в основном сосредоточены на предварительном понимании шумов данных O3GK, без систематического метода классификации
- Работа Sakai и др.: Первое применение метода VAE+UMAP+кластеризация к данным Gravity Spy; данная статья является первым применением и проверкой этого метода на данных KAGRA
- Применение VAE в астрофизике: Растущее применение вариационных автокодировщиков в анализе астрофизических данных
- Спектральная кластеризация: Превосходит традиционные методы кластеризации при работе со сложным распределением данных
- Эффективность метода: Метод неконтролируемого обучения успешно применен к данным KAGRA, архитектура VAE демонстрирует хорошую обобщающую способность между различными наборами данных
- Выявление характеристик шумов: В данных O3GK выявлены 8 различных категорий шумов сбоев, установлена базовая линия характеристик шумов KAGRA
- Практическая ценность: Предоставлены эффективные инструменты анализа для модернизации KAGRA и развития детекторов гравитационных волн третьего поколения
- Ограничения данных: Использованы только данные периода O3GK с относительно коротким временным диапазоном (178 часов)
- Влияние чувствительности: Более низкая чувствительность KAGRA в период O3GK может скрывать некоторые слабые типы шумов сбоев
- Отсутствие проверки: Отсутствует сравнение с результатами ручной классификации экспертов
- Применение к данным O4: Применение того же метода к текущим данным наблюдений O4, исследование влияния изменений конфигурации интерферометра на топологическую структуру шумов сбоев
- Анализ в реальном времени: Использование возможностей инкрементного обучения UMAP для разработки системы кластеризации шумов сбоев в реальном времени
- Объединение нескольких детекторов: Расширение на анализ шумов сбоев объединенной сети LIGO-Virgo-KAGRA
- Методологическая инновативность: Впервые успешно применена зрелая структура неконтролируемого обучения к данным KAGRA, решена практическая проблема отсутствия аннотированных данных
- Техническая полнота: Предоставлен полный технический процесс от исходных данных до окончательной классификации с высокой воспроизводимостью
- Достаточность экспериментов: Результаты проверены с использованием множества метрик оценки (DBI, коэффициент силуэта) и методов сравнения
- Практическая ценность: Предоставлены практические инструменты и методы для анализа шумов детекторов гравитационных волн
- Ограничения проверки: Отсутствует сравнение с классификацией человеческих экспертов, что затрудняет оценку точности классификации
- Чувствительность параметров: Недостаточный анализ чувствительности к выбору параметров UMAP и спектральной кластеризации
- Физическая интерпретация: Недостаточный анализ физических причин шумов сбоев, основное внимание уделяется морфологическим характеристикам
- Академический вклад: Предоставлена новая парадигма неконтролируемого обучения для области анализа данных гравитационных волн
- Практическая ценность: Прямое применение для оптимизации производительности детектора KAGRA и повышения качества данных
- Масштабируемость: Метод обладает хорошей масштабируемостью и может быть применен к другим детекторам гравитационных волн
- Отладка новых детекторов: Применимо к новым детекторам гравитационных волн, не имеющим исторических аннотированных данных
- Мониторинг шумов: Может использоваться для мониторинга и классификации шумов в реальном времени во время работы детектора
- Модернизация детектора: Предоставляет инструменты для анализа изменений характеристик шумов после модернизации детектора
Ключевые источники, цитируемые в статье:
- Zevin et al. (2017, 2024): Основные работы проекта Gravity Spy
- Sakai et al. (2022, 2024): Пионерские работы по неконтролируемому обучению в классификации сбоев гравитационных волн
- Kingma and Welling (2013): Оригинальная статья о вариационных автокодировщиках
- McInnes et al. (2018): Метод снижения размерности UMAP
- von Luxburg (2007): Классический учебник по методу спектральной кластеризации
Общая оценка: Это высококачественная статья с прочной технической базой и прикладной ориентацией, успешно решившая практическую проблему классификации шумов сбоев детектора KAGRA. Хотя теоретические инновации относительно ограничены, практическая ценность и вклад в область обнаружения гравитационных волн значительны. Методология статьи строга, экспериментальный дизайн обоснован, что предоставляет ценные ориентиры для соответствующих исследований.