2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink

Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.

academic

TARD: Адаптация домена во время тестирования для надежного обнаружения неисправностей в условиях изменяющихся режимов работы

Основная информация

ID статьи: 2507.16354
Название: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
Авторы: Хан Сан, Ольга Финк (EPFL)
Классификация: stat.AP (Статистика - Приложения)
Дата публикации: 13 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2507.16354

Аннотация

Обнаружение неисправностей в промышленных системах имеет решающее значение для предотвращения отказов и оптимизации производительности. С увеличением объема данных мониторинга состояния методы, управляемые данными, получили широкое распространение при обнаружении неисправностей. Однако эти методы обычно требуют больших, разнообразных и репрезентативных наборов данных для обучения, что на практике трудно достичь, особенно на ранних этапах развертывания. Промышленные системы часто работают в условиях высокой вариативности и постоянно развивающихся режимов, что приводит к смещению распределения между данными обучения и тестирования. Для решения этих проблем в статье предлагается новый метод непрерывной адаптации домена во время тестирования TARD, специально разработанный для поддержки надежного раннего обнаружения неисправностей в условиях смещения домена и ограниченных данных обучения.

Исследовательский контекст и мотивация

Основные проблемы

Дефицит данных: Промышленные системы, особенно вновь развернутое или отремонтированное оборудование, испытывают нехватку полной исторической информации, в частности крайне ограничены данные об отказах
Проблема смещения домена: Существуют значительные различия в условиях эксплуатации между различными единицами оборудования и в одной системе в разные периоды времени, что нарушает предположение i.i.d традиционного машинного обучения
Динамическая среда: Промышленные системы работают в постоянно развивающейся среде, требуя непрерывной адаптации, а не дискретной адаптации домена

Значимость исследования

Раннее обнаружение неисправностей критически важно для оптимизации производительности системы, минимизации затрат на техническое обслуживание и сокращения времени простоя активов
Существующие методы при столкновении со смещением распределения часто дают высокий уровень ложных срабатываний и снижение точности обнаружения
Необходимо поддерживать передачу знаний на уровне парка оборудования, перенося опыт из систем с богатыми данными в новые системы с ограниченными данными

Ограничения существующих методов

Традиционные методы адаптации домена: Требуют большого объема данных исходного и целевого домена, обычно требуют помеченных данных об отказах
Статическая адаптация: Большинство методов предполагают дискретные статические характеристики домена и не могут обрабатывать непрерывно развивающиеся условия эксплуатации
Риск адаптации во время тестирования: Существующие методы TTA могут ошибочно адаптировать режимы отказа к нормальному поведению

Основные вклады

Предложена структура TARD: Структура непрерывной адаптации домена во время тестирования, специально разработанная для безнадзорного обнаружения неисправностей, полностью независимая от помеченных данных об отказах
Инновационная стратегия разделения признаков: Явное разделение входных переменных на управляющие параметры и показания датчиков с применением специализированных стратегий адаптации для каждого класса
Практическая структура: Требует только небольшого количества нормальных образцов целевой системы, подходит для раннего развертывания и передачи знаний на уровне парка оборудования
Эмпирическая проверка: Методология подтверждена на реальных тематических исследованиях двух многофазных потоковых установок

Подробное описание метода

Определение задачи

Дано:

Богатые данные обучения здоровых систем исходного домена: $X^s = [x^s_1, \cdots, x^s_n]$
Ограниченные нормальные данные целевого домена: $X^t = [x^t_1, \cdots, x^t_m]$

Цель: Достичь надежного обнаружения неисправностей в целевом домене $t$ , учитывая:

Оба домена лишены данных обучения об отказах
Ограниченная доступность данных целевого домена
Непрерывное смещение распределения во время вывода

Классификация системных переменных

Входные данные разделены на две группы: $X = [x, w]$

Управляющие переменные $w$ : Переменные управления условиями системы, устанавливаемые оператором или системой управления
Показания датчиков $x$ : Сигналы датчиков, контролирующие компоненты системы и отражающие состояние системы в реальном времени

Архитектура модели

1. Обнаружение аномалий на основе реконструкции

Используется автокодировщик $f_\theta$ в качестве модели реконструкции, обученный на нормальных данных исходного домена: $\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2$

2. Модуль адаптации домена во время тестирования

Введен модуль адаптации $h_\phi$ вместо прямого изменения модели реконструкции:

Вход: Управляющие переменные $w$ и предсказания предварительно обученного автокодировщика
Выход: Компенсационный член $\Delta x$
Принцип проектирования: Избежать адаптации к потенциальному распределению данных об отказах

3. Ключевые технические особенности

Замороженная основная модель: Предварительно обученный автокодировщик $f_\theta$ остается неизменным на этапе адаптации
Слои AdaBN: Интегрированы адаптивные слои нормализации пакета в модуль адаптации, обновляющие среднее значение и дисперсию на основе статистики пакета
Разделенная адаптация: Адаптация применяется только к управляющим переменным, защищая способность обнаружения аномалий показаний датчиков

Механизм оценки и обнаружения неисправностей

Расчет относительного остатка

$r_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}$

Оценка аномалии

$s_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j$

Временное сглаживание

$s_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}$

Определение неисправности

$s_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}$

Экспериментальная установка

Наборы данных

1. Установка трехфазного потока Cranfield

Контролируемые переменные: 24 переменные процесса (давление, расход, уровень жидкости, плотность, температура, положение клапана)
Управляющие переменные: Уставки расхода воздуха и воды
Типы неисправностей: 6 типов (закупорка воздушной магистрали, закупорка водяной магистрали, закупорка входа верхнего сепаратора, открытие прямого байпаса, условия пробкообразного потока, повышение давления в трубопроводе 2 дюйма)
Частота дискретизации: 1 Гц

2. Гетерогенный эталонный набор данных PRONTO

Контролируемые переменные: 15 переменных процесса
Условия эксплуатации: 20 различных комбинаций расходов воздуха и воды
Типы неисправностей: 3 типа (утечка воздуха, закупорка воздуха, отвод потока)
Частота дискретизации: 1 Гц

Метрики оценки

Точность (Accuracy): Общая доля правильных предсказаний
F1-оценка: Гармоническое среднее точности и полноты
AUC: Площадь под кривой ROC

Методы сравнения

Baseline: Модель, обученная только на исходном домене
AdaBN: Адаптивная нормализация пакета
MMD: Максимальное среднее расхождение

Детали реализации

Оптимизатор: Adam, скорость обучения 1e-5
Размер пакета: 128
Количество эпох: 500 для автокодировщика, 50 для модуля адаптации
Архитектура: Кодировщик и декодировщик по 3 полносвязных слоя, размеры 50-50-10

Результаты экспериментов

Основные результаты

Результаты на наборе данных Cranfield

Тип неисправности	Baseline	AdaBN	MMD	TARD
Закупорка воздушной магистрали	F1: 0.43	F1: 0.43	F1: 0.47	F1: 0.70
Закупорка водяной магистрали	F1: 0.67	F1: 0.62	F1: 0.69	F1: 0.76
Закупорка входа верхнего сепаратора	F1: 0.63	F1: 0.65	F1: 0.64	F1: 0.79
Открытие прямого байпаса	F1: 0.53	F1: 0.60	F1: 0.56	F1: 0.69
Условия пробкообразного потока	F1: 0.85	F1: 0.88	F1: 0.89	F1: 0.92
Повышение давления в трубопроводе 2 дюйма	F1: 0.94	F1: 0.98	F1: 1.00	F1: 1.00

Результаты на наборе данных PRONTO

Тип неисправности	Baseline	AdaBN	MMD	TARD
Утечка воздуха	F1: 0.62	F1: 0.36	F1: 0.51	F1: 0.76
Закупорка воздуха	F1: 0.93	F1: 0.88	F1: 0.96	F1: 0.94
Отвод потока	F1: 0.11	F1: 0.51	F1: 0.51	F1: 0.69

Абляционные исследования

При различных условиях эксплуатации для случая закупорки входа верхнего сепаратора на наборе данных Cranfield:

Изменяющиеся условия: TARD показывает лучшие результаты в динамической среде (F1: 0.86 против MMD: 0.79)
Установившиеся условия: TARD сохраняет преимущество и в большинстве установившихся условий

Количественная оценка неопределенности

Через глубокий ансамбль (10 независимых моделей) подтверждена высокая достоверность результатов обнаружения TARD, с узкими полосами неопределенности во время обнаружения неисправностей (стандартное отклонение примерно 0.8).

Эксперименты на синтетических данных высокой размерности

100-мерные датчики: F1 повышается с 0.42 до 0.67
1000-мерные датчики: F1 повышается с 0.10 до 0.48
Задержка вывода: Остается в пределах требований мониторинга в реальном времени (<2 мс)

Связанные работы

Методы обнаружения неисправностей

Вероятностные модели: Гауссовы смешанные модели, модели на основе энергии
Классификация одного класса: Методы дискриминантной границы, такие как машины опорных векторов
Методы реконструкции: Методы, основанные на ошибке реконструкции, такие как автокодировщики

Обнаружение неисправностей на уровне парка оборудования

Однородные подпарки: Методы, основанные на кластеризации по сходству
Обучение функциональному представлению: Методы обучения поведению всего парка
Ограничения: Зависимость от достаточного предположения о сходстве

Применение адаптации домена к обнаружению неисправностей

Методы минимизации расхождения: Минимизация статистического расстояния, такая как MMD
Противоборствующие методы: Сети дискриминации домена, такие как DANN
Адаптация во время тестирования: Методы Tent, SHOT и другие
Проблемы: Требование помеченных данных, предположение о статическом домене, возможность адаптации к данным об отказах

Выводы и обсуждение

Основные выводы

TARD успешно решает три основные проблемы в промышленном обнаружении неисправностей: отсутствие помеченных данных об отказах, ограниченность данных целевого домена, непрерывное смещение домена
Стратегия разделения признаков эффективно различает изменения условий эксплуатации и фактические неисправности
Значительно превосходит существующие методы адаптации домена на двух реальных промышленных наборах данных

Ограничения

Настройка параметров: Параметр чувствительности обнаружения неисправностей α требует ручной установки
Значительные изменения системы: Отсутствуют механизмы защиты от постоянных значительных изменений системы
Временная динамика: Текущая стратегия временного сглаживания остатков может потерять важные временные детали

Направления будущих исследований

Автоматические механизмы защиты: Разработка методов обнаружения значительного смещения домена и запуска переобучения модуля адаптации
Адаптивная настройка параметров: Методы автоматической настройки параметра чувствительности α
Анализ временных рядов: Введение специализированных моделей временных рядов для анализа сложных закономерностей в последовательностях остатков

Глубокая оценка

Преимущества

Высокая практичность: Решает реальные проблемы, существующие в промышленности, требует только небольшое количество нормальных данных
Техническая инновация: Дизайн стратегии разделения признаков и специализированной адаптации остроумен и эффективен
Полная экспериментальная проверка: Комплексная проверка на двух реальных промышленных наборах данных плюс синтетические данные высокой размерности
Четкая теоретическая основа: Четкое определение проблемы и мотивация метода

Недостатки

Область применения: Основная проверка проведена на системах многофазного потока, обобщаемость на другие промышленные системы требует дальнейшей проверки
Теоретический анализ: Отсутствуют теоретические гарантии сходимости и стабильности метода
Вычислительные затраты: Хотя время вывода указано, отсутствует подробный анализ вычислительной сложности
Чувствительность к гиперпараметрам: Недостаточный анализ чувствительности к ключевым гиперпараметрам (таким как α, длина окна l)

Влияние

Академический вклад: Предоставляет новое направление исследований для области промышленного обнаружения неисправностей
Практическая ценность: Непосредственно применимо к промышленному развертыванию, особенно для раннего мониторинга новых устройств
Воспроизводимость: Предоставляет подробные детали реализации и описание алгоритма

Применимые сценарии

Вновь развернутые системы: Промышленное оборудование с ограниченной исторической информацией
Управление парком оборудования: Сценарии, требующие передачи знаний между устройствами
Динамическая среда: Промышленные системы с постоянно меняющимися условиями эксплуатации
Критическая инфраструктура: Важные промышленные системы, чувствительные к ложным срабатываниям

Библиография

Статья цитирует 51 соответствующую работу, охватывающую важные работы в основных областях обнаружения неисправностей, адаптации домена и глубокого обучения, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья по прикладной статистике, которая успешно применяет технологию адаптации домена к важной практической проблеме промышленного обнаружения неисправностей. Метод хорошо разработан, экспериментальная проверка полна, обладает сильной практической ценностью и академической значимостью.