2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.

Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.

academic

Обнаружение аномалий в инфраструктуре машинного обучения с использованием аппаратной телеметрии

Основная информация

ID статьи: 2510.26008
Название: Detecting Anomalies in Systems for AI Using Hardware Telemetry
Авторы: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (Оксфордский университет)
Классификация: cs.PF (Производительность), cs.AR (Архитектура компьютеров), cs.DC (Распределённые вычисления), cs.LG (Машинное обучение)
Дата публикации: 31 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.26008v2

Аннотация

Современное машинное обучение развилось в тесно интегрированную полнофункциональную экосистему, объединяющую аппаратное обеспечение, программное обеспечение, сетевые компоненты и приложения. Многие пользователи полагаются на облачных провайдеров для получения эластичных, изолированных и экономичных ресурсов. Однако эти платформы как услуга используют виртуализацию, что приводит к отсутствию у операторов информации о рабочих нагрузках пользователей. Это препятствует оптимизации ресурсов операторами, что критически важно для обеспечения экономической эффективности и минимизации времени выполнения. В данной статье предлагается, что оптимизация на уровне системы возможна без знания рабочей нагрузки. Мы представляем Reveal — подход, ориентированный на аппаратное обеспечение, полагающийся исключительно на аппаратные сигналы, полностью доступные операторам. Путём анализа производительности более 30 популярных моделей машинного обучения на различных аппаратных платформах была разработана конвейер неконтролируемого обучения для обнаружения аномалий. Используя Reveal, мы успешно выявили проблемы с сетевой и системной конфигурацией, ускорив модель DeepSeek на 5,97%.

Исследовательский контекст и мотивация

Основные проблемы

Отсутствие наблюдаемости: Виртуализация облачных платформ скрывает базовое аппаратное обеспечение, операторы не имеют доступа к информации о рабочих нагрузках высокого уровня, что затрудняет оптимизацию на уровне системы
Сложность обнаружения узких мест производительности: Рабочие нагрузки машинного обучения характеризуются тесной связью между аппаратным и программным обеспечением; небольшие неэффективности могут каскадно привести к снижению производительности системы
Ограничения существующих инструментов: Требуют интеграции на уровне приложения, высокие накладные расходы во время выполнения (до 90,2%), ограниченный охват

Важность проблемы

Специализированные ускорители, такие как GPU, имеют высокую стоимость (десятки тысяч долларов за один GPU)
Спрос на ресурсы ИИ в облаке, как ожидается, будет расти на 30% в год до 2030 года
Даже незначительные ошибки конфигурации могут привести к снижению производительности в 1,5 раза
Распределённое обучение в высокой степени зависит от коллективной коммуникации, подвержено сетевым проблемам

Ограничения существующих подходов

Зависимость от наблюдаемости высокого уровня: Большинство инструментов требуют информации на уровне приложения, недоступной в виртуализированной среде
Высокие накладные расходы: Plumber добавляет 21% накладных расходов, RL-Scope добавляет 90,2% времени запуска ядра GPU
Обнаружение на основе правил: Требует настройки пороговых значений, специфичных для рабочей нагрузки, плохая переносимость
Ограниченный охват: Анализаторы фреймворков обычно охватывают только приложение и среду выполнения фреймворка

Основные вклады

Предложение фреймворка Reveal: Фреймворк анализа, ориентированный на аппаратное обеспечение, и обнаружения аномалий с высокой переносимостью, развёртываемостью и точностью анализа
Определение ключевых показателей производительности: Выявлены наборы низкоуровневых показателей производительности, представляющих поведение рабочих нагрузок машинного обучения на аппаратном обеспечении; все собранные наборы данных открыты
Разработка конвейера неконтролируемого обнаружения: Успешное обнаружение проблем производительности в контейнеризированных рабочих нагрузках машинного обучения, выявление узких мест системы и ускорение DeepSeek на 5,97%

Подробное описание методологии

Определение задачи

Входные данные: Телеметрия аппаратного обеспечения на уровне хоста (метрики CPU, GPU, памяти, сети, хранилища) Выходные данные: Обнаружение аномальных окон, атрибуция подсистемы, отчёт анализа первопричины Ограничения: Использование только аппаратных сигналов, доступных операторам, без знания рабочей нагрузки высокого уровня

Архитектура модели

1. Сборщик телеметрии (Telemetry Collector)

Использует perf, procfs, nvidia-smi, стандартные инструменты Linux для сбора примерно 150 уникальных типов метрик
Расширяется до 700+ временных рядов при репликации по ядрам CPU и GPU
Накладные расходы CPU остаются ниже 1,5%

2. Переанализ метрик и извлечение признаков (Metric Reanalysis and Feature Extraction)

Фильтрация метрик: Обрезка на основе корреляции, сохранение примерно 60% метрик при пороге |r|=0,5
Производные метрики: Вычисление IPC (пропускная способность выполнения), коэффициента ошибок предсказания ветвей, коэффициента промахов кэша и т.д.
Скользящее окно: Окно 3 секунды, шаг 1 секунда, извлечение статистических и временных признаков

3. Механизм обнаружения аномалий (Anomaly Detection Engine)

Использует три взаимодополняющих неконтролируемых метода:

Z-score: Обнаружение нормализованного отклонения, маркировка окон, превышающих 99-й процентиль
Расстояние Махаланобиса в подпространстве PCA: Учитывает корреляцию между метриками и различия в масштабе
Изолирующий лес (Isolation Forest): Метод ансамбля на основе деревьев, коэффициент загрязнения 1%

Технические инновации

Подход, ориентированный на аппаратное обеспечение: Полностью основан на аппаратных сигналах, избегает зависимости от наблюдаемости высокого уровня
Слияние нескольких детекторов: Снижение ложных срабатываний за счёт согласованности между детекторами, повышение точности обнаружения
Атрибуция подсистемы: Отображение аномалий на конкретные подсистемы аппаратного обеспечения (CPU, GPU, память, сеть, хранилище)
Кросс-уровневый анализ: Одно аномальное окно может включать несколько связанных сигналов, обеспечивая более сильное свидетельство аномалии

Экспериментальная установка

Набор данных

Приложения машинного обучения: 30+ популярных моделей, включая BERT, BART, ResNet, ViT, VGG, DeepSeek, LLaMA, Mistral
Типы задач: Классификация текста, табличный вопрос-ответ, классификация изображений, семантическая сегментация
Наборы данных: GLUE/SST2, WikiSQL, PASCAL VOC, CIFAR, MNIST
Количество прогонов: 10 прогонов для каждого типа рабочей нагрузки для обеспечения статистической надёжности

Экспериментальная среда

HPC кластер:
- Двухузловая система, GPU NVIDIA Tesla V100 (32 ГБ), CPU Intel Xeon Platinum 8628
- Одноузловая система, четыре GPU NVIDIA H100 (96 ГБ HBM3), CPU Intel Sapphire Rapids
Локальный кластер:
- 9 серверов, CPU AMD EPYC 7443P (24 ядра), 256 ГБ памяти
- Распределённая установка с 99 контейнерами

Метрики оценки

Точность обнаружения: Точность идентификации аномальных окон
Атрибуция подсистемы: Способность правильно отображать на подсистемы аппаратного обеспечения
Улучшение производительности: Улучшение времени выполнения от конца к концу
Оценка накладных расходов: Использование CPU, требования к хранилищу, время выполнения детектора

Результаты экспериментов

Основные результаты

Накладные расходы на производительность

Накладные расходы CPU: 1,2-1,4% при интервале выборки 100 мс, снижение ниже 0,6% при 600 мс
Требования к хранилищу: 42-43 КБ/с/хост до фильтрации, 14-22 КБ/с после фильтрации
Задержка обнаружения: Извлечение признаков 1,46±0,02 с, сквозное 2,26±0,17 с

Эффективность обнаружения аномалий

Стабильность метрик: 99,75% пар рабочая нагрузка-метрика показывают статистически значимое сходство (p<0,05)
Согласованность между конфигурациями: Медиана IoU по умолчанию vs детальная настройка 0,50, коэффициент попадания 0,92

Анализ случаев

Случай 1: Аномалия NUMA (подсистема памяти)

Обнаружение: Окна 118-123 показывают снижение IPC и увеличение циклов промахов L3
Анализ: Трансокетная память и трафик PCIe приводят к увеличению задержки
Исправление: NUMA-осведомлённое связывание, привязка процессов к одному узлу NUMA
Результат: Микротонирование DeepSeek-7B улучшилось с 1823,4±46,1 с до 1714,6±70,0 с (улучшение на 5,97%)

Случай 2: Ошибка конфигурации NCCL-QP (сетевая подсистема)

Обнаружение: Увеличение CPU Busy%, всплески трафика ib0 TX/RX, снижение мощности GPU
Анализ: Конфигурация с одним QP приводит к узкому месту обработки завершения
Исправление: Увеличение с 1QP до конфигурации 2QP
Результат: Время выполнения улучшилось с 1825,4±46,1 с до 1769,3±16,7 с (улучшение на 3,1%)

Случай 3: Дисбаланс IRQ (подсистема CPU)

Обнаружение: Аномалия дисперсии CPU Busy% и счётчиков IRQ
Исправление: Включение службы irqbalance для автоматического распределения нагрузки прерываний
Результат: Аномалия повторной передачи TCP снизилась с 6,07% до 3,51%

Случай 4: Ошибка конфигурации HugePages (подсистема памяти)

Обнаружение: Аномалия использования памяти между узлами
Анализ: Предварительно выделенные 1 ГиБ HugePages сообщаются как "используемая" память
Исправление: Конфигурация по умолчанию для выделения 2 МиБ HugePages

Случай 5: Тестирование внедрённых потерь пакетов (сетевая подсистема)

Возможность обнаружения: Различие между внутренней повторной передачей рабочей нагрузки и повторной передачей, вызванной сбоем
Глубина анализа: Предоставление кросс-уровневого контекста от счётчиков транспортного уровня до всплесков CPU IRQ и остановок GPU

Анализ паттернов аномалий

HPC кластер: Доминируют сигналы со стороны CPU (Bzy_MHz, IRQ), составляя более 50% признаков аномалий
Локальный кластер: Аномалии сосредоточены в подсистемах памяти и ввода-вывода, с всплесками writeback и накоплением грязных страниц
Кросс-среда: Повторная передача TCP появляется в обеих средах, обычно связана с дисбалансом NCCL

Связанные работы

Сравнение существующих методов мониторинга

Согласно Таблице 1 статьи, существующие методы делятся на три категории:

Анализаторы на уровне приложения: TensorFlow Profiler, PyTorch Profiler — требуют инструментирования кода
Системные инструменты: AWS SageMaker, Prometheus — обнаружение на основе правил
Низкоуровневая трассировка: Инструменты BCC/eBPF, RL-Scope — высокие накладные расходы или ограниченный охват

Преимущества Reveal

Без инструментирования: Полностью основан на телеметрии на уровне хоста
Полный охват подсистем: CPU, GPU, память, сеть, хранилище
Автоматическое обнаружение аномалий: Методы неконтролируемого машинного обучения
Атрибуция аппаратного обеспечения: Отображение аномалий на конкретные компоненты аппаратного обеспечения

Заключение и обсуждение

Основные выводы

Осуществимость подхода, ориентированного на аппаратное обеспечение: Использование только аппаратных сигналов позволяет эффективно обнаруживать аномалии в рабочих нагрузках машинного обучения
Эффективность неконтролируемого обнаружения: Комбинация трёх детекторов точно выявляет различные типы аномалий
Практическое улучшение производительности: Успешное выявление и исправление проблем конфигурации, достижение значительного улучшения производительности
Высокая переносимость: 91% кода переносим между платформами

Ограничения

Статическая конфигурация: В настоящее время используются фиксированные частота выборки и размер окна, невозможна адаптация к динамике рабочей нагрузки
Пассивное обнаружение: Может только обнаруживать аномалии, не может автоматически решать проблемы
Ручное исправление: Требует ручного вмешательства оператора для исправления проблем

Направления будущих исследований

Адаптивная выборка: Регулировка частоты выборки на основе эвристических методов
Автоматическое исправление: Исследование лёгких вмешательств во время выполнения, таких как автоматическое срабатывание перебалансировки IRQ
Расширение детекторов: Исследование дополнительных методов неконтролируемого обнаружения аномалий

Глубокая оценка

Преимущества

Высокая инновационность: Первый подход к обнаружению аномалий машинного обучения, использующий исключительно аппаратные сигналы, решает проблему наблюдаемости в облачной среде
Достаточные эксперименты: Тестирование на различных аппаратных платформах с 30+ моделями, богатый набор данных
Высокая практическая ценность: Низкие накладные расходы (<2% CPU), высокая переносимость (91% переиспользуемого кода)
Убедительные результаты: Улучшение производительности на 5,97% доказывает эффективность метода
Вклад в открытый исходный код: Предоставление полного набора данных и набора инструментов

Недостатки

Задержка обнаружения: Задержка от конца к концу 2,26 секунды может быть неприемлема для приложений реального времени
Инженерия признаков: Процесс выбора метрик и извлечения признаков относительно сложен, требует специальных знаний
Область оценки: Тестирование в основном в академической среде; сложность производственной среды может привести к новым вызовам
Глубина анализа первопричины: Хотя может атрибутировать подсистемам, конкретный анализ первопричины всё ещё требует ручного вмешательства

Влияние

Академический вклад: Предоставляет новое направление исследований для мониторинга производительности систем машинного обучения
Практическая ценность: Предоставляет облачным провайдерам решение для мониторинга без вторжения в среду пользователя
Воспроизводимость: Открытый код и наборы данных поддерживают воспроизведение и расширение исследований

Применимые сценарии

Облачные провайдеры: Требуют оптимизации производительности без доступа к рабочим нагрузкам пользователей
Центры HPC: Требуют мониторинга и диагностики проблем производительности рабочих нагрузок машинного обучения
Граничные вычисления: Лёгкий мониторинг в среде с ограниченными ресурсами
Научные учреждения: Анализ и оптимизация производительности систем машинного обучения

Библиография

Статья цитирует 77 соответствующих источников, охватывающих:

Инструменты анализа производительности машинного обучения: Hotline, RL-Scope, Plumber и др.
Методы обнаружения аномалий: Изолирующий лес, PCA, расстояние Махаланобиса и др.
Системный мониторинг: Prometheus, AWS CloudWatch и др.
Фреймворки машинного обучения: PyTorch, TensorFlow и др.

Общая оценка: Это высококачественная системная исследовательская работа, предлагающая инновационный метод обнаружения аномалий, ориентированный на аппаратное обеспечение, решающий практические проблемы мониторинга рабочих нагрузок машинного обучения в облачной среде. Экспериментальная конструкция достаточна, результаты убедительны и имеют значительную ценность как для академического сообщества, так и для промышленности.