Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
- ID статьи: 2510.26008
- Название: Detecting Anomalies in Systems for AI Using Hardware Telemetry
- Авторы: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (Оксфордский университет)
- Классификация: cs.PF (Производительность), cs.AR (Архитектура компьютеров), cs.DC (Распределённые вычисления), cs.LG (Машинное обучение)
- Дата публикации: 31 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2510.26008v2
Современное машинное обучение развилось в тесно интегрированную полнофункциональную экосистему, объединяющую аппаратное обеспечение, программное обеспечение, сетевые компоненты и приложения. Многие пользователи полагаются на облачных провайдеров для получения эластичных, изолированных и экономичных ресурсов. Однако эти платформы как услуга используют виртуализацию, что приводит к отсутствию у операторов информации о рабочих нагрузках пользователей. Это препятствует оптимизации ресурсов операторами, что критически важно для обеспечения экономической эффективности и минимизации времени выполнения. В данной статье предлагается, что оптимизация на уровне системы возможна без знания рабочей нагрузки. Мы представляем Reveal — подход, ориентированный на аппаратное обеспечение, полагающийся исключительно на аппаратные сигналы, полностью доступные операторам. Путём анализа производительности более 30 популярных моделей машинного обучения на различных аппаратных платформах была разработана конвейер неконтролируемого обучения для обнаружения аномалий. Используя Reveal, мы успешно выявили проблемы с сетевой и системной конфигурацией, ускорив модель DeepSeek на 5,97%.
- Отсутствие наблюдаемости: Виртуализация облачных платформ скрывает базовое аппаратное обеспечение, операторы не имеют доступа к информации о рабочих нагрузках высокого уровня, что затрудняет оптимизацию на уровне системы
- Сложность обнаружения узких мест производительности: Рабочие нагрузки машинного обучения характеризуются тесной связью между аппаратным и программным обеспечением; небольшие неэффективности могут каскадно привести к снижению производительности системы
- Ограничения существующих инструментов: Требуют интеграции на уровне приложения, высокие накладные расходы во время выполнения (до 90,2%), ограниченный охват
- Специализированные ускорители, такие как GPU, имеют высокую стоимость (десятки тысяч долларов за один GPU)
- Спрос на ресурсы ИИ в облаке, как ожидается, будет расти на 30% в год до 2030 года
- Даже незначительные ошибки конфигурации могут привести к снижению производительности в 1,5 раза
- Распределённое обучение в высокой степени зависит от коллективной коммуникации, подвержено сетевым проблемам
- Зависимость от наблюдаемости высокого уровня: Большинство инструментов требуют информации на уровне приложения, недоступной в виртуализированной среде
- Высокие накладные расходы: Plumber добавляет 21% накладных расходов, RL-Scope добавляет 90,2% времени запуска ядра GPU
- Обнаружение на основе правил: Требует настройки пороговых значений, специфичных для рабочей нагрузки, плохая переносимость
- Ограниченный охват: Анализаторы фреймворков обычно охватывают только приложение и среду выполнения фреймворка
- Предложение фреймворка Reveal: Фреймворк анализа, ориентированный на аппаратное обеспечение, и обнаружения аномалий с высокой переносимостью, развёртываемостью и точностью анализа
- Определение ключевых показателей производительности: Выявлены наборы низкоуровневых показателей производительности, представляющих поведение рабочих нагрузок машинного обучения на аппаратном обеспечении; все собранные наборы данных открыты
- Разработка конвейера неконтролируемого обнаружения: Успешное обнаружение проблем производительности в контейнеризированных рабочих нагрузках машинного обучения, выявление узких мест системы и ускорение DeepSeek на 5,97%
Входные данные: Телеметрия аппаратного обеспечения на уровне хоста (метрики CPU, GPU, памяти, сети, хранилища)
Выходные данные: Обнаружение аномальных окон, атрибуция подсистемы, отчёт анализа первопричины
Ограничения: Использование только аппаратных сигналов, доступных операторам, без знания рабочей нагрузки высокого уровня
- Использует perf, procfs, nvidia-smi, стандартные инструменты Linux для сбора примерно 150 уникальных типов метрик
- Расширяется до 700+ временных рядов при репликации по ядрам CPU и GPU
- Накладные расходы CPU остаются ниже 1,5%
- Фильтрация метрик: Обрезка на основе корреляции, сохранение примерно 60% метрик при пороге |r|=0,5
- Производные метрики: Вычисление IPC (пропускная способность выполнения), коэффициента ошибок предсказания ветвей, коэффициента промахов кэша и т.д.
- Скользящее окно: Окно 3 секунды, шаг 1 секунда, извлечение статистических и временных признаков
Использует три взаимодополняющих неконтролируемых метода:
- Z-score: Обнаружение нормализованного отклонения, маркировка окон, превышающих 99-й процентиль
- Расстояние Махаланобиса в подпространстве PCA: Учитывает корреляцию между метриками и различия в масштабе
- Изолирующий лес (Isolation Forest): Метод ансамбля на основе деревьев, коэффициент загрязнения 1%
- Подход, ориентированный на аппаратное обеспечение: Полностью основан на аппаратных сигналах, избегает зависимости от наблюдаемости высокого уровня
- Слияние нескольких детекторов: Снижение ложных срабатываний за счёт согласованности между детекторами, повышение точности обнаружения
- Атрибуция подсистемы: Отображение аномалий на конкретные подсистемы аппаратного обеспечения (CPU, GPU, память, сеть, хранилище)
- Кросс-уровневый анализ: Одно аномальное окно может включать несколько связанных сигналов, обеспечивая более сильное свидетельство аномалии
- Приложения машинного обучения: 30+ популярных моделей, включая BERT, BART, ResNet, ViT, VGG, DeepSeek, LLaMA, Mistral
- Типы задач: Классификация текста, табличный вопрос-ответ, классификация изображений, семантическая сегментация
- Наборы данных: GLUE/SST2, WikiSQL, PASCAL VOC, CIFAR, MNIST
- Количество прогонов: 10 прогонов для каждого типа рабочей нагрузки для обеспечения статистической надёжности
- HPC кластер:
- Двухузловая система, GPU NVIDIA Tesla V100 (32 ГБ), CPU Intel Xeon Platinum 8628
- Одноузловая система, четыре GPU NVIDIA H100 (96 ГБ HBM3), CPU Intel Sapphire Rapids
- Локальный кластер:
- 9 серверов, CPU AMD EPYC 7443P (24 ядра), 256 ГБ памяти
- Распределённая установка с 99 контейнерами
- Точность обнаружения: Точность идентификации аномальных окон
- Атрибуция подсистемы: Способность правильно отображать на подсистемы аппаратного обеспечения
- Улучшение производительности: Улучшение времени выполнения от конца к концу
- Оценка накладных расходов: Использование CPU, требования к хранилищу, время выполнения детектора
- Накладные расходы CPU: 1,2-1,4% при интервале выборки 100 мс, снижение ниже 0,6% при 600 мс
- Требования к хранилищу: 42-43 КБ/с/хост до фильтрации, 14-22 КБ/с после фильтрации
- Задержка обнаружения: Извлечение признаков 1,46±0,02 с, сквозное 2,26±0,17 с
- Стабильность метрик: 99,75% пар рабочая нагрузка-метрика показывают статистически значимое сходство (p<0,05)
- Согласованность между конфигурациями: Медиана IoU по умолчанию vs детальная настройка 0,50, коэффициент попадания 0,92
- Обнаружение: Окна 118-123 показывают снижение IPC и увеличение циклов промахов L3
- Анализ: Трансокетная память и трафик PCIe приводят к увеличению задержки
- Исправление: NUMA-осведомлённое связывание, привязка процессов к одному узлу NUMA
- Результат: Микротонирование DeepSeek-7B улучшилось с 1823,4±46,1 с до 1714,6±70,0 с (улучшение на 5,97%)
- Обнаружение: Увеличение CPU Busy%, всплески трафика ib0 TX/RX, снижение мощности GPU
- Анализ: Конфигурация с одним QP приводит к узкому месту обработки завершения
- Исправление: Увеличение с 1QP до конфигурации 2QP
- Результат: Время выполнения улучшилось с 1825,4±46,1 с до 1769,3±16,7 с (улучшение на 3,1%)
- Обнаружение: Аномалия дисперсии CPU Busy% и счётчиков IRQ
- Исправление: Включение службы irqbalance для автоматического распределения нагрузки прерываний
- Результат: Аномалия повторной передачи TCP снизилась с 6,07% до 3,51%
- Обнаружение: Аномалия использования памяти между узлами
- Анализ: Предварительно выделенные 1 ГиБ HugePages сообщаются как "используемая" память
- Исправление: Конфигурация по умолчанию для выделения 2 МиБ HugePages
- Возможность обнаружения: Различие между внутренней повторной передачей рабочей нагрузки и повторной передачей, вызванной сбоем
- Глубина анализа: Предоставление кросс-уровневого контекста от счётчиков транспортного уровня до всплесков CPU IRQ и остановок GPU
- HPC кластер: Доминируют сигналы со стороны CPU (Bzy_MHz, IRQ), составляя более 50% признаков аномалий
- Локальный кластер: Аномалии сосредоточены в подсистемах памяти и ввода-вывода, с всплесками writeback и накоплением грязных страниц
- Кросс-среда: Повторная передача TCP появляется в обеих средах, обычно связана с дисбалансом NCCL
Согласно Таблице 1 статьи, существующие методы делятся на три категории:
- Анализаторы на уровне приложения: TensorFlow Profiler, PyTorch Profiler — требуют инструментирования кода
- Системные инструменты: AWS SageMaker, Prometheus — обнаружение на основе правил
- Низкоуровневая трассировка: Инструменты BCC/eBPF, RL-Scope — высокие накладные расходы или ограниченный охват
- Без инструментирования: Полностью основан на телеметрии на уровне хоста
- Полный охват подсистем: CPU, GPU, память, сеть, хранилище
- Автоматическое обнаружение аномалий: Методы неконтролируемого машинного обучения
- Атрибуция аппаратного обеспечения: Отображение аномалий на конкретные компоненты аппаратного обеспечения
- Осуществимость подхода, ориентированного на аппаратное обеспечение: Использование только аппаратных сигналов позволяет эффективно обнаруживать аномалии в рабочих нагрузках машинного обучения
- Эффективность неконтролируемого обнаружения: Комбинация трёх детекторов точно выявляет различные типы аномалий
- Практическое улучшение производительности: Успешное выявление и исправление проблем конфигурации, достижение значительного улучшения производительности
- Высокая переносимость: 91% кода переносим между платформами
- Статическая конфигурация: В настоящее время используются фиксированные частота выборки и размер окна, невозможна адаптация к динамике рабочей нагрузки
- Пассивное обнаружение: Может только обнаруживать аномалии, не может автоматически решать проблемы
- Ручное исправление: Требует ручного вмешательства оператора для исправления проблем
- Адаптивная выборка: Регулировка частоты выборки на основе эвристических методов
- Автоматическое исправление: Исследование лёгких вмешательств во время выполнения, таких как автоматическое срабатывание перебалансировки IRQ
- Расширение детекторов: Исследование дополнительных методов неконтролируемого обнаружения аномалий
- Высокая инновационность: Первый подход к обнаружению аномалий машинного обучения, использующий исключительно аппаратные сигналы, решает проблему наблюдаемости в облачной среде
- Достаточные эксперименты: Тестирование на различных аппаратных платформах с 30+ моделями, богатый набор данных
- Высокая практическая ценность: Низкие накладные расходы (<2% CPU), высокая переносимость (91% переиспользуемого кода)
- Убедительные результаты: Улучшение производительности на 5,97% доказывает эффективность метода
- Вклад в открытый исходный код: Предоставление полного набора данных и набора инструментов
- Задержка обнаружения: Задержка от конца к концу 2,26 секунды может быть неприемлема для приложений реального времени
- Инженерия признаков: Процесс выбора метрик и извлечения признаков относительно сложен, требует специальных знаний
- Область оценки: Тестирование в основном в академической среде; сложность производственной среды может привести к новым вызовам
- Глубина анализа первопричины: Хотя может атрибутировать подсистемам, конкретный анализ первопричины всё ещё требует ручного вмешательства
- Академический вклад: Предоставляет новое направление исследований для мониторинга производительности систем машинного обучения
- Практическая ценность: Предоставляет облачным провайдерам решение для мониторинга без вторжения в среду пользователя
- Воспроизводимость: Открытый код и наборы данных поддерживают воспроизведение и расширение исследований
- Облачные провайдеры: Требуют оптимизации производительности без доступа к рабочим нагрузкам пользователей
- Центры HPC: Требуют мониторинга и диагностики проблем производительности рабочих нагрузок машинного обучения
- Граничные вычисления: Лёгкий мониторинг в среде с ограниченными ресурсами
- Научные учреждения: Анализ и оптимизация производительности систем машинного обучения
Статья цитирует 77 соответствующих источников, охватывающих:
- Инструменты анализа производительности машинного обучения: Hotline, RL-Scope, Plumber и др.
- Методы обнаружения аномалий: Изолирующий лес, PCA, расстояние Махаланобиса и др.
- Системный мониторинг: Prometheus, AWS CloudWatch и др.
- Фреймворки машинного обучения: PyTorch, TensorFlow и др.
Общая оценка: Это высококачественная системная исследовательская работа, предлагающая инновационный метод обнаружения аномалий, ориентированный на аппаратное обеспечение, решающий практические проблемы мониторинга рабочих нагрузок машинного обучения в облачной среде. Экспериментальная конструкция достаточна, результаты убедительны и имеют значительную ценность как для академического сообщества, так и для промышленности.