2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.

Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.

academic

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

基本信息

论文ID: 2510.26008
标题: Detecting Anomalies in Systems for AI Using Hardware Telemetry
作者: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (University of Oxford)
分类: cs.PF (Performance), cs.AR (Computer Architecture), cs.DC (Distributed Computing), cs.LG (Machine Learning)
发表时间: 2025年10月31日 (arXiv v2)
论文链接: https://arxiv.org/abs/2510.26008v2

摘要

现代机器学习已发展成为一个紧密耦合的全栈生态系统，结合了硬件、软件、网络和应用。许多用户依赖云提供商获得弹性、隔离且成本高效的资源。然而，这些平台即服务使用虚拟化，导致运营商对用户工作负载缺乏洞察。这阻碍了运营商进行资源优化，而这对确保成本效率和最小化执行时间至关重要。本文提出，系统级优化无需工作负载知识。我们提出了Reveal，采用以硬件为中心的方法，仅依赖运营商完全可访问的硬件信号。通过分析30多个流行ML模型在各种硬件平台上的表现，开发了无监督学习管道来检测异常。使用Reveal，我们成功识别了网络和系统配置问题，将DeepSeek模型加速了5.97%。

研究背景与动机

核心问题

可观测性缺失：云平台的虚拟化隐藏了底层硬件，运营商无法获得高层工作负载信息，难以进行系统级优化
性能瓶颈检测困难：ML工作负载具有紧密的硬件-软件耦合特性，小的低效率可能级联导致系统级性能下降
现有工具局限性：需要应用级集成、运行时开销高（高达90.2%）、覆盖范围有限

问题重要性

GPU等专用加速器成本高昂（单个GPU数万美元）
云端AI资源需求预计到2030年每年增长30%
即使轻微的配置错误也可能导致1.5倍的性能下降
分布式训练对集体通信高度依赖，容易受到网络问题影响

现有方法局限性

高层可观测性依赖：大多数工具需要应用级信息，在虚拟化环境中不可用
高开销：Plumber增加21%开销，RL-Scope增加90.2% GPU内核启动时间
规则驱动检测：需要工作负载特定的阈值调优，可移植性差
覆盖范围有限：框架分析器通常只覆盖应用和框架运行时

核心贡献

提出Reveal框架：基于硬件中心的分析和异常检测框架，具有高可移植性、可部署性和准确分析能力
识别关键性能指标：确定了代表ML工作负载在硬件上行为的低级性能指标集合，并开源所有收集的数据集
开发无监督检测管道：成功检测容器化ML工作负载中的性能问题，识别系统瓶颈并将DeepSeek加速5.97%

使用perf、procfs、nvidia-smi、标准Linux工具收集约150种独特指标类型
跨CPU核心和GPU复制时扩展到700+时间序列通道
CPU开销保持在1.5%以下

2. 指标重分析和特征提取 (Metric Reanalysis and Feature Extraction)

指标筛选：基于相关性驱动的剪枝，在|r|=0.5阈值下保留约60%指标
派生指标：计算IPC（执行吞吐量）、分支误预测率、缓存失效率等
滑动窗口：3秒窗口，1秒步长，提取统计和时间特征

3. 异常检测引擎 (Anomaly Detection Engine)

采用三种互补的无监督方法：

Z-score：标准化偏差检测，标记超过99%分位数的窗口
PCA子空间中的马哈拉诺比斯距离：考虑指标间相关性和尺度差异
孤立森林 (Isolation Forest)：基于树的集成方法，污染率1%

技术创新点

硬件中心方法：完全基于硬件信号，避免对高级可观测性的依赖
多检测器融合：通过检测器间一致性减少误报，提高检测准确性
子系统归因：将异常映射到具体硬件子系统（CPU、GPU、内存、网络、存储）
跨层分析：单个异常窗口可能涉及多个相关信号，提供更强的异常证据

实验设置

数据集

ML应用：30+个流行模型，包括BERT、BART、ResNet、ViT、VGG、DeepSeek、LLaMA、Mistral
任务类型：文本分类、表格问答、图像分类、语义分割
数据集：GLUE/SST2、WikiSQL、PASCAL VOC、CIFAR、MNIST
运行次数：每种工作负载执行10次以确保统计可靠性

实验环境

HPC集群：
- 双节点，NVIDIA Tesla V100 GPU (32GB)，Intel Xeon Platinum 8628 CPU
- 单节点，四个NVIDIA H100 GPU (96GB HBM3)，Intel Sapphire Rapids CPU
本地集群：
- 9服务器，AMD EPYC 7443P CPU（24核心），256GB内存
- 99容器分布式训练设置