2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.
Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
academic

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

基本信息

  • 论文ID: 2510.26008
  • 标题: Detecting Anomalies in Systems for AI Using Hardware Telemetry
  • 作者: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (University of Oxford)
  • 分类: cs.PF (Performance), cs.AR (Computer Architecture), cs.DC (Distributed Computing), cs.LG (Machine Learning)
  • 发表时间: 2025年10月31日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2510.26008v2

摘要

现代机器学习已发展成为一个紧密耦合的全栈生态系统,结合了硬件、软件、网络和应用。许多用户依赖云提供商获得弹性、隔离且成本高效的资源。然而,这些平台即服务使用虚拟化,导致运营商对用户工作负载缺乏洞察。这阻碍了运营商进行资源优化,而这对确保成本效率和最小化执行时间至关重要。本文提出,系统级优化无需工作负载知识。我们提出了Reveal,采用以硬件为中心的方法,仅依赖运营商完全可访问的硬件信号。通过分析30多个流行ML模型在各种硬件平台上的表现,开发了无监督学习管道来检测异常。使用Reveal,我们成功识别了网络和系统配置问题,将DeepSeek模型加速了5.97%。

研究背景与动机

核心问题

  1. 可观测性缺失:云平台的虚拟化隐藏了底层硬件,运营商无法获得高层工作负载信息,难以进行系统级优化
  2. 性能瓶颈检测困难:ML工作负载具有紧密的硬件-软件耦合特性,小的低效率可能级联导致系统级性能下降
  3. 现有工具局限性:需要应用级集成、运行时开销高(高达90.2%)、覆盖范围有限

问题重要性

  • GPU等专用加速器成本高昂(单个GPU数万美元)
  • 云端AI资源需求预计到2030年每年增长30%
  • 即使轻微的配置错误也可能导致1.5倍的性能下降
  • 分布式训练对集体通信高度依赖,容易受到网络问题影响

现有方法局限性

  1. 高层可观测性依赖:大多数工具需要应用级信息,在虚拟化环境中不可用
  2. 高开销:Plumber增加21%开销,RL-Scope增加90.2% GPU内核启动时间
  3. 规则驱动检测:需要工作负载特定的阈值调优,可移植性差
  4. 覆盖范围有限:框架分析器通常只覆盖应用和框架运行时

核心贡献

  1. 提出Reveal框架:基于硬件中心的分析和异常检测框架,具有高可移植性、可部署性和准确分析能力
  2. 识别关键性能指标:确定了代表ML工作负载在硬件上行为的低级性能指标集合,并开源所有收集的数据集
  3. 开发无监督检测管道:成功检测容器化ML工作负载中的性能问题,识别系统瓶颈并将DeepSeek加速5.97%

方法详解

任务定义

输入:主机级硬件遥测数据(CPU、GPU、内存、网络、存储指标) 输出:异常窗口检测、子系统归因、根因分析报告 约束:仅使用运营商可访问的硬件级信号,无需高级工作负载知识

模型架构

1. 遥测收集器 (Telemetry Collector)

  • 使用perf、procfs、nvidia-smi、标准Linux工具收集约150种独特指标类型
  • 跨CPU核心和GPU复制时扩展到700+时间序列通道
  • CPU开销保持在1.5%以下

2. 指标重分析和特征提取 (Metric Reanalysis and Feature Extraction)

  • 指标筛选:基于相关性驱动的剪枝,在|r|=0.5阈值下保留约60%指标
  • 派生指标:计算IPC(执行吞吐量)、分支误预测率、缓存失效率等
  • 滑动窗口:3秒窗口,1秒步长,提取统计和时间特征

3. 异常检测引擎 (Anomaly Detection Engine)

采用三种互补的无监督方法:

  • Z-score:标准化偏差检测,标记超过99%分位数的窗口
  • PCA子空间中的马哈拉诺比斯距离:考虑指标间相关性和尺度差异
  • 孤立森林 (Isolation Forest):基于树的集成方法,污染率1%

技术创新点

  1. 硬件中心方法:完全基于硬件信号,避免对高级可观测性的依赖
  2. 多检测器融合:通过检测器间一致性减少误报,提高检测准确性
  3. 子系统归因:将异常映射到具体硬件子系统(CPU、GPU、内存、网络、存储)
  4. 跨层分析:单个异常窗口可能涉及多个相关信号,提供更强的异常证据

实验设置

数据集

  • ML应用:30+个流行模型,包括BERT、BART、ResNet、ViT、VGG、DeepSeek、LLaMA、Mistral
  • 任务类型:文本分类、表格问答、图像分类、语义分割
  • 数据集:GLUE/SST2、WikiSQL、PASCAL VOC、CIFAR、MNIST
  • 运行次数:每种工作负载执行10次以确保统计可靠性

实验环境

  1. HPC集群
    • 双节点,NVIDIA Tesla V100 GPU (32GB),Intel Xeon Platinum 8628 CPU
    • 单节点,四个NVIDIA H100 GPU (96GB HBM3),Intel Sapphire Rapids CPU
  2. 本地集群
    • 9服务器,AMD EPYC 7443P CPU(24核心),256GB内存
    • 99容器分布式训练设置

评价指标

  • 检测准确性:异常窗口识别的准确率
  • 子系统归因:正确映射到硬件子系统的能力
  • 性能提升:端到端运行时间改善
  • 开销评估:CPU使用率、存储需求、检测器运行时间

实验结果

主要结果

性能开销

  • CPU开销:100ms采样间隔下1.2-1.4%,600ms下降至0.6%以下
  • 存储需求:过滤前42-43 KB/s/主机,过滤后14-22 KB/s
  • 检测延迟:特征提取1.46±0.02s,端到端2.26±0.17s

异常检测效果

  • 指标稳定性:99.75%的工作负载-指标对显示统计显著相似性(p<0.05)
  • 跨配置一致性:默认vs细粒度设置IoU中位数0.50,命中率0.92

案例分析

案例1:NUMA异常 (内存子系统)

  • 检测:窗口118-123出现IPC下降和L3失效周期增加
  • 分析:跨socket内存和PCIe流量导致延迟增加
  • 修复:NUMA感知绑定,将进程绑定到单个NUMA节点
  • 效果:DeepSeek-7B微调从1823.4±46.1s改善到1714.6±70.0s(5.97%提升

案例2:NCCL-QP配置错误 (网络子系统)

  • 检测:CPU Busy%增加,ib0 TX/RX流量突发,GPU功耗下降
  • 分析:单QP配置导致完成处理瓶颈
  • 修复:从1QP增加到2QP配置
  • 效果:运行时间从1825.4±46.1s改善到1769.3±16.7s(3.1%提升

案例3:IRQ不平衡 (CPU子系统)

  • 检测:CPU Busy%方差和IRQ计数器异常
  • 修复:启用irqbalance服务自动分布中断负载
  • 效果:TCP重传异常从6.07%降至3.51%

案例4:HugePages配置错误 (内存子系统)

  • 检测:跨节点内存使用异常
  • 分析:预分配1GiB HugePages被报告为"已使用"内存
  • 修复:配置为默认2MiB HugePages分配

案例5:注入丢包测试 (网络子系统)

  • 检测能力:区分工作负载内在重传和故障引起的重传
  • 分析深度:提供跨层上下文,从传输层计数器到CPU IRQ激增和GPU停顿

异常模式分析

  • HPC集群:CPU侧信号(Bzy_MHz、IRQ)占主导,贡献50%以上异常特征
  • 本地集群:异常集中在内存和I/O子系统,出现writeback激增和脏页堆积
  • 跨环境:TCP重传在两种环境中都出现,通常与NCCL不平衡相关

相关工作

现有监控方法对比

根据论文Table 1,现有方法分为三类:

  1. 应用级分析器:TensorFlow Profiler、PyTorch Profiler - 需要代码插桩
  2. 系统工具:AWS SageMaker、Prometheus - 基于规则检测
  3. 低级跟踪:BCC/eBPF工具、RL-Scope - 开销高或覆盖有限

Reveal的优势

  • 无需插桩:完全基于主机级遥测
  • 全子系统覆盖:CPU、GPU、内存、网络、存储
  • 自动异常检测:无监督ML方法
  • 硬件归因:映射异常到具体硬件组件

结论与讨论

主要结论

  1. 硬件中心方法可行:仅使用硬件信号即可有效检测ML工作负载异常
  2. 无监督检测有效:三种检测器组合能准确识别多种异常类型
  3. 实际性能提升:成功识别并修复配置问题,获得显著性能改善
  4. 高可移植性:91%代码可跨平台重用

局限性

  1. 静态配置:当前使用固定采样率和窗口大小,无法适应工作负载动态
  2. 被动检测:只能检测异常,无法自动解决问题
  3. 手动修复:需要运营商手动干预进行问题修复

未来方向

  1. 自适应采样:基于启发式方法调整采样频率
  2. 自动修复:研究轻量级运行时干预,如IRQ重平衡自动触发
  3. 扩展检测器:探索更多无监督异常检测方法

深度评价

优点

  1. 创新性强:首次提出纯硬件信号的ML异常检测方法,解决了云环境可观测性问题
  2. 实验充分:在多种硬件平台上测试30+模型,数据集丰富
  3. 实用价值高:低开销(<2% CPU)、高可移植性(91%代码重用)
  4. 结果说服力强:5.97%的实际性能提升证明了方法有效性
  5. 开源贡献:提供完整数据集和工具包

不足

  1. 检测延迟:2.26秒的端到端延迟可能不适合实时应用
  2. 特征工程:指标选择和特征提取过程相对复杂,需要专业知识
  3. 评估范围:主要在学术环境测试,生产环境的复杂性可能带来新挑战
  4. 根因分析深度:虽然能归因到子系统,但具体根因分析仍需人工介入

影响力

  1. 学术贡献:为ML系统性能监控提供了新的研究方向
  2. 实用价值:为云服务提供商提供了无需侵入用户环境的监控方案
  3. 可复现性:开源代码和数据集支持研究复现和扩展

适用场景

  1. 云服务提供商:需要在不访问用户工作负载的情况下进行性能优化
  2. HPC中心:需要监控和诊断ML工作负载性能问题
  3. 边缘计算:资源受限环境下的轻量级监控
  4. 研究机构:ML系统性能分析和优化研究

参考文献

论文引用了77篇相关文献,涵盖:

  • ML性能分析工具:Hotline、RL-Scope、Plumber等
  • 异常检测方法:孤立森林、PCA、马哈拉诺比斯距离等
  • 系统监控:Prometheus、AWS CloudWatch等
  • ML框架:PyTorch、TensorFlow等

总体评价:这是一篇高质量的系统研究论文,提出了创新的硬件中心异常检测方法,解决了云环境下ML工作负载监控的实际问题。实验设计充分,结果具有说服力,对学术界和工业界都有重要价值。