2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.

Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.

academic

機械学習インフラストラクチャにおけるハードウェアテレメトリを用いた異常検知

基本情報

論文ID: 2510.26008
タイトル: Detecting Anomalies in Systems for AI Using Hardware Telemetry
著者: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman（オックスフォード大学）
分類: cs.PF（パフォーマンス）、cs.AR（コンピュータアーキテクチャ）、cs.DC（分散コンピューティング）、cs.LG（機械学習）
発表日: 2025年10月31日（arXiv v2）
論文リンク: https://arxiv.org/abs/2510.26008v2

概要

現代の機械学習は、ハードウェア、ソフトウェア、ネットワーク、アプリケーションを統合した密結合のフルスタックエコシステムへと発展している。多くのユーザーはクラウドプロバイダーから弾性的で隔離された費用効率的なリソースを利用している。しかし、これらのプラットフォームアズサービスは仮想化を採用しており、オペレータはユーザーのワークロードについての洞察を欠いている。これはリソース最適化を阻害し、費用効率性の確保と実行時間の最小化に不可欠である。本論文は、ワークロード知識なしでシステムレベルの最適化が可能であることを提案する。我々はRevealを提案し、ハードウェア中心のアプローチを採用し、オペレータが完全にアクセス可能なハードウェア信号のみに依存する。30以上の一般的なMLモデルの様々なハードウェアプラットフォーム上での性能を分析することで、異常検知のための教師なし学習パイプラインを開発した。Revealを使用することで、ネットワークおよびシステム構成の問題を成功裏に識別し、DeepSeekモデルを5.97%加速させた。

研究背景と動機

核心的な問題

可観測性の欠如：クラウドプラットフォームの仮想化は基盤となるハードウェアを隠蔽し、オペレータは高レベルのワークロード情報を取得できず、システムレベルの最適化が困難である
性能ボトルネック検知の困難さ：MLワークロードは密結合のハードウェア・ソフトウェア特性を持ち、小さな非効率性がシステムレベルの性能低下を引き起こす可能性がある
既存ツールの制限：アプリケーションレベルの統合が必要、実行時オーバーヘッドが高い（最大90.2%）、カバレッジが限定的である

問題の重要性

GPU等の専用アクセラレータは高額である（単一GPUで数万ドル）
クラウドAIリソース需要は2030年までに年30%の成長が予測されている
わずかな構成エラーでも1.5倍の性能低下を招く可能性がある
分散トレーニングは集合通信に高度に依存し、ネットワーク問題の影響を受けやすい

既存手法の制限

高レベルの可観測性への依存：ほとんどのツールはアプリケーションレベルの情報を必要とし、仮想化環境では利用不可能である
高いオーバーヘッド：Plumberは21%のオーバーヘッド、RL-Scopeは90.2%のGPUカーネル起動時間を追加する
ルールベースの検知：ワークロード固有の閾値調整が必要で、移植性が低い
カバレッジの限定：フレームワークアナライザーは通常、アプリケーションとフレームワークランタイムのみをカバーする

核心的な貢献

Revealフレームワークの提案：高い移植性、デプロイ可能性、正確な分析能力を備えたハードウェア中心の分析および異常検知フレームワーク
重要性能指標の特定：MLワークロードのハードウェア上での動作を表現する低レベルの性能指標セットを特定し、収集したすべてのデータセットをオープンソース化
教師なし検知パイプラインの開発：コンテナ化されたMLワークロード内の性能問題を成功裏に検知し、システムボトルネックを識別してDeepSeekを5.97%加速

方法論の詳細

タスク定義

入力：ホストレベルのハードウェアテレメトリデータ（CPU、GPU、メモリ、ネットワーク、ストレージ指標）出力：異常ウィンドウの検知、サブシステムの帰属、根本原因分析レポート制約：オペレータがアクセス可能なハードウェアレベルの信号のみを使用し、高レベルのワークロード知識は不要

モデルアーキテクチャ

1. テレメトリコレクタ（Telemetry Collector）

perf、procfs、nvidia-smi、標準Linuxツールを使用して約150種類の独特な指標タイプを収集
CPUコアとGPUにわたって複製される場合、700以上の時系列チャネルに拡張
CPUオーバーヘッドは1.5%以下に維持

2. 指標の再分析と特徴抽出（Metric Reanalysis and Feature Extraction）

指標フィルタリング：相関駆動型の枝刈り、|r|=0.5の閾値で約60%の指標を保持
派生指標：IPC（実行スループット）、分岐予測ミス率、キャッシュミス率などを計算
スライディングウィンドウ：3秒のウィンドウ、1秒のステップで統計的および時間的特徴を抽出

3. 異常検知エンジン（Anomaly Detection Engine）

3つの相補的な教師なし手法を採用：

Z-スコア：標準化された偏差検知、99パーセンタイルを超えるウィンドウをマーク
PCA部分空間内のマハラノビス距離：指標間の相関性とスケール差を考慮
孤立フォレスト（Isolation Forest）：ツリーベースのアンサンブル手法、汚染率1%

技術的革新点

ハードウェア中心のアプローチ：完全にハードウェア信号に基づき、高レベルの可観測性への依存を回避
複数検知器の融合：検知器間の一貫性を通じて誤検知を削減し、検知精度を向上
サブシステム帰属：異常を具体的なハードウェアサブシステム（CPU、GPU、メモリ、ネットワーク、ストレージ）にマッピング
層間分析：単一の異常ウィンドウが複数の関連信号を含む可能性があり、より強力な異常証拠を提供

実験設定

データセット

MLアプリケーション：BERT、BART、ResNet、ViT、VGG、DeepSeek、LLaMA、Mistralを含む30以上の一般的なモデル
タスクタイプ：テキスト分類、表形式質問応答、画像分類、意味セグメンテーション
データセット：GLUE/SST2、WikiSQL、PASCAL VOC、CIFAR、MNIST
実行回数：統計的信頼性を確保するため、各ワークロードを10回実行

実験環境

HPCクラスタ：
- デュアルノード、NVIDIA Tesla V100 GPU（32GB）、Intel Xeon Platinum 8628 CPU
- シングルノード、4つのNVIDIA H100 GPU（96GB HBM3）、Intel Sapphire Rapids CPU
ローカルクラスタ：
- 9サーバー、AMD EPYC 7443P CPU（24コア）、256GBメモリ
- 99コンテナ分散トレーニング設定