2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.

Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.

academic

머신러닝 인프라의 하드웨어 텔레메트리를 통한 이상 탐지

기본 정보

논문 ID: 2510.26008
제목: Detecting Anomalies in Systems for AI Using Hardware Telemetry
저자: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (옥스포드 대학교)
분류: cs.PF (성능), cs.AR (컴퓨터 아키텍처), cs.DC (분산 컴퓨팅), cs.LG (머신러닝)
발표 시간: 2025년 10월 31일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.26008v2

요약

현대 머신러닝은 하드웨어, 소프트웨어, 네트워크 및 애플리케이션을 결합한 긴밀하게 결합된 풀스택 생태계로 발전했습니다. 많은 사용자는 탄력적이고 격리되며 비용 효율적인 리소스를 위해 클라우드 제공자에 의존합니다. 그러나 이러한 플랫폼-as-a-서비스는 가상화를 사용하여 운영자가 사용자 워크로드에 대한 통찰력을 부족하게 합니다. 이는 비용 효율성을 보장하고 실행 시간을 최소화하는 데 필수적인 리소스 최적화를 방해합니다. 본 논문은 워크로드 지식 없이 시스템 수준 최적화가 가능함을 제안합니다. 우리는 운영자가 완전히 접근할 수 있는 하드웨어 신호에만 의존하는 하드웨어 중심 접근 방식을 채택한 Reveal을 제시합니다. 다양한 하드웨어 플랫폼에서 30개 이상의 인기 있는 ML 모델의 성능을 분석하여 이상 탐지를 위한 비지도 학습 파이프라인을 개발했습니다. Reveal을 사용하여 네트워크 및 시스템 구성 문제를 성공적으로 식별하고 DeepSeek 모델을 5.97% 가속화했습니다.

연구 배경 및 동기

핵심 문제

관찰 가능성 부족: 클라우드 플랫폼의 가상화는 기본 하드웨어를 숨기므로 운영자는 높은 수준의 워크로드 정보를 얻을 수 없어 시스템 수준 최적화가 어렵습니다
성능 병목 현상 탐지 어려움: ML 워크로드는 긴밀한 하드웨어-소프트웨어 결합 특성을 가지고 있으며, 작은 비효율성도 시스템 수준의 성능 저하로 이어질 수 있습니다
기존 도구의 한계: 애플리케이션 수준 통합 필요, 높은 런타임 오버헤드(최대 90.2%), 제한된 범위

문제의 중요성

GPU 등 전문 가속기는 비용이 높음 (단일 GPU 수만 달러)
클라우드 AI 리소스 수요는 2030년까지 연간 30% 증가 예상
경미한 구성 오류도 1.5배의 성능 저하 초래 가능
분산 훈련은 집단 통신에 매우 의존하여 네트워크 문제에 취약

기존 방법의 한계

높은 수준의 관찰 가능성 의존: 대부분의 도구는 가상화 환경에서 사용 불가능한 애플리케이션 수준 정보 필요
높은 오버헤드: Plumber는 21% 오버헤드 추가, RL-Scope는 90.2% GPU 커널 시작 시간 증가
규칙 기반 탐지: 워크로드별 임계값 조정 필요, 이식성 낮음
제한된 범위: 프레임워크 분석기는 일반적으로 애플리케이션 및 프레임워크 런타임만 포함

핵심 기여

Reveal 프레임워크 제시: 높은 이식성, 배포 가능성 및 정확한 분석 능력을 갖춘 하드웨어 중심 분석 및 이상 탐지 프레임워크
핵심 성능 지표 식별: ML 워크로드의 하드웨어 동작을 나타내는 저수준 성능 지표 집합 결정 및 수집된 모든 데이터셋 오픈소스화
비지도 탐지 파이프라인 개발: 컨테이너화된 ML 워크로드의 성능 문제 성공적 탐지, 시스템 병목 현상 식별 및 DeepSeek 5.97% 가속화

방법론 상세 설명

작업 정의

입력: 호스트 수준 하드웨어 텔레메트리 데이터 (CPU, GPU, 메모리, 네트워크, 스토리지 지표) 출력: 이상 윈도우 탐지, 하위 시스템 귀인, 근본 원인 분석 보고서 제약: 운영자가 접근 가능한 하드웨어 수준 신호만 사용, 높은 수준의 워크로드 지식 불필요

모델 아키텍처

1. 텔레메트리 수집기 (Telemetry Collector)

perf, procfs, nvidia-smi, 표준 Linux 도구를 사용하여 약 150가지 고유 지표 유형 수집
CPU 코어 및 GPU 복제 시 700개 이상의 시계열 채널로 확장
CPU 오버헤드는 1.5% 이하로 유지

2. 지표 재분석 및 특징 추출 (Metric Reanalysis and Feature Extraction)

지표 필터링: 상관관계 기반 가지치기, |r|=0.5 임계값에서 약 60% 지표 유지
파생 지표: IPC (실행 처리량), 분기 예측 오류율, 캐시 미스율 등 계산
슬라이딩 윈도우: 3초 윈도우, 1초 스텝, 통계 및 시간 특징 추출

3. 이상 탐지 엔진 (Anomaly Detection Engine)

세 가지 상호 보완적인 비지도 방법 채택:

Z-score: 표준화된 편차 탐지, 99 백분위수를 초과하는 윈도우 표시
PCA 부분공간의 마할라노비스 거리: 지표 간 상관관계 및 스케일 차이 고려
고립 포레스트 (Isolation Forest): 트리 기반 앙상블 방법, 오염율 1%

기술 혁신 포인트

하드웨어 중심 접근: 완전히 하드웨어 신호 기반, 높은 수준의 관찰 가능성 의존 회피
다중 탐지기 융합: 탐지기 간 일관성을 통해 거짓 양성 감소, 탐지 정확도 향상
하위 시스템 귀인: 이상을 구체적인 하드웨어 하위 시스템 (CPU, GPU, 메모리, 네트워크, 스토리지)에 매핑
교차 계층 분석: 단일 이상 윈도우는 여러 관련 신호를 포함할 수 있으며, 더 강력한 이상 증거 제공

실험 설정

데이터셋

ML 애플리케이션: BERT, BART, ResNet, ViT, VGG, DeepSeek, LLaMA, Mistral을 포함한 30개 이상의 인기 모델
작업 유형: 텍스트 분류, 표 질문 답변, 이미지 분류, 의미론적 분할
데이터셋: GLUE/SST2, WikiSQL, PASCAL VOC, CIFAR, MNIST
실행 횟수: 통계적 신뢰성 보장을 위해 각 워크로드 10회 실행

실험 환경

HPC 클러스터:
- 이중 노드, NVIDIA Tesla V100 GPU (32GB), Intel Xeon Platinum 8628 CPU
- 단일 노드, 4개 NVIDIA H100 GPU (96GB HBM3), Intel Sapphire Rapids CPU
로컬 클러스터:
- 9개 서버, AMD EPYC 7443P CPU (24코어), 256GB 메모리
- 99개 컨테이너 분산 훈련 설정