Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
academic- 논문 ID: 2510.26008
- 제목: Detecting Anomalies in Systems for AI Using Hardware Telemetry
- 저자: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (옥스포드 대학교)
- 분류: cs.PF (성능), cs.AR (컴퓨터 아키텍처), cs.DC (분산 컴퓨팅), cs.LG (머신러닝)
- 발표 시간: 2025년 10월 31일 (arXiv v2)
- 논문 링크: https://arxiv.org/abs/2510.26008v2
현대 머신러닝은 하드웨어, 소프트웨어, 네트워크 및 애플리케이션을 결합한 긴밀하게 결합된 풀스택 생태계로 발전했습니다. 많은 사용자는 탄력적이고 격리되며 비용 효율적인 리소스를 위해 클라우드 제공자에 의존합니다. 그러나 이러한 플랫폼-as-a-서비스는 가상화를 사용하여 운영자가 사용자 워크로드에 대한 통찰력을 부족하게 합니다. 이는 비용 효율성을 보장하고 실행 시간을 최소화하는 데 필수적인 리소스 최적화를 방해합니다. 본 논문은 워크로드 지식 없이 시스템 수준 최적화가 가능함을 제안합니다. 우리는 운영자가 완전히 접근할 수 있는 하드웨어 신호에만 의존하는 하드웨어 중심 접근 방식을 채택한 Reveal을 제시합니다. 다양한 하드웨어 플랫폼에서 30개 이상의 인기 있는 ML 모델의 성능을 분석하여 이상 탐지를 위한 비지도 학습 파이프라인을 개발했습니다. Reveal을 사용하여 네트워크 및 시스템 구성 문제를 성공적으로 식별하고 DeepSeek 모델을 5.97% 가속화했습니다.
- 관찰 가능성 부족: 클라우드 플랫폼의 가상화는 기본 하드웨어를 숨기므로 운영자는 높은 수준의 워크로드 정보를 얻을 수 없어 시스템 수준 최적화가 어렵습니다
- 성능 병목 현상 탐지 어려움: ML 워크로드는 긴밀한 하드웨어-소프트웨어 결합 특성을 가지고 있으며, 작은 비효율성도 시스템 수준의 성능 저하로 이어질 수 있습니다
- 기존 도구의 한계: 애플리케이션 수준 통합 필요, 높은 런타임 오버헤드(최대 90.2%), 제한된 범위
- GPU 등 전문 가속기는 비용이 높음 (단일 GPU 수만 달러)
- 클라우드 AI 리소스 수요는 2030년까지 연간 30% 증가 예상
- 경미한 구성 오류도 1.5배의 성능 저하 초래 가능
- 분산 훈련은 집단 통신에 매우 의존하여 네트워크 문제에 취약
- 높은 수준의 관찰 가능성 의존: 대부분의 도구는 가상화 환경에서 사용 불가능한 애플리케이션 수준 정보 필요
- 높은 오버헤드: Plumber는 21% 오버헤드 추가, RL-Scope는 90.2% GPU 커널 시작 시간 증가
- 규칙 기반 탐지: 워크로드별 임계값 조정 필요, 이식성 낮음
- 제한된 범위: 프레임워크 분석기는 일반적으로 애플리케이션 및 프레임워크 런타임만 포함
- Reveal 프레임워크 제시: 높은 이식성, 배포 가능성 및 정확한 분석 능력을 갖춘 하드웨어 중심 분석 및 이상 탐지 프레임워크
- 핵심 성능 지표 식별: ML 워크로드의 하드웨어 동작을 나타내는 저수준 성능 지표 집합 결정 및 수집된 모든 데이터셋 오픈소스화
- 비지도 탐지 파이프라인 개발: 컨테이너화된 ML 워크로드의 성능 문제 성공적 탐지, 시스템 병목 현상 식별 및 DeepSeek 5.97% 가속화
입력: 호스트 수준 하드웨어 텔레메트리 데이터 (CPU, GPU, 메모리, 네트워크, 스토리지 지표)
출력: 이상 윈도우 탐지, 하위 시스템 귀인, 근본 원인 분석 보고서
제약: 운영자가 접근 가능한 하드웨어 수준 신호만 사용, 높은 수준의 워크로드 지식 불필요
- perf, procfs, nvidia-smi, 표준 Linux 도구를 사용하여 약 150가지 고유 지표 유형 수집
- CPU 코어 및 GPU 복제 시 700개 이상의 시계열 채널로 확장
- CPU 오버헤드는 1.5% 이하로 유지
- 지표 필터링: 상관관계 기반 가지치기, |r|=0.5 임계값에서 약 60% 지표 유지
- 파생 지표: IPC (실행 처리량), 분기 예측 오류율, 캐시 미스율 등 계산
- 슬라이딩 윈도우: 3초 윈도우, 1초 스텝, 통계 및 시간 특징 추출
세 가지 상호 보완적인 비지도 방법 채택:
- Z-score: 표준화된 편차 탐지, 99 백분위수를 초과하는 윈도우 표시
- PCA 부분공간의 마할라노비스 거리: 지표 간 상관관계 및 스케일 차이 고려
- 고립 포레스트 (Isolation Forest): 트리 기반 앙상블 방법, 오염율 1%
- 하드웨어 중심 접근: 완전히 하드웨어 신호 기반, 높은 수준의 관찰 가능성 의존 회피
- 다중 탐지기 융합: 탐지기 간 일관성을 통해 거짓 양성 감소, 탐지 정확도 향상
- 하위 시스템 귀인: 이상을 구체적인 하드웨어 하위 시스템 (CPU, GPU, 메모리, 네트워크, 스토리지)에 매핑
- 교차 계층 분석: 단일 이상 윈도우는 여러 관련 신호를 포함할 수 있으며, 더 강력한 이상 증거 제공
- ML 애플리케이션: BERT, BART, ResNet, ViT, VGG, DeepSeek, LLaMA, Mistral을 포함한 30개 이상의 인기 모델
- 작업 유형: 텍스트 분류, 표 질문 답변, 이미지 분류, 의미론적 분할
- 데이터셋: GLUE/SST2, WikiSQL, PASCAL VOC, CIFAR, MNIST
- 실행 횟수: 통계적 신뢰성 보장을 위해 각 워크로드 10회 실행
- HPC 클러스터:
- 이중 노드, NVIDIA Tesla V100 GPU (32GB), Intel Xeon Platinum 8628 CPU
- 단일 노드, 4개 NVIDIA H100 GPU (96GB HBM3), Intel Sapphire Rapids CPU
- 로컬 클러스터:
- 9개 서버, AMD EPYC 7443P CPU (24코어), 256GB 메모리
- 99개 컨테이너 분산 훈련 설정
- 탐지 정확도: 이상 윈도우 식별의 정확도
- 하위 시스템 귀인: 하드웨어 하위 시스템에 올바르게 매핑하는 능력
- 성능 향상: 종단 간 실행 시간 개선
- 오버헤드 평가: CPU 사용률, 스토리지 요구사항, 탐지기 실행 시간
- CPU 오버헤드: 100ms 샘플링 간격에서 1.2-1.4%, 600ms에서 0.6% 이하로 감소
- 스토리지 요구사항: 필터링 전 42-43 KB/s/호스트, 필터링 후 14-22 KB/s
- 탐지 지연: 특징 추출 1.46±0.02초, 종단 간 2.26±0.17초
- 지표 안정성: 99.75%의 워크로드-지표 쌍이 통계적으로 유의미한 유사성 표시 (p<0.05)
- 교차 구성 일관성: 기본값 대 세밀한 설정 IoU 중앙값 0.50, 명중률 0.92
- 탐지: 윈도우 118-123에서 IPC 감소 및 L3 미스 사이클 증가 발생
- 분석: 소켓 간 메모리 및 PCIe 트래픽으로 인한 지연 증가
- 수정: NUMA 인식 바인딩, 프로세스를 단일 NUMA 노드에 바인딩
- 효과: DeepSeek-7B 미세 조정이 1823.4±46.1초에서 1714.6±70.0초로 개선 (5.97% 향상)
- 탐지: CPU Busy% 증가, ib0 TX/RX 트래픽 급증, GPU 전력 소비 감소
- 분석: 단일 QP 구성으로 인한 완료 처리 병목 현상
- 수정: 1QP에서 2QP 구성으로 증가
- 효과: 실행 시간이 1825.4±46.1초에서 1769.3±16.7초로 개선 (3.1% 향상)
- 탐지: CPU Busy% 분산 및 IRQ 카운터 이상
- 수정: irqbalance 서비스 활성화하여 중단 부하 자동 분배
- 효과: TCP 재전송 이상이 6.07%에서 3.51%로 감소
- 탐지: 노드 간 메모리 사용 이상
- 분석: 사전 할당된 1GiB HugePages가 "사용 중" 메모리로 보고됨
- 수정: 기본 2MiB HugePages 할당으로 구성
- 탐지 능력: 워크로드 내재 재전송과 장애로 인한 재전송 구분
- 분석 깊이: 전송 계층 카운터에서 CPU IRQ 급증 및 GPU 정지까지 교차 계층 컨텍스트 제공
- HPC 클러스터: CPU 측 신호 (Bzy_MHz, IRQ)가 지배적, 이상 특징의 50% 이상 기여
- 로컬 클러스터: 이상이 메모리 및 I/O 하위 시스템에 집중, 쓰기 백 급증 및 더티 페이지 축적 발생
- 환경 간: TCP 재전송이 두 환경 모두에서 나타나며, 일반적으로 NCCL 불균형과 관련
논문의 표 1에 따르면 기존 방법은 세 가지 범주로 나뉩니다:
- 애플리케이션 수준 분석기: TensorFlow Profiler, PyTorch Profiler - 코드 계측 필요
- 시스템 도구: AWS SageMaker, Prometheus - 규칙 기반 탐지
- 저수준 추적: BCC/eBPF 도구, RL-Scope - 높은 오버헤드 또는 제한된 범위
- 계측 불필요: 완전히 호스트 수준 텔레메트리 기반
- 전체 하위 시스템 범위: CPU, GPU, 메모리, 네트워크, 스토리지
- 자동 이상 탐지: 비지도 ML 방법
- 하드웨어 귀인: 이상을 구체적인 하드웨어 구성 요소에 매핑
- 하드웨어 중심 접근 방식 가능: 하드웨어 신호만 사용하여 ML 워크로드 이상을 효과적으로 탐지 가능
- 비지도 탐지 효과: 세 가지 탐지기 조합이 다양한 이상 유형을 정확하게 식별 가능
- 실제 성능 향상: 구성 문제를 성공적으로 식별 및 수정하여 상당한 성능 개선 달성
- 높은 이식성: 91% 코드가 플랫폼 간 재사용 가능
- 정적 구성: 현재 고정 샘플링 속도 및 윈도우 크기 사용, 워크로드 동적 적응 불가
- 수동 탐지: 이상만 탐지 가능, 자동 문제 해결 불가
- 수동 수정: 문제 수정을 위해 운영자 수동 개입 필요
- 적응형 샘플링: 휴리스틱 기반 샘플링 주파수 조정
- 자동 수정: IRQ 재균형 자동 트리거와 같은 경량 런타임 개입 연구
- 탐지기 확장: 추가 비지도 이상 탐지 방법 탐색
- 높은 혁신성: 순수 하드웨어 신호 기반 ML 이상 탐지 방법 최초 제시, 클라우드 환경 관찰 가능성 문제 해결
- 충분한 실험: 다양한 하드웨어 플랫폼에서 30개 이상 모델 테스트, 풍부한 데이터셋
- 높은 실용 가치: 낮은 오버헤드 (<2% CPU), 높은 이식성 (91% 코드 재사용)
- 설득력 있는 결과: 5.97%의 실제 성능 향상이 방법의 효과성 증명
- 오픈소스 기여: 완전한 데이터셋 및 도구 키트 제공
- 탐지 지연: 2.26초의 종단 간 지연은 실시간 애플리케이션에 부적합할 수 있음
- 특징 공학: 지표 선택 및 특징 추출 과정이 상대적으로 복잡하며 전문 지식 필요
- 평가 범위: 주로 학술 환경에서 테스트, 프로덕션 환경의 복잡성이 새로운 과제 초래 가능
- 근본 원인 분석 깊이: 하위 시스템으로 귀인 가능하지만 구체적인 근본 원인 분석은 여전히 수동 개입 필요
- 학술 기여: ML 시스템 성능 모니터링을 위한 새로운 연구 방향 제시
- 실용 가치: 클라우드 서비스 제공자에게 사용자 환경 침입 없는 모니터링 솔루션 제공
- 재현성: 오픈소스 코드 및 데이터셋이 연구 재현 및 확장 지원
- 클라우드 서비스 제공자: 사용자 워크로드 접근 없이 성능 최적화 필요
- HPC 센터: ML 워크로드 성능 문제 모니터링 및 진단 필요
- 엣지 컴퓨팅: 리소스 제한 환경에서의 경량 모니터링
- 연구 기관: ML 시스템 성능 분석 및 최적화 연구
논문은 다음을 포함한 77개의 관련 문헌을 인용합니다:
- ML 성능 분석 도구: Hotline, RL-Scope, Plumber 등
- 이상 탐지 방법: 고립 포레스트, PCA, 마할라노비스 거리 등
- 시스템 모니터링: Prometheus, AWS CloudWatch 등
- ML 프레임워크: PyTorch, TensorFlow 등
종합 평가: 이는 혁신적인 하드웨어 중심 이상 탐지 방법을 제시하고 클라우드 환경에서 ML 워크로드 모니터링의 실제 문제를 해결하는 고품질의 시스템 연구 논문입니다. 실험 설계가 충분하고 결과가 설득력 있으며 학계와 산업계 모두에 중요한 가치가 있습니다.