Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
- ID de l'article : 2510.26008
- Titre : Detecting Anomalies in Systems for AI Using Hardware Telemetry
- Auteurs : Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (Université d'Oxford)
- Classification : cs.PF (Performance), cs.AR (Architecture Informatique), cs.DC (Informatique Distribuée), cs.LG (Apprentissage Automatique)
- Date de publication : 31 octobre 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2510.26008v2
L'apprentissage automatique moderne s'est développé en un écosystème entièrement intégré combinant matériel, logiciel, réseau et applications. De nombreux utilisateurs dépendent des fournisseurs de services cloud pour obtenir des ressources élastiques, isolées et rentables. Cependant, ces plateformes en tant que service utilisent la virtualisation, ce qui empêche les opérateurs d'avoir une visibilité sur les charges de travail des utilisateurs. Cela entrave l'optimisation des ressources par les opérateurs, ce qui est essentiel pour assurer l'efficacité des coûts et minimiser le temps d'exécution. Cet article propose que l'optimisation au niveau du système soit possible sans connaissance de la charge de travail. Nous présentons Reveal, une approche centrée sur le matériel qui s'appuie uniquement sur les signaux matériels entièrement accessibles aux opérateurs. En analysant les performances de plus de 30 modèles ML populaires sur diverses plates-formes matérielles, nous avons développé un pipeline d'apprentissage non supervisé pour détecter les anomalies. Avec Reveal, nous avons identifié avec succès des problèmes de configuration réseau et système, accélérant le modèle DeepSeek de 5,97 %.
- Manque d'observabilité : La virtualisation des plates-formes cloud masque le matériel sous-jacent, empêchant les opérateurs d'accéder aux informations de charge de travail de haut niveau, rendant difficile l'optimisation au niveau du système
- Difficulté de détection des goulots d'étranglement : Les charges de travail ML présentent un couplage étroit entre matériel et logiciel, où les petites inefficacités peuvent entraîner des dégradations de performance en cascade au niveau du système
- Limitations des outils existants : Nécessitent une intégration au niveau de l'application, une surcharge d'exécution élevée (jusqu'à 90,2 %), couverture limitée
- Les accélérateurs spécialisés comme les GPU sont coûteux (dizaines de milliers de dollars par GPU)
- La demande de ressources IA en cloud devrait augmenter de 30 % par an jusqu'en 2030
- Même les erreurs de configuration mineures peuvent entraîner une dégradation de performance de 1,5 fois
- L'entraînement distribué dépend fortement de la communication collective, vulnérable aux problèmes réseau
- Dépendance à l'observabilité de haut niveau : La plupart des outils nécessitent des informations au niveau de l'application, indisponibles dans les environnements virtualisés
- Surcharge élevée : Plumber ajoute 21 % de surcharge, RL-Scope ajoute 90,2 % au temps de lancement des noyaux GPU
- Détection basée sur des règles : Nécessite un ajustement des seuils spécifiques à la charge de travail, faible portabilité
- Couverture limitée : Les analyseurs de framework couvrent généralement uniquement l'application et l'exécution du framework
- Proposition du framework Reveal : Un framework d'analyse centrée sur le matériel et de détection d'anomalies avec haute portabilité, déployabilité et capacité d'analyse
- Identification des indicateurs de performance clés : Détermination d'un ensemble d'indicateurs de performance de bas niveau représentant le comportement des charges de travail ML sur le matériel, avec publication en open source de tous les ensembles de données collectés
- Développement d'un pipeline de détection non supervisée : Détection réussie des problèmes de performance dans les charges de travail ML conteneurisées, identification des goulots d'étranglement système et accélération de DeepSeek de 5,97 %
Entrée : Données de télémétrie matérielle au niveau de l'hôte (métriques CPU, GPU, mémoire, réseau, stockage)
Sortie : Détection de fenêtres d'anomalies, attribution aux sous-systèmes, rapport d'analyse des causes profondes
Contraintes : Utilisation exclusive de signaux matériels accessibles aux opérateurs, sans connaissance de charge de travail de haut niveau
- Collecte d'environ 150 types de métriques uniques utilisant perf, procfs, nvidia-smi et outils Linux standard
- Extension à plus de 700 canaux de séries temporelles lors de la réplication entre cœurs CPU et GPU
- Surcharge CPU maintenue en dessous de 1,5 %
- Filtrage des métriques : Élagage basé sur la corrélation, conservation d'environ 60 % des métriques au seuil |r|=0,5
- Métriques dérivées : Calcul de l'IPC (débit d'exécution), taux de mauvaise prédiction de branche, taux de défauts de cache, etc.
- Fenêtres glissantes : Fenêtres de 3 secondes, pas de 1 seconde, extraction de caractéristiques statistiques et temporelles
Emploi de trois méthodes non supervisées complémentaires :
- Z-score : Détection d'écart normalisé, marquage des fenêtres dépassant le 99e percentile
- Distance de Mahalanobis dans l'espace PCA : Prise en compte de la corrélation entre métriques et des différences d'échelle
- Forêt d'Isolation (Isolation Forest) : Méthode d'ensemble basée sur les arbres, taux de contamination de 1 %
- Approche centrée sur le matériel : Entièrement basée sur les signaux matériels, évitant la dépendance à l'observabilité de haut niveau
- Fusion de plusieurs détecteurs : Réduction des faux positifs par cohérence entre détecteurs, amélioration de la précision de détection
- Attribution aux sous-systèmes : Mappage des anomalies aux sous-systèmes matériels spécifiques (CPU, GPU, mémoire, réseau, stockage)
- Analyse multi-couches : Une seule fenêtre d'anomalie peut impliquer plusieurs signaux connexes, fournissant des preuves d'anomalie plus fortes
- Applications ML : Plus de 30 modèles populaires, incluant BERT, BART, ResNet, ViT, VGG, DeepSeek, LLaMA, Mistral
- Types de tâches : Classification de texte, questions sur tableaux, classification d'images, segmentation sémantique
- Ensembles de données : GLUE/SST2, WikiSQL, PASCAL VOC, CIFAR, MNIST
- Nombre d'exécutions : 10 exécutions par type de charge de travail pour assurer la fiabilité statistique
- Cluster HPC :
- Deux nœuds, GPU NVIDIA Tesla V100 (32 Go), CPU Intel Xeon Platinum 8628
- Un nœud, quatre GPU NVIDIA H100 (96 Go HBM3), CPU Intel Sapphire Rapids
- Cluster Local :
- 9 serveurs, CPU AMD EPYC 7443P (24 cœurs), 256 Go de mémoire
- Configuration d'entraînement distribué avec 99 conteneurs
- Précision de détection : Taux de précision de l'identification des fenêtres d'anomalies
- Attribution aux sous-systèmes : Capacité de mappage correct aux sous-systèmes matériels
- Amélioration de performance : Amélioration du temps d'exécution de bout en bout
- Évaluation de la surcharge : Utilisation CPU, besoins de stockage, temps d'exécution des détecteurs
- Surcharge CPU : 1,2-1,4 % avec intervalle d'échantillonnage de 100 ms, descend en dessous de 0,6 % à 600 ms
- Besoins de stockage : 42-43 Ko/s/hôte avant filtrage, 14-22 Ko/s après filtrage
- Latence de détection : Extraction de caractéristiques 1,46±0,02 s, bout en bout 2,26±0,17 s
- Stabilité des métriques : 99,75 % des paires charge de travail-métrique montrent une similarité statistiquement significative (p<0,05)
- Cohérence inter-configurations : IoU médian 0,50 pour configuration par défaut vs fine-grained, taux de succès 0,92
- Détection : Fenêtres 118-123 montrant baisse d'IPC et augmentation des cycles de défaut L3
- Analyse : Mémoire inter-socket et trafic PCIe causant augmentation de latence
- Correction : Liaison consciente de NUMA, attachement des processus à un seul nœud NUMA
- Résultat : Amélioration du fine-tuning DeepSeek-7B de 1823,4±46,1 s à 1714,6±70,0 s (amélioration de 5,97 %)
- Détection : Augmentation CPU Busy %, rafales de trafic TX/RX ib0, baisse de puissance GPU
- Analyse : Configuration à QP unique causant goulot d'étranglement de traitement d'achèvement
- Correction : Augmentation de 1QP à configuration 2QP
- Résultat : Amélioration du temps d'exécution de 1825,4±46,1 s à 1769,3±16,7 s (amélioration de 3,1 %)
- Détection : Variance CPU Busy % et anomalies des compteurs IRQ
- Correction : Activation du service irqbalance pour distribution automatique de la charge d'interruption
- Résultat : Anomalie de retransmission TCP réduite de 6,07 % à 3,51 %
- Détection : Anomalie d'utilisation mémoire inter-nœuds
- Analyse : Préallocation de HugePages 1 Gio signalée comme mémoire "utilisée"
- Correction : Configuration pour allocation HugePages 2 Mio par défaut
- Capacité de détection : Distinction entre retransmissions inhérentes à la charge de travail et retransmissions dues aux défaillances
- Profondeur d'analyse : Fourniture de contexte multi-couches, des compteurs de couche transport aux pics d'IRQ CPU et aux arrêts GPU
- Cluster HPC : Signaux côté CPU (Bzy_MHz, IRQ) dominants, contribuant à plus de 50 % des caractéristiques d'anomalies
- Cluster Local : Anomalies concentrées sur sous-systèmes mémoire et E/S, avec pics de writeback et accumulation de pages sales
- Inter-environnements : Retransmissions TCP apparaissant dans les deux environnements, généralement associées à déséquilibre NCCL
Selon le Tableau 1 de l'article, les méthodes existantes se divisent en trois catégories :
- Analyseurs au niveau de l'application : TensorFlow Profiler, PyTorch Profiler - nécessitent instrumentation du code
- Outils système : AWS SageMaker, Prometheus - détection basée sur des règles
- Traçage de bas niveau : Outils BCC/eBPF, RL-Scope - surcharge élevée ou couverture limitée
- Sans instrumentation : Entièrement basé sur la télémétrie au niveau de l'hôte
- Couverture complète des sous-systèmes : CPU, GPU, mémoire, réseau, stockage
- Détection d'anomalies automatique : Méthodes ML non supervisées
- Attribution matérielle : Mappage des anomalies aux composants matériels spécifiques
- Faisabilité de l'approche centrée sur le matériel : Les signaux matériels seuls suffisent pour détecter efficacement les anomalies dans les charges de travail ML
- Efficacité de la détection non supervisée : La combinaison de trois détecteurs peut identifier avec précision plusieurs types d'anomalies
- Amélioration de performance réelle : Identification et correction réussies des problèmes de configuration, obtenant des améliorations de performance significatives
- Haute portabilité : 91 % du code réutilisable entre plates-formes
- Configuration statique : Utilisation actuelle de taux d'échantillonnage et taille de fenêtre fixes, incapacité à s'adapter à la dynamique de la charge de travail
- Détection passive : Peut uniquement détecter les anomalies, incapable de résoudre automatiquement les problèmes
- Correction manuelle : Nécessite intervention manuelle de l'opérateur pour corriger les problèmes
- Échantillonnage adaptatif : Ajustement de la fréquence d'échantillonnage basé sur des heuristiques
- Correction automatique : Recherche d'interventions légères au niveau de l'exécution, comme déclenchement automatique du rééquilibrage IRQ
- Extension des détecteurs : Exploration de méthodes supplémentaires de détection d'anomalies non supervisées
- Innovation forte : Première proposition d'une méthode de détection d'anomalies ML basée sur des signaux matériels purs, résolvant le problème d'observabilité en environnement cloud
- Expérimentation complète : Test sur plus de 30 modèles sur diverses plates-formes matérielles, ensemble de données riche
- Valeur pratique élevée : Surcharge faible (<2 % CPU), haute portabilité (91 % de réutilisation de code)
- Résultats convaincants : Amélioration de performance réelle de 5,97 % prouvant l'efficacité de la méthode
- Contribution open source : Fourniture d'ensemble de données complet et de kit d'outils
- Latence de détection : La latence bout en bout de 2,26 secondes peut ne pas convenir aux applications en temps réel
- Ingénierie des caractéristiques : Le processus de sélection des métriques et d'extraction de caractéristiques est relativement complexe, nécessitant expertise
- Portée d'évaluation : Principalement testé en environnement académique, la complexité de l'environnement de production peut présenter de nouveaux défis
- Profondeur d'analyse des causes profondes : Bien que capable d'attribution aux sous-systèmes, l'analyse spécifique des causes profondes nécessite toujours intervention humaine
- Contribution académique : Fournit une nouvelle direction de recherche pour la surveillance de performance des systèmes ML
- Valeur pratique : Fournit aux fournisseurs de services cloud une solution de surveillance sans intrusion dans l'environnement utilisateur
- Reproductibilité : Code open source et ensemble de données supportant la reproduction et l'extension de la recherche
- Fournisseurs de services cloud : Nécessitant optimisation de performance sans accès aux charges de travail utilisateur
- Centres HPC : Nécessitant surveillance et diagnostic des problèmes de performance des charges de travail ML
- Informatique en périphérie : Surveillance légère dans les environnements aux ressources limitées
- Institutions de recherche : Analyse et optimisation de performance des systèmes ML
L'article cite 77 références pertinentes, couvrant :
- Outils d'analyse de performance ML : Hotline, RL-Scope, Plumber, etc.
- Méthodes de détection d'anomalies : Forêt d'Isolation, PCA, Distance de Mahalanobis, etc.
- Surveillance système : Prometheus, AWS CloudWatch, etc.
- Frameworks ML : PyTorch, TensorFlow, etc.
Évaluation Globale : Ceci est un article de recherche système de haute qualité proposant une méthode innovante de détection d'anomalies centrée sur le matériel, résolvant des problèmes pratiques de surveillance des charges de travail ML en environnement cloud. La conception expérimentale est complète, les résultats convaincants, avec valeur importante pour le monde académique et industriel.