2025-11-11T10:10:09.268407

Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry

Chen, Chien, Qian et al.
Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
academic

الكشف عن الحالات الشاذة في البنية التحتية لتعلم الآلة عبر قياس أداء الأجهزة

المعلومات الأساسية

  • معرّف الورقة: 2510.26008
  • العنوان: الكشف عن الحالات الشاذة في الأنظمة الذكية باستخدام قياس أداء الأجهزة
  • المؤلفون: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman (جامعة أكسفورد)
  • التصنيفات: cs.PF (الأداء)، cs.AR (معمارية الحاسوب)، cs.DC (الحوسبة الموزعة)، cs.LG (تعلم الآلة)
  • تاريخ النشر: 31 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2510.26008v2

الملخص

تطورت تطبيقات تعلم الآلة الحديثة لتصبح نظاماً متكاملاً بإحكام يجمع بين الأجهزة والبرمجيات والشبكات والتطبيقات. يعتمد العديد من المستخدمين على مزودي الخدمات السحابية للحصول على موارد مرنة وآمنة وفعالة من حيث التكلفة. ومع ذلك، تستخدم هذه المنصات التصور الافتراضي، مما يحد من رؤية المشغلين لأعباء عمل المستخدمين. يعيق هذا المشغلين عن تحسين الموارد، وهو أمر حاسم لضمان الكفاءة من حيث التكلفة وتقليل وقت التنفيذ. تقترح هذه الورقة أن التحسين على مستوى النظام ممكن دون معرفة بأعباء العمل. نقدم Reveal، وهو نهج يركز على الأجهزة ويعتمد فقط على إشارات الأجهزة التي يمكن للمشغلين الوصول إليها بالكامل. من خلال تحليل أداء أكثر من 30 نموذج تعلم آلة شهير على منصات أجهزة متنوعة، طورنا خط أنابيب تعلم غير موجه للكشف عن الحالات الشاذة. باستخدام Reveal، تمكنا من تحديد مشاكل الشبكة والتكوين النظامي، مما أسرع نموذج DeepSeek بنسبة 5.97٪.

السياق البحثي والدافع

المشاكل الأساسية

  1. غياب القابلية للمراقبة: يخفي التصور الافتراضي للمنصات السحابية الأجهزة الأساسية، مما يحرم المشغلين من معلومات أعباء العمل على المستوى العالي، مما يعقد التحسين على مستوى النظام
  2. صعوبة الكشف عن اختناقات الأداء: تتميز أعباء عمل تعلم الآلة بارتباط وثيق بين الأجهزة والبرمجيات، حيث قد تؤدي عدم الكفاءات الصغيرة إلى تدهور الأداء على مستوى النظام
  3. قيود الأدوات الموجودة: تتطلب التكامل على مستوى التطبيق، وتتسبب في نفقات عالية في وقت التشغيل (تصل إلى 90.2٪)، وتغطية محدودة

أهمية المشكلة

  • معالجات التسريع المتخصصة مثل وحدات معالجة الرسومات مكلفة للغاية (عشرات الآلاف من الدولارات لكل وحدة)
  • من المتوقع أن ينمو الطلب على موارد الذكاء الاصطناعي السحابية بنسبة 30٪ سنوياً حتى عام 2030
  • حتى الأخطاء البسيطة في التكوين قد تؤدي إلى انخفاض الأداء بمعامل 1.5
  • يعتمد التدريب الموزع بشدة على الاتصالات الجماعية، مما يجعله عرضة لمشاكل الشبكة

قيود الطرق الموجودة

  1. الاعتماد على القابلية للمراقبة العالية المستوى: تتطلب معظم الأدوات معلومات على مستوى التطبيق، وهي غير متاحة في البيئات الافتراضية
  2. النفقات العالية: يضيف Plumber 21٪ من النفقات، بينما يضيف RL-Scope 90.2٪ من وقت إطلاق نوى وحدة معالجة الرسومات
  3. الكشف المدفوع بالقواعد: يتطلب ضبط عتبات محددة لأعباء العمل، مما يقلل من قابلية النقل
  4. التغطية المحدودة: عادة ما تغطي محللات الإطار فقط التطبيق وبيئة تشغيل الإطار

المساهمات الأساسية

  1. اقتراح إطار عمل Reveal: إطار عمل للتحليل والكشف عن الحالات الشاذة يركز على الأجهزة، مع قابلية نقل عالية وقابلية نشر وقدرات تحليل دقيقة
  2. تحديد مؤشرات الأداء الرئيسية: تحديد مجموعة من مؤشرات الأداء منخفضة المستوى التي تمثل سلوك أعباء عمل تعلم الآلة على الأجهزة، مع نشر جميع مجموعات البيانات المجمعة
  3. تطوير خط أنابيب الكشف غير الموجه: الكشف الناجح عن مشاكل الأداء في أعباء عمل تعلم الآلة المحتوية، وتحديد اختناقات النظام وتسريع DeepSeek بنسبة 5.97٪

شرح الطريقة

تعريف المهمة

الإدخال: بيانات قياس أداء الأجهزة على مستوى المضيف (مؤشرات وحدة المعالجة المركزية، وحدة معالجة الرسومات، الذاكرة، الشبكة، التخزين) الإخراج: كشف النوافذ الشاذة، والإسناد إلى الأنظمة الفرعية، وتقارير تحليل السبب الجذري القيود: استخدام فقط إشارات الأجهزة التي يمكن للمشغلين الوصول إليها، بدون الحاجة إلى معرفة عالية المستوى بأعباء العمل

معمارية النموذج

1. جامع قياس الأداء (Telemetry Collector)

  • استخدام perf وprocfs وnvidia-smi والأدوات القياسية لـ Linux لجمع حوالي 150 نوع مؤشر فريد
  • التوسع إلى أكثر من 700 قناة سلاسل زمنية عند النسخ عبر أنوية وحدة المعالجة المركزية ووحدة معالجة الرسومات
  • الحفاظ على نفقات وحدة المعالجة المركزية أقل من 1.5٪

2. إعادة تحليل المؤشرات واستخراج الميزات (Metric Reanalysis and Feature Extraction)

  • تصفية المؤشرات: التقليم المدفوع بالارتباط، مع الاحتفاظ بحوالي 60٪ من المؤشرات عند عتبة |r|=0.5
  • المؤشرات المشتقة: حساب IPC (معدل الإنتاجية)، ومعدل التنبؤ الخاطئ بالفروع، ومعدل فشل الذاكرة المؤقتة
  • النافذة المنزلقة: نافذة 3 ثوان، خطوة 1 ثانية، استخراج الميزات الإحصائية والزمنية

3. محرك الكشف عن الحالات الشاذة (Anomaly Detection Engine)

يستخدم ثلاث طرق غير موجهة متكاملة:

  • Z-score: كشف الانحراف المعياري، وتحديد النوافذ التي تتجاوز المئين 99
  • مسافة ماهالانوبيس في فضاء المكونات الرئيسية (PCA): مع الأخذ في الاعتبار الارتباط بين المؤشرات والاختلافات في الحجم
  • غابة العزلة (Isolation Forest): طريقة مجموعة قائمة على الأشجار، مع معدل تلوث 1٪

نقاط الابتكار التقني

  1. النهج الذي يركز على الأجهزة: قائم بالكامل على إشارات الأجهزة، مما يتجنب الاعتماد على القابلية للمراقبة العالية المستوى
  2. دمج كواشف متعددة: تقليل الإنذارات الكاذبة من خلال الاتساق بين الكواشف، وتحسين دقة الكشف
  3. الإسناد إلى الأنظمة الفرعية: ربط الحالات الشاذة بأنظمة فرعية أجهزة محددة (وحدة المعالجة المركزية، وحدة معالجة الرسومات، الذاكرة، الشبكة، التخزين)
  4. التحليل عبر الطبقات: قد تتضمن نافذة شاذة واحدة إشارات مرتبطة متعددة، مما يوفر دليلاً أقوى على الحالة الشاذة

إعداد التجربة

مجموعة البيانات

  • تطبيقات تعلم الآلة: أكثر من 30 نموذج شهير، بما في ذلك BERT و BART و ResNet و ViT و VGG و DeepSeek و LLaMA و Mistral
  • أنواع المهام: تصنيف النصوص، الإجابة على الأسئلة الجدولية، تصنيف الصور، تقسيم الدلالات
  • مجموعات البيانات: GLUE/SST2 و WikiSQL و PASCAL VOC و CIFAR و MNIST
  • عدد التشغيلات: 10 تشغيلات لكل عبء عمل لضمان الموثوقية الإحصائية

بيئة التجربة

  1. مجموعة HPC:
    • عقدتان، معالج NVIDIA Tesla V100 GPU (32GB)، معالج Intel Xeon Platinum 8628 CPU
    • عقدة واحدة، أربع معالجات NVIDIA H100 GPU (96GB HBM3)، معالج Intel Sapphire Rapids CPU
  2. مجموعة محلية:
    • 9 خوادم، معالج AMD EPYC 7443P (24 نواة)، 256GB ذاكرة
    • إعداد تدريب موزع بـ 99 حاوية

مقاييس التقييم

  • دقة الكشف: معدل دقة تحديد النوافذ الشاذة
  • الإسناد إلى الأنظمة الفرعية: القدرة على الربط الصحيح بنظام فرعي أجهزة
  • تحسن الأداء: تحسن وقت التشغيل من النهاية إلى النهاية
  • تقييم النفقات: استخدام وحدة المعالجة المركزية، متطلبات التخزين، وقت تشغيل الكاشف

نتائج التجربة

النتائج الرئيسية

نفقات الأداء

  • نفقات وحدة المعالجة المركزية: 1.2-1.4٪ عند فترة أخذ العينات 100ms، تنخفض إلى أقل من 0.6٪ عند 600ms
  • متطلبات التخزين: 42-43 KB/s/مضيف قبل التصفية، 14-22 KB/s بعد التصفية
  • تأخير الكشف: استخراج الميزات 1.46±0.02s، من النهاية إلى النهاية 2.26±0.17s

تأثير الكشف عن الحالات الشاذة

  • استقرار المؤشرات: 99.75٪ من أزواج عبء العمل والمؤشرات تظهر تشابهاً إحصائياً كبيراً (p<0.05)
  • الاتساق عبر التكوينات: الوسيط IoU بين الإعدادات الافتراضية والدقيقة 0.50، معدل الضرب 0.92

دراسات الحالة

الحالة 1: شذوذ NUMA (نظام الذاكرة الفرعي)

  • الكشف: النوافذ 118-123 تظهر انخفاض IPC وزيادة دورات فشل L3
  • التحليل: الذاكرة عبر المقبس وحركة PCIe تسبب زيادة الكمون
  • الإصلاح: ربط يدرك NUMA، ربط العمليات بعقدة NUMA واحدة
  • التأثير: تحسن ضبط DeepSeek-7B من 1823.4±46.1s إلى 1714.6±70.0s (تحسن 5.97٪)

الحالة 2: خطأ تكوين NCCL-QP (نظام الشبكة الفرعي)

  • الكشف: زيادة CPU Busy٪، انفجار حركة ib0 TX/RX، انخفاض استهلاك طاقة وحدة معالجة الرسومات
  • التحليل: تكوين QP واحد يسبب اختناق معالجة الإكمال
  • الإصلاح: زيادة من تكوين 1QP إلى 2QP
  • التأثير: تحسن وقت التشغيل من 1825.4±46.1s إلى 1769.3±16.7s (تحسن 3.1٪)

الحالة 3: عدم توازن IRQ (نظام وحدة المعالجة المركزية الفرعي)

  • الكشف: شذوذ في تباين CPU Busy٪ وعدادات IRQ
  • الإصلاح: تفعيل خدمة irqbalance لتوزيع حمل المقاطعات تلقائياً
  • التأثير: انخفاض شذوذ إعادة نقل TCP من 6.07٪ إلى 3.51٪

الحالة 4: خطأ تكوين HugePages (نظام الذاكرة الفرعي)

  • الكشف: شذوذ استخدام الذاكرة عبر العقد
  • التحليل: تم الإبلاغ عن HugePages المخصصة مسبقاً بحجم 1GiB كذاكرة "مستخدمة"
  • الإصلاح: التكوين لتخصيص HugePages الافتراضي بحجم 2MiB

الحالة 5: اختبار حقن فقدان الحزم (نظام الشبكة الفرعي)

  • القدرة على الكشف: التمييز بين إعادة النقل الداخلية لعبء العمل وإعادة النقل الناجمة عن الأعطال
  • عمق التحليل: توفير السياق عبر الطبقات، من عدادات طبقة النقل إلى ارتفاع IRQ لوحدة المعالجة المركزية وتوقف وحدة معالجة الرسومات

تحليل أنماط الشذوذ

  • مجموعة HPC: إشارات جانب وحدة المعالجة المركزية (Bzy_MHz و IRQ) تهيمن، تساهم بأكثر من 50٪ من ميزات الشذوذ
  • المجموعة المحلية: تركز الحالات الشاذة على أنظمة الذاكرة والإدخال/الإخراج، مع ظهور ارتفاعات writeback وتراكم الصفحات المتسخة
  • عبر البيئات: إعادة نقل TCP تظهر في كلا البيئتين، وعادة ما تكون مرتبطة بعدم توازن NCCL

الأعمال ذات الصلة

مقارنة طرق المراقبة الموجودة

وفقاً للجدول 1 في الورقة، تنقسم الطرق الموجودة إلى ثلاث فئات:

  1. محللات على مستوى التطبيق: TensorFlow Profiler و PyTorch Profiler - تتطلب إدراج الكود
  2. أدوات النظام: AWS SageMaker و Prometheus - الكشف القائم على القواعد
  3. التتبع منخفض المستوى: أدوات BCC/eBPF و RL-Scope - نفقات عالية أو تغطية محدودة

مزايا Reveal

  • بدون إدراج: قائم بالكامل على قياس أداء مستوى المضيف
  • تغطية كاملة للأنظمة الفرعية: وحدة المعالجة المركزية، وحدة معالجة الرسومات، الذاكرة، الشبكة، التخزين
  • الكشف التلقائي عن الحالات الشاذة: طرق تعلم الآلة غير الموجهة
  • الإسناد إلى الأجهزة: ربط الحالات الشاذة بمكونات أجهزة محددة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. جدوى النهج الذي يركز على الأجهزة: من الممكن الكشف الفعال عن الحالات الشاذة في أعباء عمل تعلم الآلة باستخدام إشارات الأجهزة فقط
  2. فعالية الكشف غير الموجه: يمكن لمجموعة من ثلاثة كواشف تحديد أنواع متعددة من الحالات الشاذة بدقة
  3. تحسن الأداء العملي: تحديد وإصلاح مشاكل التكوين بنجاح، مع تحقيق تحسنات أداء كبيرة
  4. قابلية نقل عالية: 91٪ من الكود قابل لإعادة الاستخدام عبر المنصات

القيود

  1. التكوين الثابت: يستخدم حالياً معدل أخذ عينات وحجم نافذة ثابتة، غير قادر على التكيف مع ديناميكية عبء العمل
  2. الكشف السلبي: يمكن فقط الكشف عن الحالات الشاذة، غير قادر على حل المشاكل تلقائياً
  3. الإصلاح اليدوي: يتطلب تدخل المشغل اليدوي لإصلاح المشاكل

الاتجاهات المستقبلية

  1. أخذ العينات التكيفي: ضبط معدل أخذ العينات بناءً على الطرق الاستكشافية
  2. الإصلاح التلقائي: البحث عن تدخلات خفيفة الوزن في وقت التشغيل، مثل إعادة توازن IRQ التلقائية
  3. توسيع الكواشف: استكشاف المزيد من طرق الكشف عن الحالات الشاذة غير الموجهة

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول اقتراح لطريقة كشف شذوذ تعلم الآلة باستخدام إشارات أجهزة نقية، مما يحل مشكلة القابلية للمراقبة في البيئات السحابية
  2. تجارب شاملة: اختبار أكثر من 30 نموذج على منصات أجهزة متعددة، مع مجموعات بيانات غنية
  3. قيمة عملية عالية: نفقات منخفضة (<2٪ وحدة معالجة مركزية)، قابلية نقل عالية (91٪ إعادة استخدام الكود)
  4. قوة النتائج: تحسن الأداء بنسبة 5.97٪ الفعلي يثبت فعالية الطريقة
  5. المساهمة مفتوحة المصدر: توفير مجموعات بيانات وأدوات كاملة

أوجه القصور

  1. تأخير الكشف: قد لا يكون تأخير من النهاية إلى النهاية بمقدار 2.26 ثانية مناسباً للتطبيقات في الوقت الفعلي
  2. هندسة الميزات: عملية اختيار المؤشرات واستخراج الميزات معقدة نسبياً وتتطلب معرفة متخصصة
  3. نطاق التقييم: اختبار أساسي في بيئات أكاديمية، قد تجلب تعقيدات البيئة الإنتاجية تحديات جديدة
  4. عمق تحليل السبب الجذري: على الرغم من القدرة على الإسناد إلى الأنظمة الفرعية، لا يزال تحليل السبب الجذري المحدد يتطلب تدخلاً يدوياً

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمراقبة أداء أنظمة تعلم الآلة
  2. القيمة العملية: توفير حل للمزودين السحابيين لمراقبة بدون الحاجة إلى الوصول إلى بيئة المستخدم
  3. القابلية للتكرار: دعم الكود مفتوح المصدر ومجموعات البيانات لتكرار البحث والتوسع

السيناريوهات المطبقة

  1. مزودو الخدمات السحابية: يحتاجون إلى تحسين الأداء دون الوصول إلى أعباء عمل المستخدم
  2. مراكز HPC: تحتاج إلى مراقبة وتشخيص مشاكل أداء أعباء عمل تعلم الآلة
  3. الحوسبة الطرفية: مراقبة خفيفة الوزن في البيئات محدودة الموارد
  4. المؤسسات البحثية: تحليل وتحسين أداء أنظمة تعلم الآلة

المراجع

تستشهد الورقة بـ 77 مرجعاً ذا صلة، تغطي:

  • أدوات تحليل أداء تعلم الآلة: Hotline و RL-Scope و Plumber وغيرها
  • طرق الكشف عن الحالات الشاذة: غابة العزلة و PCA ومسافة ماهالانوبيس وغيرها
  • مراقبة النظام: Prometheus و AWS CloudWatch وغيرها
  • أطر عمل تعلم الآلة: PyTorch و TensorFlow وغيرها

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال الأنظمة، تقترح طريقة ابتكارية للكشف عن الحالات الشاذة تركز على الأجهزة، وتحل مشكلة عملية في مراقبة أعباء عمل تعلم الآلة في البيئات السحابية. التصميم التجريبي شامل، والنتائج مقنعة، وللورقة قيمة مهمة للأوساط الأكاديمية والصناعية على حد سواء.