現代の機械学習は、ハードウェア、ソフトウェア、ネットワーク、アプリケーションを統合した密結合のフルスタックエコシステムへと発展している。多くのユーザーはクラウドプロバイダーから弾性的で隔離された費用効率的なリソースを利用している。しかし、これらのプラットフォームアズサービスは仮想化を採用しており、オペレータはユーザーのワークロードについての洞察を欠いている。これはリソース最適化を阻害し、費用効率性の確保と実行時間の最小化に不可欠である。本論文は、ワークロード知識なしでシステムレベルの最適化が可能であることを提案する。我々はRevealを提案し、ハードウェア中心のアプローチを採用し、オペレータが完全にアクセス可能なハードウェア信号のみに依存する。30以上の一般的なMLモデルの様々なハードウェアプラットフォーム上での性能を分析することで、異常検知のための教師なし学習パイプラインを開発した。Revealを使用することで、ネットワークおよびシステム構成の問題を成功裏に識別し、DeepSeekモデルを5.97%加速させた。
入力:ホストレベルのハードウェアテレメトリデータ(CPU、GPU、メモリ、ネットワーク、ストレージ指標) 出力:異常ウィンドウの検知、サブシステムの帰属、根本原因分析レポート 制約:オペレータがアクセス可能なハードウェアレベルの信号のみを使用し、高レベルのワークロード知識は不要
3つの相補的な教師なし手法を採用:
論文のTable 1に基づき、既存手法は3つのカテゴリに分類される:
論文は77篇の関連文献を引用し、以下をカバーしている:
総合評価:これは高品質なシステム研究論文であり、革新的なハードウェア中心の異常検知手法を提案し、クラウド環境下のMLワークロード監視の実際的な問題を解決している。実験設計が充分で、結果に説得力があり、学術界と産業界の両方に重要な価値を持つ。