2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

グラフ説明をオペレータ融合に適用する

基本情報

論文ID: 2501.00636
タイトル: Applying Graph Explanation to Operator Fusion
著者: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
分類: cs.LG cs.CV
発表日: 2024年12月31日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2501.00636

要約

層融合技術は、展開のための深層ニューラルネットワーク(DNN)の推論効率を向上させるために重要である。融合は、アクセラレータのオンチップバッファとDRAM間のデータ転送を削減することで、推論コストを低下させることを目的としている。これは、畳み込みと活性化などの複数の操作をグループ化して単一の実行ユニット(融合グループ)に統合することで実現される。しかし、オンチップバッファ容量は融合グループサイズを制限し、全DNN上での融合最適化には複数の融合グループへの分割が必要である。最適なグループを見つけることは複雑な問題であり、無効な解の存在が従来の探索アルゴリズムを阻害し、堅牢なアプローチを要求する。本論文では、説明可能AI、特にグラフ説明技術(GET)を層融合に組み込む。無効な融合グループが与えられた場合、グループの無効性の原因となる操作を特定し、この知識を使用してDRAM アクセスを最小化するための貪欲木ベースアルゴリズムを介して元の融合グループを再帰的に分割する。本スキームを一般的なアルゴリズムと組み合わせ、Line-Buffer Depth First(LBDF)とBranch Requirement Reduction(BRR)の2種類の層融合上でDNNを最適化する。実験は、ResNetやMobileNetなどの複数の一般的で古典的な畳み込みニューラルネットワークでの本スキームの有効性を実証する。本スキームはEfficientNet-B3上でDRAMアクセスを20%以上削減することを達成する。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、深層ニューラルネットワークの層融合(Layer Fusion)最適化問題である。層融合は推論加速技術であり、複数のDNN操作層(畳み込みとReLUなど)を単一の実行ユニットに融合することで、ニューラルアクセラレータのオンチップキャッシュとDRAM間のデータ転送回数を削減し、推論レイテンシと消費電力を低下させる。

問題の重要性

性能ボトルネック: DNNモデルがより大きくより深くなるにつれて、DRAM アクセスが主要な性能と消費電力のボトルネックになる
展開要件: エッジデバイスとモバイルプラットフォーム上にDNNを展開する場合、メモリ帯域幅と消費電力の制限が特に厳しい
ハードウェア制約: オンチップキャッシュ容量は限定されており、融合効果を最大化するために操作をインテリジェントにグループ化する必要がある

既存方法の限界

探索効率の低さ: 従来の探索アルゴリズム(進化アルゴリズム、局所探索など)は無効な融合グループに直面した場合、効率が低い
ランダム分割: 既存方法は通常、無効な融合グループをランダムに分割し、DRAMアクセスコストの最適性を保証できない
解釈可能性の欠如: 融合グループの無効性を引き起こす特定の操作を特定できず、ターゲット化された最適化が困難である

研究の動機

著者は説明可能AI技術を層融合最適化に導入することを提案し、グラフ説明技術(Graph Explanation Techniques, GET)を通じて融合グループの無効性を引き起こす重要な操作を特定し、その後、貪欲木アルゴリズムを使用してインテリジェントに分割し、DRAMアクセスコストを最小化する。

核心的貢献

グラフ説明技術を層融合最適化に初めて適用: 説明可能AIとハードウェア最適化分野を革新的に結合
再帰的木分割アルゴリズムの提案: 無効な融合グループをインテリジェントに処理できる貪欲戦略ベースの再帰分割スキームを設計
融合方法間の検証: LBDF とBRRの2つの異なる層融合方法上でスキームの有効性を検証
顕著な性能向上: EfficientNet-B3上でDRAMアクセスを20%以上削減することを実現

方法の詳細説明

タスク定義

深層ニューラルネットワークの計算グラフGとオンチップキャッシュ容量βが与えられた場合、層融合最適化の目標は最適な分割スキームΦを見つけることであり、以下を満たす:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

ここで、F_DはDRAMアクセスコストを計算し、F_βはキャッシュ要件を計算し、各融合グループφnのメモリ要件はキャッシュ容量βを超えてはならない。

モデルアーキテクチャ

1. グラフニューラルネットワーク分類器

4層k-GNN、隠れ次元128を使用
ReLU活性化関数と合計集約
融合グループの有効性を二値分類問題に変換: Validity = σ(p(y|φ, β, θ))

2. グラフ説明技術の統合

3つの主流グラフ説明方法をサポート:

GNNExplainer (GNNE): 相互情報最大化ベース
PGExplainer (PG): 事前学習パラメータ化説明器
RG-Explainer (RG): 強化学習ベースの連結部分グラフ生成

3. 再帰的貪欲分割アルゴリズム

アルゴリズムは分割ソリューションを3つのカテゴリに分類:

カテゴリ1: 2つの新しい融合グループが両方とも有効(最適解)
カテゴリ2: 1つが有効、1つが無効(中間解)
カテゴリ3: 両方とも無効(最悪の場合)

技術的革新点

1. スキップ接続の処理

現代的なDNNの残差接続により、単純なエッジ削除では融合グループを分離できない。アルゴリズムはトポロジカルソートと再帰的チェックを通じて、ネストされたスキップ接続の正しい処理を保証する。

2. メモ化最適化

分割結果とコスト計算を保存するキャッシュメカニズムを使用し、重複計算を回避し、探索効率を向上させる。

3. 多層貪欲戦略

2つの有効な融合グループを生成するソリューションを優先的に選択
中間解では最も多くのノードを含む有効な融合グループを選択
すべてが有効になるまで無効な融合グループを再帰的に処理

実験設定

データセット

複数の古典的および現代的なCNNアーキテクチャのONNXモデルを使用:

古典的ネットワーク: VGG16、SqueezeNet、ResNet-18/50/101/152
現代的ネットワーク: MobileNetV2/V3、EfficientNet-B0/B3
セグメンテーションネットワーク: DeepLabV3+MobileNetV3

5つの異なるキャッシュサイズ(128KB-2048KB)にわたる54k以上の融合グループサンプルを生成。

評価指標

DRAMアクセスコスト: MB単位のデータ転送量
最大キャッシュ使用率(MBU): 分割スキーム内の最大融合グループのキャッシュ要件
修復率: GETが無効な融合グループを正常に修復するパーセンテージ

比較方法

探索アルゴリズム: ランダム探索(RS)、局所探索(LS)、NSGA-II
ベースライン方法: GETを使用しない元の探索アルゴリズム
GET変種: GNNE、PG、RGの3つのグラフ説明技術

実装の詳細

GNN学習50エポック、95%以上の精度とF1スコアを達成
探索予算: 1k-5k個の分割スキーム
OpenBoxを使用してNSGA-IIを実装、母集団サイズK=10

実験結果

主要結果

大規模ネットワークの性能向上

256KBキャッシュ、5k探索予算下での結果:

ネットワーク	方法	DRAMアクセス(MB)	改善幅
EfficientNet-B3	LSベースライン	90.500	-
	LS+GNNE	78.007	13.8%
	NSGA-II+PG	61.792	31.7%
ResNet-152	NSGA-IIベースライン	77.205	-
	NSGA-II+RG	66.621	13.7%

融合方法間の検証

128KBキャッシュ下のBRRおよびLBDF結果は、GET強化方法がほぼすべてのネットワークでベースラインを上回ることを示し、特にMobileNetV2などの複雑なネットワークで10%以上の改善を実現。

アブレーション実験

GET方法の比較

修復率: RG-Explainerが最高(91.4%-94.0%)、PGが最低(50.7%-59.1%)
計算効率: PGが最速、GNNEが最遅、RGが中程度
全体的性能: RGが修復率と効率間で最適なバランスを達成

探索予算分析

実験は、GETを使用した1k予算探索がベースライン4k予算の性能を超えることを示し、方法の効率性を証明。

ケース分析

Figure 4はEfficientNetの無効な融合グループに対する異なるGET方法の説明を示す:

すべての方法が主要なスキップ接続(ConvからMatmul)を特定
すべてLBDFに不適切なパディング操作を選択
異なるGETが選択したエッジセットは若干異なるが、すべてが重要なボトルネックをキャプチャ

実験的発見

スケール効果: より大きくより複雑なネットワークでは、GETの利点がより顕著
汎用性: 方法は異なる探索アルゴリズムと融合タイプに対して有効
効率向上: 探索プロセス中の無効なスキーム生成を大幅に削減

結論と考察

主要な結論

グラフ説明技術は融合グループの無効性を引き起こす重要な操作を効果的に特定できる
再帰的貪欲分割アルゴリズムは複雑なネットワーク構造をインテリジェントに処理できる
方法は複数のネットワークアーキテクチャとハードウェア構成で顕著な性能向上を示す

限界

ハードウェアモデルの簡略化: 現在はキャッシュ容量制約のみを考慮し、より複雑なハードウェア特性を含まない
融合タイプの制限: BRRはSEモジュールなどの現代的なネットワーク構造に対するサポートが限定的
計算オーバーヘッド: GNN学習とGET実行は前処理コストを増加させる

将来の方向

より多くのハードウェア制約への拡張: 帯域幅、レイテンシなどのより多くの要因を考慮
新しいネットワーク構造のサポート: Transformer、グラフニューラルネットワークなどに適応
エンドツーエンド最適化: 層融合と他のコンパイル最適化技術の結合

深層評価

長所

革新性が強い: 説明可能AI技術をハードウェア最適化に初めて適用し、新しい研究方向を開拓
方法が完全: 問題モデリングからアルゴリズム設計から実験検証まで完全なクローズドループを形成
実験が充分: 複数のネットワーク、融合方法、探索アルゴリズムの包括的検証を含む
実用価値が高い: 実際の展開シナリオで直接的な応用価値を有する

不足

理論分析の欠如: 方法の収束性と最適性に関する理論的保証が欠けている
ハードウェア検証の不足: 実験は主にシミュレーションベースであり、実際のハードウェアプラットフォーム検証が不足
スケーラビリティが未知: より大規模なネットワークの処理能力は検証が必要

影響力

学術的貢献: 説明可能AIのシステム最適化への応用の範例を提供
実用価値: 深層学習コンパイラと展開ツールに直接適用可能
啓発的意義: より多くのAI4Systemsの研究作業を啓発する可能性

適用シーン

エッジデバイスDNN展開最適化
モバイルプラットフォーム推論加速
データセンターエネルギー効率最適化
深層学習コンパイラ開発

参考文献

論文は層融合、グラフニューラルネットワーク、説明可能AIなど複数の分野の重要な研究を引用し、以下を含む:

Sze et al. (2017): 深層学習効率処理の総説
Ying et al. (2019): GNNExplainer原論文
Luo et al. (2020): PGExplainer方法
Shan et al. (2021): RG-Explainer技術

総合評価: これは高品質の学際的研究論文であり、説明可能AI技術をハードウェア最適化問題に成功裏に適用し、方法が新規で実験が充分である。理論分析とハードウェア検証の面でまだ改善の余地があるが、その革新性と実用性により、深層学習システム最適化分野で重要な価値を有する。