Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
academic 論文ID : 2406.01317タイトル : The Interpretable and Effective Graph Neural Additive Networks著者 : Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach分類 : cs.LG cs.AI発表会議 : NeurIPS 2024(第38回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2406.01317 グラフニューラルネットワーク(GNN)はグラフ構造データの学習における主流手法となっていますが、ほとんどのGNNはブラックボックスモデルとして機能し、事後解釈が必要であり、透明性が求められる高リスク場面では十分ではない可能性があります。本論文は、設計段階で解釈可能なGNNモデル——グラフニューラル加法ネットワーク(GNAN)を提案します。これは解釈可能な一般化加法モデル(GAM)クラスの新しい拡張であり、人間が可視化して完全に理解できます。GNANは特徴レベルおよびグラフレベルでグローバルおよびローカルな説明を提供し、モデルの直接的な可視化を通じてモデルが目的変数、特徴、およびグラフ間の関係をどのように使用するかを記述します。実験により、GNANの精度はブラックボックスGNNと同等であり、透明性と高精度が必要な重要なアプリケーションに適用可能であることが示されています。
中核的問題 :既存のGNNは解釈可能性に欠け、医療、金融、刑事司法などの高リスク領域での応用が制限されている透明性の必要性 :EU GDPR およびAI法案などの規制により、高リスクAIシステムに透明性が求められている既存解釈方法の限界 :
事後解釈方法(SHAP、LIMEなど)は正確性の保証に欠ける ローカル説明とグローバル説明が矛盾する可能性がある モデルの完全な記述を提供できない 解釈可能性対精度 :従来の見方では解釈可能モデルは通常精度が低いとされていますが、本論文はこの見方に異議を唱えます設計時の解釈可能性 :事後解釈と比較して、設計時に解釈可能なモデルはより信頼性が高い規制適合性 :ますます厳しくなるAI透明性規制要件を満たす理論的貢献 :一般化加法モデル(GAM)をグラフデータに拡張し、GNAN アーキテクチャを提案方法論的貢献 :完全に解釈可能なグラフ予測モデルを設計し、グローバルおよびローカルな説明能力を提供実証的貢献 :複数の実データセット上でGNANの性能がブラックボックスGNNと同等であることを証明実用的貢献 :直接可視化可能なモデルデバッグおよび検証能力を提供入力 :N個のノードを含むグラフG、各ノードiはd次元特徴ベクトルxi ∈ ℝdに関連付けられている出力 :ノードレベルの予測またはグラフレベルの予測距離定義 :dist(j,i)はノードjからノードiへの最短経路のエッジ数GNANは距離関数ρ(x;θ): ℝ → ℝ と特徴形状関数{fk}^d_, fk(x;θk): ℝ → ℝを学習することでノード表現を生成します。
ノードiのk番目の特徴表現は以下のように計算されます:
[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)
ここで:
#disti(j,i):ノードiから距離dist(j,i)にあるノード数ρ(1/(1+dist(j,i))):距離重み関数fk([xj]k):k番目の特徴の形状関数ノード予測 :σ(Σ(k=1 to d)[hi]k)グラフ予測 :まず合計プーリングによってグラフ表現h = Σ(i=1 to N)hiを得て、その後σ(Σ(k=1 to d)[h]k)を計算C クラス分類の場合、特徴関数と距離関数はC次元ベクトルを出力し、要素ごとの乗法で結合されます:
[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)
加法構造 :特徴とグラフトポロジーの交差積を回避し、解釈可能性を維持距離モデリング :ノード間距離が予測に与える影響を明示的にモデル化グローバル情報フロー :各ノードがグラフ全体の情報を収集し、メッセージパッシングのボトルネックを回避完全な可視化 :モデルは少数の関数グラフで完全に記述可能引用ネットワーク :Cora、Citeseer、PubMed、ogb-arxiv異質性データ :Cornell、Tolokers化学分子 :NCI1、Proteins、Mutagen、PTC長距離分子特性 :μ、α、αHOMO(QM9データセット)分類タスク:精度(Accuracy) 回帰タスク:平均絶対誤差(MAE) 二値分類:ROC-AUC GraphConv、GraphSAGE、GIN GATv2、Graph Transformer FSGNN(特徴-グラフ分離モデル) オプティマイザー:Adam 訓練エポック数:1000 epochs 早期停止:検証損失が100ステップ改善されない場合 ネットワーク構造:3-5層MLP、ReLU活性化 隠れ次元:32-64 13個のタスク中、GNANは9個のタスクで最良または次点の性能を示しました:
タスク種別 データセット GNAN性能 最良ベースライン ノード分類 Cornell 85.7±4.8% FSGNN: 86.0±4.1% ノード分類 Tolokers 84.5±0.9% GATv2: 83.8±1.1% グラフ分類 Mutagen 72.2±1.0% GTransformer: 73.1±0.9% 長距離回帰 μ 2.55±0.1 GIN: 2.60±0.1 長距離回帰 α 4.28±0.9 GTransformer: 4.30±0.5
長距離タスクでの優位性 :GNANは長距離分子特性予測タスクで優れた性能を示し、グローバル情報フローの利点を検証性能の維持 :容量が制限されているにもかかわらず、GNANの性能はより複雑なGNNと同等計算効率 :反復的なメッセージパッシングを回避し、計算ボトルネックを削減距離関数ρと特徴関数{fk}を可視化することでモデルを完全に記述:
Mutagenicity データセット :距離関数は遠隔原子の影響が減少することを示す 特徴関数はCa、Na、Li原子が突然変異誘発性を増加させることを明らかにする N、P原子は軽微な保護作用を有する PubMed データセット :3種類の糖尿病の距離関数に明らかな差異がある 特徴関数は複雑な非単調関係を展示 「insulin」の単語頻度は異なる種類の糖尿病に異なる影響を与える ノード重要度の可視化を通じた具体的な分子の説明:
炭素環構造は突然変異誘発分子で高い重要性を持つ NO2基は突然変異誘発因子として正しく識別される モデルが事前知識と一致した学習をしているかを検証 潜在的なバイアスと安全リスクを識別 モデル選択と最適化をサポート 従来のGAMはスプラインなどの平滑化関数を使用 Neural Additive Modelsはニューラルネットワークを使用して形状関数を学習 GNANはグラフデータ上のGAMの初めての拡張 既存の方法は主に事後部分グラフ説明を提供 設計時に解釈可能なGNNモデルが不足している GNANはプロキシ説明ではなく完全なモデル記述を提供 FSGNNなどの方法は特徴とグラフ構造を分離 過適合と計算複雑度を削減 GNANはさらに完全な解釈可能性を実現 解釈可能性は精度を犠牲にする必要がない 設計時の解釈可能性は事後解釈より信頼性が高い 多くの実際のグラフ問題は予想より単純であり、複雑なモデルを必要としない 容量制限 :加法構造はモデルの表現能力を制限特徴交互作用 :特徴間の複雑な交互作用をモデル化できないグラフ構造 :高度に複雑なグラフパターンに対しては十分でない可能性がある可視化の複雑さ :高次元特徴の場合、可視化が困難技術的改善 :Kolmogorov-Arnold Networksを統合して平滑関数を実現 各特徴に対して独立した距離関数を学習 特徴使用を削減するための正則化を探索 応用の拡張 :生物ネットワークデータセットへの応用 タンパク質相互作用ネットワーク 科学発見支援ツール 革新性が強い :GAMをグラフデータに拡張する初めての試み、重要な空白を埋める理論的基礎が堅実 :成熟したGAM理論に基づき、設計が合理的実用価値が高い :高リスク応用の解釈可能性要件を直接満たす実験が充分 :複数のタスクとデータセットを含み、比較が包括的可視化が優れている :直感的で完全なモデル説明を提供方法の限界 :加法仮定が強すぎ、重要な特徴交互作用を見落とす可能性がある適用範囲 :複雑な特徴交互作用が必要なタスクでは性能が低下する可能性がある理論分析 :表現能力の理論分析が不足している拡張性 :高次元特徴の場合、解釈可能性と計算効率の問題学術的貢献 :解釈可能なGNNの新しい方向を開拓実用的価値 :高リスクAI応用に実用的なソリューションを提供政策的意義 :AI規制トレンドに適合し、重要な現実的意義を持つ再現性 :コードがオープンソース化され、後続研究を容易にする高リスク応用 :医療診断、金融リスク管理、司法判断科学研究 :分子特性予測、医薬品発見規制適合 :解釈可能性要件を満たす必要がある商業応用教育訓練 :GNN原理の教育と理解主要な関連研究:
Hastie & Tibshirani (1986): 一般化加法モデルの基礎理論 Agarwal et al. (2021): Neural Additive Models Ying et al. (2019): GNNExplainer - GNN事後解釈方法 Rudin (2019): 解釈可能モデル対ブラックボックス説明の議論 要約 :本論文で提案されたGNANは解釈可能なAI領域における重要な貢献であり、グラフ学習タスクにおいて解釈可能性と精度の両立が可能であることを成功裏に証明しています。表現能力の理論的限界は存在しますが、特に透明性が必要な高リスク場面における実際の応用価値により、本論文は当該分野における重要な進展となっています。