2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Application de l'Explication de Graphes à la Fusion d'Opérateurs

Informations Fondamentales

  • ID de l'article : 2501.00636
  • Titre : Applying Graph Explanation to Operator Fusion
  • Auteurs : Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • Classification : cs.LG cs.CV
  • Date de publication : 31 décembre 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2501.00636

Résumé

Les techniques de fusion de couches sont essentielles pour améliorer l'efficacité de l'inférence des réseaux de neurones profonds (DNN) lors du déploiement. La fusion vise à réduire les coûts d'inférence en diminuant les transactions de données entre le tampon sur puce d'un accélérateur et la DRAM. Ceci est réalisé par l'exécution groupée de multiples opérations telles que la convolution et les activations dans des unités d'exécution uniques - groupes de fusion. Cependant, la capacité limitée du tampon sur puce restreint la taille des groupes de fusion, et l'optimisation de la fusion sur des DNN complets nécessite un partitionnement en plusieurs groupes de fusion. Trouver les groupes optimaux est un problème complexe où la présence de solutions invalides entrave les algorithmes de recherche traditionnels et exige des approches robustes. Dans cet article, nous intégrons l'IA explicable, spécifiquement les Techniques d'Explication de Graphes (GET), à la fusion de couches. Étant donné un groupe de fusion invalide, nous identifions les opérations les plus responsables de l'invalidité du groupe, puis utilisons cette connaissance pour diviser récursivement le groupe de fusion original via un algorithme glouton basé sur les arbres afin de minimiser l'accès à la DRAM. Nous associons notre schéma à des algorithmes courants et optimisons les DNN sur deux types de fusion de couches : Line-Buffer Depth First (LBDF) et Branch Requirement Reduction (BRR). Les expériences démontrent l'efficacité de notre schéma sur plusieurs réseaux de neurones convolutifs populaires et classiques comme les ResNets et MobileNets. Notre schéma réalise une réduction de l'accès à la DRAM de plus de 20% sur EfficientNet-B3.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est l'optimisation de la fusion de couches (Layer Fusion) dans les réseaux de neurones profonds. La fusion de couches est une technique d'accélération de l'inférence qui réduit le nombre de transferts de données entre le cache sur puce d'un accélérateur neuronal et la DRAM en fusionnant plusieurs couches d'opérations DNN (telles que la convolution et ReLU) dans une unité d'exécution unique, réduisant ainsi la latence d'inférence et la consommation d'énergie.

Importance du Problème

  1. Goulot d'étranglement des performances : À mesure que les modèles DNN deviennent plus grands et plus profonds, l'accès à la DRAM devient le principal goulot d'étranglement en termes de performance et de consommation d'énergie
  2. Exigences de déploiement : Lors du déploiement de DNN sur des appareils périphériques et des plateformes mobiles, les limitations de bande passante mémoire et de consommation d'énergie sont particulièrement critiques
  3. Contraintes matérielles : La capacité limitée du cache sur puce nécessite un partitionnement intelligent des opérations pour maximiser l'effet de fusion

Limitations des Méthodes Existantes

  1. Faible efficacité de recherche : Les algorithmes de recherche traditionnels (tels que les algorithmes évolutionnaires et la recherche locale) sont inefficaces face aux groupes de fusion invalides
  2. Partitionnement aléatoire : Les méthodes existantes partitionnent généralement les groupes de fusion invalides de manière aléatoire, sans garantir l'optimalité du coût d'accès à la DRAM
  3. Manque d'explicabilité : Incapacité à identifier les opérations spécifiques responsables de l'invalidité d'un groupe de fusion, rendant difficile l'optimisation ciblée

Motivation de la Recherche

Les auteurs proposent d'intégrer les techniques d'IA explicable à l'optimisation de la fusion de couches, en utilisant les Techniques d'Explication de Graphes (GET) pour identifier les opérations critiques responsables de l'invalidité des groupes de fusion, puis en utilisant un algorithme de partitionnement d'arbre glouton pour minimiser le coût d'accès à la DRAM.

Contributions Principales

  1. Application novatrice des techniques d'explication de graphes à l'optimisation de la fusion de couches : Combinaison innovante de l'IA explicable et du domaine de l'optimisation matérielle
  2. Proposition d'un algorithme de partitionnement d'arbre récursif : Conception d'un schéma de partitionnement récursif basé sur une stratégie gloutonne capable de traiter intelligemment les groupes de fusion invalides
  3. Validation inter-méthodes de fusion : Vérification de l'efficacité du schéma sur deux méthodes de fusion de couches différentes : LBDF et BRR
  4. Améliorations significatives des performances : Réalisation d'une réduction de l'accès à la DRAM supérieure à 20% sur EfficientNet-B3

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un graphe de calcul d'un réseau de neurones profond G et une capacité de cache sur puce β, l'objectif de l'optimisation de la fusion de couches est de trouver le schéma de partitionnement optimal Φ tel que :

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

où F_D calcule le coût d'accès à la DRAM, F_β calcule les besoins en cache, et les besoins en mémoire de chaque groupe de fusion φn ne peuvent pas dépasser la capacité de cache β.

Architecture du Modèle

1. Classificateur de Réseau de Neurones Graphiques

  • Utilise un k-GNN à 4 couches avec dimension cachée de 128
  • Fonction d'activation ReLU et agrégation par sommation
  • Convertit la validité du groupe de fusion en problème de classification binaire : Validity = σ(p(y|φ, β, θ))

2. Intégration des Techniques d'Explication de Graphes

Prend en charge trois méthodes principales d'explication de graphes :

  • GNNExplainer (GNNE) : Basé sur la maximisation de l'information mutuelle
  • PGExplainer (PG) : Explicateur paramétrisé pré-entraîné
  • RG-Explainer (RG) : Génération de sous-graphes connexes basée sur l'apprentissage par renforcement

3. Algorithme de Partitionnement Glouton Récursif

L'algorithme classe les solutions de partitionnement en trois catégories :

  • Catégorie 1 : Les deux nouveaux groupes de fusion sont valides (solution préférée)
  • Catégorie 2 : Un groupe valide, un groupe invalide (solution intermédiaire)
  • Catégorie 3 : Les deux groupes invalides (pire cas)

Points d'Innovation Technique

1. Traitement des Connexions de Saut

Les connexions résiduelles dans les DNN modernes rendent la simple suppression d'arêtes inefficace pour séparer les groupes de fusion. L'algorithme utilise le tri topologique et la vérification récursive pour assurer le traitement correct des connexions de saut imbriquées.

2. Optimisation par Mémorisation

Utilise un mécanisme de cache pour stocker les résultats de partitionnement et les calculs de coûts, évitant les calculs redondants et améliorant l'efficacité de la recherche.

3. Stratégie Gloutonne Multi-niveaux

  • Prioriser les solutions produisant deux groupes de fusion valides
  • Parmi les solutions intermédiaires, sélectionner le groupe de fusion valide contenant le plus de nœuds
  • Traiter récursivement les groupes de fusion invalides jusqu'à ce que tous soient valides

Configuration Expérimentale

Ensemble de Données

Utilise des modèles ONNX d'architectures CNN classiques et modernes :

  • Réseaux classiques : VGG16, SqueezeNet, ResNet-18/50/101/152
  • Réseaux modernes : MobileNetV2/V3, EfficientNet-B0/B3
  • Réseaux de segmentation : DeepLabV3+MobileNetV3

Génère plus de 54 000 échantillons de groupes de fusion, couvrant 5 tailles de cache différentes (128 KB-2048 KB).

Métriques d'Évaluation

  • Coût d'accès à la DRAM : Volume de transfert de données en mégaoctets
  • Taux d'utilisation maximale du cache (MBU) : Besoins en cache du groupe de fusion le plus volumineux du schéma de partitionnement
  • Taux de réparation : Pourcentage de groupes de fusion invalides réparés avec succès par GET

Méthodes de Comparaison

  • Algorithmes de recherche : Random Search (RS), Local Search (LS), NSGA-II
  • Méthodes de base : Algorithmes de recherche originaux sans GET
  • Variantes GET : Trois techniques d'explication de graphes : GNNE, PG, RG

Détails d'Implémentation

  • Entraînement du GNN sur 50 epochs, atteignant une précision et un score F1 supérieurs à 95%
  • Budget de recherche : 1k-5k schémas de partitionnement
  • Utilise OpenBox pour implémenter NSGA-II avec une taille de population K=10

Résultats Expérimentaux

Résultats Principaux

Améliorations de Performance sur les Grands Réseaux

Résultats avec cache de 256 KB et budget de recherche de 5k :

RéseauMéthodeAccès DRAM (MB)Amélioration
EfficientNet-B3Baseline LS90.500-
LS+GNNE78.00713.8%
NSGA-II+PG61.79231.7%
ResNet-152Baseline NSGA-II77.205-
NSGA-II+RG66.62113.7%

Validation Inter-Méthodes de Fusion

Les résultats BRR et LBDF avec cache de 128 KB montrent que les méthodes améliorées par GET surpassent les baselines sur presque tous les réseaux, réalisant des améliorations supérieures à 10% sur les réseaux complexes comme MobileNetV2.

Expériences d'Ablation

Comparaison des Méthodes GET

  • Taux de réparation : RG-Explainer le plus élevé (91.4%-94.0%), PG le plus bas (50.7%-59.1%)
  • Efficacité computationnelle : PG le plus rapide, GNNE le plus lent, RG intermédiaire
  • Performance globale : RG atteint le meilleur équilibre entre taux de réparation et efficacité

Analyse du Budget de Recherche

Les expériences montrent qu'une recherche avec budget de 1k utilisant GET peut surpasser la performance de base avec budget de 4k, démontrant l'efficacité de la méthode.

Étude de Cas

La Figure 4 montre les explications de différentes méthodes GET pour les groupes de fusion invalides d'EfficientNet :

  • Toutes les méthodes identifient les connexions de saut principales (Conv vers Matmul)
  • Toutes sélectionnent les opérations de remplissage défavorables pour LBDF
  • Les ensembles d'arêtes sélectionnés par différentes méthodes GET varient légèrement mais capturent tous les goulots d'étranglement critiques

Découvertes Expérimentales

  1. Effet d'échelle : L'avantage de GET est plus apparent sur les réseaux plus grands et plus complexes
  2. Universalité : La méthode est efficace pour différents algorithmes de recherche et types de fusion
  3. Amélioration de l'efficacité : Réduit significativement la génération de schémas invalides pendant le processus de recherche

Travaux Connexes

Évolution des Techniques de Fusion de Couches

  • Travaux précoces : Principalement axés sur les combinaisons d'opérations simples et l'optimisation mémoire
  • Méthodes modernes : Considèrent les structures de réseau irrégulières et l'impact des connexions de saut
  • Optimisations spécifiques au matériel : Fusion adaptée à des opérations spécifiques comme les CNN et les mécanismes d'attention

Techniques d'Explication de Graphes

  • GNNExplainer : Travail fondateur basé sur l'explication de sous-graphes par information mutuelle
  • Méthodes paramétriques : Approches pré-entraînées comme PGExplainer améliorant l'efficacité
  • Méthodes par apprentissage par renforcement : RG-Explainer et autres garantissant la connexité de l'explication

Positionnement de la Contribution

Première application des techniques d'explication de graphes au domaine de l'optimisation matérielle, offrant une nouvelle perspective pour résoudre ce problème classique de fusion de couches.

Conclusion et Discussion

Conclusions Principales

  1. Les techniques d'explication de graphes peuvent identifier efficacement les opérations critiques responsables de l'invalidité des groupes de fusion
  2. L'algorithme de partitionnement glouton récursif peut traiter intelligemment les structures de réseau complexes
  3. La méthode démontre des améliorations significatives des performances sur diverses architectures de réseau et configurations matérielles

Limitations

  1. Simplification du modèle matériel : Considère actuellement uniquement les contraintes de capacité de cache, sans tenir compte des caractéristiques matérielles plus complexes
  2. Limitation des types de fusion : BRR offre un support limité pour les structures de réseau modernes (comme les modules SE)
  3. Surcharge computationnelle : L'entraînement du GNN et l'exécution de GET ajoutent des coûts de prétraitement

Directions Futures

  1. Extension à plus de contraintes matérielles : Considérer davantage de facteurs tels que la bande passante et la latence
  2. Support des nouvelles architectures de réseau : Adaptation aux Transformers, réseaux de neurones graphiques, etc.
  3. Optimisation bout en bout : Intégration de la fusion de couches avec d'autres techniques d'optimisation de compilation

Évaluation Approfondie

Avantages

  1. Forte innovativité : Première application des techniques d'IA explicable à l'optimisation matérielle, ouvrant une nouvelle direction de recherche
  2. Méthode complète : Forme une boucle fermée complète allant de la modélisation du problème à la conception d'algorithmes et à la vérification expérimentale
  3. Expérimentation complète : Vérification exhaustive couvrant plusieurs réseaux, méthodes de fusion et algorithmes de recherche
  4. Valeur pratique élevée : Applicable directement dans les scénarios de déploiement réels

Insuffisances

  1. Absence d'analyse théorique : Manque de garanties théoriques sur la convergence et l'optimalité de la méthode
  2. Vérification matérielle insuffisante : Les expériences sont principalement basées sur la simulation, manquant de vérification sur des plateformes matérielles réelles
  3. Scalabilité inconnue : La capacité de traitement pour les réseaux de plus grande envergure reste à vérifier

Impact

  1. Contribution académique : Fournit un exemple d'application de l'IA explicable à l'optimisation des systèmes
  2. Valeur pratique : Applicable directement aux compilateurs d'apprentissage profond et aux outils de déploiement
  3. Signification inspirante : Peut inspirer davantage de travaux de recherche en IA pour les systèmes

Scénarios d'Application

  • Optimisation du déploiement DNN sur appareils périphériques
  • Accélération de l'inférence sur plateformes mobiles
  • Optimisation de l'efficacité énergétique dans les centres de données
  • Développement de compilateurs d'apprentissage profond

Références

L'article cite des travaux importants de plusieurs domaines incluant la fusion de couches, les réseaux de neurones graphiques et l'IA explicable, notamment :

  • Sze et al. (2017) : Synthèse du traitement efficace de l'apprentissage profond
  • Ying et al. (2019) : Article original de GNNExplainer
  • Luo et al. (2020) : Méthode PGExplainer
  • Shan et al. (2021) : Technique RG-Explainer

Évaluation Globale : Ceci est un article de recherche de haute qualité interdisciplinaire qui applique avec succès les techniques d'IA explicable aux problèmes d'optimisation matérielle. La méthode est novatrice et l'expérimentation est complète. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et la vérification matérielle, son innovativité et sa valeur pratique lui confèrent une importance significative dans le domaine de l'optimisation des systèmes d'apprentissage profond.