2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

Application de l'Explication de Graphes à la Fusion d'Opérateurs

Informations Fondamentales

ID de l'article : 2501.00636
Titre : Applying Graph Explanation to Operator Fusion
Auteurs : Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
Classification : cs.LG cs.CV
Date de publication : 31 décembre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00636

Résumé

Les techniques de fusion de couches sont essentielles pour améliorer l'efficacité de l'inférence des réseaux de neurones profonds (DNN) lors du déploiement. La fusion vise à réduire les coûts d'inférence en diminuant les transactions de données entre le tampon sur puce d'un accélérateur et la DRAM. Ceci est réalisé par l'exécution groupée de multiples opérations telles que la convolution et les activations dans des unités d'exécution uniques - groupes de fusion. Cependant, la capacité limitée du tampon sur puce restreint la taille des groupes de fusion, et l'optimisation de la fusion sur des DNN complets nécessite un partitionnement en plusieurs groupes de fusion. Trouver les groupes optimaux est un problème complexe où la présence de solutions invalides entrave les algorithmes de recherche traditionnels et exige des approches robustes. Dans cet article, nous intégrons l'IA explicable, spécifiquement les Techniques d'Explication de Graphes (GET), à la fusion de couches. Étant donné un groupe de fusion invalide, nous identifions les opérations les plus responsables de l'invalidité du groupe, puis utilisons cette connaissance pour diviser récursivement le groupe de fusion original via un algorithme glouton basé sur les arbres afin de minimiser l'accès à la DRAM. Nous associons notre schéma à des algorithmes courants et optimisons les DNN sur deux types de fusion de couches : Line-Buffer Depth First (LBDF) et Branch Requirement Reduction (BRR). Les expériences démontrent l'efficacité de notre schéma sur plusieurs réseaux de neurones convolutifs populaires et classiques comme les ResNets et MobileNets. Notre schéma réalise une réduction de l'accès à la DRAM de plus de 20% sur EfficientNet-B3.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est l'optimisation de la fusion de couches (Layer Fusion) dans les réseaux de neurones profonds. La fusion de couches est une technique d'accélération de l'inférence qui réduit le nombre de transferts de données entre le cache sur puce d'un accélérateur neuronal et la DRAM en fusionnant plusieurs couches d'opérations DNN (telles que la convolution et ReLU) dans une unité d'exécution unique, réduisant ainsi la latence d'inférence et la consommation d'énergie.

Importance du Problème

Goulot d'étranglement des performances : À mesure que les modèles DNN deviennent plus grands et plus profonds, l'accès à la DRAM devient le principal goulot d'étranglement en termes de performance et de consommation d'énergie
Exigences de déploiement : Lors du déploiement de DNN sur des appareils périphériques et des plateformes mobiles, les limitations de bande passante mémoire et de consommation d'énergie sont particulièrement critiques
Contraintes matérielles : La capacité limitée du cache sur puce nécessite un partitionnement intelligent des opérations pour maximiser l'effet de fusion

Limitations des Méthodes Existantes

Faible efficacité de recherche : Les algorithmes de recherche traditionnels (tels que les algorithmes évolutionnaires et la recherche locale) sont inefficaces face aux groupes de fusion invalides
Partitionnement aléatoire : Les méthodes existantes partitionnent généralement les groupes de fusion invalides de manière aléatoire, sans garantir l'optimalité du coût d'accès à la DRAM
Manque d'explicabilité : Incapacité à identifier les opérations spécifiques responsables de l'invalidité d'un groupe de fusion, rendant difficile l'optimisation ciblée

Motivation de la Recherche

Les auteurs proposent d'intégrer les techniques d'IA explicable à l'optimisation de la fusion de couches, en utilisant les Techniques d'Explication de Graphes (GET) pour identifier les opérations critiques responsables de l'invalidité des groupes de fusion, puis en utilisant un algorithme de partitionnement d'arbre glouton pour minimiser le coût d'accès à la DRAM.

Contributions Principales

Application novatrice des techniques d'explication de graphes à l'optimisation de la fusion de couches : Combinaison innovante de l'IA explicable et du domaine de l'optimisation matérielle
Proposition d'un algorithme de partitionnement d'arbre récursif : Conception d'un schéma de partitionnement récursif basé sur une stratégie gloutonne capable de traiter intelligemment les groupes de fusion invalides
Validation inter-méthodes de fusion : Vérification de l'efficacité du schéma sur deux méthodes de fusion de couches différentes : LBDF et BRR
Améliorations significatives des performances : Réalisation d'une réduction de l'accès à la DRAM supérieure à 20% sur EfficientNet-B3

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un graphe de calcul d'un réseau de neurones profond G et une capacité de cache sur puce β, l'objectif de l'optimisation de la fusion de couches est de trouver le schéma de partitionnement optimal Φ tel que :

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

où F_D calcule le coût d'accès à la DRAM, F_β calcule les besoins en cache, et les besoins en mémoire de chaque groupe de fusion φn ne peuvent pas dépasser la capacité de cache β.

Architecture du Modèle

1. Classificateur de Réseau de Neurones Graphiques

Utilise un k-GNN à 4 couches avec dimension cachée de 128
Fonction d'activation ReLU et agrégation par sommation
Convertit la validité du groupe de fusion en problème de classification binaire : Validity = σ(p(y|φ, β, θ))

2. Intégration des Techniques d'Explication de Graphes

Prend en charge trois méthodes principales d'explication de graphes :

GNNExplainer (GNNE) : Basé sur la maximisation de l'information mutuelle
PGExplainer (PG) : Explicateur paramétrisé pré-entraîné
RG-Explainer (RG) : Génération de sous-graphes connexes basée sur l'apprentissage par renforcement

3. Algorithme de Partitionnement Glouton Récursif

L'algorithme classe les solutions de partitionnement en trois catégories :

Catégorie 1 : Les deux nouveaux groupes de fusion sont valides (solution préférée)
Catégorie 2 : Un groupe valide, un groupe invalide (solution intermédiaire)
Catégorie 3 : Les deux groupes invalides (pire cas)

Points d'Innovation Technique

1. Traitement des Connexions de Saut

Les connexions résiduelles dans les DNN modernes rendent la simple suppression d'arêtes inefficace pour séparer les groupes de fusion. L'algorithme utilise le tri topologique et la vérification récursive pour assurer le traitement correct des connexions de saut imbriquées.

2. Optimisation par Mémorisation

Utilise un mécanisme de cache pour stocker les résultats de partitionnement et les calculs de coûts, évitant les calculs redondants et améliorant l'efficacité de la recherche.

3. Stratégie Gloutonne Multi-niveaux

Prioriser les solutions produisant deux groupes de fusion valides
Parmi les solutions intermédiaires, sélectionner le groupe de fusion valide contenant le plus de nœuds
Traiter récursivement les groupes de fusion invalides jusqu'à ce que tous soient valides

Configuration Expérimentale

Ensemble de Données

Utilise des modèles ONNX d'architectures CNN classiques et modernes :

Réseaux classiques : VGG16, SqueezeNet, ResNet-18/50/101/152
Réseaux modernes : MobileNetV2/V3, EfficientNet-B0/B3
Réseaux de segmentation : DeepLabV3+MobileNetV3

Génère plus de 54 000 échantillons de groupes de fusion, couvrant 5 tailles de cache différentes (128 KB-2048 KB).

Métriques d'Évaluation

Coût d'accès à la DRAM : Volume de transfert de données en mégaoctets
Taux d'utilisation maximale du cache (MBU) : Besoins en cache du groupe de fusion le plus volumineux du schéma de partitionnement
Taux de réparation : Pourcentage de groupes de fusion invalides réparés avec succès par GET

Méthodes de Comparaison

Algorithmes de recherche : Random Search (RS), Local Search (LS), NSGA-II
Méthodes de base : Algorithmes de recherche originaux sans GET
Variantes GET : Trois techniques d'explication de graphes : GNNE, PG, RG

Détails d'Implémentation

Entraînement du GNN sur 50 epochs, atteignant une précision et un score F1 supérieurs à 95%
Budget de recherche : 1k-5k schémas de partitionnement
Utilise OpenBox pour implémenter NSGA-II avec une taille de population K=10

Résultats Expérimentaux

Résultats Principaux

Améliorations de Performance sur les Grands Réseaux

Résultats avec cache de 256 KB et budget de recherche de 5k :

Réseau	Méthode	Accès DRAM (MB)	Amélioration
EfficientNet-B3	Baseline LS	90.500	-
	LS+GNNE	78.007	13.8%
	NSGA-II+PG	61.792	31.7%
ResNet-152	Baseline NSGA-II	77.205	-
	NSGA-II+RG	66.621	13.7%

Validation Inter-Méthodes de Fusion

Les résultats BRR et LBDF avec cache de 128 KB montrent que les méthodes améliorées par GET surpassent les baselines sur presque tous les réseaux, réalisant des améliorations supérieures à 10% sur les réseaux complexes comme MobileNetV2.

Expériences d'Ablation

Comparaison des Méthodes GET

Taux de réparation : RG-Explainer le plus élevé (91.4%-94.0%), PG le plus bas (50.7%-59.1%)
Efficacité computationnelle : PG le plus rapide, GNNE le plus lent, RG intermédiaire
Performance globale : RG atteint le meilleur équilibre entre taux de réparation et efficacité

Analyse du Budget de Recherche

Les expériences montrent qu'une recherche avec budget de 1k utilisant GET peut surpasser la performance de base avec budget de 4k, démontrant l'efficacité de la méthode.

Étude de Cas

La Figure 4 montre les explications de différentes méthodes GET pour les groupes de fusion invalides d'EfficientNet :

Toutes les méthodes identifient les connexions de saut principales (Conv vers Matmul)
Toutes sélectionnent les opérations de remplissage défavorables pour LBDF
Les ensembles d'arêtes sélectionnés par différentes méthodes GET varient légèrement mais capturent tous les goulots d'étranglement critiques

Découvertes Expérimentales

Effet d'échelle : L'avantage de GET est plus apparent sur les réseaux plus grands et plus complexes
Universalité : La méthode est efficace pour différents algorithmes de recherche et types de fusion
Amélioration de l'efficacité : Réduit significativement la génération de schémas invalides pendant le processus de recherche

Travaux Connexes

Évolution des Techniques de Fusion de Couches

Travaux précoces : Principalement axés sur les combinaisons d'opérations simples et l'optimisation mémoire
Méthodes modernes : Considèrent les structures de réseau irrégulières et l'impact des connexions de saut
Optimisations spécifiques au matériel : Fusion adaptée à des opérations spécifiques comme les CNN et les mécanismes d'attention

Techniques d'Explication de Graphes

GNNExplainer : Travail fondateur basé sur l'explication de sous-graphes par information mutuelle
Méthodes paramétriques : Approches pré-entraînées comme PGExplainer améliorant l'efficacité
Méthodes par apprentissage par renforcement : RG-Explainer et autres garantissant la connexité de l'explication

Positionnement de la Contribution

Première application des techniques d'explication de graphes au domaine de l'optimisation matérielle, offrant une nouvelle perspective pour résoudre ce problème classique de fusion de couches.

Conclusion et Discussion

Conclusions Principales

Les techniques d'explication de graphes peuvent identifier efficacement les opérations critiques responsables de l'invalidité des groupes de fusion
L'algorithme de partitionnement glouton récursif peut traiter intelligemment les structures de réseau complexes
La méthode démontre des améliorations significatives des performances sur diverses architectures de réseau et configurations matérielles

Limitations

Simplification du modèle matériel : Considère actuellement uniquement les contraintes de capacité de cache, sans tenir compte des caractéristiques matérielles plus complexes
Limitation des types de fusion : BRR offre un support limité pour les structures de réseau modernes (comme les modules SE)
Surcharge computationnelle : L'entraînement du GNN et l'exécution de GET ajoutent des coûts de prétraitement

Directions Futures

Extension à plus de contraintes matérielles : Considérer davantage de facteurs tels que la bande passante et la latence
Support des nouvelles architectures de réseau : Adaptation aux Transformers, réseaux de neurones graphiques, etc.
Optimisation bout en bout : Intégration de la fusion de couches avec d'autres techniques d'optimisation de compilation

Évaluation Approfondie

Avantages

Forte innovativité : Première application des techniques d'IA explicable à l'optimisation matérielle, ouvrant une nouvelle direction de recherche
Méthode complète : Forme une boucle fermée complète allant de la modélisation du problème à la conception d'algorithmes et à la vérification expérimentale
Expérimentation complète : Vérification exhaustive couvrant plusieurs réseaux, méthodes de fusion et algorithmes de recherche
Valeur pratique élevée : Applicable directement dans les scénarios de déploiement réels

Insuffisances

Absence d'analyse théorique : Manque de garanties théoriques sur la convergence et l'optimalité de la méthode
Vérification matérielle insuffisante : Les expériences sont principalement basées sur la simulation, manquant de vérification sur des plateformes matérielles réelles
Scalabilité inconnue : La capacité de traitement pour les réseaux de plus grande envergure reste à vérifier

Impact

Contribution académique : Fournit un exemple d'application de l'IA explicable à l'optimisation des systèmes
Valeur pratique : Applicable directement aux compilateurs d'apprentissage profond et aux outils de déploiement
Signification inspirante : Peut inspirer davantage de travaux de recherche en IA pour les systèmes

Scénarios d'Application

Optimisation du déploiement DNN sur appareils périphériques
Accélération de l'inférence sur plateformes mobiles
Optimisation de l'efficacité énergétique dans les centres de données
Développement de compilateurs d'apprentissage profond

Références

L'article cite des travaux importants de plusieurs domaines incluant la fusion de couches, les réseaux de neurones graphiques et l'IA explicable, notamment :

Sze et al. (2017) : Synthèse du traitement efficace de l'apprentissage profond
Ying et al. (2019) : Article original de GNNExplainer
Luo et al. (2020) : Méthode PGExplainer
Shan et al. (2021) : Technique RG-Explainer

Évaluation Globale : Ceci est un article de recherche de haute qualité interdisciplinaire qui applique avec succès les techniques d'IA explicable aux problèmes d'optimisation matérielle. La méthode est novatrice et l'expérimentation est complète. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et la vérification matérielle, son innovativité et sa valeur pratique lui confèrent une importance significative dans le domaine de l'optimisation des systèmes d'apprentissage profond.