2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

Anwendung von Graphenerklärung auf Operatorfusion

Grundinformationen

Papier-ID: 2501.00636
Titel: Applying Graph Explanation to Operator Fusion
Autoren: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
Klassifizierung: cs.LG cs.CV
Veröffentlichungsdatum: 31. Dezember 2024 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.00636

Zusammenfassung

Schichtverschmelzungstechniken sind entscheidend für die Verbesserung der Inferenzeffizienz von Deep Neural Networks (DNN) bei der Bereitstellung. Die Fusion zielt darauf ab, Inferenzkosten durch Reduzierung von Datentransaktionen zwischen dem On-Chip-Puffer eines Beschleunigers und dem DRAM zu senken. Dies wird durch gruppierte Ausführung mehrerer Operationen wie Faltung und Aktivierungen zusammen in einzelnen Ausführungseinheiten – Fusionsgruppen – erreicht. Die Kapazität des On-Chip-Puffers begrenzt jedoch die Größe der Fusionsgruppe, und die Optimierung der Fusion auf ganzen DNNs erfordert eine Aufteilung in mehrere Fusionsgruppen. Das Finden der optimalen Gruppen ist ein komplexes Problem, bei dem das Vorhandensein ungültiger Lösungen traditionelle Suchalgorithmen behindert und robuste Ansätze erfordert. In diesem Papier integrieren wir Explainable AI, speziell Graph Explanation Techniques (GET), in die Schichtverschmelzung. Bei einer ungültigen Fusionsgruppe identifizieren wir die Operationen, die am meisten für die Ungültigkeit der Gruppe verantwortlich sind, und nutzen dieses Wissen dann, um die ursprüngliche Fusionsgruppe rekursiv über einen gierigen baumgestützten Algorithmus zu teilen, um den DRAM-Zugriff zu minimieren. Wir kombinieren unser Schema mit gängigen Algorithmen und optimieren DNNs auf zwei Arten der Schichtverschmelzung: Line-Buffer Depth First (LBDF) und Branch Requirement Reduction (BRR). Experimente demonstrieren die Wirksamkeit unseres Schemas auf mehreren beliebten und klassischen Faltungsneuronalen Netzen wie ResNets und MobileNets. Unser Schema erreicht eine Reduktion des DRAM-Zugriffs von über 20% auf EfficientNet-B3.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist das Optimierungsproblem der Schichtverschmelzung (Layer Fusion) in Deep Neural Networks. Die Schichtverschmelzung ist eine Inferenzbeschleunigungstechnik, die mehrere DNN-Operationsschichten (wie Faltung und ReLU) in eine einzelne Ausführungseinheit verschmilzt, um die Anzahl der Datentransfers zwischen dem On-Chip-Cache des neuronalen Beschleunigers und dem DRAM zu reduzieren, wodurch Inferenzlatenz und Stromverbrauch gesenkt werden.

Bedeutung des Problems

Leistungsengpass: Mit zunehmender Größe und Tiefe von DNN-Modellen wird der DRAM-Zugriff zum Hauptengpass für Leistung und Stromverbrauch
Bereitstellungsanforderungen: Bei der Bereitstellung von DNNs auf Edge-Geräten und mobilen Plattformen sind Speicherbandbreite und Stromverbrauchsbeschränkungen besonders kritisch
Hardwarebeschränkungen: Die begrenzte On-Chip-Cache-Kapazität erfordert intelligente Operationengruppierung zur Maximierung des Fusionseffekts

Einschränkungen bestehender Methoden

Niedrige Sucheffizienz: Traditionelle Suchalgorithmen (wie evolutionäre Algorithmen, lokale Suche) sind bei ungültigen Fusionsgruppen ineffizient
Zufällige Aufteilung: Bestehende Methoden teilen ungültige Fusionsgruppen typischerweise zufällig auf, ohne DRAM-Zugriffskosten zu optimieren
Mangelnde Interpretierbarkeit: Unmöglich, spezifische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, was gezielte Optimierung erschwert

Forschungsmotivation

Die Autoren schlagen vor, Explainable AI-Techniken in die Optimierung der Schichtverschmelzung einzubeziehen, indem Graph Explanation Techniques (GET) verwendet werden, um kritische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, und dann einen gierigen Baumalgorithmus zur intelligenten Aufteilung einzusetzen, um DRAM-Zugriffskosten zu minimieren.

Kernbeiträge

Erstmalige Anwendung von Graphenerklärungstechniken auf Schichtverschmelzungsoptimierung: Innovative Kombination von Explainable AI und Hardwareoptimierungsbereich
Vorschlag eines rekursiven Baumaufteilungsalgorithmus: Entwurf eines auf gieriger Strategie basierenden rekursiven Aufteilungsschemas, das ungültige Fusionsgruppen intelligent verarbeiten kann
Validierung über Fusionsmethoden hinweg: Validierung des Schemas auf zwei verschiedenen Schichtverschmelzungsmethoden LBDF und BRR
Signifikante Leistungsverbesserung: Erreicht eine DRAM-Zugriffsvermeidung von über 20% auf EfficientNet-B3

Methodische Details

Aufgabendefinition

Gegeben ein Berechnungsgraph G eines Deep Neural Networks und die On-Chip-Cache-Kapazität β, besteht das Ziel der Schichtverschmelzungsoptimierung darin, ein optimales Aufteilungsschema Φ zu finden, so dass:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

wobei F_D die DRAM-Zugriffskosten berechnet, F_β den Cache-Bedarf berechnet, und der Speicherbedarf jeder Fusionsgruppe φn die Cache-Kapazität β nicht überschreiten darf.

Modellarchitektur

1. Graph Neural Network Klassifizierer

Verwendet 4-schichtiges k-GNN mit verborgener Dimension 128
ReLU-Aktivierungsfunktion und Summen-Aggregation
Konvertiert Fusionsgruppenvalidität in binäres Klassifizierungsproblem: Validity = σ(p(y|φ, β, θ))

2. Integration von Graphenerklärungstechniken

Unterstützt drei Mainstream-Graphenerklärungsmethoden:

GNNExplainer (GNNE): Basierend auf gegenseitiger Informationsmaximierung
PGExplainer (PG): Vortrainierter parametrisierter Erklärer
RG-Explainer (RG): Auf Reinforcement Learning basierende zusammenhängende Subgraph-Generierung

3. Rekursiver gieriger Aufteilungsalgorithmus

Der Algorithmus kategorisiert Aufteilungslösungen in drei Klassen:

Klasse 1: Beide neue Fusionsgruppen sind gültig (bevorzugte Lösung)
Klasse 2: Eine gültig, eine ungültig (Zwischenlösung)
Klasse 3: Beide ungültig (schlechtester Fall)

Technische Innovationen

1. Behandlung von Skip-Verbindungen

Skip-Verbindungen in modernen DNNs machen einfaches Kantenlöschen zur Trennung von Fusionsgruppen unmöglich. Der Algorithmus stellt durch topologische Sortierung und rekursive Überprüfung sicher, dass verschachtelte Skip-Verbindungen korrekt behandelt werden.

2. Memoization-Optimierung

Verwendet Caching-Mechanismen zum Speichern von Aufteilungsergebnissen und Kostenberechnungen, um wiederholte Berechnungen zu vermeiden und die Sucheffizienz zu verbessern.

3. Mehrstufige gierige Strategie

Bevorzugt Lösungen, die zwei gültige Fusionsgruppen erzeugen
Wählt in Zwischenlösungen die gültige Fusionsgruppe mit den meisten Knoten
Verarbeitet ungültige Fusionsgruppen rekursiv, bis alle gültig sind

Experimentelle Einrichtung

Datensatz

Verwendet ONNX-Modelle mehrerer klassischer und moderner CNN-Architekturen:

Klassische Netzwerke: VGG16, SqueezeNet, ResNet-18/50/101/152
Moderne Netzwerke: MobileNetV2/V3, EfficientNet-B0/B3
Segmentierungsnetzwerke: DeepLabV3+MobileNetV3

Generiert insgesamt über 54.000 Fusionsgruppenproben, die 5 verschiedene Cache-Größen (128KB-2048KB) abdecken.

Bewertungsmetriken

DRAM-Zugriffskosten: Datentransfermenge in MB
Maximale Cache-Auslastung (MBU): Cache-Anforderung der größten Fusionsgruppe im Aufteilungsschema
Reparaturquote: Prozentsatz der ungültigen Fusionsgruppen, die GET erfolgreich repariert

Vergleichsmethoden

Suchalgorithmen: Random Search (RS), Local Search (LS), NSGA-II
Baseline-Methoden: Ursprüngliche Suchalgorithmen ohne GET
GET-Varianten: GNNE, PG, RG drei Graphenerklärungstechniken

Implementierungsdetails

GNN-Training über 50 Epochen, erreicht über 95% Genauigkeit und F1-Score
Suchbudget: 1k-5k Aufteilungsschemas
Verwendet OpenBox zur Implementierung von NSGA-II mit Populationsgröße K=10

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsverbesserung bei großen Netzwerken

Ergebnisse unter 256KB Cache und 5k Suchbudget:

Netzwerk	Methode	DRAM-Zugriff (MB)	Verbesserung
EfficientNet-B3	LS-Baseline	90.500	-
	LS+GNNE	78.007	13,8%
	NSGA-II+PG	61.792	31,7%
ResNet-152	NSGA-II-Baseline	77.205	-
	NSGA-II+RG	66.621	13,7%

Validierung über Fusionsmethoden hinweg

BRR- und LBDF-Ergebnisse unter 128KB Cache zeigen, dass GET-verbesserte Methoden auf fast allen Netzwerken die Baseline übertreffen, besonders auf komplexen Netzwerken wie MobileNetV2 mit Verbesserungen über 10%.

Ablationsstudien

GET-Methodenvergleich

Reparaturquote: RG-Explainer am höchsten (91,4%-94,0%), PG am niedrigsten (50,7%-59,1%)
Recheneffizienz: PG am schnellsten, GNNE am langsamsten, RG in der Mitte
Gesamtleistung: RG erreicht beste Balance zwischen Reparaturquote und Effizienz

Suchbudget-Analyse

Experimente zeigen, dass GET-basierte 1k-Budget-Suche die Baseline-Leistung mit 4k-Budget übertreffen kann, was die Effizienz der Methode beweist.

Fallstudien

Abbildung 4 zeigt die Erklärungen verschiedener GET-Methoden für ungültige EfficientNet-Fusionsgruppen:

Alle Methoden identifizieren die Hauptskip-Verbindung (Conv zu Matmul)
Alle wählen Padding-Operationen, die für LBDF ungünstig sind
Unterschiedliche GET-Auswahlkantensätze unterscheiden sich leicht, erfassen aber alle kritische Engpässe

Experimentelle Erkenntnisse

Skaleneffekt: Auf größeren und komplexeren Netzwerken ist der GET-Vorteil deutlicher
Universalität: Methode ist wirksam für verschiedene Suchalgorithmen und Fusionstypen
Effizienzsteigerung: Reduziert signifikant die Generierung ungültiger Schemas während des Suchprozesses

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Graphenerklärungstechniken können effektiv kritische Operationen identifizieren, die Fusionsgruppenungültigkeit verursachen
Der rekursive gierige Aufteilungsalgorithmus kann komplexe Netzwerkstrukturen intelligent verarbeiten
Die Methode zeigt signifikante Leistungsverbesserungen über verschiedene Netzwerkarchitekturen und Hardwarekonfigurationen hinweg

Einschränkungen

Vereinfachtes Hardwaremodell: Berücksichtigt derzeit nur Cache-Kapazitätsbeschränkungen, nicht komplexere Hardwareeigenschaften
Einschränkung auf Fusionstypen: BRR hat begrenzte Unterstützung für moderne Netzwerkstrukturen (wie SE-Module)
Rechenaufwand: GNN-Training und GET-Ausführung erhöhen Vorverarbeitungskosten

Zukünftige Richtungen

Erweiterung auf mehr Hardwarebeschränkungen: Berücksichtigung von Bandbreite, Latenz und anderen Faktoren
Unterstützung neuer Netzwerkstrukturen: Anpassung an Transformer, Graph Neural Networks usw.
End-to-End-Optimierung: Integration von Schichtverschmelzung mit anderen Compiler-Optimierungstechniken

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Anwendung von Explainable AI-Techniken auf Hardwareoptimierung, eröffnet neue Forschungsrichtungen
Vollständige Methode: Bildet eine vollständige Schleife von Problemmodellierung über Algorithmusentwurf bis zu experimenteller Validierung
Umfassende Experimente: Umfassende Validierung über mehrere Netzwerke, Fusionsmethoden und Suchalgorithmen
Hoher praktischer Wert: Hat direkten Anwendungswert in realen Bereitstellungsszenarien

Mängel

Fehlende theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Optimalität der Methode
Unzureichende Hardwareverifizierung: Experimente basieren hauptsächlich auf Simulation, fehlt Validierung auf echten Hardwareplattformen
Unbekannte Skalierbarkeit: Verarbeitungsfähigkeit für größere Netzwerke bleibt zu überprüfen

Auswirkungen

Akademischer Beitrag: Bietet Beispiel für Anwendung von Explainable AI in Systemoptimierung
Praktischer Wert: Kann direkt in Deep Learning Compilern und Bereitstellungstools angewendet werden
Inspirationswert: Kann mehr AI4Systems-Forschungsarbeiten inspirieren

Anwendungsszenarien

Optimierung der DNN-Bereitstellung auf Edge-Geräten
Inferenzbeschleunigung auf mobilen Plattformen
Energieeffizienzoptimierung in Rechenzentren
Entwicklung von Deep Learning Compilern

Referenzen

Das Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Schichtverschmelzung, Graph Neural Networks und Explainable AI, einschließlich:

Sze et al. (2017): Übersicht über effiziente Deep Learning Verarbeitung
Ying et al. (2019): Originalarbeit zu GNNExplainer
Luo et al. (2020): PGExplainer-Methode
Shan et al. (2021): RG-Explainer-Technik

Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das Explainable AI-Techniken erfolgreich auf Hardwareoptimierungsprobleme anwendet. Die Methode ist innovativ und die Experimente umfassend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Hardwareverifizierung gibt, machen seine Innovativität und praktischer Wert es wertvoll im Bereich der Deep Learning Systemoptimierung.