2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Anwendung von Graphenerklärung auf Operatorfusion

Grundinformationen

  • Papier-ID: 2501.00636
  • Titel: Applying Graph Explanation to Operator Fusion
  • Autoren: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • Klassifizierung: cs.LG cs.CV
  • Veröffentlichungsdatum: 31. Dezember 2024 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2501.00636

Zusammenfassung

Schichtverschmelzungstechniken sind entscheidend für die Verbesserung der Inferenzeffizienz von Deep Neural Networks (DNN) bei der Bereitstellung. Die Fusion zielt darauf ab, Inferenzkosten durch Reduzierung von Datentransaktionen zwischen dem On-Chip-Puffer eines Beschleunigers und dem DRAM zu senken. Dies wird durch gruppierte Ausführung mehrerer Operationen wie Faltung und Aktivierungen zusammen in einzelnen Ausführungseinheiten – Fusionsgruppen – erreicht. Die Kapazität des On-Chip-Puffers begrenzt jedoch die Größe der Fusionsgruppe, und die Optimierung der Fusion auf ganzen DNNs erfordert eine Aufteilung in mehrere Fusionsgruppen. Das Finden der optimalen Gruppen ist ein komplexes Problem, bei dem das Vorhandensein ungültiger Lösungen traditionelle Suchalgorithmen behindert und robuste Ansätze erfordert. In diesem Papier integrieren wir Explainable AI, speziell Graph Explanation Techniques (GET), in die Schichtverschmelzung. Bei einer ungültigen Fusionsgruppe identifizieren wir die Operationen, die am meisten für die Ungültigkeit der Gruppe verantwortlich sind, und nutzen dieses Wissen dann, um die ursprüngliche Fusionsgruppe rekursiv über einen gierigen baumgestützten Algorithmus zu teilen, um den DRAM-Zugriff zu minimieren. Wir kombinieren unser Schema mit gängigen Algorithmen und optimieren DNNs auf zwei Arten der Schichtverschmelzung: Line-Buffer Depth First (LBDF) und Branch Requirement Reduction (BRR). Experimente demonstrieren die Wirksamkeit unseres Schemas auf mehreren beliebten und klassischen Faltungsneuronalen Netzen wie ResNets und MobileNets. Unser Schema erreicht eine Reduktion des DRAM-Zugriffs von über 20% auf EfficientNet-B3.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist das Optimierungsproblem der Schichtverschmelzung (Layer Fusion) in Deep Neural Networks. Die Schichtverschmelzung ist eine Inferenzbeschleunigungstechnik, die mehrere DNN-Operationsschichten (wie Faltung und ReLU) in eine einzelne Ausführungseinheit verschmilzt, um die Anzahl der Datentransfers zwischen dem On-Chip-Cache des neuronalen Beschleunigers und dem DRAM zu reduzieren, wodurch Inferenzlatenz und Stromverbrauch gesenkt werden.

Bedeutung des Problems

  1. Leistungsengpass: Mit zunehmender Größe und Tiefe von DNN-Modellen wird der DRAM-Zugriff zum Hauptengpass für Leistung und Stromverbrauch
  2. Bereitstellungsanforderungen: Bei der Bereitstellung von DNNs auf Edge-Geräten und mobilen Plattformen sind Speicherbandbreite und Stromverbrauchsbeschränkungen besonders kritisch
  3. Hardwarebeschränkungen: Die begrenzte On-Chip-Cache-Kapazität erfordert intelligente Operationengruppierung zur Maximierung des Fusionseffekts

Einschränkungen bestehender Methoden

  1. Niedrige Sucheffizienz: Traditionelle Suchalgorithmen (wie evolutionäre Algorithmen, lokale Suche) sind bei ungültigen Fusionsgruppen ineffizient
  2. Zufällige Aufteilung: Bestehende Methoden teilen ungültige Fusionsgruppen typischerweise zufällig auf, ohne DRAM-Zugriffskosten zu optimieren
  3. Mangelnde Interpretierbarkeit: Unmöglich, spezifische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, was gezielte Optimierung erschwert

Forschungsmotivation

Die Autoren schlagen vor, Explainable AI-Techniken in die Optimierung der Schichtverschmelzung einzubeziehen, indem Graph Explanation Techniques (GET) verwendet werden, um kritische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, und dann einen gierigen Baumalgorithmus zur intelligenten Aufteilung einzusetzen, um DRAM-Zugriffskosten zu minimieren.

Kernbeiträge

  1. Erstmalige Anwendung von Graphenerklärungstechniken auf Schichtverschmelzungsoptimierung: Innovative Kombination von Explainable AI und Hardwareoptimierungsbereich
  2. Vorschlag eines rekursiven Baumaufteilungsalgorithmus: Entwurf eines auf gieriger Strategie basierenden rekursiven Aufteilungsschemas, das ungültige Fusionsgruppen intelligent verarbeiten kann
  3. Validierung über Fusionsmethoden hinweg: Validierung des Schemas auf zwei verschiedenen Schichtverschmelzungsmethoden LBDF und BRR
  4. Signifikante Leistungsverbesserung: Erreicht eine DRAM-Zugriffsvermeidung von über 20% auf EfficientNet-B3

Methodische Details

Aufgabendefinition

Gegeben ein Berechnungsgraph G eines Deep Neural Networks und die On-Chip-Cache-Kapazität β, besteht das Ziel der Schichtverschmelzungsoptimierung darin, ein optimales Aufteilungsschema Φ zu finden, so dass:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

wobei F_D die DRAM-Zugriffskosten berechnet, F_β den Cache-Bedarf berechnet, und der Speicherbedarf jeder Fusionsgruppe φn die Cache-Kapazität β nicht überschreiten darf.

Modellarchitektur

1. Graph Neural Network Klassifizierer

  • Verwendet 4-schichtiges k-GNN mit verborgener Dimension 128
  • ReLU-Aktivierungsfunktion und Summen-Aggregation
  • Konvertiert Fusionsgruppenvalidität in binäres Klassifizierungsproblem: Validity = σ(p(y|φ, β, θ))

2. Integration von Graphenerklärungstechniken

Unterstützt drei Mainstream-Graphenerklärungsmethoden:

  • GNNExplainer (GNNE): Basierend auf gegenseitiger Informationsmaximierung
  • PGExplainer (PG): Vortrainierter parametrisierter Erklärer
  • RG-Explainer (RG): Auf Reinforcement Learning basierende zusammenhängende Subgraph-Generierung

3. Rekursiver gieriger Aufteilungsalgorithmus

Der Algorithmus kategorisiert Aufteilungslösungen in drei Klassen:

  • Klasse 1: Beide neue Fusionsgruppen sind gültig (bevorzugte Lösung)
  • Klasse 2: Eine gültig, eine ungültig (Zwischenlösung)
  • Klasse 3: Beide ungültig (schlechtester Fall)

Technische Innovationen

1. Behandlung von Skip-Verbindungen

Skip-Verbindungen in modernen DNNs machen einfaches Kantenlöschen zur Trennung von Fusionsgruppen unmöglich. Der Algorithmus stellt durch topologische Sortierung und rekursive Überprüfung sicher, dass verschachtelte Skip-Verbindungen korrekt behandelt werden.

2. Memoization-Optimierung

Verwendet Caching-Mechanismen zum Speichern von Aufteilungsergebnissen und Kostenberechnungen, um wiederholte Berechnungen zu vermeiden und die Sucheffizienz zu verbessern.

3. Mehrstufige gierige Strategie

  • Bevorzugt Lösungen, die zwei gültige Fusionsgruppen erzeugen
  • Wählt in Zwischenlösungen die gültige Fusionsgruppe mit den meisten Knoten
  • Verarbeitet ungültige Fusionsgruppen rekursiv, bis alle gültig sind

Experimentelle Einrichtung

Datensatz

Verwendet ONNX-Modelle mehrerer klassischer und moderner CNN-Architekturen:

  • Klassische Netzwerke: VGG16, SqueezeNet, ResNet-18/50/101/152
  • Moderne Netzwerke: MobileNetV2/V3, EfficientNet-B0/B3
  • Segmentierungsnetzwerke: DeepLabV3+MobileNetV3

Generiert insgesamt über 54.000 Fusionsgruppenproben, die 5 verschiedene Cache-Größen (128KB-2048KB) abdecken.

Bewertungsmetriken

  • DRAM-Zugriffskosten: Datentransfermenge in MB
  • Maximale Cache-Auslastung (MBU): Cache-Anforderung der größten Fusionsgruppe im Aufteilungsschema
  • Reparaturquote: Prozentsatz der ungültigen Fusionsgruppen, die GET erfolgreich repariert

Vergleichsmethoden

  • Suchalgorithmen: Random Search (RS), Local Search (LS), NSGA-II
  • Baseline-Methoden: Ursprüngliche Suchalgorithmen ohne GET
  • GET-Varianten: GNNE, PG, RG drei Graphenerklärungstechniken

Implementierungsdetails

  • GNN-Training über 50 Epochen, erreicht über 95% Genauigkeit und F1-Score
  • Suchbudget: 1k-5k Aufteilungsschemas
  • Verwendet OpenBox zur Implementierung von NSGA-II mit Populationsgröße K=10

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsverbesserung bei großen Netzwerken

Ergebnisse unter 256KB Cache und 5k Suchbudget:

NetzwerkMethodeDRAM-Zugriff (MB)Verbesserung
EfficientNet-B3LS-Baseline90.500-
LS+GNNE78.00713,8%
NSGA-II+PG61.79231,7%
ResNet-152NSGA-II-Baseline77.205-
NSGA-II+RG66.62113,7%

Validierung über Fusionsmethoden hinweg

BRR- und LBDF-Ergebnisse unter 128KB Cache zeigen, dass GET-verbesserte Methoden auf fast allen Netzwerken die Baseline übertreffen, besonders auf komplexen Netzwerken wie MobileNetV2 mit Verbesserungen über 10%.

Ablationsstudien

GET-Methodenvergleich

  • Reparaturquote: RG-Explainer am höchsten (91,4%-94,0%), PG am niedrigsten (50,7%-59,1%)
  • Recheneffizienz: PG am schnellsten, GNNE am langsamsten, RG in der Mitte
  • Gesamtleistung: RG erreicht beste Balance zwischen Reparaturquote und Effizienz

Suchbudget-Analyse

Experimente zeigen, dass GET-basierte 1k-Budget-Suche die Baseline-Leistung mit 4k-Budget übertreffen kann, was die Effizienz der Methode beweist.

Fallstudien

Abbildung 4 zeigt die Erklärungen verschiedener GET-Methoden für ungültige EfficientNet-Fusionsgruppen:

  • Alle Methoden identifizieren die Hauptskip-Verbindung (Conv zu Matmul)
  • Alle wählen Padding-Operationen, die für LBDF ungünstig sind
  • Unterschiedliche GET-Auswahlkantensätze unterscheiden sich leicht, erfassen aber alle kritische Engpässe

Experimentelle Erkenntnisse

  1. Skaleneffekt: Auf größeren und komplexeren Netzwerken ist der GET-Vorteil deutlicher
  2. Universalität: Methode ist wirksam für verschiedene Suchalgorithmen und Fusionstypen
  3. Effizienzsteigerung: Reduziert signifikant die Generierung ungültiger Schemas während des Suchprozesses

Verwandte Arbeiten

Entwicklung von Schichtverschmelzungstechniken

  • Frühe Arbeiten: Konzentrieren sich hauptsächlich auf einfache Operationskombinationen und Speicheroptimierung
  • Moderne Methoden: Berücksichtigen unregelmäßige Netzwerkstrukturen und Auswirkungen von Skip-Verbindungen
  • Hardwarespezifische Optimierung: Verschmelzung speziell für CNN, Aufmerksamkeitsmechanismen und andere spezifische Operationen

Graphenerklärungstechniken

  • GNNExplainer: Bahnbrechendes Werk basierend auf gegenseitiger Informationssubgraph-Erklärung
  • Parametrisierte Methoden: PGExplainer und andere vortrainierte Methoden verbessern Effizienz
  • Reinforcement Learning Methoden: RG-Explainer und andere garantieren Zusammenhangserklärungen

Positionierung des Beitrags dieses Papiers

Erstmalige Anwendung von Graphenerklärungstechniken auf den Hardwareoptimierungsbereich und bietet neue Lösungsansätze für dieses klassische Schichtverschmelzungsproblem.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Graphenerklärungstechniken können effektiv kritische Operationen identifizieren, die Fusionsgruppenungültigkeit verursachen
  2. Der rekursive gierige Aufteilungsalgorithmus kann komplexe Netzwerkstrukturen intelligent verarbeiten
  3. Die Methode zeigt signifikante Leistungsverbesserungen über verschiedene Netzwerkarchitekturen und Hardwarekonfigurationen hinweg

Einschränkungen

  1. Vereinfachtes Hardwaremodell: Berücksichtigt derzeit nur Cache-Kapazitätsbeschränkungen, nicht komplexere Hardwareeigenschaften
  2. Einschränkung auf Fusionstypen: BRR hat begrenzte Unterstützung für moderne Netzwerkstrukturen (wie SE-Module)
  3. Rechenaufwand: GNN-Training und GET-Ausführung erhöhen Vorverarbeitungskosten

Zukünftige Richtungen

  1. Erweiterung auf mehr Hardwarebeschränkungen: Berücksichtigung von Bandbreite, Latenz und anderen Faktoren
  2. Unterstützung neuer Netzwerkstrukturen: Anpassung an Transformer, Graph Neural Networks usw.
  3. End-to-End-Optimierung: Integration von Schichtverschmelzung mit anderen Compiler-Optimierungstechniken

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Anwendung von Explainable AI-Techniken auf Hardwareoptimierung, eröffnet neue Forschungsrichtungen
  2. Vollständige Methode: Bildet eine vollständige Schleife von Problemmodellierung über Algorithmusentwurf bis zu experimenteller Validierung
  3. Umfassende Experimente: Umfassende Validierung über mehrere Netzwerke, Fusionsmethoden und Suchalgorithmen
  4. Hoher praktischer Wert: Hat direkten Anwendungswert in realen Bereitstellungsszenarien

Mängel

  1. Fehlende theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Optimalität der Methode
  2. Unzureichende Hardwareverifizierung: Experimente basieren hauptsächlich auf Simulation, fehlt Validierung auf echten Hardwareplattformen
  3. Unbekannte Skalierbarkeit: Verarbeitungsfähigkeit für größere Netzwerke bleibt zu überprüfen

Auswirkungen

  1. Akademischer Beitrag: Bietet Beispiel für Anwendung von Explainable AI in Systemoptimierung
  2. Praktischer Wert: Kann direkt in Deep Learning Compilern und Bereitstellungstools angewendet werden
  3. Inspirationswert: Kann mehr AI4Systems-Forschungsarbeiten inspirieren

Anwendungsszenarien

  • Optimierung der DNN-Bereitstellung auf Edge-Geräten
  • Inferenzbeschleunigung auf mobilen Plattformen
  • Energieeffizienzoptimierung in Rechenzentren
  • Entwicklung von Deep Learning Compilern

Referenzen

Das Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Schichtverschmelzung, Graph Neural Networks und Explainable AI, einschließlich:

  • Sze et al. (2017): Übersicht über effiziente Deep Learning Verarbeitung
  • Ying et al. (2019): Originalarbeit zu GNNExplainer
  • Luo et al. (2020): PGExplainer-Methode
  • Shan et al. (2021): RG-Explainer-Technik

Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das Explainable AI-Techniken erfolgreich auf Hardwareoptimierungsprobleme anwendet. Die Methode ist innovativ und die Experimente umfassend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Hardwareverifizierung gibt, machen seine Innovativität und praktischer Wert es wertvoll im Bereich der Deep Learning Systemoptimierung.