Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
Schichtverschmelzungstechniken sind entscheidend für die Verbesserung der Inferenzeffizienz von Deep Neural Networks (DNN) bei der Bereitstellung. Die Fusion zielt darauf ab, Inferenzkosten durch Reduzierung von Datentransaktionen zwischen dem On-Chip-Puffer eines Beschleunigers und dem DRAM zu senken. Dies wird durch gruppierte Ausführung mehrerer Operationen wie Faltung und Aktivierungen zusammen in einzelnen Ausführungseinheiten – Fusionsgruppen – erreicht. Die Kapazität des On-Chip-Puffers begrenzt jedoch die Größe der Fusionsgruppe, und die Optimierung der Fusion auf ganzen DNNs erfordert eine Aufteilung in mehrere Fusionsgruppen. Das Finden der optimalen Gruppen ist ein komplexes Problem, bei dem das Vorhandensein ungültiger Lösungen traditionelle Suchalgorithmen behindert und robuste Ansätze erfordert. In diesem Papier integrieren wir Explainable AI, speziell Graph Explanation Techniques (GET), in die Schichtverschmelzung. Bei einer ungültigen Fusionsgruppe identifizieren wir die Operationen, die am meisten für die Ungültigkeit der Gruppe verantwortlich sind, und nutzen dieses Wissen dann, um die ursprüngliche Fusionsgruppe rekursiv über einen gierigen baumgestützten Algorithmus zu teilen, um den DRAM-Zugriff zu minimieren. Wir kombinieren unser Schema mit gängigen Algorithmen und optimieren DNNs auf zwei Arten der Schichtverschmelzung: Line-Buffer Depth First (LBDF) und Branch Requirement Reduction (BRR). Experimente demonstrieren die Wirksamkeit unseres Schemas auf mehreren beliebten und klassischen Faltungsneuronalen Netzen wie ResNets und MobileNets. Unser Schema erreicht eine Reduktion des DRAM-Zugriffs von über 20% auf EfficientNet-B3.
Das Kernproblem dieser Forschung ist das Optimierungsproblem der Schichtverschmelzung (Layer Fusion) in Deep Neural Networks. Die Schichtverschmelzung ist eine Inferenzbeschleunigungstechnik, die mehrere DNN-Operationsschichten (wie Faltung und ReLU) in eine einzelne Ausführungseinheit verschmilzt, um die Anzahl der Datentransfers zwischen dem On-Chip-Cache des neuronalen Beschleunigers und dem DRAM zu reduzieren, wodurch Inferenzlatenz und Stromverbrauch gesenkt werden.
Leistungsengpass: Mit zunehmender Größe und Tiefe von DNN-Modellen wird der DRAM-Zugriff zum Hauptengpass für Leistung und Stromverbrauch
Bereitstellungsanforderungen: Bei der Bereitstellung von DNNs auf Edge-Geräten und mobilen Plattformen sind Speicherbandbreite und Stromverbrauchsbeschränkungen besonders kritisch
Hardwarebeschränkungen: Die begrenzte On-Chip-Cache-Kapazität erfordert intelligente Operationengruppierung zur Maximierung des Fusionseffekts
Niedrige Sucheffizienz: Traditionelle Suchalgorithmen (wie evolutionäre Algorithmen, lokale Suche) sind bei ungültigen Fusionsgruppen ineffizient
Zufällige Aufteilung: Bestehende Methoden teilen ungültige Fusionsgruppen typischerweise zufällig auf, ohne DRAM-Zugriffskosten zu optimieren
Mangelnde Interpretierbarkeit: Unmöglich, spezifische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, was gezielte Optimierung erschwert
Die Autoren schlagen vor, Explainable AI-Techniken in die Optimierung der Schichtverschmelzung einzubeziehen, indem Graph Explanation Techniques (GET) verwendet werden, um kritische Operationen zu identifizieren, die Fusionsgruppenungültigkeit verursachen, und dann einen gierigen Baumalgorithmus zur intelligenten Aufteilung einzusetzen, um DRAM-Zugriffskosten zu minimieren.
Erstmalige Anwendung von Graphenerklärungstechniken auf Schichtverschmelzungsoptimierung: Innovative Kombination von Explainable AI und Hardwareoptimierungsbereich
Vorschlag eines rekursiven Baumaufteilungsalgorithmus: Entwurf eines auf gieriger Strategie basierenden rekursiven Aufteilungsschemas, das ungültige Fusionsgruppen intelligent verarbeiten kann
Validierung über Fusionsmethoden hinweg: Validierung des Schemas auf zwei verschiedenen Schichtverschmelzungsmethoden LBDF und BRR
Signifikante Leistungsverbesserung: Erreicht eine DRAM-Zugriffsvermeidung von über 20% auf EfficientNet-B3
Gegeben ein Berechnungsgraph G eines Deep Neural Networks und die On-Chip-Cache-Kapazität β, besteht das Ziel der Schichtverschmelzungsoptimierung darin, ein optimales Aufteilungsschema Φ zu finden, so dass:
min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β
wobei F_D die DRAM-Zugriffskosten berechnet, F_β den Cache-Bedarf berechnet, und der Speicherbedarf jeder Fusionsgruppe φn die Cache-Kapazität β nicht überschreiten darf.
Skip-Verbindungen in modernen DNNs machen einfaches Kantenlöschen zur Trennung von Fusionsgruppen unmöglich. Der Algorithmus stellt durch topologische Sortierung und rekursive Überprüfung sicher, dass verschachtelte Skip-Verbindungen korrekt behandelt werden.
Verwendet Caching-Mechanismen zum Speichern von Aufteilungsergebnissen und Kostenberechnungen, um wiederholte Berechnungen zu vermeiden und die Sucheffizienz zu verbessern.
BRR- und LBDF-Ergebnisse unter 128KB Cache zeigen, dass GET-verbesserte Methoden auf fast allen Netzwerken die Baseline übertreffen, besonders auf komplexen Netzwerken wie MobileNetV2 mit Verbesserungen über 10%.
Erstmalige Anwendung von Graphenerklärungstechniken auf den Hardwareoptimierungsbereich und bietet neue Lösungsansätze für dieses klassische Schichtverschmelzungsproblem.
Das Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Schichtverschmelzung, Graph Neural Networks und Explainable AI, einschließlich:
Sze et al. (2017): Übersicht über effiziente Deep Learning Verarbeitung
Ying et al. (2019): Originalarbeit zu GNNExplainer
Luo et al. (2020): PGExplainer-Methode
Shan et al. (2021): RG-Explainer-Technik
Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das Explainable AI-Techniken erfolgreich auf Hardwareoptimierungsprobleme anwendet. Die Methode ist innovativ und die Experimente umfassend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Hardwareverifizierung gibt, machen seine Innovativität und praktischer Wert es wertvoll im Bereich der Deep Learning Systemoptimierung.