2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Applicazione della Spiegazione dei Grafi alla Fusione degli Operatori

Informazioni Fondamentali

  • ID Articolo: 2501.00636
  • Titolo: Applying Graph Explanation to Operator Fusion
  • Autori: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • Classificazione: cs.LG cs.CV
  • Data di Pubblicazione: 31 dicembre 2024 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2501.00636

Riassunto

Le tecniche di fusione dei livelli sono critiche per migliorare l'efficienza dell'inferenza delle reti neurali profonde (DNN) per il deployment. La fusione mira a ridurre i costi di inferenza diminuendo le transazioni di dati tra il buffer on-chip dell'acceleratore e la DRAM. Questo si realizza attraverso l'esecuzione raggruppata di più operazioni come convoluzione e attivazioni insieme in singole unità di esecuzione - gruppi di fusione. Tuttavia, i limiti della capacità del buffer on-chip limitano la dimensione del gruppo di fusione e l'ottimizzazione della fusione su intere DNN richiede il partizionamento in più gruppi di fusione. Trovare i gruppi ottimali è un problema complesso dove la presenza di soluzioni non valide ostacola gli algoritmi di ricerca tradizionali e richiede approcci robusti. In questo articolo incorporiamo l'IA Esplicabile, specificamente le Tecniche di Spiegazione dei Grafi (GET), nella fusione dei livelli. Dato un gruppo di fusione non valido, identifichiamo le operazioni più responsabili dell'invalidità del gruppo, quindi utilizziamo questa conoscenza per dividere ricorsivamente il gruppo di fusione originale tramite un algoritmo greedy basato su alberi per minimizzare l'accesso alla DRAM. Abbiniamo il nostro schema con algoritmi comuni e ottimizziamo le DNN su due tipi di fusione dei livelli: Line-Buffer Depth First (LBDF) e Branch Requirement Reduction (BRR). Gli esperimenti dimostrano l'efficacia del nostro schema su diverse reti neurali convoluzionali popolari e classiche come ResNets e MobileNets. Il nostro schema raggiunge una riduzione dell'accesso alla DRAM superiore al 20% su EfficientNet-B3.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è l'ottimizzazione della fusione dei livelli (Layer Fusion) nelle reti neurali profonde. La fusione dei livelli è una tecnica di accelerazione dell'inferenza che riduce il numero di trasferimenti di dati tra la cache on-chip dell'acceleratore neurale e la DRAM, combinando più livelli di operazioni DNN (come convoluzione e ReLU) in una singola unità di esecuzione, riducendo così la latenza di inferenza e il consumo energetico.

Importanza del Problema

  1. Collo di Bottiglia Prestazionale: Con l'aumento delle dimensioni e della profondità dei modelli DNN, l'accesso alla DRAM diventa il principale collo di bottiglia per prestazioni e consumo energetico
  2. Requisiti di Deployment: Quando si distribuiscono DNN su dispositivi edge e piattaforme mobili, i vincoli di larghezza di banda della memoria e consumo energetico sono particolarmente severi
  3. Vincoli Hardware: La capacità della cache on-chip è limitata, richiedendo un raggruppamento intelligente delle operazioni per massimizzare l'effetto di fusione

Limitazioni dei Metodi Esistenti

  1. Bassa Efficienza di Ricerca: Gli algoritmi di ricerca tradizionali (come algoritmi evolutivi e ricerca locale) hanno bassa efficienza quando affrontano gruppi di fusione non validi
  2. Partizionamento Casuale: I metodi esistenti tipicamente dividono casualmente i gruppi di fusione non validi, senza garantire l'ottimalità del costo di accesso alla DRAM
  3. Mancanza di Interpretabilità: Impossibile identificare le operazioni specifiche che causano l'invalidità del gruppo di fusione, rendendo difficile l'ottimizzazione mirata

Motivazione della Ricerca

Gli autori propongono di incorporare tecniche di IA Esplicabile nell'ottimizzazione della fusione dei livelli, utilizzando le Tecniche di Spiegazione dei Grafi (Graph Explanation Techniques, GET) per identificare le operazioni critiche che causano l'invalidità del gruppo di fusione, quindi utilizzare un algoritmo greedy basato su alberi per il partizionamento intelligente, al fine di minimizzare il costo di accesso alla DRAM.

Contributi Principali

  1. Prima Applicazione delle Tecniche di Spiegazione dei Grafi all'Ottimizzazione della Fusione dei Livelli: Combinazione innovativa di IA Esplicabile e ottimizzazione hardware
  2. Proposta di un Algoritmo di Partizionamento Ricorsivo Basato su Alberi: Progettazione di uno schema di partizionamento ricorsivo basato su strategie greedy che gestisce intelligentemente i gruppi di fusione non validi
  3. Verifica Trasversale dei Metodi di Fusione: Validazione dello schema su due diversi metodi di fusione dei livelli: LBDF e BRR
  4. Significativi Miglioramenti Prestazionali: Realizzazione di una riduzione dell'accesso alla DRAM superiore al 20% su EfficientNet-B3

Dettagli del Metodo

Definizione del Compito

Dato un grafo computazionale di una rete neurale profonda G e la capacità della cache on-chip β, l'obiettivo dell'ottimizzazione della fusione dei livelli è trovare lo schema di partizionamento ottimale Φ tale che:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

dove F_D calcola il costo di accesso alla DRAM, F_β calcola il requisito di cache, e il requisito di memoria di ogni gruppo di fusione φn non può superare la capacità di cache β.

Architettura del Modello

1. Classificatore di Rete Neurale Grafica

  • Utilizza k-GNN a 4 livelli, con dimensione nascosta 128
  • Funzione di attivazione ReLU e aggregazione per somma
  • Converte la validità del gruppo di fusione in un problema di classificazione binaria: Validity = σ(p(y|φ, β, θ))

2. Integrazione delle Tecniche di Spiegazione dei Grafi

Supporta tre metodi principali di spiegazione dei grafi:

  • GNNExplainer (GNNE): Basato sulla massimizzazione dell'informazione mutua
  • PGExplainer (PG): Spiegatore parametrizzato pre-addestrato
  • RG-Explainer (RG): Generazione di sottografi connessi basata su apprendimento per rinforzo

3. Algoritmo di Partizionamento Greedy Ricorsivo

L'algoritmo classifica le soluzioni di partizionamento in tre categorie:

  • Categoria 1: Entrambi i nuovi gruppi di fusione sono validi (soluzione preferita)
  • Categoria 2: Uno valido, uno non valido (soluzione intermedia)
  • Categoria 3: Entrambi non validi (caso peggiore)

Punti di Innovazione Tecnica

1. Gestione delle Connessioni di Salto

Le connessioni residue nelle DNN moderne rendono l'eliminazione semplice dei bordi insufficiente per separare i gruppi di fusione. L'algoritmo garantisce la corretta gestione delle connessioni di salto annidate attraverso ordinamento topologico e verifica ricorsiva.

2. Ottimizzazione Memoizzata

Utilizza un meccanismo di cache per memorizzare i risultati di partizionamento e i calcoli di costo, evitando calcoli ripetuti e migliorando l'efficienza della ricerca.

3. Strategia Greedy Multilivello

  • Priorità alle soluzioni che producono due gruppi di fusione validi
  • Nelle soluzioni intermedie, selezione del gruppo di fusione valido con il maggior numero di nodi
  • Gestione ricorsiva dei gruppi di fusione non validi fino al raggiungimento della validità totale

Configurazione Sperimentale

Dataset

Utilizzo di modelli ONNX di diverse architetture CNN classiche e moderne:

  • Reti Classiche: VGG16, SqueezeNet, ResNet-18/50/101/152
  • Reti Moderne: MobileNetV2/V3, EfficientNet-B0/B3
  • Reti di Segmentazione: DeepLabV3+MobileNetV3

Generazione totale di oltre 54k campioni di gruppi di fusione, coprendo 5 diverse dimensioni di cache (128KB-2048KB).

Metriche di Valutazione

  • Costo di Accesso alla DRAM: Quantità di trasferimento dati misurata in MB
  • Utilizzo Massimo di Cache (MBU): Requisito di cache del gruppo di fusione più grande nello schema di partizionamento
  • Tasso di Riparazione: Percentuale di gruppi di fusione non validi riparati con successo da GET

Metodi di Confronto

  • Algoritmi di Ricerca: Random Search (RS), Local Search (LS), NSGA-II
  • Metodi di Base: Algoritmi di ricerca originali senza GET
  • Varianti GET: Tre tecniche di spiegazione dei grafi GNNE, PG, RG

Dettagli di Implementazione

  • Addestramento GNN per 50 epoche, raggiungendo accuratezza e punteggio F1 superiori al 95%
  • Budget di ricerca: 1k-5k schemi di partizionamento
  • Utilizzo di OpenBox per l'implementazione di NSGA-II, dimensione della popolazione K=10

Risultati Sperimentali

Risultati Principali

Miglioramenti Prestazionali su Reti di Grandi Dimensioni

Risultati con cache 256KB e budget di ricerca 5k:

ReteMetodoAccesso DRAM (MB)Miglioramento
EfficientNet-B3Baseline LS90.500-
LS+GNNE78.00713.8%
NSGA-II+PG61.79231.7%
ResNet-152Baseline NSGA-II77.205-
NSGA-II+RG66.62113.7%

Verifica Trasversale dei Metodi di Fusione

I risultati di BRR e LBDF con cache 128KB mostrano che i metodi potenziati da GET superano il baseline su quasi tutte le reti, realizzando miglioramenti superiori al 10% in particolare su reti complesse come MobileNetV2.

Esperimenti di Ablazione

Confronto dei Metodi GET

  • Tasso di Riparazione: RG-Explainer più alto (91.4%-94.0%), PG più basso (50.7%-59.1%)
  • Efficienza Computazionale: PG più veloce, GNNE più lento, RG intermedio
  • Prestazioni Complessive: RG raggiunge il miglior equilibrio tra tasso di riparazione ed efficienza

Analisi del Budget di Ricerca

Gli esperimenti mostrano che la ricerca con budget 1k utilizzando GET può superare le prestazioni del baseline con budget 4k, dimostrando l'alta efficienza del metodo.

Analisi di Casi Studio

La Figura 4 mostra le spiegazioni di diversi metodi GET per i gruppi di fusione non validi di EfficientNet:

  • Tutti i metodi identificano la connessione di salto principale (Conv a Matmul)
  • Tutti selezionano operazioni di padding sfavorevoli per LBDF
  • Gli insiemi di bordi scelti da diversi GET variano leggermente ma catturano tutti i colli di bottiglia critici

Scoperte Sperimentali

  1. Effetto di Scala: Il vantaggio di GET è più evidente su reti più grandi e complesse
  2. Universalità: Il metodo è efficace su diversi algoritmi di ricerca e tipi di fusione
  3. Miglioramento dell'Efficienza: Riduzione significativa della generazione di schemi non validi durante il processo di ricerca

Lavori Correlati

Sviluppo delle Tecniche di Fusione dei Livelli

  • Lavori Iniziali: Principalmente focalizzati su combinazioni semplici di operazioni e ottimizzazione della memoria
  • Metodi Moderni: Considerano l'impatto di strutture di rete irregolari e connessioni di salto
  • Ottimizzazioni Specifiche per Hardware: Fusione mirata per operazioni specifiche come CNN e meccanismi di attenzione

Tecniche di Spiegazione dei Grafi

  • GNNExplainer: Lavoro pioneristico basato su spiegazione di sottografi tramite informazione mutua
  • Metodi Parametrizzati: Approcci pre-addestrati come PGExplainer che migliorano l'efficienza
  • Metodi di Apprendimento per Rinforzo: RG-Explainer e simili che garantiscono la connettività della spiegazione

Posizionamento del Contributo di questo Articolo

Prima applicazione delle tecniche di spiegazione dei grafi nel campo dell'ottimizzazione hardware, fornendo una nuova prospettiva di soluzione per il classico problema della fusione dei livelli.

Conclusioni e Discussione

Conclusioni Principali

  1. Le tecniche di spiegazione dei grafi possono identificare efficacemente le operazioni critiche che causano l'invalidità del gruppo di fusione
  2. L'algoritmo di partizionamento greedy ricorsivo può gestire intelligentemente strutture di rete complesse
  3. Il metodo dimostra miglioramenti prestazionali significativi su diverse architetture di rete e configurazioni hardware

Limitazioni

  1. Semplificazione del Modello Hardware: Attualmente considera solo i vincoli di capacità della cache, senza affrontare caratteristiche hardware più complesse
  2. Limitazioni dei Tipi di Fusione: BRR ha supporto limitato per strutture di rete moderne (come moduli SE)
  3. Costi Computazionali: L'addestramento GNN e l'esecuzione GET aggiungono costi di pre-elaborazione

Direzioni Future

  1. Estensione a Più Vincoli Hardware: Considerazione di fattori aggiuntivi come larghezza di banda e latenza
  2. Supporto per Nuove Strutture di Rete: Adattamento a Transformer, reti neurali grafiche e altre architetture
  3. Ottimizzazione End-to-End: Integrazione della fusione dei livelli con altre tecniche di ottimizzazione della compilazione

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione delle tecniche di IA Esplicabile all'ottimizzazione hardware, aprendo una nuova direzione di ricerca
  2. Metodo Completo: Dalla modellazione del problema alla progettazione dell'algoritmo alla verifica sperimentale forma un ciclo completo
  3. Sperimentazione Completa: Verifica comprensiva coprendo diverse reti, metodi di fusione e algoritmi di ricerca
  4. Alto Valore Pratico: Applicazione diretta in scenari di deployment reali

Insufficienze

  1. Mancanza di Analisi Teorica: Assenza di garanzie teoriche sulla convergenza e l'ottimalità del metodo
  2. Verifica Hardware Insufficiente: Gli esperimenti sono principalmente basati su simulazione, mancano verifiche su piattaforme hardware reali
  3. Scalabilità Sconosciuta: La capacità di gestione di reti di scala ancora più grande rimane da verificare

Impatto

  1. Contributo Accademico: Fornisce un esempio di applicazione dell'IA Esplicabile nell'ottimizzazione dei sistemi
  2. Valore Pratico: Applicazione diretta in compilatori di deep learning e strumenti di deployment
  3. Significato Ispirativo: Potrebbe ispirare ulteriori ricerche nel campo dell'AI4Systems

Scenari Applicabili

  • Ottimizzazione del deployment DNN su dispositivi edge
  • Accelerazione dell'inferenza su piattaforme mobili
  • Ottimizzazione dell'efficienza energetica nei data center
  • Sviluppo di compilatori per deep learning

Bibliografia

L'articolo cita importanti lavori da più campi inclusi fusione dei livelli, reti neurali grafiche e IA Esplicabile, tra cui:

  • Sze et al. (2017): Rassegna sul processamento efficiente del deep learning
  • Ying et al. (2019): Articolo originale di GNNExplainer
  • Luo et al. (2020): Metodo PGExplainer
  • Shan et al. (2021): Tecnologia RG-Explainer

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità interdisciplinare che applica con successo le tecniche di IA Esplicabile al problema dell'ottimizzazione hardware, con metodo innovativo e sperimentazione completa. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica hardware, la sua innovatività e praticità lo rendono di notevole valore nel campo dell'ottimizzazione dei sistemi di deep learning.