2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

Aplicación de Explicación de Grafos a la Fusión de Operadores

Información Básica

ID del Artículo: 2501.00636
Título: Applying Graph Explanation to Operator Fusion
Autores: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
Clasificación: cs.LG cs.CV
Fecha de Publicación: 31 de diciembre de 2024 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00636

Resumen

Las técnicas de fusión de capas son críticas para mejorar la eficiencia de inferencia de redes neuronales profundas (DNN) para su implementación. La fusión tiene como objetivo reducir los costos de inferencia disminuyendo las transacciones de datos entre el búfer en chip del acelerador y la DRAM. Esto se logra mediante la ejecución agrupada de múltiples operaciones como convolución y activaciones en unidades de ejecución única - grupos de fusión. Sin embargo, los límites de capacidad del búfer en chip restringen el tamaño del grupo de fusión y optimizar la fusión en DNN completas requiere particionamiento en múltiples grupos de fusión. Encontrar los grupos óptimos es un problema complejo donde la presencia de soluciones inválidas obstaculiza los algoritmos de búsqueda tradicionales y demanda enfoques robustos. En este artículo incorporamos IA Explicable, específicamente Técnicas de Explicación de Grafos (GET), en la fusión de capas. Dado un grupo de fusión inválido, identificamos las operaciones más responsables de la invalidez del grupo, luego utilizamos este conocimiento para dividir recursivamente el grupo de fusión original mediante un algoritmo codicioso basado en árbol para minimizar el acceso a DRAM. Emparejamos nuestro esquema con algoritmos comunes y optimizamos DNN en dos tipos de fusión de capas: Line-Buffer Depth First (LBDF) y Branch Requirement Reduction (BRR). Los experimentos demuestran la eficacia de nuestro esquema en varias redes neuronales convolucionales populares y clásicas como ResNets y MobileNets. Nuestro esquema logra una reducción de acceso a DRAM superior al 20% en EfficientNet-B3.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la optimización de fusión de capas (Layer Fusion) en redes neuronales profundas. La fusión de capas es una técnica de aceleración de inferencia que reduce el número de transacciones de datos entre el búfer en chip del acelerador neuronal y la DRAM fusionando múltiples capas de operaciones DNN (como convolución y ReLU) en una única unidad de ejecución, reduciendo así la latencia de inferencia y el consumo de energía.

Importancia del Problema

Cuello de botella de rendimiento: A medida que los modelos DNN se vuelven más grandes y profundos, el acceso a DRAM se convierte en el principal cuello de botella de rendimiento y consumo de energía
Requisitos de implementación: Al implementar DNN en dispositivos periféricos y plataformas móviles, las limitaciones de ancho de banda de memoria y consumo de energía son especialmente graves
Restricciones de hardware: La capacidad limitada del búfer en chip requiere agrupar operaciones de manera inteligente para maximizar el efecto de fusión

Limitaciones de Métodos Existentes

Baja eficiencia de búsqueda: Los algoritmos de búsqueda tradicionales (como algoritmos evolutivos, búsqueda local) tienen baja eficiencia cuando se enfrentan a grupos de fusión inválidos
Particionamiento aleatorio: Los métodos existentes generalmente dividen aleatoriamente grupos de fusión inválidos, sin garantizar costos óptimos de acceso a DRAM
Falta de interpretabilidad: No pueden identificar operaciones específicas que causen invalidez del grupo de fusión, lo que dificulta la optimización dirigida

Motivación de la Investigación

Los autores proponen incorporar técnicas de IA Explicable en la optimización de fusión de capas, utilizando Técnicas de Explicación de Grafos (GET) para identificar operaciones clave que causan invalidez del grupo de fusión, y luego empleando un algoritmo de árbol codicioso para particionamiento inteligente, minimizando el costo de acceso a DRAM.

Contribuciones Principales

Primera aplicación de técnicas de explicación de grafos a optimización de fusión de capas: Combinación innovadora de IA Explicable y optimización de hardware
Propuesta de algoritmo de particionamiento recursivo en árbol: Diseño de un esquema de particionamiento recursivo basado en estrategia codiciosa que puede manejar inteligentemente grupos de fusión inválidos
Verificación entre métodos de fusión: Validación del esquema en dos métodos diferentes de fusión de capas: LBDF y BRR
Mejora significativa de rendimiento: Logro de reducción de acceso a DRAM superior al 20% en EfficientNet-B3

Explicación Detallada del Método

Definición de la Tarea

Dado un grafo computacional de una red neuronal profunda G y capacidad del búfer en chip β, el objetivo de la optimización de fusión de capas es encontrar el esquema de particionamiento óptimo Φ tal que:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

donde F_D calcula el costo de acceso a DRAM, F_β calcula el requisito de búfer, y el requisito de memoria de cada grupo de fusión φn no puede exceder la capacidad de búfer β.

Arquitectura del Modelo

1. Clasificador de Red Neuronal de Grafos

Utiliza k-GNN de 4 capas con dimensión oculta de 128
Función de activación ReLU y agregación por suma
Convierte la validez del grupo de fusión en un problema de clasificación binaria: Validity = σ(p(y|φ, β, θ))

2. Integración de Técnicas de Explicación de Grafos

Soporta tres métodos principales de explicación de grafos:

GNNExplainer (GNNE): Basado en maximización de información mutua
PGExplainer (PG): Explicador parametrizado preentrenado
RG-Explainer (RG): Generación de subgrafos conectados basada en aprendizaje por refuerzo

3. Algoritmo de Particionamiento Codicioso Recursivo

El algoritmo clasifica las soluciones de particionamiento en tres categorías:

Categoría 1: Ambos nuevos grupos de fusión son válidos (solución preferida)
Categoría 2: Uno válido, uno inválido (solución intermedia)
Categoría 3: Ambos inválidos (peor caso)

Puntos de Innovación Técnica

1. Manejo de Conexiones de Salto

Las conexiones residuales en DNN modernas hacen que la simple eliminación de bordes sea insuficiente para separar grupos de fusión. El algoritmo mediante ordenamiento topológico y verificación recursiva, asegura el manejo correcto de conexiones de salto anidadas.

2. Optimización con Memoización

Utiliza mecanismo de caché para almacenar resultados de particionamiento y cálculos de costos, evitando cálculos repetidos y mejorando la eficiencia de búsqueda.

3. Estrategia Codiciosa Multinivel

Prioriza soluciones que producen dos grupos de fusión válidos
En soluciones intermedias, selecciona el grupo de fusión válido que contiene más nodos
Procesa recursivamente grupos de fusión inválidos hasta que todos sean válidos

Configuración Experimental

Conjunto de Datos

Se utilizan modelos ONNX de múltiples arquitecturas CNN clásicas y modernas:

Redes clásicas: VGG16, SqueezeNet, ResNet-18/50/101/152
Redes modernas: MobileNetV2/V3, EfficientNet-B0/B3
Redes de segmentación: DeepLabV3+MobileNetV3

Se generan más de 54k muestras de grupos de fusión, cubriendo 5 tamaños de búfer diferentes (128KB-2048KB).

Métricas de Evaluación

Costo de acceso a DRAM: Volumen de transferencia de datos en MB
Utilización máxima de búfer (MBU): Requisito de búfer del grupo de fusión más grande en el esquema de particionamiento
Tasa de reparación: Porcentaje de grupos de fusión inválidos reparados exitosamente por GET

Métodos de Comparación

Algoritmos de búsqueda: Random Search (RS), Local Search (LS), NSGA-II
Métodos de referencia: Algoritmos de búsqueda originales sin GET
Variantes de GET: Tres técnicas de explicación de grafos: GNNE, PG, RG

Detalles de Implementación

Entrenamiento de GNN durante 50 épocas, alcanzando precisión superior al 95% y puntuación F1
Presupuesto de búsqueda: 1k-5k esquemas de particionamiento
Implementación de NSGA-II usando OpenBox, tamaño de población K=10

Resultados Experimentales

Resultados Principales

Mejora de Rendimiento en Redes Grandes

Resultados bajo búfer de 256KB y presupuesto de búsqueda de 5k:

Red	Método	Acceso a DRAM (MB)	Mejora
EfficientNet-B3	Línea base LS	90.500	-
	LS+GNNE	78.007	13.8%
	NSGA-II+PG	61.792	31.7%
ResNet-152	Línea base NSGA-II	77.205	-
	NSGA-II+RG	66.621	13.7%

Verificación entre Métodos de Fusión

Los resultados de BRR y LBDF bajo búfer de 128KB muestran que los métodos mejorados con GET superan la línea base en casi todas las redes, logrando mejoras superiores al 10% especialmente en redes complejas como MobileNetV2.

Experimentos de Ablación

Comparación de Métodos GET

Tasa de reparación: RG-Explainer más alta (91.4%-94.0%), PG más baja (50.7%-59.1%)
Eficiencia computacional: PG más rápido, GNNE más lento, RG intermedio
Rendimiento general: RG logra el mejor equilibrio entre tasa de reparación y eficiencia

Análisis de Presupuesto de Búsqueda

Los experimentos muestran que la búsqueda con presupuesto de 1k usando GET puede superar el rendimiento de la línea base con presupuesto de 4k, demostrando la alta eficiencia del método.

Análisis de Casos

La Figura 4 muestra las explicaciones de diferentes métodos GET para grupos de fusión inválidos en EfficientNet:

Todos los métodos identifican la conexión de salto principal (Conv a Matmul)
Todos seleccionan operaciones de relleno desfavorables para LBDF
Los conjuntos de bordes seleccionados por diferentes GET varían ligeramente pero todos capturan los cuellos de botella clave

Hallazgos Experimentales

Efecto de escala: La ventaja de GET es más evidente en redes más grandes y complejas
Universalidad: El método es efectivo para diferentes algoritmos de búsqueda y tipos de fusión
Mejora de eficiencia: Reduce significativamente la generación de esquemas inválidos durante el proceso de búsqueda

Trabajo Relacionado

Desarrollo de Técnicas de Fusión de Capas

Trabajos tempranos: Enfocados principalmente en combinaciones simples de operaciones y optimización de memoria
Métodos modernos: Consideran estructuras de red irregulares, impacto de conexiones de salto
Optimización específica de hardware: Fusión dirigida a operaciones específicas como CNN, mecanismos de atención

Técnicas de Explicación de Grafos

GNNExplainer: Trabajo pionero basado en maximización de información mutua para explicación de subgrafos
Métodos parametrizados: Enfoques como PGExplainer que mejoran la eficiencia mediante preentrenamiento
Métodos de aprendizaje por refuerzo: RG-Explainer y similares que garantizan conectividad de explicaciones

Posicionamiento de la Contribución del Artículo

Primera aplicación de técnicas de explicación de grafos al campo de optimización de hardware, proporcionando nuevas perspectivas de solución para el problema clásico de fusión de capas.

Conclusiones y Discusión

Conclusiones Principales

Las técnicas de explicación de grafos pueden identificar efectivamente operaciones clave que causan invalidez del grupo de fusión
El algoritmo de particionamiento codicioso recursivo puede manejar inteligentemente estructuras de red complejas
El método demuestra mejoras significativas de rendimiento en múltiples arquitecturas de red y configuraciones de hardware

Limitaciones

Simplificación del modelo de hardware: Actualmente solo considera restricciones de capacidad de búfer, sin abordar características de hardware más complejas
Limitación de tipos de fusión: BRR tiene soporte limitado para estructuras de red modernas (como módulos SE)
Costo computacional: El entrenamiento de GNN y la ejecución de GET añaden costo de preprocesamiento

Direcciones Futuras

Extensión a más restricciones de hardware: Considerar factores adicionales como ancho de banda y latencia
Soporte para nuevas estructuras de red: Adaptación a Transformers, redes neuronales de grafos, etc.
Optimización de extremo a extremo: Integración de fusión de capas con otras técnicas de optimización de compilación

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera aplicación de técnicas de IA Explicable a optimización de hardware, abriendo nuevas direcciones de investigación
Método completo: Forma un ciclo completo desde modelado de problemas hasta diseño de algoritmos hasta verificación experimental
Experimentación exhaustiva: Verificación integral cubriendo múltiples redes, métodos de fusión y algoritmos de búsqueda
Alto valor práctico: Tiene aplicación directa en escenarios de implementación real

Insuficiencias

Falta de análisis teórico: Carencia de garantías teóricas sobre convergencia y optimalidad del método
Verificación de hardware insuficiente: Los experimentos se basan principalmente en simulación, faltando verificación en plataformas de hardware real
Escalabilidad desconocida: La capacidad de procesamiento para redes de mayor escala requiere verificación adicional

Impacto

Contribución académica: Proporciona un ejemplo de aplicación de IA Explicable en optimización de sistemas
Valor práctico: Puede aplicarse directamente en compiladores de aprendizaje profundo y herramientas de implementación
Significado inspirador: Puede inspirar más trabajos de investigación en AI4Systems

Escenarios Aplicables

Optimización de implementación de DNN en dispositivos periféricos
Aceleración de inferencia en plataformas móviles
Optimización de eficiencia energética en centros de datos
Desarrollo de compiladores de aprendizaje profundo

Referencias

El artículo cita trabajos importantes de múltiples campos incluyendo fusión de capas, redes neuronales de grafos, IA Explicable, entre otros:

Sze et al. (2017): Revisión exhaustiva de procesamiento eficiente de aprendizaje profundo
Ying et al. (2019): Artículo original de GNNExplainer
Luo et al. (2020): Método PGExplainer
Shan et al. (2021): Técnica RG-Explainer

Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente técnicas de IA Explicable a problemas de optimización de hardware, con métodos novedosos y experimentación exhaustiva. Aunque hay espacio para mejora en análisis teórico y verificación de hardware, su innovación y practicidad lo hacen de valor importante en el campo de optimización de sistemas de aprendizaje profundo.