2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Aplicación de Explicación de Grafos a la Fusión de Operadores

Información Básica

  • ID del Artículo: 2501.00636
  • Título: Applying Graph Explanation to Operator Fusion
  • Autores: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • Clasificación: cs.LG cs.CV
  • Fecha de Publicación: 31 de diciembre de 2024 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00636

Resumen

Las técnicas de fusión de capas son críticas para mejorar la eficiencia de inferencia de redes neuronales profundas (DNN) para su implementación. La fusión tiene como objetivo reducir los costos de inferencia disminuyendo las transacciones de datos entre el búfer en chip del acelerador y la DRAM. Esto se logra mediante la ejecución agrupada de múltiples operaciones como convolución y activaciones en unidades de ejecución única - grupos de fusión. Sin embargo, los límites de capacidad del búfer en chip restringen el tamaño del grupo de fusión y optimizar la fusión en DNN completas requiere particionamiento en múltiples grupos de fusión. Encontrar los grupos óptimos es un problema complejo donde la presencia de soluciones inválidas obstaculiza los algoritmos de búsqueda tradicionales y demanda enfoques robustos. En este artículo incorporamos IA Explicable, específicamente Técnicas de Explicación de Grafos (GET), en la fusión de capas. Dado un grupo de fusión inválido, identificamos las operaciones más responsables de la invalidez del grupo, luego utilizamos este conocimiento para dividir recursivamente el grupo de fusión original mediante un algoritmo codicioso basado en árbol para minimizar el acceso a DRAM. Emparejamos nuestro esquema con algoritmos comunes y optimizamos DNN en dos tipos de fusión de capas: Line-Buffer Depth First (LBDF) y Branch Requirement Reduction (BRR). Los experimentos demuestran la eficacia de nuestro esquema en varias redes neuronales convolucionales populares y clásicas como ResNets y MobileNets. Nuestro esquema logra una reducción de acceso a DRAM superior al 20% en EfficientNet-B3.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la optimización de fusión de capas (Layer Fusion) en redes neuronales profundas. La fusión de capas es una técnica de aceleración de inferencia que reduce el número de transacciones de datos entre el búfer en chip del acelerador neuronal y la DRAM fusionando múltiples capas de operaciones DNN (como convolución y ReLU) en una única unidad de ejecución, reduciendo así la latencia de inferencia y el consumo de energía.

Importancia del Problema

  1. Cuello de botella de rendimiento: A medida que los modelos DNN se vuelven más grandes y profundos, el acceso a DRAM se convierte en el principal cuello de botella de rendimiento y consumo de energía
  2. Requisitos de implementación: Al implementar DNN en dispositivos periféricos y plataformas móviles, las limitaciones de ancho de banda de memoria y consumo de energía son especialmente graves
  3. Restricciones de hardware: La capacidad limitada del búfer en chip requiere agrupar operaciones de manera inteligente para maximizar el efecto de fusión

Limitaciones de Métodos Existentes

  1. Baja eficiencia de búsqueda: Los algoritmos de búsqueda tradicionales (como algoritmos evolutivos, búsqueda local) tienen baja eficiencia cuando se enfrentan a grupos de fusión inválidos
  2. Particionamiento aleatorio: Los métodos existentes generalmente dividen aleatoriamente grupos de fusión inválidos, sin garantizar costos óptimos de acceso a DRAM
  3. Falta de interpretabilidad: No pueden identificar operaciones específicas que causen invalidez del grupo de fusión, lo que dificulta la optimización dirigida

Motivación de la Investigación

Los autores proponen incorporar técnicas de IA Explicable en la optimización de fusión de capas, utilizando Técnicas de Explicación de Grafos (GET) para identificar operaciones clave que causan invalidez del grupo de fusión, y luego empleando un algoritmo de árbol codicioso para particionamiento inteligente, minimizando el costo de acceso a DRAM.

Contribuciones Principales

  1. Primera aplicación de técnicas de explicación de grafos a optimización de fusión de capas: Combinación innovadora de IA Explicable y optimización de hardware
  2. Propuesta de algoritmo de particionamiento recursivo en árbol: Diseño de un esquema de particionamiento recursivo basado en estrategia codiciosa que puede manejar inteligentemente grupos de fusión inválidos
  3. Verificación entre métodos de fusión: Validación del esquema en dos métodos diferentes de fusión de capas: LBDF y BRR
  4. Mejora significativa de rendimiento: Logro de reducción de acceso a DRAM superior al 20% en EfficientNet-B3

Explicación Detallada del Método

Definición de la Tarea

Dado un grafo computacional de una red neuronal profunda G y capacidad del búfer en chip β, el objetivo de la optimización de fusión de capas es encontrar el esquema de particionamiento óptimo Φ tal que:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

donde F_D calcula el costo de acceso a DRAM, F_β calcula el requisito de búfer, y el requisito de memoria de cada grupo de fusión φn no puede exceder la capacidad de búfer β.

Arquitectura del Modelo

1. Clasificador de Red Neuronal de Grafos

  • Utiliza k-GNN de 4 capas con dimensión oculta de 128
  • Función de activación ReLU y agregación por suma
  • Convierte la validez del grupo de fusión en un problema de clasificación binaria: Validity = σ(p(y|φ, β, θ))

2. Integración de Técnicas de Explicación de Grafos

Soporta tres métodos principales de explicación de grafos:

  • GNNExplainer (GNNE): Basado en maximización de información mutua
  • PGExplainer (PG): Explicador parametrizado preentrenado
  • RG-Explainer (RG): Generación de subgrafos conectados basada en aprendizaje por refuerzo

3. Algoritmo de Particionamiento Codicioso Recursivo

El algoritmo clasifica las soluciones de particionamiento en tres categorías:

  • Categoría 1: Ambos nuevos grupos de fusión son válidos (solución preferida)
  • Categoría 2: Uno válido, uno inválido (solución intermedia)
  • Categoría 3: Ambos inválidos (peor caso)

Puntos de Innovación Técnica

1. Manejo de Conexiones de Salto

Las conexiones residuales en DNN modernas hacen que la simple eliminación de bordes sea insuficiente para separar grupos de fusión. El algoritmo mediante ordenamiento topológico y verificación recursiva, asegura el manejo correcto de conexiones de salto anidadas.

2. Optimización con Memoización

Utiliza mecanismo de caché para almacenar resultados de particionamiento y cálculos de costos, evitando cálculos repetidos y mejorando la eficiencia de búsqueda.

3. Estrategia Codiciosa Multinivel

  • Prioriza soluciones que producen dos grupos de fusión válidos
  • En soluciones intermedias, selecciona el grupo de fusión válido que contiene más nodos
  • Procesa recursivamente grupos de fusión inválidos hasta que todos sean válidos

Configuración Experimental

Conjunto de Datos

Se utilizan modelos ONNX de múltiples arquitecturas CNN clásicas y modernas:

  • Redes clásicas: VGG16, SqueezeNet, ResNet-18/50/101/152
  • Redes modernas: MobileNetV2/V3, EfficientNet-B0/B3
  • Redes de segmentación: DeepLabV3+MobileNetV3

Se generan más de 54k muestras de grupos de fusión, cubriendo 5 tamaños de búfer diferentes (128KB-2048KB).

Métricas de Evaluación

  • Costo de acceso a DRAM: Volumen de transferencia de datos en MB
  • Utilización máxima de búfer (MBU): Requisito de búfer del grupo de fusión más grande en el esquema de particionamiento
  • Tasa de reparación: Porcentaje de grupos de fusión inválidos reparados exitosamente por GET

Métodos de Comparación

  • Algoritmos de búsqueda: Random Search (RS), Local Search (LS), NSGA-II
  • Métodos de referencia: Algoritmos de búsqueda originales sin GET
  • Variantes de GET: Tres técnicas de explicación de grafos: GNNE, PG, RG

Detalles de Implementación

  • Entrenamiento de GNN durante 50 épocas, alcanzando precisión superior al 95% y puntuación F1
  • Presupuesto de búsqueda: 1k-5k esquemas de particionamiento
  • Implementación de NSGA-II usando OpenBox, tamaño de población K=10

Resultados Experimentales

Resultados Principales

Mejora de Rendimiento en Redes Grandes

Resultados bajo búfer de 256KB y presupuesto de búsqueda de 5k:

RedMétodoAcceso a DRAM (MB)Mejora
EfficientNet-B3Línea base LS90.500-
LS+GNNE78.00713.8%
NSGA-II+PG61.79231.7%
ResNet-152Línea base NSGA-II77.205-
NSGA-II+RG66.62113.7%

Verificación entre Métodos de Fusión

Los resultados de BRR y LBDF bajo búfer de 128KB muestran que los métodos mejorados con GET superan la línea base en casi todas las redes, logrando mejoras superiores al 10% especialmente en redes complejas como MobileNetV2.

Experimentos de Ablación

Comparación de Métodos GET

  • Tasa de reparación: RG-Explainer más alta (91.4%-94.0%), PG más baja (50.7%-59.1%)
  • Eficiencia computacional: PG más rápido, GNNE más lento, RG intermedio
  • Rendimiento general: RG logra el mejor equilibrio entre tasa de reparación y eficiencia

Análisis de Presupuesto de Búsqueda

Los experimentos muestran que la búsqueda con presupuesto de 1k usando GET puede superar el rendimiento de la línea base con presupuesto de 4k, demostrando la alta eficiencia del método.

Análisis de Casos

La Figura 4 muestra las explicaciones de diferentes métodos GET para grupos de fusión inválidos en EfficientNet:

  • Todos los métodos identifican la conexión de salto principal (Conv a Matmul)
  • Todos seleccionan operaciones de relleno desfavorables para LBDF
  • Los conjuntos de bordes seleccionados por diferentes GET varían ligeramente pero todos capturan los cuellos de botella clave

Hallazgos Experimentales

  1. Efecto de escala: La ventaja de GET es más evidente en redes más grandes y complejas
  2. Universalidad: El método es efectivo para diferentes algoritmos de búsqueda y tipos de fusión
  3. Mejora de eficiencia: Reduce significativamente la generación de esquemas inválidos durante el proceso de búsqueda

Trabajo Relacionado

Desarrollo de Técnicas de Fusión de Capas

  • Trabajos tempranos: Enfocados principalmente en combinaciones simples de operaciones y optimización de memoria
  • Métodos modernos: Consideran estructuras de red irregulares, impacto de conexiones de salto
  • Optimización específica de hardware: Fusión dirigida a operaciones específicas como CNN, mecanismos de atención

Técnicas de Explicación de Grafos

  • GNNExplainer: Trabajo pionero basado en maximización de información mutua para explicación de subgrafos
  • Métodos parametrizados: Enfoques como PGExplainer que mejoran la eficiencia mediante preentrenamiento
  • Métodos de aprendizaje por refuerzo: RG-Explainer y similares que garantizan conectividad de explicaciones

Posicionamiento de la Contribución del Artículo

Primera aplicación de técnicas de explicación de grafos al campo de optimización de hardware, proporcionando nuevas perspectivas de solución para el problema clásico de fusión de capas.

Conclusiones y Discusión

Conclusiones Principales

  1. Las técnicas de explicación de grafos pueden identificar efectivamente operaciones clave que causan invalidez del grupo de fusión
  2. El algoritmo de particionamiento codicioso recursivo puede manejar inteligentemente estructuras de red complejas
  3. El método demuestra mejoras significativas de rendimiento en múltiples arquitecturas de red y configuraciones de hardware

Limitaciones

  1. Simplificación del modelo de hardware: Actualmente solo considera restricciones de capacidad de búfer, sin abordar características de hardware más complejas
  2. Limitación de tipos de fusión: BRR tiene soporte limitado para estructuras de red modernas (como módulos SE)
  3. Costo computacional: El entrenamiento de GNN y la ejecución de GET añaden costo de preprocesamiento

Direcciones Futuras

  1. Extensión a más restricciones de hardware: Considerar factores adicionales como ancho de banda y latencia
  2. Soporte para nuevas estructuras de red: Adaptación a Transformers, redes neuronales de grafos, etc.
  3. Optimización de extremo a extremo: Integración de fusión de capas con otras técnicas de optimización de compilación

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera aplicación de técnicas de IA Explicable a optimización de hardware, abriendo nuevas direcciones de investigación
  2. Método completo: Forma un ciclo completo desde modelado de problemas hasta diseño de algoritmos hasta verificación experimental
  3. Experimentación exhaustiva: Verificación integral cubriendo múltiples redes, métodos de fusión y algoritmos de búsqueda
  4. Alto valor práctico: Tiene aplicación directa en escenarios de implementación real

Insuficiencias

  1. Falta de análisis teórico: Carencia de garantías teóricas sobre convergencia y optimalidad del método
  2. Verificación de hardware insuficiente: Los experimentos se basan principalmente en simulación, faltando verificación en plataformas de hardware real
  3. Escalabilidad desconocida: La capacidad de procesamiento para redes de mayor escala requiere verificación adicional

Impacto

  1. Contribución académica: Proporciona un ejemplo de aplicación de IA Explicable en optimización de sistemas
  2. Valor práctico: Puede aplicarse directamente en compiladores de aprendizaje profundo y herramientas de implementación
  3. Significado inspirador: Puede inspirar más trabajos de investigación en AI4Systems

Escenarios Aplicables

  • Optimización de implementación de DNN en dispositivos periféricos
  • Aceleración de inferencia en plataformas móviles
  • Optimización de eficiencia energética en centros de datos
  • Desarrollo de compiladores de aprendizaje profundo

Referencias

El artículo cita trabajos importantes de múltiples campos incluyendo fusión de capas, redes neuronales de grafos, IA Explicable, entre otros:

  • Sze et al. (2017): Revisión exhaustiva de procesamiento eficiente de aprendizaje profundo
  • Ying et al. (2019): Artículo original de GNNExplainer
  • Luo et al. (2020): Método PGExplainer
  • Shan et al. (2021): Técnica RG-Explainer

Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente técnicas de IA Explicable a problemas de optimización de hardware, con métodos novedosos y experimentación exhaustiva. Aunque hay espacio para mejora en análisis teórico y verificación de hardware, su innovación y practicidad lo hacen de valor importante en el campo de optimización de sistemas de aprendizaje profundo.