2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Применение объяснения графов к слиянию операторов

Основная информация

  • ID статьи: 2501.00636
  • Название: Applying Graph Explanation to Operator Fusion
  • Авторы: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • Классификация: cs.LG cs.CV
  • Дата публикации: 31 декабря 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.00636

Аннотация

Методы слияния слоёв являются критически важными для повышения эффективности вывода глубоких нейронных сетей (ГНС) при развёртывании. Слияние направлено на снижение затрат вывода путём уменьшения передачи данных между буфером на кристалле ускорителя и DRAM. Это достигается путём группировки нескольких операций, таких как свёртка и активация, в единые блоки выполнения — группы слияния. Однако ёмкость буфера на кристалле ограничивает размер группы слияния, и оптимизация слияния на всей ГНС требует разделения на несколько групп слияния. Поиск оптимальных групп является сложной задачей, при которой наличие недопустимых решений затрудняет традиционные алгоритмы поиска и требует надёжных подходов. В данной работе мы интегрируем объяснимый искусственный интеллект, в частности методы объяснения графов (Graph Explanation Techniques, GET), в слияние слоёв. Для недопустимой группы слияния мы определяем операции, в наибольшей степени ответственные за недопустимость группы, а затем используем эти знания для рекурсивного разделения исходной группы слияния с помощью жадного древовидного алгоритма для минимизации доступа к DRAM. Мы объединяем нашу схему с распространёнными алгоритмами и оптимизируем ГНС для двух типов слияния слоёв: Line-Buffer Depth First (LBDF) и Branch Requirement Reduction (BRR). Эксперименты демонстрируют эффективность нашей схемы на нескольких популярных и классических сверточных нейронных сетях, таких как ResNets и MobileNets. Наша схема достигает более чем 20% снижения доступа к DRAM на EfficientNet-B3.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, — это оптимизация слияния слоёв (Layer Fusion) глубоких нейронных сетей. Слияние слоёв — это метод ускорения вывода, который объединяет несколько операционных слоёв ГНС (таких как свёртка и ReLU) в единый блок выполнения, снижая количество передач данных между кэшем на кристалле нейроускорителя и DRAM, тем самым уменьшая задержку вывода и потребление энергии.

Значимость проблемы

  1. Узкие места производительности: По мере увеличения размера и глубины моделей ГНС доступ к DRAM становится основным узким местом производительности и энергопотребления
  2. Требования развёртывания: При развёртывании ГНС на граничных устройствах и мобильных платформах ограничения пропускной способности памяти и энергопотребления особенно критичны
  3. Аппаратные ограничения: Ёмкость кэша на кристалле ограничена, требуется интеллектуальное группирование операций для максимизации эффекта слияния

Ограничения существующих методов

  1. Низкая эффективность поиска: Традиционные алгоритмы поиска (такие как эволюционные алгоритмы, локальный поиск) неэффективны при работе с недопустимыми группами слияния
  2. Случайное разделение: Существующие методы обычно случайно разделяют недопустимые группы слияния, не гарантируя оптимальность затрат доступа к DRAM
  3. Отсутствие интерпретируемости: Невозможно определить конкретные операции, вызывающие недопустимость группы слияния, что затрудняет целевую оптимизацию

Исследовательская мотивация

Авторы предлагают интегрировать методы объяснимого искусственного интеллекта в оптимизацию слияния слоёв, используя методы объяснения графов (GET) для определения ключевых операций, вызывающих недопустимость группы слияния, а затем применяя жадный древовидный алгоритм для интеллектуального разделения с целью минимизации затрат доступа к DRAM.

Основные вклады

  1. Первое применение методов объяснения графов к оптимизации слияния слоёв: Инновационное объединение объяснимого искусственного интеллекта и оптимизации аппаратного обеспечения
  2. Предложение рекурсивного алгоритма разделения деревьев: Разработка рекурсивной схемы разделения на основе жадной стратегии, способной интеллектуально обрабатывать недопустимые группы слияния
  3. Проверка на различных методах слияния: Валидация схемы на двух различных методах слияния слоёв — LBDF и BRR
  4. Значительное улучшение производительности: Достижение более чем 20% снижения доступа к DRAM на EfficientNet-B3

Подробное описание метода

Определение задачи

Для заданного вычислительного графа G глубокой нейронной сети и ёмкости кэша на кристалле β целью оптимизации слияния слоёв является поиск оптимальной схемы разделения Φ такой, что:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

где F_D вычисляет стоимость доступа к DRAM, F_β вычисляет требования к памяти, а требования к памяти каждой группы слияния φn не должны превышать ёмкость кэша β.

Архитектура модели

1. Классификатор графовой нейронной сети

  • Использование 4-слойной k-GNN со скрытой размерностью 128
  • Функции активации ReLU и агрегация суммированием
  • Преобразование допустимости группы слияния в задачу бинарной классификации: Validity = σ(p(y|φ, β, θ))

2. Интеграция методов объяснения графов

Поддержка трёх основных методов объяснения графов:

  • GNNExplainer (GNNE): На основе максимизации взаимной информации
  • PGExplainer (PG): Предварительно обученный параметризованный объяснитель
  • RG-Explainer (RG): Генерация связных подграфов на основе обучения с подкреплением

3. Рекурсивный жадный алгоритм разделения

Алгоритм классифицирует решения разделения на три категории:

  • Категория 1: Обе новые группы слияния допустимы (предпочтительное решение)
  • Категория 2: Одна допустима, одна недопустима (промежуточное решение)
  • Категория 3: Обе недопустимы (наихудший случай)

Технические инновации

1. Обработка пропускных соединений

Остаточные соединения в современных ГНС делают простое удаление рёбер неспособным разделять группы слияния. Алгоритм использует топологическую сортировку и рекурсивную проверку для обеспечения правильной обработки вложенных пропускных соединений.

2. Оптимизация с использованием мемоизации

Использование механизма кэширования для сохранения результатов разделения и вычисления затрат, избегая повторных вычислений и повышая эффективность поиска.

3. Многоуровневая жадная стратегия

  • Приоритизация решений, производящих две допустимые группы слияния
  • Выбор допустимой группы слияния с наибольшим количеством узлов в промежуточных решениях
  • Рекурсивная обработка недопустимых групп слияния до достижения полной допустимости

Экспериментальная установка

Наборы данных

Использование моделей ONNX нескольких классических и современных архитектур CNN:

  • Классические сети: VGG16, SqueezeNet, ResNet-18/50/101/152
  • Современные сети: MobileNetV2/V3, EfficientNet-B0/B3
  • Сети сегментации: DeepLabV3+MobileNetV3

Всего создано более 54 тыс. образцов групп слияния, охватывающих 5 различных размеров кэша (128 КБ–2048 КБ).

Метрики оценки

  • Стоимость доступа к DRAM: Объём передачи данных в МБ
  • Максимальное использование кэша (MBU): Требования к памяти наибольшей группы слияния в схеме разделения
  • Коэффициент восстановления: Процент успешного восстановления GET недопустимых групп слияния

Методы сравнения

  • Алгоритмы поиска: Random Search (RS), Local Search (LS), NSGA-II
  • Базовые методы: Исходные алгоритмы поиска без использования GET
  • Варианты GET: Три метода объяснения графов GNNE, PG, RG

Детали реализации

  • Обучение GNN в течение 50 эпох с достижением точности более 95% и показателя F1
  • Бюджет поиска: 1k–5k схем разделения
  • Использование OpenBox для реализации NSGA-II с размером популяции K=10

Результаты экспериментов

Основные результаты

Улучшение производительности на крупных сетях

Результаты при кэше 256 КБ и бюджете поиска 5k:

СетьМетодДоступ к DRAM (МБ)Улучшение
EfficientNet-B3Базовый LS90.500-
LS+GNNE78.00713.8%
NSGA-II+PG61.79231.7%
ResNet-152Базовый NSGA-II77.205-
NSGA-II+RG66.62113.7%

Проверка на различных методах слияния

Результаты BRR и LBDF при кэше 128 КБ показывают, что методы, усиленные GET, превосходят базовые методы почти на всех сетях, особенно достигая улучшения более 10% на сложных сетях, таких как MobileNetV2.

Абляционные исследования

Сравнение методов GET

  • Коэффициент восстановления: RG-Explainer наивысший (91.4%–94.0%), PG наименьший (50.7%–59.1%)
  • Вычислительная эффективность: PG самый быстрый, GNNE самый медленный, RG занимает промежуточное положение
  • Общая производительность: RG достигает наилучшего баланса между коэффициентом восстановления и эффективностью

Анализ бюджета поиска

Эксперименты показывают, что поиск с бюджетом 1k с использованием GET может превзойти производительность базового метода с бюджетом 4k, что доказывает высокую эффективность метода.

Анализ конкретных случаев

На рисунке 4 показано объяснение различными методами GET недопустимых групп слияния EfficientNet:

  • Все методы определили основное пропускное соединение (Conv в Matmul)
  • Все выбрали операции заполнения, неудобные для LBDF
  • Различные наборы рёбер, выбранные GET, немного отличаются, но все захватывают ключевые узкие места

Экспериментальные находки

  1. Эффект масштаба: Преимущество GET более выраженно на более крупных и сложных сетях
  2. Универсальность: Метод эффективен для различных алгоритмов поиска и типов слияния
  3. Повышение эффективности: Значительное снижение генерации недопустимых схем в процессе поиска

Связанные работы

Развитие методов слияния слоёв

  • Ранние работы: Основное внимание на простые комбинации операций и оптимизацию памяти
  • Современные методы: Учёт влияния нерегулярных структур сетей и пропускных соединений
  • Оптимизация для конкретного аппаратного обеспечения: Слияние, специфичное для CNN, механизмов внимания и других операций

Методы объяснения графов

  • GNNExplainer: Пионерская работа, объяснение подграфов на основе взаимной информации
  • Параметризованные методы: Методы, такие как PGExplainer, повышающие эффективность предварительного обучения
  • Методы обучения с подкреплением: RG-Explainer и другие, гарантирующие связность объяснений

Позиционирование вклада данной работы

Первое применение методов объяснения графов в области оптимизации аппаратного обеспечения, предоставляющее новый подход к решению классической проблемы слияния слоёв.

Заключение и обсуждение

Основные выводы

  1. Методы объяснения графов эффективно определяют ключевые операции, вызывающие недопустимость групп слияния
  2. Рекурсивный жадный алгоритм разделения может интеллектуально обрабатывать сложные структуры сетей
  3. Метод демонстрирует значительное улучшение производительности на различных архитектурах сетей и конфигурациях аппаратного обеспечения

Ограничения

  1. Упрощение модели аппаратного обеспечения: В настоящее время рассматриваются только ограничения ёмкости кэша, не охватываются более сложные характеристики аппаратного обеспечения
  2. Ограничение типов слияния: BRR имеет ограниченную поддержку современных структур сетей (таких как модули SE)
  3. Вычислительные затраты: Обучение GNN и выполнение GET увеличивают затраты предварительной обработки

Направления будущих исследований

  1. Расширение на дополнительные аппаратные ограничения: Учёт большего количества факторов, таких как пропускная способность и задержка
  2. Поддержка новых структур сетей: Адаптация к Transformers, графовым нейронным сетям и другим архитектурам
  3. Сквозная оптимизация: Объединение слияния слоёв с другими методами оптимизации компиляции

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение методов объяснимого искусственного интеллекта к оптимизации аппаратного обеспечения, открывающее новое направление исследований
  2. Полнота метода: От моделирования проблемы до разработки алгоритма и экспериментальной проверки формируется полный цикл
  3. Достаточность экспериментов: Комплексная проверка на различных сетях, методах слияния и алгоритмах поиска
  4. Высокая практическая ценность: Прямое применение в реальных сценариях развёртывания

Недостатки

  1. Отсутствие теоретического анализа: Отсутствуют теоретические гарантии сходимости и оптимальности метода
  2. Недостаточная аппаратная верификация: Эксперименты в основном основаны на моделировании, отсутствует проверка на реальных аппаратных платформах
  3. Неизвестная масштабируемость: Способность обработки сетей большего масштаба требует дальнейшей проверки

Влияние

  1. Академический вклад: Предоставляет пример применения объяснимого искусственного интеллекта в оптимизации систем
  2. Практическая ценность: Может быть непосредственно применён в компиляторах глубокого обучения и инструментах развёртывания
  3. Вдохновляющее значение: Может вдохновить дальнейшие исследования в области AI4Systems

Применимые сценарии

  • Оптимизация развёртывания ГНС на граничных устройствах
  • Ускорение вывода на мобильных платформах
  • Оптимизация энергоэффективности в центрах обработки данных
  • Разработка компиляторов глубокого обучения

Библиография

Статья ссылается на важные работы в нескольких областях, включая слияние слоёв, графовые нейронные сети и объяснимый искусственный интеллект:

  • Sze et al. (2017): Обзор эффективной обработки глубокого обучения
  • Ying et al. (2019): Оригинальная статья GNNExplainer
  • Luo et al. (2020): Метод PGExplainer
  • Shan et al. (2021): Технология RG-Explainer

Общая оценка: Это высококачественная междисциплинарная исследовательская статья, успешно применившая методы объяснимого искусственного интеллекта к проблеме оптимизации аппаратного обеспечения. Метод является инновационным, а эксперименты достаточно полными. Хотя существует место для улучшения в теоретическом анализе и аппаратной верификации, её инновационность и практическая ценность придают ей важное значение в области оптимизации систем глубокого обучения.