2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.
Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
academic

Повышение производительности глубоких нейронных сетей посредством выборки

Основная информация

  • ID статьи: 2507.07763
  • Название: Improving deep neural network performance through sampling
  • Авторы: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
  • Классификация: cond-mat.dis-nn
  • Дата публикации: 27 октября 2025 г. (препринт arXiv)
  • Учреждение: Purdue University Elmore School of Electrical and Computer Engineering
  • Ссылка на статью: https://arxiv.org/abs/2507.07763

Аннотация

В данной работе исследуется возможность расширения энергоэффективных методов выборки вероятностных нейронов (p-bits) с машин Больцмана на область генеративного искусственного интеллекта. В статье показано, что использование нескольких выборок, генерируемых вероятностной сетью, позволяет достичь лучшей точности. Авторы ставят ключевой вопрос: для повышения точности, какой подход более энергоэффективен — генерирование большего количества выборок или увеличение разрядности отдельного детерминированного образца? Работа предоставляет простое выражение для оценки энергетического компромисса и проверяет его экспериментальными результатами на различных алгоритмах и архитектурах.

Исследовательский контекст и мотивация

Проблемная постановка

  1. Энергетический кризис: Энергопотребление генеративного искусственного интеллекта достигло непомерных масштабов, требуя срочной оптимизации энергоэффективности
  2. Технологические различия: Вероятностные нейроны (p-bits) в машинах Больцмана продемонстрировали значительные преимущества в энергоэффективности, однако прямые глубокие нейронные сети по-прежнему используют многоразрядные детерминированные нейроны
  3. Отсутствие механизма выборки: Современные архитектуры DNN не имеют встроенного механизма выборки, что ограничивает их возможности в вероятностном выводе

Исследовательская мотивация

  1. Расширение применения p-bits: Распространение преимуществ энергоэффективности p-bits, проверенных в вычислениях Изинга, на область машинного обучения
  2. Компромисс энергия-точность: Систематический анализ взаимосвязи между количеством выборок и энергетическими затратами на повышение точности
  3. Унифицированная оценочная база: Создание универсальной системы оценки энергопотребления, применимой к различным реализациям вероятностных DNN

Основные вклады

  1. Предложена архитектура вероятностной DNN (p-DNN): Интеграция p-bits в прямые глубокие нейронные сети для реализации вывода на основе выборки
  2. Разработана методика обучения с учётом выборок: Стратегия обучения с усреднением по нескольким выборкам значительно повышает производительность вероятностной сети
  3. Установлена система анализа энергопотребления: Предложена универсальная модель энергопотребления базовых операций для оценки энергетических компромиссов различных архитектур и алгоритмов
  4. Подтверждена практическая осуществимость: Верификация на FPGA подтверждает точность теоретического анализа и практическую ценность метода
  5. Предоставлены количественные результаты: Доказано, что всего 2 выборки превосходят детерминированный базовый уровень, а 10 выборок соответствуют точности 3-разрядной детерминированной модели

Описание методологии

Определение задачи

Работа исследует введение механизма вероятностной выборки в глубокие нейронные сети для достижения лучшего компромисса энергия-точность. Конкретно:

  • Входные данные: Традиционная многоразрядная детерминированная DNN
  • Выходные данные: Вероятностная DNN на основе p-bits, способная генерировать несколько выборок и повышать производительность посредством усреднения
  • Ограничения: Оптимизация общей энергоэффективности при сохранении или повышении точности

Архитектура модели

1. Базовые компоненты p-DNN

В работе определены базовые операционные единицы p-DNN (рисунок 1) с моделью энергопотребления:

ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N

где:

  • ϵwM,ϵaM\epsilon_{wM}, \epsilon_{aM}: энергопотребление доступа к памяти весов и активаций
  • ϵS\epsilon_S: энергопотребление синаптических вычислений
  • ϵN\epsilon_N: энергопотребление нейрона
  • nn: количество входящих соединений
  • bw,bab_w, b_a: разрядность весов и активаций

2. Модель энергопотребления для нескольких выборок

Для T выборок модель энергопотребления корректируется следующим образом:

ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]

Это показывает, что когда энергопотребление загрузки весов доминирует, предельные затраты на дополнительные выборки относительно низки.

3. Стратегия обучения с учётом выборок

  • Прямое распространение: Добавление стохастичности к функциям активации каждого слоя для генерирования нескольких выборок
  • Расчёт потерь: Вычисление потерь на основе результатов усреднения по выборкам
  • Обратное распространение: Использование оценивателя прямого прохода для обработки градиентов стохастических активаций

Технические инновации

1. Упрощение от MAC к AC

Упрощение традиционных операций умножения-накопления (MAC) к операциям накопления (AC):

  • Детерминированный случай: w1x1+w2x2+...+wnxnw_1x_1 + w_2x_2 + ... + w_nx_n (требует умножения)
  • Вероятностный случай: Выборочное накопление подмножества весов (требует только сложения)

2. Функция активации p-bit

Использование вероятностной функции активации вида b=sign(tanh(W)rand{1,+1})b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\}), где случайное число обеспечивает стохастичность выборки.

3. Метод внедрения шума

Добавление шума к предварительно обученной детерминированной модели для получения преимуществ выборки без необходимости переобучения.

Экспериментальная установка

Наборы данных

  1. CIFAR-10: Задача классификации изображений, 50 000 обучающих изображений, 10 000 тестовых изображений
  2. CelebA: Генерация изображений лиц, 162 770 обучающих изображений, масштабированных до 64×64×3
  3. MNIST: Задача генерации цифр для верификации на FPGA

Метрики оценки

  • Задачи классификации: Точность (Accuracy)
  • Задачи генерации: Fréchet Inception Distance (FID)
  • Метрики энергопотребления: Энергопотребление на один вывод (Дж/вывод), коэффициент энергетического выигрыша

Методы сравнения

  • 32-разрядный детерминированный базовый уровень DNN
  • Квантованные модели с различной разрядностью (1-bit, 3-bit и т.д.)
  • Методы случайного битового потока

Детали реализации

  • Оптимизатор: ADAM
  • Скорость обучения: 1e-3 (классификация), 1e-4 (генерация)
  • Количество эпох: 1000
  • Размер пакета: 64
  • Инициализация весов: Glorot

Результаты экспериментов

Основные результаты

1. Производительность классификации изображений

  • 1 выборка: p-DNN соответствует точности 32-разрядного детерминированного базового уровня
  • 2 выборки: Превосходит производительность детерминированного базового уровня
  • 10 выборок: Достигает уровня точности 3-разрядной детерминированной модели

2. Качество генерируемых изображений

  • Обучение с учётом выборок: Значительно улучшает качество генерируемых изображений, оценка FID близка к 32-разрядному базовому уровню
  • Соответствие обучение-тестирование: Оптимальные результаты при использовании одинакового количества выборок на этапах обучения и тестирования
  • Постепенное улучшение: Качество изображений непрерывно улучшается с увеличением количества выборок

3. Результаты анализа энергопотребления

  • Доминирование памяти: Энергопотребление DNN в основном определяется доступом к памяти, вычислительные затраты относительно невелики
  • Преимущество выборки: В сценарии DRAM добавление одной выборки увеличивает энергопотребление всего на 0,7%, но повышает точность на 2%
  • Общий выигрыш: При допуске на 1% снижение точности p-DNN может достичь более чем двукратного снижения энергопотребления по сравнению с 32-разрядной DNN

Абляционные исследования

1. Сравнение функций активации

  • Sigmoid vs Tanh: Обе функции активации показывают сходные результаты в вероятностной модели
  • Детерминированные различия: Детерминированная модель Tanh показывает худшие результаты, подчёркивая робастность вероятностной модели

2. Верификация внедрения шума

  • Без переобучения: Простое внедрение шума обеспечивает повышение производительности при 2 выборках
  • Монотонное улучшение: Улучшение производительности носит монотонный характер, подтверждая стабильность метода

Результаты верификации на FPGA

  • Верификация энергопотребления: Измеренное энергопотребление высоко согласуется с теоретическими предсказаниями (2,5x vs 2,3x выигрыш)
  • Аппаратная эффективность: Использование CLB LUT, связанное с MAC, сокращается в 2,9 раза
  • Затраты на генератор случайных чисел: Энергопотребление и площадь генератора случайных чисел пренебрежимо малы в общей системе

Связанные работы

p-bits и вычисления Изинга

  • Применение машин Больцмана: p-bits продемонстрировали значительные преимущества энергоэффективности в задачах оптимизации и выборки
  • Аппаратная реализация: Физические реализации p-bits на основе s-MTJ, диодов Зенера и других элементов
  • Переиспользование архитектуры: Существующее оборудование BM может быть напрямую использовано для реализации p-DNN

Квантование нейронных сетей

  • Квантование весов: Значительный объём работ по снижению разрядности весов до 4 бит и ниже
  • Квантование активаций: Квантование активаций относительно сложнее, обычно не может быть снижено ниже 8 бит без потери производительности
  • Бинарные сети: Методы однобитовых сетей BinaryConnect, Binarized Neural Networks и др.

Стохастические вычисления

  • Вычисления со случайным битовым потоком: Традиционный метод представления непрерывных сигналов с использованием случайных битовых потоков
  • Принципиальные различия: Механизм выборки p-DNN принципиально отличается от вычислений со случайным битовым потоком

Заключение и обсуждение

Основные выводы

  1. Верификация осуществимости: Вероятностная выборка эффективно повышает производительность DNN, небольшое количество выборок обеспечивает значительные преимущества
  2. Энергетические преимущества: В современных системах искусственного интеллекта, где доминирует память, вычислительные затраты выборки практически пренебрежимы
  3. Динамическая настройка во время выполнения: p-DNN может динамически регулировать количество выборок во время выполнения для гибкого баланса между энергопотреблением и точностью
  4. Дружественность к оборудованию: Существующие архитектуры оборудования p-bit могут напрямую поддерживать реализацию p-DNN

Ограничения

  1. Требования к выборкам: Некоторые задачи могут требовать большого количества выборок для достижения идеальной производительности
  2. Сложность обучения: Обучение с учётом выборок увеличивает сложность процесса обучения
  3. Зависимость от памяти: Энергетические преимущества в значительной степени зависят от доминирования затрат на доступ к памяти
  4. Область применения: Основная верификация проведена на задачах компьютерного зрения, применимость в других областях требует дальнейшей проверки

Направления будущих исследований

  1. Применение к большим языковым моделям: Расширение p-DNN на более крупные модели, такие как LLM
  2. Аналоговая реализация: Исследование реализаций p-bit на основе аналоговых схем для дальнейшего снижения энергопотребления
  3. Интеграция с вычислениями в памяти: Комбинирование с архитектурами вычислений в памяти для максимизации энергетических преимуществ
  4. Продвинутые стратегии выборки: Разработка методов комбинирования выборок, выходящих за пределы простого усреднения

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое систематическое введение p-bits в прямые DNN, открывающее новое направление исследований
  2. Прочная теоретическая база: Предоставлена полная система анализа энергопотребления с высокой универсальностью и расширяемостью
  3. Достаточная экспериментальная база: Охватывает множество задач (классификация, генерация) с верификацией на FPGA
  4. Высокая практическая ценность: В контексте современного энергетического кризиса в области искусственного интеллекта предоставляет практически осуществимые решения по оптимизации
  5. Глубокий анализ: Тщательный анализ компромисса между памятью и вычислениями, предоставляющий важные выводы

Недостатки

  1. Ограничения масштаба: Эксперименты в основном проведены на относительно небольших моделях, производительность на крупномасштабных моделях требует верификации
  2. Ограниченное покрытие задач: Сосредоточено в основном на задачах компьютерного зрения, применимость в NLP и других областях неясна
  3. Недостаточное сравнение с базовыми методами: Сравнение с последними методами квантования и сжатия недостаточно полно
  4. Недостаток теоретического анализа: Отсутствует глубокое теоретическое объяснение того, почему небольшое количество выборок обеспечивает значительные улучшения

Влияние

  1. Академическая ценность: Предоставляет новые идеи и методы для объединения вероятностных вычислений и глубокого обучения
  2. Инженерное значение: Имеет важное руководящее значение в проектировании оборудования для искусственного интеллекта, особенно в оптимизации энергоэффективности
  3. Промышленные перспективы: Имеет широкие перспективы применения в периферийных вычислениях и приложениях искусственного интеллекта на мобильных устройствах

Применимые сценарии

  1. Среды с ограниченными ресурсами: Мобильные устройства, устройства IoT и другие сценарии, чувствительные к энергопотреблению
  2. Вывод в реальном времени: Приложения, требующие гибкого баланса между задержкой и точностью
  3. Крупномасштабное развёртывание: Сценарии обработки массовых запросов в центрах обработки данных
  4. Периферийные вычисления: Периферийные устройства с ограниченной пропускной способностью сети и вычислительными ресурсами

Библиография

В работе цитируются многие важные связанные исследования, включая:

  • Li et al. 2025 ISSCC: реализация QMC на 65nm ASIC
  • Hubara et al.: пионерские работы по квантованию нейронных сетей
  • Courbariaux et al.: бинарные нейронные сети BinaryConnect
  • Jacob et al.: методы целочисленного квантования при обучении

Общая оценка: Это высококачественная исследовательская работа, внёсшая значительный вклад в область пересечения вероятностных вычислений и глубокого обучения. Работа не только предлагает инновационное техническое решение, но и предоставляет полную систему теоретического анализа и экспериментальной верификации, обладая высокой академической ценностью и практическим значением. Хотя в некоторых аспектах есть место для улучшения, в целом это представляет собой важный прогресс в данной области.