Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
- ID статьи: 2507.07763
- Название: Improving deep neural network performance through sampling
- Авторы: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
- Классификация: cond-mat.dis-nn
- Дата публикации: 27 октября 2025 г. (препринт arXiv)
- Учреждение: Purdue University Elmore School of Electrical and Computer Engineering
- Ссылка на статью: https://arxiv.org/abs/2507.07763
В данной работе исследуется возможность расширения энергоэффективных методов выборки вероятностных нейронов (p-bits) с машин Больцмана на область генеративного искусственного интеллекта. В статье показано, что использование нескольких выборок, генерируемых вероятностной сетью, позволяет достичь лучшей точности. Авторы ставят ключевой вопрос: для повышения точности, какой подход более энергоэффективен — генерирование большего количества выборок или увеличение разрядности отдельного детерминированного образца? Работа предоставляет простое выражение для оценки энергетического компромисса и проверяет его экспериментальными результатами на различных алгоритмах и архитектурах.
- Энергетический кризис: Энергопотребление генеративного искусственного интеллекта достигло непомерных масштабов, требуя срочной оптимизации энергоэффективности
- Технологические различия: Вероятностные нейроны (p-bits) в машинах Больцмана продемонстрировали значительные преимущества в энергоэффективности, однако прямые глубокие нейронные сети по-прежнему используют многоразрядные детерминированные нейроны
- Отсутствие механизма выборки: Современные архитектуры DNN не имеют встроенного механизма выборки, что ограничивает их возможности в вероятностном выводе
- Расширение применения p-bits: Распространение преимуществ энергоэффективности p-bits, проверенных в вычислениях Изинга, на область машинного обучения
- Компромисс энергия-точность: Систематический анализ взаимосвязи между количеством выборок и энергетическими затратами на повышение точности
- Унифицированная оценочная база: Создание универсальной системы оценки энергопотребления, применимой к различным реализациям вероятностных DNN
- Предложена архитектура вероятностной DNN (p-DNN): Интеграция p-bits в прямые глубокие нейронные сети для реализации вывода на основе выборки
- Разработана методика обучения с учётом выборок: Стратегия обучения с усреднением по нескольким выборкам значительно повышает производительность вероятностной сети
- Установлена система анализа энергопотребления: Предложена универсальная модель энергопотребления базовых операций для оценки энергетических компромиссов различных архитектур и алгоритмов
- Подтверждена практическая осуществимость: Верификация на FPGA подтверждает точность теоретического анализа и практическую ценность метода
- Предоставлены количественные результаты: Доказано, что всего 2 выборки превосходят детерминированный базовый уровень, а 10 выборок соответствуют точности 3-разрядной детерминированной модели
Работа исследует введение механизма вероятностной выборки в глубокие нейронные сети для достижения лучшего компромисса энергия-точность. Конкретно:
- Входные данные: Традиционная многоразрядная детерминированная DNN
- Выходные данные: Вероятностная DNN на основе p-bits, способная генерировать несколько выборок и повышать производительность посредством усреднения
- Ограничения: Оптимизация общей энергоэффективности при сохранении или повышении точности
В работе определены базовые операционные единицы p-DNN (рисунок 1) с моделью энергопотребления:
ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN
где:
- ϵwM,ϵaM: энергопотребление доступа к памяти весов и активаций
- ϵS: энергопотребление синаптических вычислений
- ϵN: энергопотребление нейрона
- n: количество входящих соединений
- bw,ba: разрядность весов и активаций
Для T выборок модель энергопотребления корректируется следующим образом:
ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]
Это показывает, что когда энергопотребление загрузки весов доминирует, предельные затраты на дополнительные выборки относительно низки.
- Прямое распространение: Добавление стохастичности к функциям активации каждого слоя для генерирования нескольких выборок
- Расчёт потерь: Вычисление потерь на основе результатов усреднения по выборкам
- Обратное распространение: Использование оценивателя прямого прохода для обработки градиентов стохастических активаций
Упрощение традиционных операций умножения-накопления (MAC) к операциям накопления (AC):
- Детерминированный случай: w1x1+w2x2+...+wnxn (требует умножения)
- Вероятностный случай: Выборочное накопление подмножества весов (требует только сложения)
Использование вероятностной функции активации вида b=sign(tanh(W)−rand{−1,+1}), где случайное число обеспечивает стохастичность выборки.
Добавление шума к предварительно обученной детерминированной модели для получения преимуществ выборки без необходимости переобучения.
- CIFAR-10: Задача классификации изображений, 50 000 обучающих изображений, 10 000 тестовых изображений
- CelebA: Генерация изображений лиц, 162 770 обучающих изображений, масштабированных до 64×64×3
- MNIST: Задача генерации цифр для верификации на FPGA
- Задачи классификации: Точность (Accuracy)
- Задачи генерации: Fréchet Inception Distance (FID)
- Метрики энергопотребления: Энергопотребление на один вывод (Дж/вывод), коэффициент энергетического выигрыша
- 32-разрядный детерминированный базовый уровень DNN
- Квантованные модели с различной разрядностью (1-bit, 3-bit и т.д.)
- Методы случайного битового потока
- Оптимизатор: ADAM
- Скорость обучения: 1e-3 (классификация), 1e-4 (генерация)
- Количество эпох: 1000
- Размер пакета: 64
- Инициализация весов: Glorot
- 1 выборка: p-DNN соответствует точности 32-разрядного детерминированного базового уровня
- 2 выборки: Превосходит производительность детерминированного базового уровня
- 10 выборок: Достигает уровня точности 3-разрядной детерминированной модели
- Обучение с учётом выборок: Значительно улучшает качество генерируемых изображений, оценка FID близка к 32-разрядному базовому уровню
- Соответствие обучение-тестирование: Оптимальные результаты при использовании одинакового количества выборок на этапах обучения и тестирования
- Постепенное улучшение: Качество изображений непрерывно улучшается с увеличением количества выборок
- Доминирование памяти: Энергопотребление DNN в основном определяется доступом к памяти, вычислительные затраты относительно невелики
- Преимущество выборки: В сценарии DRAM добавление одной выборки увеличивает энергопотребление всего на 0,7%, но повышает точность на 2%
- Общий выигрыш: При допуске на 1% снижение точности p-DNN может достичь более чем двукратного снижения энергопотребления по сравнению с 32-разрядной DNN
- Sigmoid vs Tanh: Обе функции активации показывают сходные результаты в вероятностной модели
- Детерминированные различия: Детерминированная модель Tanh показывает худшие результаты, подчёркивая робастность вероятностной модели
- Без переобучения: Простое внедрение шума обеспечивает повышение производительности при 2 выборках
- Монотонное улучшение: Улучшение производительности носит монотонный характер, подтверждая стабильность метода
- Верификация энергопотребления: Измеренное энергопотребление высоко согласуется с теоретическими предсказаниями (2,5x vs 2,3x выигрыш)
- Аппаратная эффективность: Использование CLB LUT, связанное с MAC, сокращается в 2,9 раза
- Затраты на генератор случайных чисел: Энергопотребление и площадь генератора случайных чисел пренебрежимо малы в общей системе
- Применение машин Больцмана: p-bits продемонстрировали значительные преимущества энергоэффективности в задачах оптимизации и выборки
- Аппаратная реализация: Физические реализации p-bits на основе s-MTJ, диодов Зенера и других элементов
- Переиспользование архитектуры: Существующее оборудование BM может быть напрямую использовано для реализации p-DNN
- Квантование весов: Значительный объём работ по снижению разрядности весов до 4 бит и ниже
- Квантование активаций: Квантование активаций относительно сложнее, обычно не может быть снижено ниже 8 бит без потери производительности
- Бинарные сети: Методы однобитовых сетей BinaryConnect, Binarized Neural Networks и др.
- Вычисления со случайным битовым потоком: Традиционный метод представления непрерывных сигналов с использованием случайных битовых потоков
- Принципиальные различия: Механизм выборки p-DNN принципиально отличается от вычислений со случайным битовым потоком
- Верификация осуществимости: Вероятностная выборка эффективно повышает производительность DNN, небольшое количество выборок обеспечивает значительные преимущества
- Энергетические преимущества: В современных системах искусственного интеллекта, где доминирует память, вычислительные затраты выборки практически пренебрежимы
- Динамическая настройка во время выполнения: p-DNN может динамически регулировать количество выборок во время выполнения для гибкого баланса между энергопотреблением и точностью
- Дружественность к оборудованию: Существующие архитектуры оборудования p-bit могут напрямую поддерживать реализацию p-DNN
- Требования к выборкам: Некоторые задачи могут требовать большого количества выборок для достижения идеальной производительности
- Сложность обучения: Обучение с учётом выборок увеличивает сложность процесса обучения
- Зависимость от памяти: Энергетические преимущества в значительной степени зависят от доминирования затрат на доступ к памяти
- Область применения: Основная верификация проведена на задачах компьютерного зрения, применимость в других областях требует дальнейшей проверки
- Применение к большим языковым моделям: Расширение p-DNN на более крупные модели, такие как LLM
- Аналоговая реализация: Исследование реализаций p-bit на основе аналоговых схем для дальнейшего снижения энергопотребления
- Интеграция с вычислениями в памяти: Комбинирование с архитектурами вычислений в памяти для максимизации энергетических преимуществ
- Продвинутые стратегии выборки: Разработка методов комбинирования выборок, выходящих за пределы простого усреднения
- Высокая инновационность: Первое систематическое введение p-bits в прямые DNN, открывающее новое направление исследований
- Прочная теоретическая база: Предоставлена полная система анализа энергопотребления с высокой универсальностью и расширяемостью
- Достаточная экспериментальная база: Охватывает множество задач (классификация, генерация) с верификацией на FPGA
- Высокая практическая ценность: В контексте современного энергетического кризиса в области искусственного интеллекта предоставляет практически осуществимые решения по оптимизации
- Глубокий анализ: Тщательный анализ компромисса между памятью и вычислениями, предоставляющий важные выводы
- Ограничения масштаба: Эксперименты в основном проведены на относительно небольших моделях, производительность на крупномасштабных моделях требует верификации
- Ограниченное покрытие задач: Сосредоточено в основном на задачах компьютерного зрения, применимость в NLP и других областях неясна
- Недостаточное сравнение с базовыми методами: Сравнение с последними методами квантования и сжатия недостаточно полно
- Недостаток теоретического анализа: Отсутствует глубокое теоретическое объяснение того, почему небольшое количество выборок обеспечивает значительные улучшения
- Академическая ценность: Предоставляет новые идеи и методы для объединения вероятностных вычислений и глубокого обучения
- Инженерное значение: Имеет важное руководящее значение в проектировании оборудования для искусственного интеллекта, особенно в оптимизации энергоэффективности
- Промышленные перспективы: Имеет широкие перспективы применения в периферийных вычислениях и приложениях искусственного интеллекта на мобильных устройствах
- Среды с ограниченными ресурсами: Мобильные устройства, устройства IoT и другие сценарии, чувствительные к энергопотреблению
- Вывод в реальном времени: Приложения, требующие гибкого баланса между задержкой и точностью
- Крупномасштабное развёртывание: Сценарии обработки массовых запросов в центрах обработки данных
- Периферийные вычисления: Периферийные устройства с ограниченной пропускной способностью сети и вычислительными ресурсами
В работе цитируются многие важные связанные исследования, включая:
- Li et al. 2025 ISSCC: реализация QMC на 65nm ASIC
- Hubara et al.: пионерские работы по квантованию нейронных сетей
- Courbariaux et al.: бинарные нейронные сети BinaryConnect
- Jacob et al.: методы целочисленного квантования при обучении
Общая оценка: Это высококачественная исследовательская работа, внёсшая значительный вклад в область пересечения вероятностных вычислений и глубокого обучения. Работа не только предлагает инновационное техническое решение, но и предоставляет полную систему теоретического анализа и экспериментальной верификации, обладая высокой академической ценностью и практическим значением. Хотя в некоторых аспектах есть место для улучшения, в целом это представляет собой важный прогресс в данной области.