2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.

Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.

academic

Mejora del rendimiento de redes neuronales profundas mediante muestreo

Información Básica

ID del Artículo: 2507.07763
Título: Mejora del rendimiento de redes neuronales profundas mediante muestreo
Autores: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
Clasificación: cond-mat.dis-nn
Fecha de Publicación: 27 de octubre de 2025 (preimpresión arXiv)
Institución: Purdue University Elmore School of Electrical and Computer Engineering
Enlace del Artículo: https://arxiv.org/abs/2507.07763

Resumen

Este artículo explora la posibilidad de extender los métodos de muestreo energéticamente eficientes de neuronas probabilísticas (p-bits) desde máquinas de Boltzmann hacia el campo de la IA generativa. Ante el problema actual de que las redes neuronales profundas utilizan principalmente neuronas deterministas multibit sin mecanismos de muestreo, el artículo primero demuestra que múltiples muestras generadas por redes probabilísticas pueden lograr una precisión superior. Posteriormente, plantea una pregunta central: para mejorar la precisión, ¿es más eficiente en términos energéticos generar más muestras o aumentar el número de bits de una única muestra determinista? El artículo proporciona una expresión simple para estimar el compromiso energético y lo verifica mediante resultados experimentales en diferentes algoritmos y arquitecturas.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Crisis Energética: El costo energético de la IA generativa ha alcanzado niveles prohibitivos, requiriendo urgentemente soluciones de optimización de eficiencia energética
Diferencias Tecnológicas: Las neuronas probabilísticas (p-bits) en máquinas de Boltzmann han demostrado ventajas significativas de eficiencia energética, pero las redes neuronales profundas de propagación hacia adelante siguen utilizando principalmente neuronas deterministas multibit
Ausencia de Muestreo: Las arquitecturas DNN convencionales carecen de mecanismos de muestreo, limitando su capacidad para razonamiento probabilístico

Motivación de la Investigación

Extensión de Aplicaciones de p-bits: Extender las ventajas de eficiencia energética de p-bits, ya verificadas en computación Ising, al campo del aprendizaje automático
Compromiso Energía-Precisión: Analizar sistemáticamente la relación de compromiso energético entre la cantidad de muestras y la precisión de bits
Marco de Evaluación Unificado: Establecer un marco de evaluación energética universal aplicable a diferentes esquemas de implementación de DNN probabilísticos

Contribuciones Principales

Propuesta del Marco p-DNN: Integración de p-bits en redes neuronales profundas de propagación hacia adelante, implementando inferencia basada en muestreo
Desarrollo de Métodos de Entrenamiento Conscientes de Muestras: Estrategia de entrenamiento mediante promediado de múltiples muestras que mejora significativamente el rendimiento de redes probabilísticas
Establecimiento de Marco de Análisis Energético: Propuesta de modelo de energía de operaciones básicas universal, evaluable para diferentes arquitecturas y algoritmos
Verificación de Viabilidad Práctica: Validación mediante implementación FPGA de la precisión del análisis teórico, demostrando el valor práctico del método
Proporción de Perspectivas Cuantitativas: Demostración de que solo 2 muestras superan la línea base determinista, y 10 muestras pueden igualar la precisión de un modelo determinista de 3 bits

Detalles de la Metodología

Definición de la Tarea

Este artículo investiga cómo introducir mecanismos de muestreo probabilístico en redes neuronales profundas para lograr un mejor compromiso energía-precisión. Específicamente incluye:

Entrada: DNN determinista multibit convencional
Salida: DNN probabilístico basado en p-bits, capaz de generar múltiples muestras y mejorar el rendimiento mediante promediado
Restricciones: Optimizar la eficiencia energética general manteniendo o mejorando la precisión

Arquitectura del Modelo

1. Bloques Constructivos Básicos de p-DNN

El artículo define la unidad operativa básica de p-DNN (Figura 1), cuyo modelo energético es:

$\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N$

Donde:

$\epsilon_{wM}, \epsilon_{aM}$ : Energía de acceso a memoria de pesos y activaciones
$\epsilon_S$ : Energía de cálculo sináptico
$\epsilon_N$ : Energía neuronal
$n$ : Número de conexiones de entrada
$b_w, b_a$ : Número de bits de pesos y activaciones

2. Modelo Energético Multimuestral

Para el caso de T muestras, el modelo energético se modifica como:

$\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]$

Esto indica que cuando la energía de carga de pesos es dominante, el costo marginal de múltiples muestras es bajo.

3. Estrategia de Entrenamiento Consciente de Muestras

Propagación hacia adelante: Adición de aleatoriedad a las funciones de activación de cada capa, generando múltiples muestras
Cálculo de pérdida: Cálculo de pérdida basado en resultados promediados de múltiples muestras
Retropropagación: Uso de estimadores de paso directo para manejar gradientes de activaciones estocásticas

Puntos de Innovación Técnica

1. Simplificación de MAC a AC

Simplificación de operaciones tradicionales de multiplicación-acumulación (MAC) a operaciones de acumulación (AC):

Determinista: $w_1x_1 + w_2x_2 + ... + w_nx_n$ (requiere multiplicación)
Probabilístico: Acumulación selectiva de subconjuntos de pesos (solo suma)

2. Función de Activación p-bit

Adopción de función de activación probabilística de la forma $b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\})$ , donde el número aleatorio proporciona aleatoriedad para el muestreo.

3. Método de Inyección de Ruido

Adición de ruido a modelos deterministas ya entrenados para obtener beneficios de muestreo sin necesidad de reentrenamiento.

Configuración Experimental

Conjuntos de Datos

CIFAR-10: Para tareas de clasificación de imágenes, 50,000 imágenes de entrenamiento, 10,000 imágenes de prueba
CelebA: Para generación de imágenes faciales, 162,770 imágenes de entrenamiento, redimensionadas a 64×64×3
MNIST: Para tareas de generación de dígitos en verificación FPGA

Métricas de Evaluación

Tareas de Clasificación: Precisión (Accuracy)
Tareas de Generación: Distancia de Inicio de Fréchet (FID)
Métricas Energéticas: Energía por inferencia (J/inferencia), relación de ganancia energética

Métodos de Comparación

Línea base DNN determinista de 32 bits
Modelos cuantizados con diferentes números de bits (1-bit, 3-bit, etc.)
Método de flujo de bits aleatorio

Detalles de Implementación

Optimizador: Optimizador ADAM
Tasa de Aprendizaje: 1e-3 (clasificación), 1e-4 (generación)
Épocas de Entrenamiento: 1000 épocas
Tamaño de Lote: 64
Inicialización de Pesos: Inicialización Glorot

Resultados Experimentales

Resultados Principales

1. Rendimiento de Clasificación de Imágenes

1 muestra: p-DNN puede igualar la precisión de la línea base determinista de 32 bits
2 muestras: Supera el rendimiento de la línea base determinista
10 muestras: Alcanza el nivel de precisión de un modelo determinista de 3 bits

2. Calidad de Generación de Imágenes

Entrenamiento consciente de muestras: Mejora significativa de la calidad de imágenes generadas, puntuación FID cercana a la línea base de 32 bits
Coincidencia Entrenamiento-Prueba: Mejor rendimiento cuando se utiliza el mismo número de muestras en entrenamiento y prueba
Mejora Progresiva: Mejora continua de la calidad de imagen con el aumento del número de muestras

3. Resultados del Análisis Energético

Dominancia de Memoria: La energía de DNN está principalmente determinada por accesos a memoria, con energía de cálculo relativamente pequeña
Ventaja de Muestreo: En escenarios DRAM, agregar 1 muestra aumenta solo el 0.7% de energía, pero puede mejorar la precisión en un 2%
Ganancia General: Bajo tolerancia de precisión del 1%, p-DNN puede lograr una reducción de energía de más de 2 veces en comparación con DNN de 32 bits

Experimentos de Ablación

1. Comparación de Funciones de Activación

Sigmoid vs Tanh: Ambas funciones de activación muestran rendimiento similar en modelos probabilísticos
Diferencia Determinista: El modelo determinista Tanh muestra peor rendimiento, destacando la robustez del modelo probabilístico

2. Verificación de Inyección de Ruido

Sin Necesidad de Reentrenamiento: La simple inyección de ruido puede lograr mejora de rendimiento con 2 muestras
Mejora Monótona: La mejora de rendimiento es monótona, demostrando la estabilidad del método

Resultados de Verificación FPGA

Verificación Energética: La energía medida coincide altamente con predicciones teóricas (ganancia 2.5x vs 2.3x)
Eficiencia de Hardware: Reducción de 2.9 veces en el uso de CLB LUT relacionado con MAC
Sobrecarga de RNG: La energía y área del generador de números aleatorios son despreciables en el sistema general

Trabajo Relacionado

p-bits y Computación Ising

Aplicación en Máquinas de Boltzmann: p-bits han demostrado ventajas significativas de eficiencia energética en problemas de optimización y muestreo
Implementación de Hardware: Implementaciones físicas de p-bits basadas en s-MTJ, diodos Zener, etc.
Reutilización de Arquitectura: Hardware BM existente puede utilizarse directamente para implementación p-DNN

Cuantización de Redes Neuronales

Cuantización de Pesos: Numerosos trabajos han reducido la precisión de pesos a 4 bits o menos
Cuantización de Activaciones: La cuantización de activaciones es relativamente difícil, típicamente no puede ser inferior a 8 bits sin pérdida de rendimiento
Redes Binarias: Métodos de redes de 1 bit como BinaryConnect, Binarized Neural Networks

Computación Estocástica

Computación de Flujo de Bits: Método tradicional que utiliza flujos de bits aleatorios para representar señales continuas
Diferencia Esencial: El mecanismo de muestreo de p-DNN es diferente en principio del flujo de bits aleatorio

Conclusiones y Discusión

Conclusiones Principales

Verificación de Viabilidad: El muestreo probabilístico puede mejorar efectivamente el rendimiento de DNN, con pocas muestras logrando ganancias significativas
Ventaja Energética: En sistemas modernos de IA dominados por memoria, el costo computacional del muestreo es casi despreciable
Ajustabilidad en Tiempo de Ejecución: p-DNN puede ajustar dinámicamente el número de muestras en tiempo de ejecución, equilibrando flexiblemente energía y precisión
Amigable con Hardware: Las arquitecturas de hardware p-bit existentes pueden soportar directamente la implementación p-DNN

Limitaciones

Requisitos de Muestras: Algunas tareas pueden requerir un gran número de muestras para lograr rendimiento ideal
Complejidad de Entrenamiento: El entrenamiento consciente de muestras aumenta la complejidad del proceso de entrenamiento
Dependencia de Memoria: Las ventajas energéticas dependen en gran medida de la dominancia de costos de acceso a memoria
Rango de Aplicación: Principalmente verificado en tareas visuales, la aplicabilidad en otros campos requiere verificación adicional

Direcciones Futuras

Aplicación a Modelos de Lenguaje Grande: Extensión de p-DNN a modelos más grandes como LLM
Implementación Analógica: Exploración de implementaciones de p-bits basadas en circuitos analógicos para reducir aún más el consumo energético
Integración de Computación en Memoria: Combinación con arquitecturas de computación en memoria para maximizar ventajas de eficiencia energética
Estrategias de Muestreo Avanzadas: Desarrollo de métodos de combinación de muestras que vayan más allá del promediado simple

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera introducción sistemática de p-bits en DNN de propagación hacia adelante, abriendo una nueva dirección de investigación
Teoría Sólida: Proporciona un marco completo de análisis energético con gran universalidad y extensibilidad
Experimentación Suficiente: Cubre múltiples tareas como clasificación y generación, verificada mediante implementación FPGA
Alto Valor Práctico: Proporciona soluciones de optimización viables y prácticas en el contexto actual de crisis energética de IA
Análisis Profundo: Análisis profundo del compromiso energético memoria vs cálculo, proporcionando perspectivas importantes

Insuficiencias

Limitación de Escala: Los experimentos se realizan principalmente en modelos relativamente pequeños, el rendimiento en modelos a gran escala requiere verificación
Cobertura de Tareas: Principalmente concentrado en tareas visuales, la aplicabilidad en otros campos como PNL no está clara
Comparación de Líneas Base: Comparación insuficiente con métodos recientes de cuantización y compresión
Análisis Teórico: Falta de explicación teórica profunda sobre por qué pocas muestras logran mejoras significativas

Impacto

Valor Académico: Proporciona nuevas ideas y métodos para la combinación de computación probabilística y aprendizaje profundo
Significado de Ingeniería: Tiene importancia significativa en el diseño de hardware de IA, particularmente en optimización de eficiencia energética
Perspectiva Industrial: Tiene amplias perspectivas de aplicación en computación perimetral y aplicaciones de IA en dispositivos móviles

Escenarios Aplicables

Entornos con Recursos Limitados: Dispositivos móviles, dispositivos IoT y otros escenarios sensibles a energía
Inferencia en Tiempo Real: Aplicaciones que requieren equilibrio flexible entre latencia y precisión
Despliegue a Gran Escala: Centros de datos y otros escenarios que necesitan procesar solicitudes masivas
Computación Perimetral: Dispositivos perimetrales donde tanto el ancho de banda de red como los recursos computacionales son limitados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Li et al. 2025 ISSCC: Implementación QMC en ASIC de 65nm
Hubara et al.: Trabajo pionero en redes neuronales cuantizadas
Courbariaux et al.: Redes neuronales binarias BinaryConnect
Jacob et al.: Método de entrenamiento con cuantización entera

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones importantes en el campo interdisciplinario de computación probabilística y aprendizaje profundo. El artículo no solo propone una solución técnica innovadora, sino que también proporciona un marco completo de análisis teórico y verificación experimental, con fuerte valor académico y práctico. Aunque hay espacio para mejora en ciertos aspectos, en general representa un progreso importante en este campo.