2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.
Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
academic

Mejora del rendimiento de redes neuronales profundas mediante muestreo

Información Básica

  • ID del Artículo: 2507.07763
  • Título: Mejora del rendimiento de redes neuronales profundas mediante muestreo
  • Autores: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
  • Clasificación: cond-mat.dis-nn
  • Fecha de Publicación: 27 de octubre de 2025 (preimpresión arXiv)
  • Institución: Purdue University Elmore School of Electrical and Computer Engineering
  • Enlace del Artículo: https://arxiv.org/abs/2507.07763

Resumen

Este artículo explora la posibilidad de extender los métodos de muestreo energéticamente eficientes de neuronas probabilísticas (p-bits) desde máquinas de Boltzmann hacia el campo de la IA generativa. Ante el problema actual de que las redes neuronales profundas utilizan principalmente neuronas deterministas multibit sin mecanismos de muestreo, el artículo primero demuestra que múltiples muestras generadas por redes probabilísticas pueden lograr una precisión superior. Posteriormente, plantea una pregunta central: para mejorar la precisión, ¿es más eficiente en términos energéticos generar más muestras o aumentar el número de bits de una única muestra determinista? El artículo proporciona una expresión simple para estimar el compromiso energético y lo verifica mediante resultados experimentales en diferentes algoritmos y arquitecturas.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Crisis Energética: El costo energético de la IA generativa ha alcanzado niveles prohibitivos, requiriendo urgentemente soluciones de optimización de eficiencia energética
  2. Diferencias Tecnológicas: Las neuronas probabilísticas (p-bits) en máquinas de Boltzmann han demostrado ventajas significativas de eficiencia energética, pero las redes neuronales profundas de propagación hacia adelante siguen utilizando principalmente neuronas deterministas multibit
  3. Ausencia de Muestreo: Las arquitecturas DNN convencionales carecen de mecanismos de muestreo, limitando su capacidad para razonamiento probabilístico

Motivación de la Investigación

  1. Extensión de Aplicaciones de p-bits: Extender las ventajas de eficiencia energética de p-bits, ya verificadas en computación Ising, al campo del aprendizaje automático
  2. Compromiso Energía-Precisión: Analizar sistemáticamente la relación de compromiso energético entre la cantidad de muestras y la precisión de bits
  3. Marco de Evaluación Unificado: Establecer un marco de evaluación energética universal aplicable a diferentes esquemas de implementación de DNN probabilísticos

Contribuciones Principales

  1. Propuesta del Marco p-DNN: Integración de p-bits en redes neuronales profundas de propagación hacia adelante, implementando inferencia basada en muestreo
  2. Desarrollo de Métodos de Entrenamiento Conscientes de Muestras: Estrategia de entrenamiento mediante promediado de múltiples muestras que mejora significativamente el rendimiento de redes probabilísticas
  3. Establecimiento de Marco de Análisis Energético: Propuesta de modelo de energía de operaciones básicas universal, evaluable para diferentes arquitecturas y algoritmos
  4. Verificación de Viabilidad Práctica: Validación mediante implementación FPGA de la precisión del análisis teórico, demostrando el valor práctico del método
  5. Proporción de Perspectivas Cuantitativas: Demostración de que solo 2 muestras superan la línea base determinista, y 10 muestras pueden igualar la precisión de un modelo determinista de 3 bits

Detalles de la Metodología

Definición de la Tarea

Este artículo investiga cómo introducir mecanismos de muestreo probabilístico en redes neuronales profundas para lograr un mejor compromiso energía-precisión. Específicamente incluye:

  • Entrada: DNN determinista multibit convencional
  • Salida: DNN probabilístico basado en p-bits, capaz de generar múltiples muestras y mejorar el rendimiento mediante promediado
  • Restricciones: Optimizar la eficiencia energética general manteniendo o mejorando la precisión

Arquitectura del Modelo

1. Bloques Constructivos Básicos de p-DNN

El artículo define la unidad operativa básica de p-DNN (Figura 1), cuyo modelo energético es:

ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N

Donde:

  • ϵwM,ϵaM\epsilon_{wM}, \epsilon_{aM}: Energía de acceso a memoria de pesos y activaciones
  • ϵS\epsilon_S: Energía de cálculo sináptico
  • ϵN\epsilon_N: Energía neuronal
  • nn: Número de conexiones de entrada
  • bw,bab_w, b_a: Número de bits de pesos y activaciones

2. Modelo Energético Multimuestral

Para el caso de T muestras, el modelo energético se modifica como:

ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]

Esto indica que cuando la energía de carga de pesos es dominante, el costo marginal de múltiples muestras es bajo.

3. Estrategia de Entrenamiento Consciente de Muestras

  • Propagación hacia adelante: Adición de aleatoriedad a las funciones de activación de cada capa, generando múltiples muestras
  • Cálculo de pérdida: Cálculo de pérdida basado en resultados promediados de múltiples muestras
  • Retropropagación: Uso de estimadores de paso directo para manejar gradientes de activaciones estocásticas

Puntos de Innovación Técnica

1. Simplificación de MAC a AC

Simplificación de operaciones tradicionales de multiplicación-acumulación (MAC) a operaciones de acumulación (AC):

  • Determinista: w1x1+w2x2+...+wnxnw_1x_1 + w_2x_2 + ... + w_nx_n (requiere multiplicación)
  • Probabilístico: Acumulación selectiva de subconjuntos de pesos (solo suma)

2. Función de Activación p-bit

Adopción de función de activación probabilística de la forma b=sign(tanh(W)rand{1,+1})b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\}), donde el número aleatorio proporciona aleatoriedad para el muestreo.

3. Método de Inyección de Ruido

Adición de ruido a modelos deterministas ya entrenados para obtener beneficios de muestreo sin necesidad de reentrenamiento.

Configuración Experimental

Conjuntos de Datos

  1. CIFAR-10: Para tareas de clasificación de imágenes, 50,000 imágenes de entrenamiento, 10,000 imágenes de prueba
  2. CelebA: Para generación de imágenes faciales, 162,770 imágenes de entrenamiento, redimensionadas a 64×64×3
  3. MNIST: Para tareas de generación de dígitos en verificación FPGA

Métricas de Evaluación

  • Tareas de Clasificación: Precisión (Accuracy)
  • Tareas de Generación: Distancia de Inicio de Fréchet (FID)
  • Métricas Energéticas: Energía por inferencia (J/inferencia), relación de ganancia energética

Métodos de Comparación

  • Línea base DNN determinista de 32 bits
  • Modelos cuantizados con diferentes números de bits (1-bit, 3-bit, etc.)
  • Método de flujo de bits aleatorio

Detalles de Implementación

  • Optimizador: Optimizador ADAM
  • Tasa de Aprendizaje: 1e-3 (clasificación), 1e-4 (generación)
  • Épocas de Entrenamiento: 1000 épocas
  • Tamaño de Lote: 64
  • Inicialización de Pesos: Inicialización Glorot

Resultados Experimentales

Resultados Principales

1. Rendimiento de Clasificación de Imágenes

  • 1 muestra: p-DNN puede igualar la precisión de la línea base determinista de 32 bits
  • 2 muestras: Supera el rendimiento de la línea base determinista
  • 10 muestras: Alcanza el nivel de precisión de un modelo determinista de 3 bits

2. Calidad de Generación de Imágenes

  • Entrenamiento consciente de muestras: Mejora significativa de la calidad de imágenes generadas, puntuación FID cercana a la línea base de 32 bits
  • Coincidencia Entrenamiento-Prueba: Mejor rendimiento cuando se utiliza el mismo número de muestras en entrenamiento y prueba
  • Mejora Progresiva: Mejora continua de la calidad de imagen con el aumento del número de muestras

3. Resultados del Análisis Energético

  • Dominancia de Memoria: La energía de DNN está principalmente determinada por accesos a memoria, con energía de cálculo relativamente pequeña
  • Ventaja de Muestreo: En escenarios DRAM, agregar 1 muestra aumenta solo el 0.7% de energía, pero puede mejorar la precisión en un 2%
  • Ganancia General: Bajo tolerancia de precisión del 1%, p-DNN puede lograr una reducción de energía de más de 2 veces en comparación con DNN de 32 bits

Experimentos de Ablación

1. Comparación de Funciones de Activación

  • Sigmoid vs Tanh: Ambas funciones de activación muestran rendimiento similar en modelos probabilísticos
  • Diferencia Determinista: El modelo determinista Tanh muestra peor rendimiento, destacando la robustez del modelo probabilístico

2. Verificación de Inyección de Ruido

  • Sin Necesidad de Reentrenamiento: La simple inyección de ruido puede lograr mejora de rendimiento con 2 muestras
  • Mejora Monótona: La mejora de rendimiento es monótona, demostrando la estabilidad del método

Resultados de Verificación FPGA

  • Verificación Energética: La energía medida coincide altamente con predicciones teóricas (ganancia 2.5x vs 2.3x)
  • Eficiencia de Hardware: Reducción de 2.9 veces en el uso de CLB LUT relacionado con MAC
  • Sobrecarga de RNG: La energía y área del generador de números aleatorios son despreciables en el sistema general

Trabajo Relacionado

p-bits y Computación Ising

  • Aplicación en Máquinas de Boltzmann: p-bits han demostrado ventajas significativas de eficiencia energética en problemas de optimización y muestreo
  • Implementación de Hardware: Implementaciones físicas de p-bits basadas en s-MTJ, diodos Zener, etc.
  • Reutilización de Arquitectura: Hardware BM existente puede utilizarse directamente para implementación p-DNN

Cuantización de Redes Neuronales

  • Cuantización de Pesos: Numerosos trabajos han reducido la precisión de pesos a 4 bits o menos
  • Cuantización de Activaciones: La cuantización de activaciones es relativamente difícil, típicamente no puede ser inferior a 8 bits sin pérdida de rendimiento
  • Redes Binarias: Métodos de redes de 1 bit como BinaryConnect, Binarized Neural Networks

Computación Estocástica

  • Computación de Flujo de Bits: Método tradicional que utiliza flujos de bits aleatorios para representar señales continuas
  • Diferencia Esencial: El mecanismo de muestreo de p-DNN es diferente en principio del flujo de bits aleatorio

Conclusiones y Discusión

Conclusiones Principales

  1. Verificación de Viabilidad: El muestreo probabilístico puede mejorar efectivamente el rendimiento de DNN, con pocas muestras logrando ganancias significativas
  2. Ventaja Energética: En sistemas modernos de IA dominados por memoria, el costo computacional del muestreo es casi despreciable
  3. Ajustabilidad en Tiempo de Ejecución: p-DNN puede ajustar dinámicamente el número de muestras en tiempo de ejecución, equilibrando flexiblemente energía y precisión
  4. Amigable con Hardware: Las arquitecturas de hardware p-bit existentes pueden soportar directamente la implementación p-DNN

Limitaciones

  1. Requisitos de Muestras: Algunas tareas pueden requerir un gran número de muestras para lograr rendimiento ideal
  2. Complejidad de Entrenamiento: El entrenamiento consciente de muestras aumenta la complejidad del proceso de entrenamiento
  3. Dependencia de Memoria: Las ventajas energéticas dependen en gran medida de la dominancia de costos de acceso a memoria
  4. Rango de Aplicación: Principalmente verificado en tareas visuales, la aplicabilidad en otros campos requiere verificación adicional

Direcciones Futuras

  1. Aplicación a Modelos de Lenguaje Grande: Extensión de p-DNN a modelos más grandes como LLM
  2. Implementación Analógica: Exploración de implementaciones de p-bits basadas en circuitos analógicos para reducir aún más el consumo energético
  3. Integración de Computación en Memoria: Combinación con arquitecturas de computación en memoria para maximizar ventajas de eficiencia energética
  4. Estrategias de Muestreo Avanzadas: Desarrollo de métodos de combinación de muestras que vayan más allá del promediado simple

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera introducción sistemática de p-bits en DNN de propagación hacia adelante, abriendo una nueva dirección de investigación
  2. Teoría Sólida: Proporciona un marco completo de análisis energético con gran universalidad y extensibilidad
  3. Experimentación Suficiente: Cubre múltiples tareas como clasificación y generación, verificada mediante implementación FPGA
  4. Alto Valor Práctico: Proporciona soluciones de optimización viables y prácticas en el contexto actual de crisis energética de IA
  5. Análisis Profundo: Análisis profundo del compromiso energético memoria vs cálculo, proporcionando perspectivas importantes

Insuficiencias

  1. Limitación de Escala: Los experimentos se realizan principalmente en modelos relativamente pequeños, el rendimiento en modelos a gran escala requiere verificación
  2. Cobertura de Tareas: Principalmente concentrado en tareas visuales, la aplicabilidad en otros campos como PNL no está clara
  3. Comparación de Líneas Base: Comparación insuficiente con métodos recientes de cuantización y compresión
  4. Análisis Teórico: Falta de explicación teórica profunda sobre por qué pocas muestras logran mejoras significativas

Impacto

  1. Valor Académico: Proporciona nuevas ideas y métodos para la combinación de computación probabilística y aprendizaje profundo
  2. Significado de Ingeniería: Tiene importancia significativa en el diseño de hardware de IA, particularmente en optimización de eficiencia energética
  3. Perspectiva Industrial: Tiene amplias perspectivas de aplicación en computación perimetral y aplicaciones de IA en dispositivos móviles

Escenarios Aplicables

  1. Entornos con Recursos Limitados: Dispositivos móviles, dispositivos IoT y otros escenarios sensibles a energía
  2. Inferencia en Tiempo Real: Aplicaciones que requieren equilibrio flexible entre latencia y precisión
  3. Despliegue a Gran Escala: Centros de datos y otros escenarios que necesitan procesar solicitudes masivas
  4. Computación Perimetral: Dispositivos perimetrales donde tanto el ancho de banda de red como los recursos computacionales son limitados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Li et al. 2025 ISSCC: Implementación QMC en ASIC de 65nm
  • Hubara et al.: Trabajo pionero en redes neuronales cuantizadas
  • Courbariaux et al.: Redes neuronales binarias BinaryConnect
  • Jacob et al.: Método de entrenamiento con cuantización entera

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones importantes en el campo interdisciplinario de computación probabilística y aprendizaje profundo. El artículo no solo propone una solución técnica innovadora, sino que también proporciona un marco completo de análisis teórico y verificación experimental, con fuerte valor académico y práctico. Aunque hay espacio para mejora en ciertos aspectos, en general representa un progreso importante en este campo.