2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

Escalado de Propagación de Equilibrio a Arquitecturas de Redes Neuronales Más Profundas

Información Básica

  • ID del Artículo: 2509.26003
  • Título: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • Autores: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
  • Clasificación: cs.NE (Computación Neuronal y Evolutiva), cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2509.26003

Resumen

La Propagación de Equilibrio (Equilibrium Propagation, EP) se propone como una alternativa biológicamente plausible al algoritmo de retropropagación. La naturaleza local del cálculo de gradientes, combinada con el uso de RNN convergentes para alcanzar estados de equilibrio, hace que este método sea muy adecuado para su implementación en hardware neuromórfico. Sin embargo, investigaciones previas sobre EP se han limitado a redes que contienen capas densas o arquitecturas relativamente pequeñas, que presentan brechas de precisión significativas en comparación con redes prealimentadas de tamaño similar entrenadas con retropropagación. Este trabajo introduce la arquitectura Hopfield-Resnet, que integra conexiones residuales en redes de Hopfield y utiliza ReLU recortado como función de activación. Los mejoras arquitectónicas propuestas permiten que la red entrene casi el doble de capas reportadas en trabajos anteriores. Por ejemplo, Hopfield-Resnet13 alcanza una precisión del 93.92% en CIFAR-10, aproximadamente 3.5% superior a los resultados anteriores más óptimos, comparable al rendimiento de Resnet13 entrenado con retropropagación.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la escalabilidad del método de Propagación de Equilibrio (EP) en redes neuronales profundas. Se manifiesta específicamente en:

  1. Limitación de Profundidad: Los métodos EP existentes solo pueden entrenar efectivamente redes superficiales (≤6 capas)
  2. Brecha de Rendimiento: Las redes entrenadas con EP presentan una brecha de rendimiento significativa en comparación con redes del mismo tamaño entrenadas con retropropagación
  3. Requisito de Plausibilidad Biológica: Necesidad de mantener las ventajas de plausibilidad biológica del método EP

Análisis de Importancia

La importancia de este problema se refleja en:

  1. Plausibilidad Biológica: La retropropagación se considera biológicamente implausible debido a que el cálculo de gradientes es no local
  2. Compatibilidad de Hardware: El método EP es más adecuado para implementación en hardware neuromórfico, con mayor eficiencia energética
  3. Potencial de Aprendizaje en Línea: EP permite aprendizaje en dispositivos, adecuado para escenarios de computación de borde

Limitaciones de Métodos Existentes

  1. Restricciones Arquitectónicas: Investigaciones previas limitadas a redes pequeñas como VGG5
  2. Sesgo de Gradientes: Teóricamente requiere parámetro de nudging β infinitesimal, introduciendo sesgo en aplicaciones prácticas
  3. Dificultades de Convergencia: Las redes profundas tienen dificultad para alcanzar estados de equilibrio estables
  4. Restricciones de Función de Activación: Las funciones de activación existentes funcionan mal en redes profundas

Contribuciones Principales

  1. Propuesta de Función de Activación ReLU Recortado: Simplifica la función de energía y el cálculo de gradientes, mejorando la estabilidad del entrenamiento en redes profundas
  2. Introducción de Arquitectura Hopfield-Resnet: Mediante conexiones residuales permite que el método EP entrene exitosamente redes profundas de más de 12 capas
  3. Mejora Significativa de Rendimiento: Alcanza precisión del 93.92% en CIFAR-10, cercana al rendimiento de retropropagación
  4. Validación en Múltiples Conjuntos de Datos: Verifica la efectividad del método en CIFAR-10, CIFAR-100 y Fashion-MNIST

Explicación Detallada del Método

Definición de la Tarea

Este trabajo investiga cómo utilizar el método de Propagación de Equilibrio para entrenar redes neuronales convolucionales profundas en tareas de clasificación de imágenes. La entrada es una imagen x, la salida es una etiqueta de clase y, con la restricción de mantener la plausibilidad biológica del método EP y las características de cálculo de gradientes locales.

Teoría Fundamental de Propagación de Equilibrio

El método EP se basa en RNN estáticos convergentes, donde la evolución del estado de la red obedece:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

donde Φ es la función de energía, s es el estado de las neuronas, θ son los parámetros de la red.

El entrenamiento con EP incluye dos fases:

  1. Fase Libre: Evolución basada únicamente en la función de energía
  2. Fase de Sujeción Débil: Adición de un término de perturbación proporcional al gradiente de la función de pérdida

La fórmula de cálculo de gradientes es:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Diseño de Arquitectura Hopfield-Resnet

Integración de Conexiones Residuales

El bloque Hopfield-Resnet contiene tres operaciones convolucionales:

  • Ruta principal: dos convoluciones 3×3
  • Conexión de salto: una convolución 1×1

La ecuación de actualización del estado neuronal se modifica a:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

donde pre(n) y post(n) representan todos los estados anteriores y posteriores que interactúan directamente con el estado n.

Detalles de la Arquitectura de Red

  • 4 bloques Hopfield-Resnet + 1 capa completamente conectada
  • Total de 13 conjuntos de parámetros entrenables (12 capas convolucionales + 1 capa completamente conectada)
  • 9 estados de neuronas actualizables

Función de Activación ReLU Recortado

Se propone la función de activación ReLU_α que limita la salida al rango 0, α:

  • Previene el crecimiento explosivo de la función de energía
  • En experimentos se utiliza ReLU_6 (α=6) para obtener el mejor rendimiento
  • Computacionalmente más simple en comparación con funciones sigmoid/tanh tradicionales

Propagación de Equilibrio Centrada (CEP)

Se adopta el algoritmo CEP para reducir el sesgo en la estimación de gradientes:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10: Imágenes en color 32×32, 10 clases, 50,000 muestras de entrenamiento
  • CIFAR-100: Imágenes en color 32×32, 100 clases, 50,000 muestras de entrenamiento
  • Fashion-MNIST: Imágenes en escala de grises 28×28, 10 clases, 60,000 muestras de entrenamiento

Métricas de Evaluación

Se utiliza la precisión en el conjunto de prueba como métrica de evaluación principal

Métodos de Comparación

  • Método Base: Red de Hopfield Convolucional Profunda (DCHN) con arquitectura VGG5
  • Línea Base de Retropropagación: Arquitectura de red prealimentada correspondiente

Detalles de Implementación

  • Optimizador: Optimizador de Gradiente Acelerado de Nesterov
  • Parámetro de Nudging β: Ajuste empírico en rango 0.1, 0.4
  • Pasos de Tiempo: 120 pasos en fase libre, 50 pasos en cada fase de sujeción (±β)
  • Hardware: GPU NVIDIA RTX 4090 y 6000 Ada
  • Marco: PyTorch

Resultados Experimentales

Resultados Principales

Conjunto de DatosArquitectura del ModeloMejor Anterior (%)Este Trabajo (%)Retropropagación (%)
CIFAR-10VGG590.392.8492.11
CIFAR-10Hopfield-Resnet13-93.9293.78
CIFAR-100VGG568.470.7872.54
CIFAR-100Hopfield-Resnet13-71.0575.12
F-MNISTVGG593.5394.34-
F-MNISTHopfield-Resnet13-94.15-

Hallazgos Clave

  1. Mejora Significativa de Rendimiento: Aumento del 3.5% sobre los resultados anteriores más óptimos en CIFAR-10
  2. Rendimiento Cercano a Retropropagación: Hopfield-Resnet13 en CIFAR-10 solo 0.14% por debajo de retropropagación
  3. Entrenamiento Exitoso de Redes Profundas: Primera vez que se entrena exitosamente una red EP de más de 12 capas

Experimentos de Ablación

Importancia de Conexiones Residuales

Los experimentos muestran que las redes profundas sin conexiones residuales mantienen la pérdida de entrenamiento estancada, mientras que las redes con conexiones residuales convergen exitosamente.

Comparación de Funciones de Activación

  • ReLU_6 muestra el mejor rendimiento
  • ReLU_1 (hard-sigmoid) tiene rendimiento secundario
  • ReLU_α con α inicializado aleatoriamente en 0,10 tiene rendimiento intermedio

Análisis de Tiempo de Entrenamiento

  • Hopfield-Resnet13 requiere más de 30 horas para entrenar 300 épocas
  • Gran cantidad de tiempo consumido en lanzamiento de kernel GPU y sincronización CPU-GPU
  • Existe espacio para optimización

Uso de Memoria

  • El uso de memoria del entrenamiento CEP es comparable al de retropropagación
  • Hopfield-Resnet13 (tamaño de lote 128): 1612 MiB
  • Resnet13 correspondiente: 1324 MiB

Análisis de Distribución de Pesos

Características de la distribución de pesos de redes entrenadas con CEP:

  1. Valores de Peso Más Pequeños: Tanto el valor absoluto como la varianza son menores que en redes entrenadas con retropropagación
  2. Pesos de Capas Profundas Tienden a Cero: Con el aumento de profundidad, los pesos se acercan gradualmente a cero
  3. Mitigación de Conexiones Residuales: La proporción de pesos cercanos a cero en capas de conexión de salto se reduce significativamente

Trabajo Relacionado

Algoritmos de Aprendizaje Biológicamente Plausibles

  • Propagación Hacia Adelante: Evita la no localidad de la retropropagación
  • Codificación Predictiva: Aprendizaje basado en el principio de energía libre
  • Aprendizaje Hebbiano Contrastivo: Fundamento teórico de EP

Evolución de Propagación de Equilibrio

  • EP Original: Teoría fundamental propuesta por Scellier & Bengio (2017)
  • CEP: Reduce sesgo de gradientes mediante ±β
  • HEP: Utiliza múltiples puntos de equilibrio en el plano complejo para reducir sesgo adicional
  • Extensión Convolucional: Extensión de EP a redes convolucionales

Implementación en Hardware

Investigaciones previas han implementado EP en hardware neuromórfico como matrices de memristores, demostrando el potencial de aprendizaje en dispositivos.

Conclusiones y Discusión

Conclusiones Principales

  1. Avance Técnico: Primera extensión exitosa de EP a redes profundas de 13 capas
  2. Mejora de Rendimiento: Supera significativamente métodos EP anteriores en múltiples conjuntos de datos
  3. Innovación Arquitectónica: La combinación de conexiones residuales y ReLU recortado resuelve efectivamente el problema de escalado de profundidad

Limitaciones

  1. Eficiencia Computacional: El tiempo de entrenamiento sigue siendo significativamente mayor que el de retropropagación
  2. Dependencia de Hardware: Requiere hardware especializado optimizado para aprovechar plenamente las ventajas
  3. Brecha de Rendimiento: Aún existe brecha de rendimiento en conjuntos de datos complejos (como CIFAR-100)
  4. Limitación de Profundidad: Aunque mejorada, sigue siendo inferior a redes profundas modernas

Direcciones Futuras

  1. Redes de Hopfield Modernas: Integración con redes de Hopfield modernas para aprendizaje de secuencias
  2. Optimización de Hardware: Desarrollo de hardware neuromórfico especializado adaptado a EP
  3. Optimización de Algoritmos: Reducción adicional del tiempo de entrenamiento y mejora de eficiencia
  4. Análisis Teórico: Comprensión profunda de las propiedades del mecanismo de entrenamiento único de EP

Evaluación Profunda

Fortalezas

  1. Avance Importante: Primera extensión exitosa de EP a redes profundas, resolviendo el problema de escalabilidad de larga data
  2. Innovación Práctica: La combinación de conexiones residuales y ReLU recortado es simple y efectiva
  3. Validación Completa: Verificación experimental suficiente en múltiples conjuntos de datos
  4. Análisis Profundo: Proporciona análisis profundos como distribución de pesos
  5. Código Abierto: Proporciona implementación completa, mejorando la reproducibilidad

Deficiencias

  1. Eficiencia Computacional: El tiempo de entrenamiento excesivo limita la aplicación práctica
  2. Análisis Teórico Insuficiente: Falta explicación teórica de por qué las conexiones residuales son efectivas
  3. Limitación de Conjuntos de Datos: Validación principalmente en conjuntos de datos relativamente simples
  4. Optimización de Hardware Ausente: No aprovecha plenamente la capacidad de computación paralela de GPU existentes

Impacto

  1. Contribución Académica: Proporciona innovación arquitectónica importante para el campo de EP
  2. Valor Práctico: Proporciona método de aprendizaje profundo más práctico para computación neuromórfica
  3. Inspiración de Investigación: Sienta las bases para investigación posterior en redes profundas EP

Escenarios Aplicables

  1. Hardware Neuromórfico: Particularmente adecuado para implementación en chips neuromórficos especializados
  2. Computación de Borde: Adecuado para dispositivos de borde que requieren aprendizaje en línea
  3. Computación Inspirada en Biología: Proporciona dirección para construir sistemas de IA más biológicamente plausibles
  4. Aplicaciones de Bajo Consumo: Ventajoso en escenarios con requisitos extremadamente altos de eficiencia energética

Referencias

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Este artículo logra un avance importante en la extensión de redes profundas de Propagación de Equilibrio. Mediante diseño arquitectónico ingenioso, mejora significativamente la practicidad del método EP, haciendo una contribución valiosa al desarrollo de computación neuromórfica y algoritmos de aprendizaje inspirados en biología.