Dataset-Free Weight-Initialization on Restricted Boltzmann Machine
Yasuda, Maeno, Takahashi
In feed-forward neural networks, dataset-free weight-initialization methods such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers. In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., when the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). The validity of the proposed weight-initialization method is demonstrated in numerical experiments using a toy and real-world datasets.
academic
Inicialización de Pesos sin Conjunto de Datos en Máquina de Boltzmann Restringida
Este artículo propone un método de inicialización de pesos sin necesidad de conjunto de datos para máquinas de Boltzmann restringidas (RBM). Similar a los métodos de inicialización LeCun, Xavier y He existentes en redes neuronales de propagación hacia adelante, este método determina aleatoriamente los valores iniciales de los parámetros de peso basándose en distribuciones específicas sin utilizar un conjunto de datos de entrenamiento. Mediante análisis de mecánica estadística, los autores derivan el método de inicialización de pesos para RBM Bernoulli-Bernoulli. Los parámetros de peso se extraen de una distribución gaussiana con media cero, y la desviación estándar se optimiza maximizando la correlación entre capas (Layer Correlation, LC). En casos específicos (tamaños de capas iguales, variables binarias {-1,1}, todos los sesgos cero), este método es idéntico a la inicialización Xavier. Los experimentos numéricos validan la efectividad del método.
Problema Central: Las máquinas de Boltzmann restringidas (RBM), como redes neuronales probabilísticas, carecen de métodos de inicialización de pesos sin conjunto de datos como los que existen en redes neuronales de propagación hacia adelante. En el aprendizaje actual de RBM, los métodos de inicialización de parámetros aún no han sido estudiados sistemáticamente.
Importancia:
La inicialización de pesos tiene un impacto significativo en los resultados del aprendizaje iterativo basado en gradientes
La inicialización apropiada puede mejorar la eficiencia del aprendizaje y acelerar la convergencia del entrenamiento
Los métodos de inicialización sin conjunto de datos tienen universalidad, dependiendo solo de la estructura de la red
Limitaciones de Métodos Existentes:
Las redes neuronales de propagación hacia adelante ya tienen métodos de inicialización maduros (LeCun, Xavier, He)
Las RBM, como modelos probabilísticos, tienen una estructura de grafo no dirigido de dos capas diferente de las redes de propagación hacia adelante
La práctica actual de RBM generalmente utiliza inicialización con valores aleatorios pequeños, careciendo de orientación teórica
Motivación de la Investigación:
Analizar las características del estado inicial de RBM desde la perspectiva de mecánica estadística
Establecer la conexión entre correlación entre capas y eficiencia del aprendizaje
Proporcionar un esquema de inicialización con apoyo teórico para RBM
Propuesta del Primer Método de Inicialización de Pesos sin Conjunto de Datos para RBM: Basado en análisis de mecánica estadística, se deriva un esquema sistemático de inicialización de pesos para RBM Bernoulli-Bernoulli
Establecimiento del Marco Teórico de Correlación entre Capas (LC):
Definición de la expresión matemática de correlación entre capas
Evaluación de LC mediante el método de réplica simétrica
Demostración de que maximizar LC puede mejorar la eficiencia del aprendizaje
Revelación de la Conexión con Inicialización Xavier: Bajo condiciones específicas (α=1, Xh=I, b=c=0), el método propuesto es equivalente a la inicialización Xavier, proporcionando una explicación teórica
Provisión de Tabla de Parámetros Completa: Para diferentes razones de tamaño de capas α y sesgos c, se proporciona la solución numérica de la desviación estándar óptima βmax
Validación en Múltiples Conjuntos de Datos: Se verifica la efectividad del método en conjuntos de datos de juguete, Dry Bean, Urban Land Cover y MNIST