2025-11-14T16:46:10.527403

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

Yasuda, Maeno, Takahashi
In feed-forward neural networks, dataset-free weight-initialization methods such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers. In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., when the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). The validity of the proposed weight-initialization method is demonstrated in numerical experiments using a toy and real-world datasets.
academic

Inicialización de Pesos sin Conjunto de Datos en Máquina de Boltzmann Restringida

Información Básica

  • ID del Artículo: 2409.07708
  • Título: Dataset-Free Weight-Initialization on Restricted Boltzmann Machine
  • Autores: Muneki Yasuda (Yamagata University), Ryosuke Maeno (Techno Provide Inc.), Chako Takahashi (Yamagata University)
  • Clasificación: stat.ML, cond-mat.dis-nn, cs.LG
  • Fecha de Publicación: arXiv v4 (12 de noviembre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2409.07708

Resumen

Este artículo propone un método de inicialización de pesos sin necesidad de conjunto de datos para máquinas de Boltzmann restringidas (RBM). Similar a los métodos de inicialización LeCun, Xavier y He existentes en redes neuronales de propagación hacia adelante, este método determina aleatoriamente los valores iniciales de los parámetros de peso basándose en distribuciones específicas sin utilizar un conjunto de datos de entrenamiento. Mediante análisis de mecánica estadística, los autores derivan el método de inicialización de pesos para RBM Bernoulli-Bernoulli. Los parámetros de peso se extraen de una distribución gaussiana con media cero, y la desviación estándar se optimiza maximizando la correlación entre capas (Layer Correlation, LC). En casos específicos (tamaños de capas iguales, variables binarias {-1,1}, todos los sesgos cero), este método es idéntico a la inicialización Xavier. Los experimentos numéricos validan la efectividad del método.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Las máquinas de Boltzmann restringidas (RBM), como redes neuronales probabilísticas, carecen de métodos de inicialización de pesos sin conjunto de datos como los que existen en redes neuronales de propagación hacia adelante. En el aprendizaje actual de RBM, los métodos de inicialización de parámetros aún no han sido estudiados sistemáticamente.
  2. Importancia:
    • La inicialización de pesos tiene un impacto significativo en los resultados del aprendizaje iterativo basado en gradientes
    • La inicialización apropiada puede mejorar la eficiencia del aprendizaje y acelerar la convergencia del entrenamiento
    • Los métodos de inicialización sin conjunto de datos tienen universalidad, dependiendo solo de la estructura de la red
  3. Limitaciones de Métodos Existentes:
    • Las redes neuronales de propagación hacia adelante ya tienen métodos de inicialización maduros (LeCun, Xavier, He)
    • Las RBM, como modelos probabilísticos, tienen una estructura de grafo no dirigido de dos capas diferente de las redes de propagación hacia adelante
    • La práctica actual de RBM generalmente utiliza inicialización con valores aleatorios pequeños, careciendo de orientación teórica
  4. Motivación de la Investigación:
    • Analizar las características del estado inicial de RBM desde la perspectiva de mecánica estadística
    • Establecer la conexión entre correlación entre capas y eficiencia del aprendizaje
    • Proporcionar un esquema de inicialización con apoyo teórico para RBM

Contribuciones Principales

  1. Propuesta del Primer Método de Inicialización de Pesos sin Conjunto de Datos para RBM: Basado en análisis de mecánica estadística, se deriva un esquema sistemático de inicialización de pesos para RBM Bernoulli-Bernoulli
  2. Establecimiento del Marco Teórico de Correlación entre Capas (LC):
    • Definición de la expresión matemática de correlación entre capas
    • Evaluación de LC mediante el método de réplica simétrica
    • Demostración de que maximizar LC puede mejorar la eficiencia del aprendizaje
  3. Revelación de la Conexión con Inicialización Xavier: Bajo condiciones específicas (α=1, Xh=I, b=c=0), el método propuesto es equivalente a la inicialización Xavier, proporcionando una explicación teórica
  4. Provisión de Tabla de Parámetros Completa: Para diferentes razones de tamaño de capas α y sesgos c, se proporciona la solución numérica de la desviación estándar óptima βmax
  5. Validación en Múltiples Conjuntos de Datos: Se verifica la efectividad del método en conjuntos de datos de juguete, Dry Bean, Urban Land Cover y MNIST

Explicación Detallada del Método

Definición de la Tarea

Entrada: Parámetros de estructura de red RBM

  • Tamaño de capa visible: n
  • Tamaño de capa oculta: m
  • Razón de tamaño de capas: α = m/n
  • Tipo de variable de capa oculta: Xh ∈ {B={0,1}, I={-1,1}}
  • Valor inicial de sesgo: c ≤ 0

Salida: Parámetros de RBM inicializados

  • Matriz de pesos w: muestreada independientemente de N(0, σ²), donde σ = βmax/√(n+m)
  • Sesgo de capa visible: bi = 0
  • Sesgo de capa oculta: cj = c

Restricción: Variables de capa visible vi ∈ I = {-1,1}

Arquitectura del Modelo

1. Definición Básica de RBM

Distribución de probabilidad conjunta de RBM:

P(v,hθ):=1Z(θ)exp(iVbivi+jHcjhj+iVjHwi,jvihj)P(v,h | θ) := \frac{1}{Z(θ)} \exp\left(\sum_{i∈V} b_i v_i + \sum_{j∈H} c_j h_j + \sum_{i∈V}\sum_{j∈H} w_{i,j}v_i h_j\right)

Donde:

  • v = {vi | i=1,...,n}: variables visibles
  • h = {hj | j=1,...,m}: variables ocultas
  • θ = {b, c, w}: parámetros de aprendizaje
  • Z(θ): función de partición

2. Forma Inicial de RBM

Durante la inicialización, los sesgos se establecen como constantes y los pesos se muestrean de una distribución gaussiana:

P(v,hθini)exp(bivi+cjhj+i,jwi,jvihj)P(v,h | θ_{ini}) ∝ \exp\left(b\sum_i v_i + c\sum_j h_j + \sum_{i,j} w_{i,j}v_i h_j\right)

Distribución de inicialización de pesos:

Pini(wβ)=i,jn+m2πβ2exp(n+m2β2wi,j2)P_{ini}(w | β) = \prod_{i,j} \sqrt{\frac{n+m}{2πβ²}} \exp\left(-\frac{n+m}{2β²}w_{i,j}²\right)

Desviación estándar: σ = β/√(n+m)

3. Definición de Correlación entre Capas (LC)

LC se define como el promedio estadístico de la covarianza entre la capa visible y la capa oculta:

χ(β)iVjHdwPini(wβ)(Eini[vihj]Eini[vi]Eini[hj])χ(β) ∝ \sum_{i∈V}\sum_{j∈H} \int dw\, P_{ini}(w|β)\left(E_{ini}[v_i h_j] - E_{ini}[v_i]E_{ini}[h_j]\right)

Desde la perspectiva de energía libre, LC puede expresarse como:

χ(β)2f(β)bcχ(β) ∝ -\frac{∂²f(β)}{∂b∂c}

Donde f(β) es la energía libre promediada estadísticamente.

4. Determinación del Valor β Óptimo

El valor β óptimo se define como el punto que maximiza el valor absoluto de LC:

βmax:=argmaxβχ(β)β_{max} := \arg\max_β |χ(β)|

Puntos de Innovación Técnica

1. Método de Análisis de Mecánica Estadística

Método de Réplica (Replica Method):

  • Utilización del truco de réplica para evaluar la función de partición: f(β)=1n+mlimx0Φx(β)1xf(β) = -\frac{1}{n+m}\lim_{x→0}\frac{Φ_x(β)-1}{x}
  • Adopción de la suposición de réplica simétrica (RS) para simplificar cálculos
  • Derivación de la expresión analítica de energía libre (ecuación 11)

Ecuaciones de Punto de Silla: Obtenidas a través de condiciones de extremo de energía libre:

(q^vq^h)=β2Tα(qvqh)\begin{pmatrix} \hat{q}_v \\ \hat{q}_h \end{pmatrix} = β²T_α \begin{pmatrix} q_v \\ q_h \end{pmatrix}

Donde: Tα=11+α(0α10)T_α = \frac{1}{1+α}\begin{pmatrix} 0 & α \\ 1 & 0 \end{pmatrix}

Los parámetros de orden satisfacen: qv=Dztanh2(b+zq^v)q_v = \int Dz\, \tanh²(b + z\sqrt{\hat{q}_v})

undefined