2025-11-14T16:46:10.527403

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

Yasuda, Maeno, Takahashi

In feed-forward neural networks, dataset-free weight-initialization methods such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers. In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., when the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). The validity of the proposed weight-initialization method is demonstrated in numerical experiments using a toy and real-world datasets.

academic

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

基本信息

论文ID: 2409.07708
标题: Dataset-Free Weight-Initialization on Restricted Boltzmann Machine
作者: Muneki Yasuda (Yamagata University), Ryosuke Maeno (Techno Provide Inc.), Chako Takahashi (Yamagata University)
分类: stat.ML, cond-mat.dis-nn, cs.LG
发表时间: arXiv v4 (2025年11月12日)
论文链接: https://arxiv.org/abs/2409.07708

摘要

本文针对受限玻尔兹曼机(RBM)提出了一种无需数据集的权重初始化方法。与前馈神经网络中已有的LeCun、Xavier和He初始化方法类似，该方法基于特定分布随机确定权重参数的初始值，而无需使用训练数据集。通过统计力学分析，作者推导出Bernoulli-Bernoulli RBM的权重初始化方法。权重参数从均值为零的高斯分布中抽取，标准差通过最大化层间相关性(Layer Correlation, LC)来优化。在特定情况下(两层大小相同、变量为{-1,1}二值、所有偏置为零)，该方法与Xavier初始化完全一致。数值实验验证了该方法的有效性。

研究背景与动机

问题定义

核心问题：受限玻尔兹曼机(RBM)作为概率神经网络，缺乏像前馈神经网络那样的无数据集权重初始化方法。现有RBM学习中，参数初始化方法尚未系统化研究。
重要性：
- 权重初始化对基于梯度的迭代学习结果有显著影响
- 适当的初始化可以提高学习效率，加快训练收敛
- 无数据集的初始化方法具有通用性，仅依赖网络结构
现有方法的局限：
- 前馈神经网络已有成熟的初始化方法(LeCun、Xavier、He)
- RBM作为概率模型，其双层无向图结构与前馈网络不同
- 现有RBM实践中通常使用小随机值初始化，缺乏理论指导
研究动机：
- 从统计力学角度分析RBM的初始状态特性
- 建立层间相关性与学习效率的联系
- 为RBM提供理论支撑的初始化方案

核心贡献

首次提出RBM的无数据集权重初始化方法：基于统计力学分析，为Bernoulli-Bernoulli RBM推导出系统的权重初始化方案
建立层间相关性(LC)理论框架：
- 定义了层间相关性的数学表达式
- 通过副本对称(replica-symmetric)方法评估LC
- 证明最大化LC可提高学习效率
揭示与Xavier初始化的联系：在特定条件下(α=1, Xh=I, b=c=0)，所提方法等价于Xavier初始化，提供了理论解释
提供完整的参数表：针对不同层大小比α和偏置c，给出最优标准差βmax的数值解
多数据集验证：在玩具数据集、Dry Bean、Urban Land Cover和MNIST数据集上验证方法有效性

方法详解

任务定义

输入：RBM网络结构参数

可见层大小：n
隐藏层大小：m
层大小比：α = m/n
隐藏层变量类型：Xh ∈ {B={0,1}, I={-1,1}}
偏置初始值：c ≤ 0

输出：初始化的RBM参数

权重矩阵w：从N(0, σ²)独立采样，其中σ = βmax/√(n+m)
可见层偏置：bi = 0
隐藏层偏置：cj = c

约束：可见层变量为vi ∈ I = {-1,1}

模型架构

1. RBM基本定义

RBM的联合概率分布：

$P(v,h | θ) := \frac{1}{Z(θ)} \exp\left(\sum_{i∈V} b_i v_i + \sum_{j∈H} c_j h_j + \sum_{i∈V}\sum_{j∈H} w_{i,j}v_i h_j\right)$

其中：

v = {vi | i=1,...,n}：可见变量
h = {hj | j=1,...,m}：隐藏变量
θ = {b, c, w}：学习参数
Z(θ)：配分函数

2. 初始RBM形式

初始化时，偏置设为常数，权重从高斯分布采样：

$P(v,h | θ_{ini}) ∝ \exp\left(b\sum_i v_i + c\sum_j h_j + \sum_{i,j} w_{i,j}v_i h_j\right)$

权重初始化分布：

$P_{ini}(w | β) = \prod_{i,j} \sqrt{\frac{n+m}{2πβ²}} \exp\left(-\frac{n+m}{2β²}w_{i,j}²\right)$

标准差：σ = β/√(n+m)

3. 层间相关性(LC)定义

LC定义为可见层和隐藏层之间协方差的统计平均：

$χ(β) ∝ \sum_{i∈V}\sum_{j∈H} \int dw\, P_{ini}(w|β)\left(E_{ini}[v_i h_j] - E_{ini}[v_i]E_{ini}[h_j]\right)$

从自由能角度，LC可表示为：

$χ(β) ∝ -\frac{∂²f(β)}{∂b∂c}$

其中f(β)是统计平均的自由能。

利用副本技巧评估配分函数： $f(β) = -\frac{1}{n+m}\lim_{x→0}\frac{Φ_x(β)-1}{x}$
采用副本对称(RS)假设简化计算
推导出自由能的解析表达式(方程11)

鞍点方程：通过自由能极值条件得到：

$\begin{pmatrix} \hat{q}_v \\ \hat{q}_h \end{pmatrix} = β²T_α \begin{pmatrix} q_v \\ q_h \end{pmatrix}$

其中： $T_α = \frac{1}{1+α}\begin{pmatrix} 0 & α \\ 1 & 0 \end{pmatrix}$

序参数满足： $q_v = \int Dz\, \tanh²(b + z\sqrt{\hat{q}_v})$

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

基本信息

摘要

研究背景与动机

问题定义

核心贡献

方法详解

任务定义

模型架构

1. RBM基本定义

2. 初始RBM形式

3. 层间相关性(LC)定义

4. 最优β值确定

技术创新点

1. 统计力学分析方法