2025-11-14T16:46:10.527403

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

Yasuda, Maeno, Takahashi

In feed-forward neural networks, dataset-free weight-initialization methods such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers. In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., when the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). The validity of the proposed weight-initialization method is demonstrated in numerical experiments using a toy and real-world datasets.

academic

制限付きボルツマンマシンにおけるデータセット非依存の重み初期化

基本情報

論文ID: 2409.07708
タイトル: Dataset-Free Weight-Initialization on Restricted Boltzmann Machine
著者: 安田宗喜(山形大学)、前野亮介(テクノプロバイド社)、高橋茶子(山形大学)
分類: stat.ML, cond-mat.dis-nn, cs.LG
発表日時: arXiv v4 (2025年11月12日)
論文リンク: https://arxiv.org/abs/2409.07708

要約

本論文は制限付きボルツマンマシン(RBM)に対するデータセット非依存の重み初期化手法を提案する。フィードフォワードニューラルネットワークにおけるLeCun、Xavier、He初期化と同様に、本手法は訓練データセットを使用せずに、特定の分布から重みパラメータの初期値を確率的に決定する。統計力学分析を通じて、著者らはBernoulli-Bernoulli RBMの重み初期化手法を導出した。重みパラメータは平均ゼロのガウス分布から抽出され、標準偏差は層間相関性(Layer Correlation, LC)を最大化することで最適化される。特定の条件下(2層のサイズが同じ、変数が{-1,1}二値、すべてのバイアスがゼロ)では、本手法はXavier初期化と完全に一致する。数値実験により本手法の有効性が検証された。

研究背景と動機

問題定義

核心的問題：確率的ニューラルネットワークとしてのRBMは、フィードフォワードニューラルネットワークのようなデータセット非依存の重み初期化手法を欠いている。既存のRBM学習において、パラメータ初期化手法はまだ体系的に研究されていない。
重要性：
- 重み初期化は勾配ベースの反復学習結果に大きな影響を与える
- 適切な初期化は学習効率を向上させ、訓練の収束を加速できる
- データセット非依存の初期化手法は汎用性を持ち、ネットワーク構造のみに依存する
既存手法の制限：
- フィードフォワードニューラルネットワークには成熟した初期化手法が存在する(LeCun、Xavier、He)
- 確率モデルとしてのRBMは、その双層無向グラフ構造がフィードフォワードネットワークと異なる
- 既存のRBM実践では通常小さな乱数値で初期化されており、理論的指導が不足している
研究動機：
- 統計力学の観点からRBMの初期状態特性を分析する
- 層間相関性と学習効率の関連性を確立する
- 理論的支援を伴うRBMの初期化スキームを提供する

核心的貢献

RBMのデータセット非依存重み初期化手法の初提案：統計力学分析に基づき、Bernoulli-Bernoulli RBMの体系的な重み初期化スキームを導出
層間相関性(LC)理論フレームワークの確立：
- 層間相関性の数学的表現を定義
- レプリカ対称(replica-symmetric)手法によるLCの評価
- LC最大化が学習効率を向上させることを証明
Xavier初期化との関連性の解明：特定条件下(α=1, Xh=I, b=c=0)で、提案手法はXavier初期化と等価であることを示し、理論的説明を提供
完全なパラメータ表の提供：異なる層サイズ比αとバイアスcに対して、最適標準偏差βmaxの数値解を提示
複数データセットでの検証：玩具データセット、Dry Bean、Urban Land Cover、MNISTデータセット上で手法の有効性を検証

手法の詳細

タスク定義

入力：RBMネットワーク構造パラメータ

可視層サイズ：n
隠れ層サイズ：m
層サイズ比：α = m/n
隠れ層変数タイプ：Xh ∈ {B={0,1}, I={-1,1}}
バイアス初期値：c ≤ 0

出力：初期化されたRBMパラメータ

重み行列w：N(0, σ²)から独立にサンプリング、ここでσ = βmax/√(n+m)
可視層バイアス：bi = 0
隠れ層バイアス：cj = c

制約：可視層変数vi ∈ I = {-1,1}

モデルアーキテクチャ

1. RBM基本定義

RBMの同時確率分布：

$P(v,h | θ) := \frac{1}{Z(θ)} \exp\left(\sum_{i∈V} b_i v_i + \sum_{j∈H} c_j h_j + \sum_{i∈V}\sum_{j∈H} w_{i,j}v_i h_j\right)$

ここで：

v = {vi | i=1,...,n}：可視変数
h = {hj | j=1,...,m}：隠れ変数
θ = {b, c, w}：学習パラメータ
Z(θ)：分配関数

2. 初期RBM形式

初期化時、バイアスは定数に設定され、重みはガウス分布からサンプリングされる：

$P(v,h | θ_{ini}) ∝ \exp\left(b\sum_i v_i + c\sum_j h_j + \sum_{i,j} w_{i,j}v_i h_j\right)$

重み初期化分布：

$P_{ini}(w | β) = \prod_{i,j} \sqrt{\frac{n+m}{2πβ²}} \exp\left(-\frac{n+m}{2β²}w_{i,j}²\right)$

標準偏差：σ = β/√(n+m)

3. 層間相関性(LC)の定義

LCは可視層と隠れ層間の共分散の統計平均として定義される：

$χ(β) ∝ \sum_{i∈V}\sum_{j∈H} \int dw\, P_{ini}(w|β)\left(E_{ini}[v_i h_j] - E_{ini}[v_i]E_{ini}[h_j]\right)$

自由エネルギーの観点から、LCは以下のように表現できる：

$χ(β) ∝ -\frac{∂²f(β)}{∂b∂c}$

ここでf(β)は統計平均の自由エネルギーである。

レプリカトリックを利用して分配関数を評価： $f(β) = -\frac{1}{n+m}\lim_{x→0}\frac{Φ_x(β)-1}{x}$
レプリカ対称(RS)仮定を採用して計算を簡略化
自由エネルギーの解析的表現を導出(式11)

鞍点方程式：自由エネルギー極値条件から得られる：

$\begin{pmatrix} \hat{q}_v \\ \hat{q}_h \end{pmatrix} = β²T_α \begin{pmatrix} q_v \\ q_h \end{pmatrix}$

ここで： $T_α = \frac{1}{1+α}\begin{pmatrix} 0 & α \\ 1 & 0 \end{pmatrix}$

秩序パラメータは以下を満たす： $q_v = \int Dz\, \tanh²(b + z\sqrt{\hat{q}_v})$