2025-11-14T16:46:10.527403

Dataset-Free Weight-Initialization on Restricted Boltzmann Machine

Yasuda, Maeno, Takahashi

In feed-forward neural networks, dataset-free weight-initialization methods such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers. In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., when the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). The validity of the proposed weight-initialization method is demonstrated in numerical experiments using a toy and real-world datasets.

academic

تهيئة الأوزان الخالية من مجموعة البيانات على آلة بولتزمان المقيدة

المعلومات الأساسية

معرّف الورقة: 2409.07708
العنوان: تهيئة الأوزان الخالية من مجموعة البيانات على آلة بولتزمان المقيدة
المؤلفون: Muneki Yasuda (جامعة Yamagata)، Ryosuke Maeno (شركة Techno Provide Inc.)، Chako Takahashi (جامعة Yamagata)
التصنيف: stat.ML, cond-mat.dis-nn, cs.LG
تاريخ النشر: arXiv v4 (12 نوفمبر 2025)
رابط الورقة: https://arxiv.org/abs/2409.07708

الملخص

تقدم هذه الورقة طريقة تهيئة أوزان خالية من مجموعة البيانات لآلة بولتزمان المقيدة (RBM). على غرار طرق تهيئة LeCun و Xavier و He الموجودة في الشبكات العصبية ذات التغذية الأمامية، تحدد هذه الطريقة القيم الأولية لمعاملات الأوزان بشكل عشوائي من توزيع معين دون الحاجة إلى استخدام مجموعة بيانات التدريب. من خلال التحليل الميكانيكي الإحصائي، يشتق المؤلفون طريقة تهيئة الأوزان لآلة بولتزمان المقيدة من نوع Bernoulli-Bernoulli. يتم استخراج معاملات الأوزان من توزيع غاوسي بمتوسط صفر، حيث يتم تحسين الانحراف المعياري من خلال تعظيم الارتباط بين الطبقات (Layer Correlation, LC). في حالات معينة (حجم الطبقتين متساوٍ، متغيرات {-1,1} ثنائية القيمة، جميع الانحيازات تساوي صفراً)، تتطابق هذه الطريقة تماماً مع تهيئة Xavier. تؤكد التجارب الرقمية فعالية هذه الطريقة.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية: تفتقر آلة بولتزمان المقيدة (RBM) كشبكة عصبية احتمالية إلى طرق تهيئة أوزان خالية من مجموعة البيانات مثل تلك الموجودة في الشبكات العصبية ذات التغذية الأمامية. في التعلم الحالي للـ RBM، لم تتم دراسة طرق تهيئة المعاملات بشكل منهجي.
الأهمية:
- تؤثر تهيئة الأوزان بشكل كبير على نتائج التعلم التكراري القائم على التدرج
- يمكن للتهيئة المناسبة أن تحسن كفاءة التعلم وتسرع تقارب التدريب
- طرق التهيئة الخالية من مجموعة البيانات لها عمومية، وتعتمد فقط على بنية الشبكة
قيود الطرق الموجودة:
- تتمتع الشبكات العصبية ذات التغذية الأمامية بطرق تهيئة ناضجة (LeCun و Xavier و He)
- تختلف RBM كنموذج احتمالي في بنيتها ثنائية الاتجاه بدون اتجاه عن الشبكات ذات التغذية الأمامية
- عادة ما تستخدم ممارسات RBM الحالية قيماً عشوائية صغيرة للتهيئة، وتفتقر إلى التوجيه النظري
الدافع البحثي:
- تحليل خصائص الحالة الأولية للـ RBM من منظور الميكانيكا الإحصائية
- إنشاء ارتباط بين الارتباط بين الطبقات وكفاءة التعلم
- توفير خطة تهيئة مدعومة نظرياً للـ RBM

المساهمات الأساسية

اقتراح أول طريقة تهيئة أوزان خالية من مجموعة البيانات للـ RBM: استناداً إلى التحليل الميكانيكي الإحصائي، اشتقاق خطة تهيئة أوزان منهجية لآلة بولتزمان المقيدة من نوع Bernoulli-Bernoulli
إنشاء إطار عمل نظري لارتباط الطبقات (LC):
- تعريف التعبير الرياضي لارتباط الطبقات
- تقييم LC من خلال طريقة التماثل المتماثل (replica-symmetric)
- إثبات أن تعظيم LC يمكن أن يحسن كفاءة التعلم
الكشف عن الارتباط مع تهيئة Xavier: في ظروف معينة (α=1, Xh=I, b=c=0)، تكون الطريقة المقترحة مكافئة لتهيئة Xavier، مما يوفر تفسيراً نظرياً
توفير جدول معاملات كامل: بالنسبة لنسب حجم الطبقات المختلفة α والانحيازات c، يتم توفير الحلول الرقمية للانحراف المعياري الأمثل βmax
التحقق من صحة متعدد مجموعات البيانات: التحقق من فعالية الطريقة على مجموعات بيانات لعبة وDry Bean و Urban Land Cover و MNIST

شرح الطريقة

تعريف المهمة

الإدخال: معاملات بنية شبكة RBM

حجم الطبقة المرئية: n
حجم الطبقة المخفية: m
نسبة حجم الطبقة: α = m/n
نوع متغيرات الطبقة المخفية: Xh ∈ {B={0,1}, I={-1,1}}
القيمة الأولية للانحياز: c ≤ 0

الإخراج: معاملات RBM المهيأة

مصفوفة الأوزان w: عينة مستقلة من N(0, σ²)، حيث σ = βmax/√(n+m)
انحياز الطبقة المرئية: bi = 0
انحياز الطبقة المخفية: cj = c

القيود: متغيرات الطبقة المرئية vi ∈ I = {-1,1}

معمارية النموذج

1. تعريف RBM الأساسي

التوزيع الاحتمالي المشترك لـ RBM:

$P(v,h | θ) := \frac{1}{Z(θ)} \exp\left(\sum_{i∈V} b_i v_i + \sum_{j∈H} c_j h_j + \sum_{i∈V}\sum_{j∈H} w_{i,j}v_i h_j\right)$

حيث:

v = {vi | i=1,...,n}: متغيرات مرئية
h = {hj | j=1,...,m}: متغيرات مخفية
θ = {b, c, w}: معاملات التعلم
Z(θ): دالة التقسيم

2. شكل RBM الأولي

عند التهيئة، يتم تعيين الانحيازات كثوابت، ويتم استخراج الأوزان من توزيع غاوسي:

$P(v,h | θ_{ini}) ∝ \exp\left(b\sum_i v_i + c\sum_j h_j + \sum_{i,j} w_{i,j}v_i h_j\right)$

توزيع تهيئة الأوزان:

$P_{ini}(w | β) = \prod_{i,j} \sqrt{\frac{n+m}{2πβ²}} \exp\left(-\frac{n+m}{2β²}w_{i,j}²\right)$

الانحراف المعياري: σ = β/√(n+m)

3. تعريف ارتباط الطبقات (LC)

يُعرّف ارتباط الطبقات بأنه متوسط إحصائي للتغاير بين الطبقة المرئية والطبقة المخفية:

$χ(β) ∝ \sum_{i∈V}\sum_{j∈H} \int dw\, P_{ini}(w|β)\left(E_{ini}[v_i h_j] - E_{ini}[v_i]E_{ini}[h_j]\right)$

من منظور الطاقة الحرة، يمكن التعبير عن LC كـ:

$χ(β) ∝ -\frac{∂²f(β)}{∂b∂c}$

حيث f(β) هي الطاقة الحرة للمتوسط الإحصائي.

استخدام خدعة التماثل لتقييم دالة التقسيم: $f(β) = -\frac{1}{n+m}\lim_{x→0}\frac{Φ_x(β)-1}{x}$
اعتماد افتراض التماثل المتماثل (RS) لتبسيط الحسابات
اشتقاق التعبير التحليلي للطاقة الحرة (المعادلة 11)

معادلات نقطة السرج: من خلال شروط القيمة القصوى للطاقة الحرة:

$\begin{pmatrix} \hat{q}_v \\ \hat{q}_h \end{pmatrix} = β²T_α \begin{pmatrix} q_v \\ q_h \end{pmatrix}$

حيث: $T_α = \frac{1}{1+α}\begin{pmatrix} 0 & α \\ 1 & 0 \end{pmatrix}$

معاملات الترتيب تحقق: $q_v = \int Dz\, \tanh²(b + z\sqrt{\hat{q}_v})$