2025-11-20T04:28:15.284487

The Principle of Uncertain Maximum Entropy

Bogert, Kothe
The Principle of Maximum Entropy is a rigorous technique for estimating an unknown distribution given partial information while simultaneously minimizing bias. However, an important requirement for applying the principle is that the available information be provided error-free (Jaynes 1982). We relax this requirement using a memoryless communication channel as a framework to derive a new, more general principle. We show our new principle provides an upper bound on the entropy of the unknown distribution and the amount of information lost due to the use of a given communications channel is unknown unless the unknown distribution's entropy is also known. Using our new principle we provide a new interpretation of the classic principle and experimentally show its performance relative to the classic principle and other generally applicable solutions. Finally, we present a simple algorithm for solving our new principle and an approximation useful when samples are limited.
academic

مبدأ الإنتروبيا العظمى غير المؤكدة

المعلومات الأساسية

  • معرّف الورقة: 2305.09868
  • العنوان: مبدأ الإنتروبيا العظمى غير المؤكدة
  • المؤلفون: Kenneth Bogert, Matthew Kothe (جامعة نورث كارولينا أشفيل)
  • التصنيف: cs.IT cs.CV cs.LG math.IT
  • تاريخ النشر: 16 أكتوبر 2025 (arXiv v5)
  • رابط الورقة: https://arxiv.org/abs/2305.09868

الملخص

يعتبر مبدأ الإنتروبيا العظمى تقنية صارمة لتقدير التوزيعات غير المعروفة في ضوء معلومات جزئية معينة، مع تقليل الانحياز. ومع ذلك، فإن أحد المتطلبات الحاسمة لتطبيق هذا المبدأ هو أن تكون المعلومات المتاحة خالية من الأخطاء (Jaynes 1982). تستخدم هذه الورقة قنوات الاتصال عديمة الذاكرة كإطار عمل لتخفيف هذا المتطلب، وتشتق مبدأً جديداً وأكثر عمومية. تُظهر الدراسة أن المبدأ الجديد يوفر حداً أعلى لإنتروبيا التوزيع غير المعروف، وأن كمية المعلومات المفقودة بسبب استخدام قناة اتصال معينة يمكن تحديدها فقط عندما تكون إنتروبيا التوزيع غير المعروف معروفة أيضاً. باستخدام المبدأ الجديد، يقدم المؤلفون تفسيراً جديداً للمبدأ الكلاسيكي، ويعرضون من خلال التجارب أدائه مقابل المبدأ الكلاسيكي والحلول العامة الأخرى.

الخلفية البحثية والدافع

تعريف المشكلة

يتطلب مبدأ الإنتروبيا العظمى التقليدي أن تكون التوقعات المميزة التجريبية المستخدمة في القيود معروفة وخالية من الأخطاء. ومع ذلك، في العديد من السيناريوهات الواقعية، غالباً ما يكون من المستحيل تلبية هذا المتطلب بسبب الضوضاء أو آليات عدم التأكد الأخرى.

الدافع البحثي

  1. الاحتياجات الواقعية: في المجالات التي تتسم بضوضاء كبيرة أو عدم تأكد، لا يمكن الحصول على معلومات عينة خالية من الأخطاء
  2. القيود النظرية: تفترض الطرق الموجودة أن مصدر عدم التأكد هو متغيرات كامنة، وتستخدم التوقعات لملء المعلومات المفقودة، مما يفتقر إلى العمومية
  3. التطبيقات العملية: هناك حاجة إلى مبدأ أكثر عمومية يحافظ على الخصائص المثالية للمبدأ الكلاسيكي حتى في وجود ضوضاء في قنوات الاتصال

نقاط الابتكار

استخدام نموذج قناة اتصال عديمة الذاكرة كإطار عمل لنمذجة الضوضاء وعدم التأكد بشكل رسمي، مما يؤدي إلى اشتقاق مبدأ جديد يحافظ على الخصائص الممتازة لمبدأ الإنتروبيا العظمى الكلاسيكي.

المساهمات الأساسية

  1. المساهمات النظرية: اشتقاق المبدأ الجديد كتطبيق للمبدأ الكلاسيكي على قنوات الاتصال الضوضائية
  2. المساهمات الخوارزمية: اقتراح المبدأ الجديد في شكل برمجة محدبة هرمية والخوارزميات لحلها
  3. التحليل النظري: إثبات أن المبدأ الجديد يعمم المبادئ السابقة ويوفر تفسيراً جديداً للمبدأ الكلاسيكي
  4. تحليل الحدود: إثبات أن المبدأ الجديد ينتج حداً أعلى لإنتروبيا التوزيع غير المعروف وتحديد كمية فقدان المعلومات
  5. التحقق التجريبي: توفير نتائج تجريبية واسعة النطاق تعرض الأداء وطرق تقريبية للحالات ذات العينات المحدودة

شرح الطريقة

تعريف المهمة

بناءً على العينات المستقبلة من خلال قناة اتصال ضوضائية، تقدير معاملات التوزيع الاحتمالي غير المعروف P₀(W)، مع الاستفادة من معلومات إضافية حول بنية التوزيع (دوال مميزة).

نموذج قناة الاتصال

استخدام قناة اتصال منفصلة عديمة الذاكرة:

  • جانب الإرسال: الرسالة w يتم أخذ عينة منها من التوزيع غير المعروف P₀(W)
  • الترميز: استخدام P(X|W) لترميز w إلى x
  • النقل: من خلال القناة P(Y|X)، يتم استقبال x كـ y
  • جانب الاستقبال: الرغبة في تقدير معاملات P₀(W)

مبدأ الإنتروبيا العظمى غير المؤكدة

الصيغة الرياضية

عندما تكون P̃(W) غير مؤكدة، يجب أن تحقق جميع P̃(W) الممكنة:

∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y

الفكرة الأساسية

اختيار التوزيع ذو الإنتروبيا الأقصى من بين جميع التوزيعات التي تحقق:

  1. كونها عضواً في مجموعة التوزيعات ذات الإنتروبيا العظمى تحت القيود المميزة المعطاة
  2. أن P̃(W) المقابلة قادرة على إنتاج P̃(Y) المرصودة

صيغة البرمجة المحدبة الهرمية

max -∑_{w∈W} P̃r(w) log P̃r(w)
subject to:
    ∑_{w∈W} P̃r(w) = 1
    ∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
    P̃(W) = M_φ(P̃(W))

حيث M_φ هي دالة تطبيق مبدأ الإنتروبيا العظمى الكلاسيكي.

تنفيذ الخوارزمية

خوارزمية uMaxEnt

1. تهيئة Pr(w) = 1/|W| ∀w
2. حل البرمجة المحدبة للحصول على P̃(W) الجديدة:
   min ∑_w P̃r(w) log(P̃r(w)/Pr(w))
   القيود: قيود قناة الاتصال
3. تطبيق مبدأ الإنتروبيا العظمى الكلاسيكي للحصول على P(W) الجديدة
4. التكرار حتى التقارب

نقاط الابتكار التقنية

  1. الابتكار النظري: أول مرة يتم فيها دمج ضوضاء قناة الاتصال رسمياً في إطار الإنتروبيا العظمى
  2. الابتكار الخوارزمي: هيكل تحسين ثنائي الطبقة، الطبقة الخارجية تعظم الإنتروبيا، والطبقة الداخلية تضمن تحقق القيود
  3. التوسع متعدد القنوات: توسع طبيعي لسيناريوهات متعددة القنوات، مما يحسن دقة التقدير
  4. تقريب العينات المحدودة: توفير حد ε بناءً على قانون الأعداد الكبيرة، معالجة مشاكل العينات المحدودة في التطبيقات العملية

إعداد التجارب

تكوين التجارب

  • فضاء الحالة: |W| = 10 (جميع التجارب)
  • عدد المميزات: |φ| ∈ {1,2,...,9}
  • فضاء الإشارة: |Y| ∈ {2,3,...,10}
  • عدد التجارب: 77,760 تكوين عشوائي

توليد البيانات

  1. توليد النموذج: مجموعة مميزات متفرقة، أوزان حقيقية λₖ = U(-1,1) × α
  2. توليد القناة: توليد عشوائي لـ P(X|W) و P(Y|X)
  3. توليد العينات: 1,048,576 عينة لتجارب التقريب

طرق المقارنة

  • uMaxEnt: طريقة الإنتروبيا العظمى غير المؤكدة المقترحة
  • MaxEnt: الإنتروبيا العظمى الكلاسيكية (استخدام P̃(W) الحقيقية، كحالة مثالية للمقارنة)
  • mlMaxEnt: التقدير باستخدام w الأكثر احتمالاً
  • dMaxEnt: تقدير P̃(W) أولاً باستخدام الإنتروبيا العظمى، ثم تطبيق الإنتروبيا العظمى الكلاسيكية

مقاييس التقييم

استخدام تباعد Kullback-Leibler D_KL(P_λ,φ(W) ∥ P₀(W)) لقياس الدقة.

نتائج التجارب

النتائج الرئيسية

تأثير عدد المميزات

  • عدد مميزات منخفض (<5): uMaxEnt يتفوق بشكل كبير على dMaxEnt، قيم D_KL الوسيطة أصغر بعدة رتب من حيث الحجم
  • عدد مميزات عالي (≥5): معظم الحلول في نمط خطأ عالي
  • الآلية: عدد أقل من المميزات يؤدي إلى مجموعة ممكنة أكثر إحكاماً، uMaxEnt يمكنه الاستفادة من ذلك للعثور على حلول ذات إنتروبيا أقل

تأثير حجم فضاء الإشارة

  • |Y| صغير (<6): معظم الحلول في نمط خطأ عالي
  • |Y| كبير (≥6): معظم الحلول في نمط خطأ منخفض
  • الاتساق: uMaxEnt أكثر اتساقاً من dMaxEnt عند |Y|=10

أداء متعددة القنوات

  • تحسن كبير: إضافة قناة واحدة فقط تحسن الأداء بشكل كبير
  • استرجاع المعلومات: قيود متعددة القنوات تقلل مجموعة الممكنة، مما يقلل فقدان المعلومات
  • العملية: توفر حلاً لحالات القناة الواحدة ذات D_KL العالي

النتائج الرقمية

الخوارزميةY=W|Y|=|W|
MaxEnt3.2×10⁻¹⁵4.39×10⁻¹³
uMaxEnt3.1×10⁻¹⁵0.001814
dMaxEnt1.6×10⁻¹⁵0.01824
mlMaxEnt1.4×10⁻¹⁵1.0398

تقريب العينات المحدودة

  • التقارب: يبدأ في إظهار انخفاض D_KL حول N=500
  • الأداء المقارب: تحسن مستمر مع زيادة عدد العينات، بينما dMaxEnt يقترب من أقصى أداء عند N=10⁶
  • العملية: D_KL الوسيط يتفوق دائماً على أو يساوي dMaxEnt

التحليل النظري

إثبات المحدبية

النظرية 1: مجموعة الممكنة للبرنامج 7 محدبة النظرية 2: البرنامج 7 محدب النتيجة: تفرد الحل والمثالية

العلاقات التعميمية

النظرية 3: مبدأ الإنتروبيا العظمى الكلاسيكي هو حالة خاصة من مبدأ الإنتروبيا العظمى غير المؤكدة عندما يكون هناك P̃(W) واحد فقط يحقق القيود النظرية 4: مبدأ الإنتروبيا العظمى الكامنة هو حالة خاصة من مبدأ الإنتروبيا العظمى غير المؤكدة

الحدود النظرية للمعلومات

  • حد الإنتروبيا الأعلى: H(P₀(W)) ≤ H(U_φ,P(Y|W)(P̃(Y)))
  • فقدان المعلومات: E_φ(W;Y) = H(U_φ,P(Y|W)(P̃(Y))) - H(P₀(W))
  • المعنى العملي: تحديد كمية فقدان المعلومات الناجم عن قناة الاتصال

الأعمال ذات الصلة

مبدأ الإنتروبيا العظمى الكلاسيكي

  • الأعمال الأساسية لـ Jaynes (1957) و Shannon (1948)
  • القيد المتمثل في متطلب معلومات القيود الخالية من الأخطاء

طرق التعامل مع عدم التأكد

  • طريقة المتغيرات الكامنة (Wang et al., 2012; Bogert et al., 2016)
  • مبدأ الحد الأدنى من الإنتروبيا المتقاطعة (Shore and Johnson, 1980)
  • طريقة هذه الورقة أكثر عمومية، لا تفترض مصدر عدم تأكد معين

الهندسة المعلوماتية

  • الاستفادة من نظرية التحسين المحدب
  • التحسين ثنائي الطبقة في التعلم الآلي

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. المساهمة النظرية: دمج ناجح لضوضاء قناة الاتصال في إطار الإنتروبيا العظمى
  2. القيمة العملية: تفوق على الطرق الموجودة في تكوينات تجريبية متعددة
  3. القدرة على التعميم: توحيد عدة مبادئ موجودة
  4. الرؤى النظرية للمعلومات: توفير تحليل كمي لفقدان المعلومات

القيود

  1. الافتراضات: افتراض أن φ و P(Y|W) معروفة
  2. التعقيد الحسابي: التحسين ثنائي الطبقة يزيد من التكلفة الحسابية
  3. أداء العينات المحدودة: التحسن محدود في حالات العينات الصغيرة
  4. النتائج متعددة الأنماط: 42% من التكوينات تنتج خطأ عالي، 53% تنتج خطأ منخفض

الاتجاهات المستقبلية

  1. تخفيف الافتراضات: التعامل مع حالات φ غير المعروفة بالكامل
  2. مميزات ضوضائية: النظر في الضوضاء في دوال المميزات
  3. حدود أكثر إحكاماً: تحسين حدود ε في حالات العينات المحدودة
  4. تحسين الحسابات: تحسين كفاءة الخوارزمية

التقييم المتعمق

المميزات

  1. الصرامة النظرية: اشتقاق رياضي كامل وإثباتات
  2. قوة عملية: توفير إطار عمل عام للتعامل مع الضوضاء الواقعية
  3. التجارب الشاملة: تجارب عشوائية واسعة النطاق تتحقق من فعالية الطريقة
  4. الابتكار العالي: أول دمج لنظرية قناة الاتصال مع مبدأ الإنتروبيا العظمى

أوجه القصور

  1. التعقيد الحسابي: قد يكون التحسين ثنائي الطبقة أقل كفاءة في المشاكل الكبيرة
  2. حساسية المعاملات: الأداء تعتمد على عدد المميزات وحجم فضاء الإشارة
  3. التحقق من التطبيقات الواقعية: نقص التحقق على مجموعات بيانات العالم الحقيقي
  4. ضمانات التقارب: تحليل التقارب لتقريب العينات المحدودة غير كافٍ

التأثير المحتمل

  1. القيمة النظرية: توفير منظور جديد لتقاطع نظرية المعلومات والتعلم الآلي
  2. إمكانيات التطبيق: يمكن تطبيقها على الاتصالات ومعالجة الإشارات والتعلم الآلي وغيرها
  3. مساهمات منهجية: قد يلهم إطار التحسين ثنائي الطبقة حلول مشاكل أخرى

السيناريوهات المناسبة

  1. أنظمة الاتصالات: تقدير المعاملات عندما تكون القناة ضوضائية
  2. شبكات المستشعرات: دمج بيانات متعددة المستشعرات
  3. التعلم الآلي: تقدير التوزيع تحت التسميات الضوضائية
  4. معالجة الإشارات: استرجاع الإشارة تحت الملاحظات غير الكاملة

المراجع

  1. Jaynes, E. T. (1957). نظرية المعلومات والميكانيكا الإحصائية. Physical Review.
  2. Shannon, C. E. (1948). نظرية رياضية للاتصال. Bell System Technical Journal.
  3. Wang, S., Schuurmans, D., & Zhao, Y. (2012). مبدأ الإنتروبيا العظمى الكامنة. ACM TKDD.
  4. Shore, J. & Johnson, R. (1980). الاشتقاق البديهي لمبدأ الإنتروبيا العظمى. IEEE TIT.

الملخص: هذه ورقة عالية الجودة توازن بين النظرية والممارسة، وتوسع بنجاح مبدأ الإنتروبيا العظمى الكلاسيكي للتعامل مع البيئات الضوضائية. على الرغم من وجود مجال للتحسين في التعقيد الحسابي والتحقق من التطبيقات العملية، فإن مساهماتها النظرية وابتكاراتها المنهجية توفر أدوات ورؤى قيمة للمجالات ذات الصلة.