Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
- معرّف الورقة: 2510.07088
- العنوان: شرح النماذج تحت توزيع برنولي متعدد المتغيرات عبر تحليل هوفدينج
- المؤلفون: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
- التصنيف: stat.ML cs.LG
- تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2510.07088
تبحث هذه الورقة في مسألة قابلية تفسير نماذج التنبؤ ذات المدخلات العشوائية، من خلال تحقيق فهم سلوك النموذج عبر تحليل النموذج الفرعي. بناءً على التطورات الحديثة في مجال تحديد الكميات غير المؤكدة، توفر الورقة وصفاً كاملاً لتحليل هوفدينج المعمم في حالة متغيرات الإدخال التي تتبع توزيع برنولي متعدد المتغيرات. تُظهر الدراسة أن فضاء L² الأساسي في هذه الحالة أحادي البعد، وأن تحليل الدالة صريح، مما يضع أساساً لإطار عمل قابلية تفسير كامل يسمح نظرياً بالهندسة العكسية. كما تشتق الورقة مؤشرات صريحة لتأثير المدخلات على التنبؤ بالمخرجات (مثل مؤشرات سوبول وتأثيرات شابلي)، وتتحقق من فعالية الطريقة من خلال التجارب الرقمية في مشاكل دعم القرار.
- المشكلة الأساسية: كيفية شرح سلوك نماذج التنبؤ المعقدة ذات متغيرات الإدخال الثنائية المترابطة
- الاحتياجات العملية: في التعلم الآلي وتحديد الكميات غير المؤكدة، غالباً ما لا تكون متغيرات الإدخال مستقلة، وتحليل هوفدينج التقليدي يفترض الاستقلالية، وهو مقيد جداً في التطبيقات العملية
- حالات التطبيق: الرسوم البيانية للقرارات الثنائية، الشبكات البوليانية، الشبكات العصبية الثنائية، تمثيل البنى الجزيئية، الشبكات البوليانية الاحتمالية وغيرها
يتطلب تحليل هوفدينج التقليدي (HD) أن تكون متغيرات الإدخال مستقلة بشكل متبادل، وهذا غير واقعي في العديد من التطبيقات العملية. بينما توجد إطارات نظرية لتحليل هوفدينج المعمم (GHD)، إلا أنه يفتقر إلى طرق بناء صريحة لتوزيعات محددة. يعتبر توزيع برنولي متعدد المتغيرات حالة خاصة مهمة لها تطبيقات واسعة في العديد من المجالات.
- افتراض الاستقلالية: يتطلب HD الكلاسيكي استقلالية متغيرات الإدخال، مما يحد من نطاق التطبيق
- التعقيد الحسابي: تفتقر طرق GHD الموجودة إلى البناء الصريح، مما يجعل الحساب صعباً
- عدم كفاية القابلية للتفسير: يفتقر إلى إطار عمل قابلية تفسير كامل للمدخلات الثنائية
- المساهمة النظرية: إثبات أن فضاء L² في حالة برنولي متعدد المتغيرات أحادي البعد، وتوفير تمثيل تحليل دالة صريح
- الطريقة البنائية: بناءً على تحويل قاعدة Fourier-Walsh-Hadamard، توفير طريقة حساب صريحة لمعاملات التحليل
- إطار عمل القابلية للتفسير: اشتقاق تعبيرات صريحة لمؤشرات سوبول المعممة وتأثيرات شابلي
- تنفيذ الخوارزمية: توفير طرق تقريب مقطوعة للحالات عالية الأبعاد وضمانات التقدير الإحصائي
- التحقق من التطبيق: التحقق من فعالية الطريقة على البيانات الاصطناعية والمجموعات البيانية الحقيقية
بالنظر إلى متجه عشوائي برنولي متعدد الأبعاد X = (X₁, ..., Xd) ودالة قابلة للتكامل التربيعي G: {0,1}^d → R، الهدف هو إيجاد تحليل دالة فريد:
G(X) = ∑_{A∈P_D} G_A(X_A)
حيث P_D هي مجموعة القوة {1,...,d}، ويفي التحليل بشروط التعامد الهرمي.
النتيجة النظرية الأساسية للورقة هي النظرية 2.2، التي تؤسس تمثيلاً صريحاً للتحليل:
النظرية 2.2: لتكن G: {0,1}^d → R، حدد:
- g(X) := (e_A(X_A)G(X)){A∈P_D}، حيث e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
- Γ = (Γ_{A,B}){A,B∈P_D} مصفوفة جرام، Γ{A,B} := Ee_A(X_A)e_B(X_B)
- μ متوسط g(X)
يُعطى GHD بالصيغة:
G(X) = ∑_{A∈P_D} β_A e_A(X_A)
حيث المعاملات β تحقق النظام الخطي: Γβ = μ
توفر الورقة أيضاً فهماً من منظور هندسي (النتيجة 2.3):
G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)
حيث e*_A(X) هو المتجه المزدوج المائل لـ e_A(X_A).
- خاصية الفضاء أحادي البعد: إثبات أن كل فضاء تحليل هوفدينج V_A في حالة برنولي متعدد المتغيرات أحادي البعد
- بناء القاعدة الصريح: قاعدة Fourier-Walsh-Hadamard المحولة {e_A(X_A)}_{A∈P_D} تشكل قاعدة متعامدة هرمية
- حل النظام الخطي: تحويل مشكلة التحليل إلى حل نظام خطي بحجم 2^d: Γβ = μ
- خاصية الاستبعاد: إثبات أنه إذا كانت بعض المتغيرات ليس لها تأثير سببي على التنبؤ، فيجب أن تكون معاملات β المقابلة صفراً
تشتق الورقة تعبيراً صريحاً لمؤشرات سوبول المعممة:
S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)
تحقق هذه المؤشرات شرط التطبيع ∑_{A∈P_D} S_A = 1، لكن قد تكون قيماً سالبة (عند وجود ارتباط سلبي قوي).
تعريف تأثيرات شابلي بناءً على أرباح Harsanyi:
Sh_i = ∑_{A⊆D: i∈A} S_A/|A|
لها تعبير صريح في حالة برنولي متعدد المتغيرات.
- دوال العتبة الخطية: تصميم مصنف ثنائي 10 أبعاد G(X) = sign(W^T X + b)
- التحكم في الارتباط: توليد متجهات ثنائية بمستويات ارتباط مختلفة عبر تحديد توزيع غاوسي متعدد المتغيرات
- ثلاثة مستويات اعتماد: اعتماد عالي (ρ=0.9)، اعتماد متوسط (ρ=0.5)، اعتماد ضعيف (ρ=0.1)
- الدراسة البارامترية ثنائية الأبعاد: استخدام copula Farlie-Gumbel-Morgenstern للتحكم في هيكل الاعتماد
- مجموعة بيانات تصنيف الفطر: مجموعة بيانات Agaricus-Lepiota من مكتبة UCI للتعلم الآلي، 8124 عينة، 22 سمة تصنيفية
- خطأ تحليل التباين: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
- الخطأ النسبي: الخطأ المعياري بالنسبة للقيمة الحقيقية
- أداء التصنيف: الدقة، الاستدعاء، درجة F1
تُظهر التجارب أن تجاهل اعتماد الإدخال يؤدي إلى خطأ تقريب كبير:
- في حالة الاعتماد العالي، يصل خطأ التباين النسبي إلى 87%
- الخطأ النسبي لمصفوفة سوبول يبلغ 75% عند الاعتماد العالي
- مع انخفاض الارتباط، ينخفض الخطأ بشكل كبير
- الحالة ثنائية الأبعاد: استعادة ناجحة للقاعدة الاقترانية النظرية X₁X₂
- تصنيف الفطر: تحديد 5 قواعد ثنائية رئيسية، حيث تحتل قاعدة الرائحة 78.2% من إجمالي التباين
- التسلسل الهرمي لأهمية الميزات: X₁(الرائحة) ≫ X₂(جذر الساق) > {X₃,X₄,X₅}(الميزات الأخرى)
توفر الورقة ضمانات نظرية للمقدرات:
- الاتساق القوي: Ĝₙ(x) →^{a.s.} G(x)
- الحالة الطبيعية المقاربة: نظرية الحد المركزي
- حدود التركيز غير المقاربة: عدم المساواة من نوع Bernstein
يتطلب التحليل الكامل حل نظام خطي بحجم 2^d، وهو غير قابل للتطبيق في الحالات عالية الأبعاد.
اقتراح طريقة مقطوعة تحتفظ بالحدود منخفضة الرتبة:
G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)
ينخفض التعقيد من O(2^d) إلى O(d^c)، عملياً يتم اختيار c ∈ {1,2,3} عادة.
ينقسم الخطأ الكلي إلى جزأي الانحياز والتباين:
E(G(x) - Ĝₙ,c(x))² = الانحياز² + التباين
- HD الكلاسيكي (Hoeffding 1948): افتراض الإدخال المستقل
- HD المعمم (Chastaing et al. 2012): إطار عمل نظري للإدخال المترابط
- التطورات الحديثة (Il Idrissi et al. 2025): نظرية الإسقاط المائل
- مؤشرات سوبول: طريقة تحليل التباين
- قيم شابلي: طريقة نظرية اللعبة التعاونية
- الطرق النواة: طرق بديلة للتعامل مع هياكل الاعتماد
- SHAP: طريقة التفسير القائمة على قيم شابلي
- LIME: طريقة القابلية للتفسير المحلية
- آليات الانتباه: القابلية للتفسير في التعلم العميق
- يتمتع GHD تحت توزيع برنولي متعدد المتغيرات بهيكل فضاء أحادي البعد صريح
- توفير طريقة بناء كاملة وإطار عمل حسابي للتحليل
- يمكن حساب مؤشرات الحساسية المعممة بشكل صريح، مع خصائص نظرية جيدة
- للطريقة قيمة عملية في دعم القرار وشرح النموذج
- افتراض الدعم الكامل: يتطلب أن تكون جميع التكوينات 2^d لها احتمالية موجبة، وقد يكون مقيداً جداً في الحالات عالية الأبعاد
- التعقيد الحسابي: التعقيد الأسي للتحليل الكامل يحد من التطبيقات عالية الأبعاد
- انحياز المقطع: يتطلب الانحياز الناجم عن التقريب عالي الأبعاد مزيداً من البحث
- التوسع النظري: تخفيف افتراض الدعم الكامل، التوسع إلى المدخلات المعدودة المحدودة
- تحسين الخوارزمية: تطوير طرق حسابية أكثر كفاءة للحالات عالية الأبعاد
- توسع التطبيق: استكشاف التطبيقات في التعلم العميق وطرق التعلم الآلي الأخرى
- الصرامة النظرية: توفير إطار عمل رياضي كامل وإثباتات
- ابتكار الطريقة: أول إعطاء تحليل صريح في حالة برنولي متعدد المتغيرات
- القيمة العملية: لها قيمة تطبيق مباشرة في شرح نماذج الإدخال الثنائي
- الاكتمال: تشكيل سلسلة كاملة من النظرية إلى الخوارزمية إلى التطبيق
- قيود نطاق التطبيق: ينطبق فقط على الإدخال الثنائي، ويتطلب افتراض الدعم الكامل
- التحديات عالية الأبعاد: يحد التعقيد الأسي من التطبيقات واسعة النطاق
- التحقق التجريبي محدود: التحقق بشكل أساسي في الحالات منخفضة الأبعاد والسيناريوهات المحددة
- المساهمة النظرية: توفير حالة خاصة مهمة لنظرية تحليل الدوال
- القيمة المنهجية: توفير أداة جديدة لشرح النماذج ذات الإدخال الثنائي المترابط
- الإمكانات التطبيقية: آفاق تطبيق واسعة في مجالات الدوال البوليانية وأشجار القرار وغيرها
- الأنظمة الثنائية للقرار: مثل التشخيص الطبي وتقييم الائتمان
- تحليل الشبكات البوليانية: شبكات تنظيم الجينات والدوائر المنطقية
- شرح أشجار القرار: الغابات العشوائية وأشجار التعزيز المتدرج وغيرها من الطرق المجمعة
- تحليل قابلية تفسير الشبكات العصبية الثنائية: الشبكات العصبية المكممة
تستشهد الورقة بـ 50 مرجعاً ذا صلة، تغطي نظرية تحليل هوفدينج وتحليل الحساسية وقابلية تفسير التعلم الآلي وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة عالية الجودة صارمة نظرياً وابتكارية في الطريقة، حيث تحقق مساهمات مهمة في نظرية تحليل الدوال تحت توزيع برنولي متعدد المتغيرات. بينما توجد تحديات في التطبيقات عالية الأبعاد، إلا أنها توفر أدوات نظرية قوية لتحليل قابلية تفسير النماذج ذات الإدخال الثنائي.