Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
- পত্র ID: 2510.07088
- শিরোনাম: Hoeffding বিয়োজনের মাধ্যমে বহুপরিবর্তনশীল বার্নুলি বিতরণের অধীন মডেলগুলির ব্যাখ্যা
- লেখক: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
- শ্রেণীবিভাগ: stat.ML cs.LG
- প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১০ তারিখ (arXiv v2)
- পত্রের লিঙ্ক: https://arxiv.org/abs/2510.07088
এই পত্রটি র্যান্ডম ইনপুট সহ পূর্বাভাসমূলক মডেলগুলির ব্যাখ্যাযোগ্যতার সমস্যা অধ্যয়ন করে, উপ-মডেল বিয়োজনের মাধ্যমে মডেল আচরণের বোঝাপড়া অর্জন করে। অনিশ্চয়তা পরিমাণীকরণ ক্ষেত্রের সর্বশেষ অগ্রগতির উপর ভিত্তি করে, পত্রটি ইনপুট ভেরিয়েবলগুলি বহুপরিবর্তনশীল বার্নুলি বিতরণ অনুসরণ করে এমন ক্ষেত্রে সাধারণীকৃত Hoeffding বিয়োজনের সম্পূর্ণ বর্ণনা প্রদান করে। গবেষণা দেখায় যে এই ক্ষেত্রে, অন্তর্নিহিত L² উপ-স্থান এক-মাত্রিক, এবং ফাংশন বিয়োজন স্পষ্ট, যা সম্পূর্ণ ব্যাখ্যাযোগ্যতা কাঠামোর ভিত্তি স্থাপন করে, তাত্ত্বিকভাবে বিপরীত প্রকৌশল অনুমতি দেয়। পত্রটি ইনপুটের আউটপুট পূর্বাভাসে প্রভাবের স্পষ্ট সূচক (যেমন Sobol সূচক এবং Shapley প্রভাব) ও প্রাপ্ত করে এবং সিদ্ধান্ত সমর্থন সমস্যাগুলিতে পদ্ধতির কার্যকারিতা সংখ্যাসূচক পরীক্ষার মাধ্যমে যাচাই করে।
- মূল সমস্যা: সম্পর্কিত বাইনারি ইনপুট ভেরিয়েবল সহ জটিল পূর্বাভাসমূলক মডেলগুলির আচরণ কীভাবে ব্যাখ্যা করা যায়
- বাস্তব চাহিদা: মেশিন লার্নিং এবং অনিশ্চয়তা পরিমাণীকরণে, ইনপুট ভেরিয়েবলগুলি প্রায়শই স্বাধীন নয়, ঐতিহ্যবাহী Hoeffding বিয়োজন স্বাধীনতা অনুমান করে, যা বাস্তব প্রয়োগে অত্যন্ত সীমাবদ্ধ
- প্রয়োগের দৃশ্য: বাইনারি সিদ্ধান্ত গ্রাফ, বুলিয়ান নেটওয়ার্ক, বাইনারি নিউরাল নেটওয়ার্ক, আণবিক কাঠামো প্রতিনিধিত্ব, সম্ভাব্য বুলিয়ান নেটওয়ার্ক ইত্যাদি
ঐতিহ্যবাহী Hoeffding বিয়োজন (HD) ইনপুট ভেরিয়েবলগুলির পারস্পরিক স্বাধীনতা প্রয়োজন, যা অনেক বাস্তব প্রয়োগে বাস্তবসম্মত নয়। যদিও সাধারণীকৃত Hoeffding বিয়োজন (GHD) এর তাত্ত্বিক কাঠামো বিদ্যমান, নির্দিষ্ট বিতরণের জন্য স্পষ্ট নির্মাণ পদ্ধতির অভাব রয়েছে। বহুপরিবর্তনশীল বার্নুলি বিতরণ একটি গুরুত্বপূর্ণ বিশেষ ক্ষেত্র হিসাবে, অনেক ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে।
- স্বাধীনতা অনুমান: ক্লাসিক্যাল HD ইনপুট ভেরিয়েবল স্বাধীনতা প্রয়োজন, প্রয়োগের পরিসীমা সীমাবদ্ধ করে
- গণনামূলক জটিলতা: বিদ্যমান GHD পদ্ধতি স্পষ্ট নির্মাণের অভাব, বাস্তব গণনা করা কঠিন
- ব্যাখ্যাযোগ্যতা অপর্যাপ্ত: বাইনারি ইনপুটের জন্য সম্পূর্ণ ব্যাখ্যাযোগ্যতা কাঠামোর অভাব
- তাত্ত্বিক অবদান: বহুপরিবর্তনশীল বার্নুলি ক্ষেত্রে GHD এর L² উপ-স্থান এক-মাত্রিক প্রমাণ করে, স্পষ্ট ফাংশন বিয়োজন প্রতিনিধিত্ব প্রদান করে
- গঠনমূলক পদ্ধতি: Fourier-Walsh-Hadamard ভিত্তির রূপান্তরের উপর ভিত্তি করে, বিয়োজন সহগের স্পষ্ট গণনা পদ্ধতি প্রদান করে
- ব্যাখ্যাযোগ্যতা কাঠামো: সাধারণীকৃত Sobol সূচক এবং Shapley প্রভাবের স্পষ্ট অভিব্যক্তি প্রাপ্ত করে
- অ্যালগরিদম বাস্তবায়ন: উচ্চ-মাত্রিক ক্ষেত্রে ছাঁটাই অনুমান পদ্ধতি এবং পরিসংখ্যানগত অনুমান গ্যারান্টি প্রদান করে
- প্রয়োগ যাচাইকরণ: সংশ্লেষিত ডেটা এবং বাস্তব ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করে
একটি d-মাত্রিক বহুপরিবর্তনশীল বার্নুলি র্যান্ডম ভেক্টর X = (X₁, ..., Xd) এবং একটি বর্গ-সংহত ফাংশন G: {0,1}^d → R দেওয়া, লক্ষ্য হল অনন্য ফাংশন বিয়োজন খুঁজে পাওয়া:
G(X) = ∑_{A∈P_D} G_A(X_A)
যেখানে P_D হল {1,...,d} এর শক্তি সেট, বিয়োজন স্তরীয় অর্থগোলকতা শর্ত সন্তুষ্ট করে।
পত্রটির মূল তাত্ত্বিক ফলাফল হল উপপাদ্য 2.2, যা স্পষ্ট বিয়োজন প্রতিনিধিত্ব প্রতিষ্ঠা করে:
উপপাদ্য 2.2: G: {0,1}^d → R সেট করুন, সংজ্ঞায়িত করুন:
- g(X) := (e_A(X_A)G(X)){A∈P_D}, যেখানে e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
- Γ = (Γ_{A,B}){A,B∈P_D} Gram ম্যাট্রিক্স, Γ{A,B} := Ee_A(X_A)e_B(X_B)
- μ হল g(X) এর গড়
তখন GHD নিম্নলিখিত দ্বারা দেওয়া হয়:
G(X) = ∑_{A∈P_D} β_A e_A(X_A)
যেখানে সহগ β রৈখিক সিস্টেম সন্তুষ্ট করে: Γβ = μ
পত্রটি জ্যামিতিক দৃষ্টিভঙ্গির বোঝাপড়াও প্রদান করে (অনুসিদ্ধান্ত 2.3):
G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)
যেখানে e*_A(X) হল e_A(X_A) এর তির্যক দ্বৈত ভেক্টর।
- এক-মাত্রিক উপ-স্থান সম্পত্তি: বহুপরিবর্তনশীল বার্নুলি ক্ষেত্রে প্রতিটি Hoeffding বিয়োজন স্থান V_A এক-মাত্রিক প্রমাণ করে
- স্পষ্ট ভিত্তি নির্মাণ: রূপান্তরের Fourier-Walsh-Hadamard ভিত্তি {e_A(X_A)}_{A∈P_D} স্তরীয় অর্থগোলক ভিত্তি গঠন করে
- রৈখিক সিস্টেম সমাধান: বিয়োজন সমস্যা 2^d মাত্রিক রৈখিক সিস্টেম Γβ = μ সমাধানে রূপান্তরিত করে
- বর্জন সম্পত্তি: যদি নির্দিষ্ট ভেরিয়েবলগুলির পূর্বাভাসে কোনো কার্যকারণ প্রভাব না থাকে, তবে সংশ্লিষ্ট β সহগ অবশ্যই শূন্য হবে প্রমাণ করে
পত্রটি সাধারণীকৃত Sobol সূচকের স্পষ্ট অভিব্যক্তি প্রাপ্ত করে:
S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)
এই সূচকগুলি স্বাভাবিকীকরণ শর্ত ∑_{A∈P_D} S_A = 1 সন্তুষ্ট করে, কিন্তু নেতিবাচক মূল্য হতে পারে (যখন শক্তিশালী নেতিবাচক সম্পর্ক থাকে)।
Harsanyi লভ্যাংশের উপর ভিত্তি করে Shapley প্রভাব সংজ্ঞা:
Sh_i = ∑_{A⊆D: i∈A} S_A/|A|
বহুপরিবর্তনশীল বার্নুলি ক্ষেত্রে স্পষ্ট অভিব্যক্তি রয়েছে।
- রৈখিক থ্রেশহোল্ড ফাংশন: 10-মাত্রিক বাইনারি শ্রেণীবিভাজক G(X) = sign(W^T X + b) ডিজাইন করেছে
- সম্পর্ক নিয়ন্ত্রণ: বহুপরিবর্তনশীল গাউসিয়ান বিতরণ থ্রেশহোল্ড করে বিভিন্ন সম্পর্ক স্তরের বাইনারি ভেক্টর তৈরি করে
- তিনটি নির্ভরতা স্তর: উচ্চ নির্ভরতা (ρ=0.9), মধ্যম নির্ভরতা (ρ=0.5), দুর্বল নির্ভরতা (ρ=0.1)
- দ্বি-মাত্রিক প্যারামিটারকৃত অধ্যয়ন: Farlie-Gumbel-Morgenstern copula ব্যবহার করে নির্ভরতা কাঠামো নিয়ন্ত্রণ করে
- মাশরুম শ্রেণীবিভাগ ডেটাসেট: UCI মেশিন লার্নিং লাইব্রেরির Agaricus-Lepiota ডেটাসেট, 8124 নমুনা, 22টি শ্রেণীগত বৈশিষ্ট্য
- বৈচিত্র্য বিয়োজন ত্রুটি: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
- আপেক্ষিক ত্রুটি: প্রকৃত মূল্যের সাপেক্ষে স্বাভাবিকীকৃত ত্রুটি
- শ্রেণীবিভাগ কর্মক্ষমতা: নির্ভুলতা, প্রত্যাহার, F1 স্কোর
পরীক্ষা দেখায় যে ইনপুট নির্ভরতা উপেক্ষা করা উল্লেখযোগ্য অনুমান ত্রুটি সৃষ্টি করে:
- উচ্চ নির্ভরতা ক্ষেত্রে, আপেক্ষিক বৈচিত্র্য ত্রুটি 87% এ পৌঁছায়
- Sobol ম্যাট্রিক্সের আপেক্ষিক ত্রুটি উচ্চ নির্ভরতায় 75%
- সম্পর্ক হ্রাসের সাথে, ত্রুটি উল্লেখযোগ্যভাবে হ্রাস পায়
- দ্বি-মাত্রিক ক্ষেত্র: তাত্ত্বিক conjunctive নিয়ম X₁X₂ সফলভাবে পুনরুদ্ধার করেছে
- মাশরুম শ্রেণীবিভাগ: 5টি মূল বাইনারি নিয়ম চিহ্নিত করেছে, যার মধ্যে গন্ধ নিয়ম মোট বৈচিত্র্যের 78.2% দখল করে
- বৈশিষ্ট্য গুরুত্ব শ্রেণীবিন্যাস: X₁(গন্ধ) ≫ X₂(কাণ্ড মূল) > {X₃,X₄,X₅}(অন্যান্য বৈশিষ্ট্য)
পত্রটি অনুমানকারীর তাত্ত্বিক গ্যারান্টি প্রদান করে:
- শক্তিশালী সামঞ্জস্যতা: Ĝₙ(x) →^{a.s.} G(x)
- অ্যাসিম্পটোটিক স্বাভাবিকতা: কেন্দ্রীয় সীমা উপপাদ্য
- অ-অ্যাসিম্পটোটিক ঘনীভবন সীমানা: Bernstein-ধরনের অসমতা
সম্পূর্ণ বিয়োজন 2^d মাত্রিক রৈখিক সিস্টেম সমাধান প্রয়োজন, উচ্চ-মাত্রিক ক্ষেত্রে অসম্ভব।
নিম্ন-ক্রম পদ ধরে রাখার ছাঁটাই পদ্ধতি প্রস্তাব করেছে:
G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)
জটিলতা O(2^d) থেকে O(d^c) এ হ্রাস পায়, অনুশীলনে সাধারণত c ∈ {1,2,3} নির্বাচন করা হয়।
মোট ত্রুটি পক্ষপাত এবং বৈচিত্র্য দুটি অংশে বিয়োজিত হয়:
E(G(x) - Ĝₙ,c(x))² = পক্ষপাত² + বৈচিত্র্য
- ক্লাসিক্যাল HD (Hoeffding 1948): স্বাধীন ইনপুট অনুমান
- সাধারণীকৃত HD (Chastaing et al. 2012): সম্পর্কিত ইনপুটের তাত্ত্বিক কাঠামো
- সর্বশেষ অগ্রগতি (Il Idrissi et al. 2025): তির্যক প্রজেকশন তত্ত্ব
- Sobol সূচক: বৈচিত্র্য বিয়োজন পদ্ধতি
- Shapley মূল্য: সহযোগী খেলা তত্ত্ব পদ্ধতি
- কার্নেল পদ্ধতি: নির্ভরতা কাঠামো পরিচালনার বিকল্প পদ্ধতি
- SHAP: Shapley মূল্যের উপর ভিত্তি করে ব্যাখ্যা পদ্ধতি
- LIME: স্থানীয় ব্যাখ্যাযোগ্যতা পদ্ধতি
- মনোযোগ প্রক্রিয়া: গভীর শিক্ষায় ব্যাখ্যাযোগ্যতা
- বহুপরিবর্তনশীল বার্নুলি বিতরণের অধীন GHD স্পষ্ট এক-মাত্রিক উপ-স্থান কাঠামো রয়েছে
- সম্পূর্ণ গঠনমূলক বিয়োজন পদ্ধতি এবং গণনা কাঠামো প্রদান করে
- সাধারণীকৃত সংবেদনশীলতা সূচক স্পষ্টভাবে গণনা করা যায়, ভাল তাত্ত্বিক সম্পত্তি রয়েছে
- পদ্ধতি সিদ্ধান্ত সমর্থন এবং মডেল ব্যাখ্যায় ব্যবহারিক মূল্য রয়েছে
- সম্পূর্ণ সমর্থন অনুমান: সমস্ত 2^d কনফিগারেশনে ইতিবাচক সম্ভাবনা প্রয়োজন, উচ্চ-মাত্রিক ক্ষেত্রে অত্যন্ত কঠোর হতে পারে
- গণনামূলক জটিলতা: সম্পূর্ণ বিয়োজনের সূচকীয় জটিলতা উচ্চ-মাত্রিক প্রয়োগ সীমাবদ্ধ করে
- ছাঁটাই পক্ষপাত: উচ্চ-মাত্রিক অনুমান দ্বারা প্রবর্তিত পক্ষপাত আরও গবেষণা প্রয়োজন
- তাত্ত্বিক সম্প্রসারণ: সম্পূর্ণ সমর্থন অনুমান শিথিল করুন, সীমিত গণনাযোগ্য ইনপুটে সম্প্রসারণ করুন
- অ্যালগরিদম অপ্টিমাইজেশন: উচ্চ-মাত্রিক গণনার জন্য আরও দক্ষ পদ্ধতি বিকাশ করুন
- প্রয়োগ সম্প্রসারণ: গভীর শিক্ষা এবং অন্যান্য মেশিন লার্নিং মডেলে প্রয়োগ অন্বেষণ করুন
- তাত্ত্বিক কঠোরতা: সম্পূর্ণ গাণিতিক তাত্ত্বিক কাঠামো এবং প্রমাণ প্রদান করে
- পদ্ধতি উদ্ভাবনী: বহুপরিবর্তনশীল বার্নুলি ক্ষেত্রে প্রথমবার স্পষ্ট বিয়োজন প্রদান করে
- ব্যবহারিক মূল্য: বাইনারি ইনপুট মডেল ব্যাখ্যায় সরাসরি প্রয়োগ মূল্য রয়েছে
- সম্পূর্ণতা: তত্ত্ব থেকে অ্যালগরিদম থেকে প্রয়োগ সম্পূর্ণ শৃঙ্খল গঠন করে
- প্রযোজ্যতার পরিসীমা সীমাবদ্ধ: শুধুমাত্র বাইনারি ইনপুটে প্রযোজ্য, এবং সম্পূর্ণ সমর্থন অনুমান প্রয়োজন
- উচ্চ-মাত্রিক চ্যালেঞ্জ: সূচকীয় জটিলতা বড় আকারের প্রয়োগ সীমাবদ্ধ করে
- সীমিত পরীক্ষামূলক যাচাইকরণ: প্রধানত নিম্ন-মাত্রিক এবং নির্দিষ্ট দৃশ্যে যাচাই করা হয়েছে
- তাত্ত্বিক অবদান: ফাংশন বিয়োজন তত্ত্বে গুরুত্বপূর্ণ বিশেষ ক্ষেত্র প্রদান করে
- পদ্ধতিগত মূল্য: সম্পর্কিত বাইনারি ইনপুটের মডেল ব্যাখ্যার জন্য নতুন সরঞ্জাম প্রদান করে
- প্রয়োগ সম্ভাবনা: বুলিয়ান ফাংশন, সিদ্ধান্ত গাছ ইত্যাদি ক্ষেত্রে ব্যাপক প্রয়োগ সম্ভাবনা রয়েছে
- বাইনারি সিদ্ধান্ত সিস্টেম: যেমন চিকিৎসা নির্ণয়, ক্রেডিট মূল্যায়ন ইত্যাদি
- বুলিয়ান নেটওয়ার্ক বিশ্লেষণ: জিন নিয়ন্ত্রণ নেটওয়ার্ক, যুক্তি সার্কিট ইত্যাদি
- সিদ্ধান্ত গাছ ব্যাখ্যা: র্যান্ডম ফরেস্ট, গ্রেডিয়েন্ট বুস্টিং গাছ ইত্যাদি সমন্বয় পদ্ধতি
- বাইনারি নিউরাল নেটওয়ার্ক: পরিমাণিত নিউরাল নেটওয়ার্কের ব্যাখ্যাযোগ্যতা বিশ্লেষণ
পত্রটি 50টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা Hoeffding বিয়োজন তত্ত্ব, সংবেদনশীলতা বিশ্লেষণ, মেশিন লার্নিং ব্যাখ্যাযোগ্যতা ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি তাত্ত্বিকভাবে কঠোর এবং পদ্ধতিগতভাবে উদ্ভাবনী উচ্চ-মানের পত্র, যা বহুপরিবর্তনশীল বার্নুলি বিতরণের ফাংশন বিয়োজন তত্ত্বে গুরুত্বপূর্ণ অবদান রাখে। যদিও উচ্চ-মাত্রিক প্রয়োগে চ্যালেঞ্জ রয়েছে, তবে এটি বাইনারি ইনপুট মডেলের ব্যাখ্যাযোগ্যতা বিশ্লেষণের জন্য শক্তিশালী তাত্ত্বিক সরঞ্জাম প্রদান করে।