2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

বুটস্ট্র্যাপ পরীক্ষা প্রায় সুসংগতির জন্য

মৌলিক তথ্য

  • পেপার আইডি: 2410.20918
  • শিরোনাম: Bootstrap tests for almost goodness-of-fit
  • লেখক: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del Páıs Vasco)
  • শ্রেণীবিভাগ: stat.ME (পরিসংখ্যানগত পদ্ধতি), math.ST (গাণিতিক পরিসংখ্যান), stat.AP (প্রয়োগিত পরিসংখ্যান), stat.TH (পরিসংখ্যানগত তত্ত্ব)
  • প্রকাশনার সময়: অক্টোবর ১৫, ২০২৫ (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2410.20918

সংক্ষিপ্তসার

এই পেপারটি "প্রায় সুসংগতি পরীক্ষা" (almost goodness-of-fit, AGoF) প্রবর্তন করে, যা মূল্যায়ন করে যে পরামিতিক মডেলগুলি পর্যবেক্ষিত নমুনার সম্ভাব্যতা বিতরণকে কতটা ভালভাবে প্রতিনিধিত্ব করতে পারে। নির্দিষ্টভাবে, বিতরণ ফাংশন FF এবং পরামিতি পরিবার G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\} দেওয়া হলে, অনুমান পরীক্ষার সমস্যা বিবেচনা করুন: H0:FG(θF)pϵবনামH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{বনাম} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon যেখানে ϵ>0\epsilon > 0 ত্রুটি সহনশীলতা, এবং G(θF)G(\theta_F) পরামিতি শ্রেণীতে FF এর প্রতিনিধিত্ব নির্দেশ করে। M-অনুমান দ্বারা প্রায় মডেল নির্ধারণ করা হয়, এবং পরীক্ষা সম্পাদনের জন্য দুটি সামঞ্জস্যপূর্ণ এবং সহজে বাস্তবায়নযোগ্য বুটস্ট্র্যাপ স্কিম প্রদান করা হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

ঐতিহ্যবাহী সুসংগতি পরীক্ষায় একটি মৌলিক সমস্যা রয়েছে: তারা "মডেলটি ডেটার যুক্তিসঙ্গত অনুমান" এই বিবৃতিটি শূন্য অনুমান H0H_0 এ রাখে, তাই শুধুমাত্র মডেলের "অসুসংগতির" জন্য পরিসংখ্যানগত প্রমাণ প্রদান করতে পারে, প্রকৃত "সুসংগতির" জন্য প্রমাণ প্রদান করতে পারে না।

গবেষণা প্রেরণা

  1. ঐতিহ্যবাহী GoF পরীক্ষার সীমাবদ্ধতা: ক্লাসিক পদ্ধতি শুধুমাত্র মডেল প্রত্যাখ্যান করতে পারে, মডেলের প্রযোজ্যতা যাচাই করতে পারে না
  2. ব্যবহারিক চাহিদা: অনুশীলনে, আমরা আরও যত্নশীল যে মডেলটি "যথেষ্ট ভাল" কিনা, সম্পূর্ণ নির্ভুল কিনা তা নয়
  3. প্রায় মডেলিংয়ের গুরুত্ব: বাস্তবে খুব কম মডেল ডেটা নিখুঁতভাবে বর্ণনা করতে পারে, একটি নির্দিষ্ট স্তরের বিচ্যুতি সহ্য করার প্রয়োজন

বিদ্যমান পদ্ধতির অপর্যাপ্ততা

  • Kolmogorov-Smirnov শ্রেণীর পরিসংখ্যান পরামিতি অনুমানের অধীনে সীমাবদ্ধ বিতরণ জটিল এবং অ-গাউসিয়ান
  • বুটস্ট্র্যাপ পদ্ধতি sup-নর্ম অনুমান করার সময় সাধারণত অসামঞ্জস্যপূর্ণ
  • পরামিতি পরিবারের প্রায় যাচাইকরণ পরিচালনার জন্য একীভূত কাঠামোর অভাব

মূল অবদান

  1. AGoF পরীক্ষা কাঠামো প্রস্তাব: "প্রায় সুসংগতি" বিকল্প অনুমানে রাখে, মডেলের প্রযোজ্যতার জন্য পরিসংখ্যানগত প্রমাণ প্রদান করতে পারে
  2. LpL^p দূরত্ব ব্যবহার: ঐতিহ্যবাহী supremum নর্মের তুলনায়, LpL^p নর্ম উন্নত তাত্ত্বিক বৈশিষ্ট্য এবং গণনামূলক সুবিধা রয়েছে
  3. দুটি বুটস্ট্র্যাপ স্কিম বিকাশ: তাদের সামঞ্জস্য প্রমাণ করা হয়েছে, এবং ব্যবহারিক বাস্তবায়ন অ্যালগরিদম প্রদান করা হয়েছে
  4. AGoF পরিসংখ্যান প্রবর্তন: অ-তথ্যপূর্ণ ভিত্তির সাপেক্ষে মডেলের উন্নতির শতাংশ পরিমাণ করে
  5. সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ প্রদান:渐近 বিতরণ, বুটস্ট্র্যাপ সামঞ্জস্য সহ তাত্ত্বিক গ্যারান্টি অন্তর্ভুক্ত

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অজানা বিতরণ FF থেকে নমুনা X1,,XnX_1, \ldots, X_n এবং পরামিতি মডেল পরিবার G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\} দেওয়া হলে, পরীক্ষা করুন: H0:FG(θF)pϵবনামH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{বনাম} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

যেখানে θF\theta_F M-অনুমান দ্বারা নির্ধারিত: EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0

মূল পদ্ধতি স্থাপত্য

১. পরামিতি অনুমান

M-অনুমানক ব্যবহার করে সমাধান করুন: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

২. পরীক্ষা পরিসংখ্যান

মানককৃত পরিসংখ্যান: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

३. প্রত্যাখ্যান অঞ্চল নির্মাণ

প্রত্যাখ্যান অঞ্চল প্রস্তাব করুন: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} যেখানে cn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n}, QT(α)Q_T(\alpha) সীমাবদ্ধ বিতরণের α\alpha কোয়ান্টাইল।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. LpL^p দূরত্বের নির্বাচন সুবিধা

  • Hadamard পার্থক্যযোগ্যতা: 1<p<1 < p < \infty এর জন্য, LpL^p নর্ম Hadamard পার্থক্যযোগ্য, কার্যকরী ডেল্টা পদ্ধতি প্রয়োগ সুবিধাজনক
  • গাউসিয়ান সীমা: সাধারণ অনুমানের অধীনে,渐近 বিতরণ গাউসিয়ান
  • বুটস্ট্র্যাপ সামঞ্জস্য: উপযুক্ত শর্তে, মানক বুটস্ট্র্যাপ অনুমানক সামঞ্জস্যপূর্ণ
  • নমনীয়তা: pp মান সামঞ্জস্য করে বিতরণ লেজের প্রতি সংবেদনশীলতা নিয়ন্ত্রণ করা যায়

२. তাত্ত্বিক কাঠামো

সম্পূর্ণ渐近 তত্ত্ব প্রতিষ্ঠা করুন, যার মধ্যে রয়েছে:

  • LpL^p স্থানে অভিজ্ঞতামূলক প্রক্রিয়ার দুর্বল সংগ্রহ
  • অনুমানকৃত পরামিতি সহ প্রক্রিয়ার সীমাবদ্ধ বিতরণ
  • বুটস্ট্র্যাপ প্রক্রিয়ার সামঞ্জস্য

তাত্ত্বিক ফলাফল

প্রধান উপপাদ্য

উপপাদ্য ১: প্রক্রিয়া দুর্বল সংগ্রহ

অনুমান ১-२ এর অধীনে, XL2/p,1X \in L^{2/p,1} যদি এবং শুধুমাত্র যদি: Gn(θF)GθF in LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p যেখানে GθFG_{\theta_F} কেন্দ্রীভূত গাউসিয়ান প্রক্রিয়া।

উপপাদ্য २: পরীক্ষা পরিসংখ্যানের渐近 বিতরণ

  • যখন p=1p = 1: T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • যখন 1<p<1 < p < \infty: T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

অনুসিদ্ধান্ত १: সাধারণত্ব শর্ত

সীমাবদ্ধ বিতরণ সাধারণ হওয়ার প্রয়োজনীয় এবং পর্যাপ্ত শর্ত:

  • p=1p = 1: যোগাযোগ সেট CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\} এর Lebesgue পরিমাপ শূন্য
  • 1<p<1 < p < \infty: FG(θF)F \neq G(\theta_F)

বুটস্ট্র্যাপ সামঞ্জস্য

উপপাদ্য ३ এবং অনুসিদ্ধান্ত २ প্রমাণ করে যে উপযুক্ত অনুমানের অধীনে, বুটস্ট্র্যাপ পরিসংখ্যান একই সীমাবদ্ধ বিতরণে দুর্বলভাবে সংগ্রহ করে।

পরীক্ষামূলক সেটআপ

অনুকরণ গবেষণা ডিজাইন

  • নমুনা আকার: n=30,50,100,500n = 30, 50, 100, 500
  • বুটস্ট্র্যাপ পুনরাবৃত্তি: B=2000B = 2000
  • তাৎপর্য স্তর: α=0.05\alpha = 0.05
  • Monte Carlo পুনরাবৃত্তি: ১০০০ বার

পরীক্ষা পরিস্থিতি

१. Weibull বনাম সূচকীয় মডেল: p=1p = 1, প্রকৃত বিতরণ Weibull(२,१) २. গাউসিয়ান মিশ্রণ বনাম সাধারণ মডেল: p=p = २, প্রকৃত বিতরণ দুই-উপাদান গাউসিয়ান মিশ্রণ ३. ঋণাত্মক দ্বিপদ বনাম Poisson মডেল: p=p = १, বিচ্ছিন্ন বিতরণ ক্ষেত্রে ४. Kumaraswamy বনাম Beta মডেল: p=p = १, সীমাবদ্ধ সমর্থন ক্ষেত্রে ५. Student t বনাম সাধারণ মডেল: p=p = ४, ভারী লেজ বিতরণ ক্ষেত্রে ६. লগ-সাধারণ বনাম Gamma মডেল: p=p = १, তির্যক বিতরণ ক্ষেত্রে

দুটি বুটস্ট্র্যাপ পদ্ধতি

  • বুটস্ট্র্যাপ १: কোয়ান্টাইল-ভিত্তিক পদ্ধতি, প্রত্যাখ্যান শর্ত: FnG(θ^n)pϵ^(α)<ϵ२\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • বুটস্ট্র্যাপ २: সাধারণ অনুমান-ভিত্তিক পদ্ধতি, প্রত্যাখ্যান শর্ত: FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

१. পদ্ধতি কর্মক্ষমতা তুলনা

  • মাঝারি নমুনা আকার (n=500n = 500): দুটি পদ্ধতি অনুরূপ কর্মক্ষমতা, উভয়ই পরীক্ষা স্তর ভালভাবে নিয়ন্ত্রণ করতে পারে
  • ছোট নমুনা আকার (n100n \leq 100): বুটস্ট্র্যাপ २ সাধারণত নামমাত্র তাৎপর্য স্তর ভালভাবে নিয়ন্ত্রণ করতে পারে
  • উচ্চ AGoF পরিসংখ্যান ক্ষেত্রে (> ०.९): বুটস্ট্র্যাপ १ উন্নত কর্মক্ষমতা

२. নির্দিষ্ট ফলাফল উদাহরণ

Weibull বনাম সূচকীয় মডেল উদাহরণ:

  • FG(θF)1=0.3002\|F - G(\theta_F)\|_1 = 0.3002
  • AGoF পরিসংখ্যান: G(F,G)=0.194G(F,G) = 0.194 (শুধুমাত্র ধ্রুবক মডেল থেকে १९.४% উন্নতি)
  • শক্তি ফাংশন দেখায় যে দুটি পদ্ধতি n=500n = 500 এ প্রায় আলাদা করা যায় না

३. ব্যবহারিক সুপারিশ

  • AGoF পরিসংখ্যান ०-०.९ এর মধ্যে: বুটস্ট্র্যাপ २ সুপারিশ করুন
  • AGoF পরিসংখ্যান ०.९ অতিক্রম করে: বুটস্ট্র্যাপ १ সুপারিশ করুন
  • ছোট নমুনা আকারে সাবধানে ফলাফল ব্যাখ্যা করার প্রয়োজন

ব্যবহারিক প্রয়োগ

প্রয়োগ १: হাইতি সেরোলজি সমীক্ষা

ডেটা: হাইতি জাতীয় সেরো সমীক্ষায় ४३०८ IgG অ্যান্টিবডি নমুনা (Bm३३ অ্যান্টিজেন)

বিশ্লেষণ: १-५ উপাদান সাধারণ মিশ্রণ মডেলের AGoF পরীক্ষা

  • २ উপাদান মডেল সর্বোত্তম কর্মক্ষমতা: ϵ(.०५).०२२\epsilon^*_२(०.०५) \approx ०.०२२ (LL^१), G(F,G)>.९७G^*(F,G_२) > ०.९७
  • একক উপাদান সাধারণ মডেল অপর্যাপ্ত: উন্নতির হার < ७८%
  • ३ উপাদান এবং তার বেশি মডেল সীমিত উন্নতি (< १%)

প্রয়োগ २: কার্বন ফাইবার ভাঙ্গন চাপ

ডেটা: বিভিন্ন মানক দৈর্ঘ্যে প্রায় १२०० কার্বন ফাইবারের টানা কর্মক্ষমতা

মডেল তুলনা: Weibull, তিন-পরামিতি Weibull, তির্যক সাধারণ, দ্বি-শিখর Weibull

প্রধান আবিষ্কার:

  • দ্বি-শিখর Weibull বেশিরভাগ মানক দৈর্ঘ্যে সর্বোত্তম কর্মক্ষমতা
  • মডেল কর্মক্ষমতা মানক দৈর্ঘ্যের সাথে উল্লেখযোগ্যভাবে হ্রাস পায় (দ্বি-শিখর Weibull ছাড়া)
  • রৈখিক রিগ্রেশন বিশ্লেষণ এই প্রবণতার পরিসংখ্যানগত তাৎপর্য নিশ্চিত করে

সম্পর্কিত কাজ

ঐতিহ্যবাহী সুসংগতি পরীক্ষা

  • Kolmogorov-Smirnov পরীক্ষা এবং এর সীমাবদ্ধতা
  • Cramér-von Mises পরীক্ষার বিতরণ নির্ভরতা সমস্যা

সমতুল্যতা পরীক্ষা

  • Wellek (२०२१) এর Lehmann বিকল্প অনুমান পদ্ধতি
  • Liu এবং Lindsay (२००९) এর বহুপদী মডেল সহনশীলতা অঞ্চল
  • Romano (२००५) এর সর্বোত্তম সমতুল্যতা পরীক্ষা

সম্পর্কিত অনুমান পরীক্ষা

  • Berger এবং Delampady (१९८७) এর নির্ভুল অনুমান পরীক্ষা
  • Dette এবং Sen (२०१३) এর সম্পর্কিত অনুমান সামঞ্জস্য পরীক্ষা পদ্ধতি
  • Baringhaus এবং Henze (२०२४) এর প্রতিবেশী যাচাইকরণ পরীক্ষা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. পদ্ধতির কার্যকারিতা: AGoF পরীক্ষা সফলভাবে ঐতিহ্যবাহী GoF পরীক্ষার সমস্যা সমাধান করে যা শুধুমাত্র "অসুসংগতির" প্রমাণ প্রদান করতে পারে २. তাত্ত্বিক সম্পূর্ণতা: সম্পূর্ণ渐近 তত্ত্ব এবং বুটস্ট্র্যাপ সামঞ্জস্য প্রমাণ প্রদান করে ३. ব্যবহারিকতা: দুটি বুটস্ট্র্যাপ স্কিম সহজে বাস্তবায়নযোগ্য, বিস্তৃত পরামিতি মডেলে প্রযোজ্য

সীমাবদ্ধতা

१. সংহতকরণযোগ্যতা শর্ত: XL/p,X \in L^{२/p,१} শর্ত পূরণের প্রয়োজন, প্রযোজ্যতার পরিধি সীমিত করে २. পরামিতি নির্বাচন: ত্রুটি সহনশীলতা ϵ\epsilon এর নির্বাচন এখনও ক্ষেত্র বিশেষজ্ঞ জ্ঞান প্রয়োজন ३. গণনামূলক জটিলতা: সহজ GoF পরীক্ষার তুলনায়, গণনামূলক খরচ বেশি

ভবিষ্যত দিকনির্দেশনা

१. বহুমাত্রিক সম্প্রসারণ: পদ্ধতি বহুমাত্রিক বিতরণ ক্ষেত্রে সম্প্রসারণ করুন २. অ-পরামিতি বিকল্প: অ-পরামিতি বা আধা-পরামিতি মডেলের প্রায় যাচাইকরণ বিবেচনা করুন ३. স্বয়ংক্রিয় পদ্ধতি: ϵ\epsilon স্বয়ংক্রিয়ভাবে নির্বাচন করার জন্য ডেটা-চালিত পদ্ধতি বিকাশ করুন

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো সিস্টেমেটিকভাবে "প্রায় সুসংগতি" বিকল্প অনুমানে রাখে, গুরুত্বপূর্ণ ধারণাগত অগ্রগতি রয়েছে २. পদ্ধতিগত সম্পূর্ণতা: তাত্ত্বিক বিশ্লেষণ থেকে বাস্তবায়ন অ্যালগরিদম পর্যন্ত অত্যন্ত সম্পূর্ণ ३. ব্যবহারিক মূল্য: AGoF পরিসংখ্যান মডেল গুণমানের স্বজ্ঞাত পরিমাপ প্রদান করে ४. প্রযুক্তিগত সুবিধা: LpL^p দূরত্বের নির্বাচন তাত্ত্বিক এবং গণনামূলক উভয় ক্ষেত্রেই স্পষ্ট সুবিধা রয়েছে

অপর্যাপ্ততা

१. অনুমান শর্ত: M-অনুমান কাঠামো এবং সংহতকরণযোগ্যতা শর্ত প্রযোজ্যতা সীমিত করতে পারে २. পরামিতি সমন্বয়: pp মান এবং ϵ\epsilon এর নির্বাচন সিস্টেমেটিক নির্দেশনার অভাব ३. গণনামূলক দক্ষতা: বুটস্ট্র্যাপ প্রক্রিয়ার গণনামূলক খরচ তুলনামূলকভাবে বেশি

প্রভাব

१. একাডেমিক অবদান: সুসংগতি পরীক্ষা ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য: মডেল নির্বাচন এবং যাচাইকরণে গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: তাত্ত্বিক ফলাফল সম্পূর্ণ, অ্যালগরিদম বর্ণনা স্পষ্ট, পুনরুৎপাদন সহজ

প্রযোজ্য পরিস্থিতি

  • পরামিতি মডেল প্রযোজ্যতা যাচাইকরণের প্রয়োজন এমন ক্ষেত্র
  • মডেল নির্বাচন এবং তুলনা
  • নিয়ন্ত্রক এবং গুণমান নিয়ন্ত্রণে মডেল যাচাইকরণ
  • ঝুঁকি ব্যবস্থাপনায় বিতরণ মডেল মূল্যায়ন

তথ্যসূত্র

পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, অভিজ্ঞতামূলক প্রক্রিয়া তত্ত্ব, M-অনুমান, বুটস্ট্র্যাপ পদ্ধতি সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।