2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

BaÃllo, CÃ¡rcamo

We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolÎ¸) : \boldsymbolÎ¸ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolÎ¸_F) \|_p \geq Îµ\quad \text{vs} \quad H_1: \| F - G(\boldsymbolÎ¸_F) \|_p < Îµ, \] where $Îµ>0$ is a margin of error and $G(\boldsymbolÎ¸_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.

academic

বুটস্ট্র্যাপ পরীক্ষা প্রায় সুসংগতির জন্য

মৌলিক তথ্য

পেপার আইডি: 2410.20918
শিরোনাম: Bootstrap tests for almost goodness-of-fit
লেখক: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del Páıs Vasco)
শ্রেণীবিভাগ: stat.ME (পরিসংখ্যানগত পদ্ধতি), math.ST (গাণিতিক পরিসংখ্যান), stat.AP (প্রয়োগিত পরিসংখ্যান), stat.TH (পরিসংখ্যানগত তত্ত্ব)
প্রকাশনার সময়: অক্টোবর ১৫, ২০২৫ (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2410.20918

সংক্ষিপ্তসার

এই পেপারটি "প্রায় সুসংগতি পরীক্ষা" (almost goodness-of-fit, AGoF) প্রবর্তন করে, যা মূল্যায়ন করে যে পরামিতিক মডেলগুলি পর্যবেক্ষিত নমুনার সম্ভাব্যতা বিতরণকে কতটা ভালভাবে প্রতিনিধিত্ব করতে পারে। নির্দিষ্টভাবে, বিতরণ ফাংশন $F$ এবং পরামিতি পরিবার $\mathcal{G}=\{G(\theta) : \theta \in \Theta\}$ দেওয়া হলে, অনুমান পরীক্ষার সমস্যা বিবেচনা করুন: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{বনাম} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$ যেখানে $\epsilon > 0$ ত্রুটি সহনশীলতা, এবং $G(\theta_F)$ পরামিতি শ্রেণীতে $F$ এর প্রতিনিধিত্ব নির্দেশ করে। M-অনুমান দ্বারা প্রায় মডেল নির্ধারণ করা হয়, এবং পরীক্ষা সম্পাদনের জন্য দুটি সামঞ্জস্যপূর্ণ এবং সহজে বাস্তবায়নযোগ্য বুটস্ট্র্যাপ স্কিম প্রদান করা হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

ঐতিহ্যবাহী সুসংগতি পরীক্ষায় একটি মৌলিক সমস্যা রয়েছে: তারা "মডেলটি ডেটার যুক্তিসঙ্গত অনুমান" এই বিবৃতিটি শূন্য অনুমান $H_0$ এ রাখে, তাই শুধুমাত্র মডেলের "অসুসংগতির" জন্য পরিসংখ্যানগত প্রমাণ প্রদান করতে পারে, প্রকৃত "সুসংগতির" জন্য প্রমাণ প্রদান করতে পারে না।

গবেষণা প্রেরণা

ঐতিহ্যবাহী GoF পরীক্ষার সীমাবদ্ধতা: ক্লাসিক পদ্ধতি শুধুমাত্র মডেল প্রত্যাখ্যান করতে পারে, মডেলের প্রযোজ্যতা যাচাই করতে পারে না
ব্যবহারিক চাহিদা: অনুশীলনে, আমরা আরও যত্নশীল যে মডেলটি "যথেষ্ট ভাল" কিনা, সম্পূর্ণ নির্ভুল কিনা তা নয়
প্রায় মডেলিংয়ের গুরুত্ব: বাস্তবে খুব কম মডেল ডেটা নিখুঁতভাবে বর্ণনা করতে পারে, একটি নির্দিষ্ট স্তরের বিচ্যুতি সহ্য করার প্রয়োজন

বিদ্যমান পদ্ধতির অপর্যাপ্ততা

Kolmogorov-Smirnov শ্রেণীর পরিসংখ্যান পরামিতি অনুমানের অধীনে সীমাবদ্ধ বিতরণ জটিল এবং অ-গাউসিয়ান
বুটস্ট্র্যাপ পদ্ধতি sup-নর্ম অনুমান করার সময় সাধারণত অসামঞ্জস্যপূর্ণ
পরামিতি পরিবারের প্রায় যাচাইকরণ পরিচালনার জন্য একীভূত কাঠামোর অভাব

মূল অবদান

AGoF পরীক্ষা কাঠামো প্রস্তাব: "প্রায় সুসংগতি" বিকল্প অনুমানে রাখে, মডেলের প্রযোজ্যতার জন্য পরিসংখ্যানগত প্রমাণ প্রদান করতে পারে
$L^p$ দূরত্ব ব্যবহার: ঐতিহ্যবাহী supremum নর্মের তুলনায়, $L^p$ নর্ম উন্নত তাত্ত্বিক বৈশিষ্ট্য এবং গণনামূলক সুবিধা রয়েছে
দুটি বুটস্ট্র্যাপ স্কিম বিকাশ: তাদের সামঞ্জস্য প্রমাণ করা হয়েছে, এবং ব্যবহারিক বাস্তবায়ন অ্যালগরিদম প্রদান করা হয়েছে
AGoF পরিসংখ্যান প্রবর্তন: অ-তথ্যপূর্ণ ভিত্তির সাপেক্ষে মডেলের উন্নতির শতাংশ পরিমাণ করে
সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ প্রদান:渐近 বিতরণ, বুটস্ট্র্যাপ সামঞ্জস্য সহ তাত্ত্বিক গ্যারান্টি অন্তর্ভুক্ত

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অজানা বিতরণ $F$ থেকে নমুনা $X_1, \ldots, X_n$ এবং পরামিতি মডেল পরিবার $\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}$ দেওয়া হলে, পরীক্ষা করুন: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{বনাম} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$

যেখানে $\theta_F$ M-অনুমান দ্বারা নির্ধারিত: $E_F[\psi_{\theta_F}(X)] = 0$ ।

মূল পদ্ধতি স্থাপত্য

১. পরামিতি অনুমান

M-অনুমানক ব্যবহার করে সমাধান করুন: $\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0$

২. পরীক্ষা পরিসংখ্যান

মানককৃত পরিসংখ্যান: $T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)$

३. প্রত্যাখ্যান অঞ্চল নির্মাণ

প্রত্যাখ্যান অঞ্চল প্রস্তাব করুন: $R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\}$ যেখানে $c_n(\alpha) = -Q_T(\alpha)/\sqrt{n}$ , $Q_T(\alpha)$ সীমাবদ্ধ বিতরণের $\alpha$ কোয়ান্টাইল।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. $L^p$ দূরত্বের নির্বাচন সুবিধা

Hadamard পার্থক্যযোগ্যতা: $1 < p < \infty$ এর জন্য, $L^p$ নর্ম Hadamard পার্থক্যযোগ্য, কার্যকরী ডেল্টা পদ্ধতি প্রয়োগ সুবিধাজনক
গাউসিয়ান সীমা: সাধারণ অনুমানের অধীনে,渐近 বিতরণ গাউসিয়ান
বুটস্ট্র্যাপ সামঞ্জস্য: উপযুক্ত শর্তে, মানক বুটস্ট্র্যাপ অনুমানক সামঞ্জস্যপূর্ণ
নমনীয়তা: $p$ মান সামঞ্জস্য করে বিতরণ লেজের প্রতি সংবেদনশীলতা নিয়ন্ত্রণ করা যায়

२. তাত্ত্বিক কাঠামো

সম্পূর্ণ渐近 তত্ত্ব প্রতিষ্ঠা করুন, যার মধ্যে রয়েছে:

$L^p$ স্থানে অভিজ্ঞতামূলক প্রক্রিয়ার দুর্বল সংগ্রহ
অনুমানকৃত পরামিতি সহ প্রক্রিয়ার সীমাবদ্ধ বিতরণ
বুটস্ট্র্যাপ প্রক্রিয়ার সামঞ্জস্য

তাত্ত্বিক ফলাফল

প্রধান উপপাদ্য

উপপাদ্য ১: প্রক্রিয়া দুর্বল সংগ্রহ

অনুমান ১-२ এর অধীনে, $X \in L^{2/p,1}$ যদি এবং শুধুমাত্র যদি: $G_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p$ যেখানে $G_{\theta_F}$ কেন্দ্রীভূত গাউসিয়ান প্রক্রিয়া।

উপপাদ্য २: পরীক্ষা পরিসংখ্যানের渐近 বিতরণ

যখন $p = 1$ : $T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))$
যখন $1 < p < \infty$ : $T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))$

অনুসিদ্ধান্ত १: সাধারণত্ব শর্ত

সীমাবদ্ধ বিতরণ সাধারণ হওয়ার প্রয়োজনীয় এবং পর্যাপ্ত শর্ত:

$p = 1$ : যোগাযোগ সেট $C_{\theta_F} = \{F = G(\theta_F)\}$ এর Lebesgue পরিমাপ শূন্য
$1 < p < \infty$ : $F \neq G(\theta_F)$

বুটস্ট্র্যাপ সামঞ্জস্য

উপপাদ্য ३ এবং অনুসিদ্ধান্ত २ প্রমাণ করে যে উপযুক্ত অনুমানের অধীনে, বুটস্ট্র্যাপ পরিসংখ্যান একই সীমাবদ্ধ বিতরণে দুর্বলভাবে সংগ্রহ করে।

পরীক্ষামূলক সেটআপ

অনুকরণ গবেষণা ডিজাইন

নমুনা আকার: $n = 30, 50, 100, 500$
বুটস্ট্র্যাপ পুনরাবৃত্তি: $B = 2000$
তাৎপর্য স্তর: $\alpha = 0.05$
Monte Carlo পুনরাবৃত্তি: ১০০০ বার

পরীক্ষা পরিস্থিতি

१. Weibull বনাম সূচকীয় মডেল: $p = 1$ , প্রকৃত বিতরণ Weibull(२,१) २. গাউসিয়ান মিশ্রণ বনাম সাধারণ মডেল: $p = २$ , প্রকৃত বিতরণ দুই-উপাদান গাউসিয়ান মিশ্রণ ३. ঋণাত্মক দ্বিপদ বনাম Poisson মডেল: $p = १$ , বিচ্ছিন্ন বিতরণ ক্ষেত্রে ४. Kumaraswamy বনাম Beta মডেল: $p = १$ , সীমাবদ্ধ সমর্থন ক্ষেত্রে ५. Student t বনাম সাধারণ মডেল: $p = ४$ , ভারী লেজ বিতরণ ক্ষেত্রে ६. লগ-সাধারণ বনাম Gamma মডেল: $p = १$ , তির্যক বিতরণ ক্ষেত্রে

দুটি বুটস্ট্র্যাপ পদ্ধতি

বুটস্ট্র্যাপ १: কোয়ান্টাইল-ভিত্তিক পদ্ধতি, প্রত্যাখ্যান শর্ত: $२\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon$
বুটস্ট্র্যাপ २: সাধারণ অনুমান-ভিত্তিক পদ্ধতি, প্রত্যাখ্যান শর্ত: $\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon$

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

१. পদ্ধতি কর্মক্ষমতা তুলনা

মাঝারি নমুনা আকার ( $n = 500$ ): দুটি পদ্ধতি অনুরূপ কর্মক্ষমতা, উভয়ই পরীক্ষা স্তর ভালভাবে নিয়ন্ত্রণ করতে পারে
ছোট নমুনা আকার ( $n \leq 100$ ): বুটস্ট্র্যাপ २ সাধারণত নামমাত্র তাৎপর্য স্তর ভালভাবে নিয়ন্ত্রণ করতে পারে
উচ্চ AGoF পরিসংখ্যান ক্ষেত্রে (> ०.९): বুটস্ট্র্যাপ १ উন্নত কর্মক্ষমতা

२. নির্দিষ্ট ফলাফল উদাহরণ

Weibull বনাম সূচকীয় মডেল উদাহরণ:

$\|F - G(\theta_F)\|_1 = 0.3002$
AGoF পরিসংখ্যান: $G(F,G) = 0.194$ (শুধুমাত্র ধ্রুবক মডেল থেকে १९.४% উন্নতি)
শক্তি ফাংশন দেখায় যে দুটি পদ্ধতি $n = 500$ এ প্রায় আলাদা করা যায় না

३. ব্যবহারিক সুপারিশ

AGoF পরিসংখ্যান ०-०.९ এর মধ্যে: বুটস্ট্র্যাপ २ সুপারিশ করুন
AGoF পরিসংখ্যান ०.९ অতিক্রম করে: বুটস্ট্র্যাপ १ সুপারিশ করুন
ছোট নমুনা আকারে সাবধানে ফলাফল ব্যাখ্যা করার প্রয়োজন

ব্যবহারিক প্রয়োগ

প্রয়োগ १: হাইতি সেরোলজি সমীক্ষা

ডেটা: হাইতি জাতীয় সেরো সমীক্ষায় ४३०८ IgG অ্যান্টিবডি নমুনা (Bm३३ অ্যান্টিজেন)

বিশ্লেষণ: १-५ উপাদান সাধারণ মিশ্রণ মডেলের AGoF পরীক্ষা

२ উপাদান মডেল সর্বোত্তম কর্মক্ষমতা: $\epsilon^*_२(०.०५) \approx ०.०२२$ ( $L^१$ ), $G^*(F,G_२) > ०.९७$
একক উপাদান সাধারণ মডেল অপর্যাপ্ত: উন্নতির হার < ७८%
३ উপাদান এবং তার বেশি মডেল সীমিত উন্নতি (< १%)

প্রয়োগ २: কার্বন ফাইবার ভাঙ্গন চাপ

ডেটা: বিভিন্ন মানক দৈর্ঘ্যে প্রায় १२०० কার্বন ফাইবারের টানা কর্মক্ষমতা

মডেল তুলনা: Weibull, তিন-পরামিতি Weibull, তির্যক সাধারণ, দ্বি-শিখর Weibull

প্রধান আবিষ্কার:

দ্বি-শিখর Weibull বেশিরভাগ মানক দৈর্ঘ্যে সর্বোত্তম কর্মক্ষমতা
মডেল কর্মক্ষমতা মানক দৈর্ঘ্যের সাথে উল্লেখযোগ্যভাবে হ্রাস পায় (দ্বি-শিখর Weibull ছাড়া)
রৈখিক রিগ্রেশন বিশ্লেষণ এই প্রবণতার পরিসংখ্যানগত তাৎপর্য নিশ্চিত করে

१. পদ্ধতির কার্যকারিতা: AGoF পরীক্ষা সফলভাবে ঐতিহ্যবাহী GoF পরীক্ষার সমস্যা সমাধান করে যা শুধুমাত্র "অসুসংগতির" প্রমাণ প্রদান করতে পারে २. তাত্ত্বিক সম্পূর্ণতা: সম্পূর্ণ渐近 তত্ত্ব এবং বুটস্ট্র্যাপ সামঞ্জস্য প্রমাণ প্রদান করে ३. ব্যবহারিকতা: দুটি বুটস্ট্র্যাপ স্কিম সহজে বাস্তবায়নযোগ্য, বিস্তৃত পরামিতি মডেলে প্রযোজ্য

সীমাবদ্ধতা

१. সংহতকরণযোগ্যতা শর্ত: $X \in L^{२/p,१}$ শর্ত পূরণের প্রয়োজন, প্রযোজ্যতার পরিধি সীমিত করে २. পরামিতি নির্বাচন: ত্রুটি সহনশীলতা $\epsilon$ এর নির্বাচন এখনও ক্ষেত্র বিশেষজ্ঞ জ্ঞান প্রয়োজন ३. গণনামূলক জটিলতা: সহজ GoF পরীক্ষার তুলনায়, গণনামূলক খরচ বেশি

ভবিষ্যত দিকনির্দেশনা

१. বহুমাত্রিক সম্প্রসারণ: পদ্ধতি বহুমাত্রিক বিতরণ ক্ষেত্রে সম্প্রসারণ করুন २. অ-পরামিতি বিকল্প: অ-পরামিতি বা আধা-পরামিতি মডেলের প্রায় যাচাইকরণ বিবেচনা করুন ३. স্বয়ংক্রিয় পদ্ধতি: $\epsilon$ স্বয়ংক্রিয়ভাবে নির্বাচন করার জন্য ডেটা-চালিত পদ্ধতি বিকাশ করুন

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো সিস্টেমেটিকভাবে "প্রায় সুসংগতি" বিকল্প অনুমানে রাখে, গুরুত্বপূর্ণ ধারণাগত অগ্রগতি রয়েছে २. পদ্ধতিগত সম্পূর্ণতা: তাত্ত্বিক বিশ্লেষণ থেকে বাস্তবায়ন অ্যালগরিদম পর্যন্ত অত্যন্ত সম্পূর্ণ ३. ব্যবহারিক মূল্য: AGoF পরিসংখ্যান মডেল গুণমানের স্বজ্ঞাত পরিমাপ প্রদান করে ४. প্রযুক্তিগত সুবিধা: $L^p$ দূরত্বের নির্বাচন তাত্ত্বিক এবং গণনামূলক উভয় ক্ষেত্রেই স্পষ্ট সুবিধা রয়েছে

অপর্যাপ্ততা

१. অনুমান শর্ত: M-অনুমান কাঠামো এবং সংহতকরণযোগ্যতা শর্ত প্রযোজ্যতা সীমিত করতে পারে २. পরামিতি সমন্বয়: $p$ মান এবং $\epsilon$ এর নির্বাচন সিস্টেমেটিক নির্দেশনার অভাব ३. গণনামূলক দক্ষতা: বুটস্ট্র্যাপ প্রক্রিয়ার গণনামূলক খরচ তুলনামূলকভাবে বেশি

প্রভাব

१. একাডেমিক অবদান: সুসংগতি পরীক্ষা ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য: মডেল নির্বাচন এবং যাচাইকরণে গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: তাত্ত্বিক ফলাফল সম্পূর্ণ, অ্যালগরিদম বর্ণনা স্পষ্ট, পুনরুৎপাদন সহজ

প্রযোজ্য পরিস্থিতি

পরামিতি মডেল প্রযোজ্যতা যাচাইকরণের প্রয়োজন এমন ক্ষেত্র
মডেল নির্বাচন এবং তুলনা
নিয়ন্ত্রক এবং গুণমান নিয়ন্ত্রণে মডেল যাচাইকরণ
ঝুঁকি ব্যবস্থাপনায় বিতরণ মডেল মূল্যায়ন

তথ্যসূত্র

পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, অভিজ্ঞতামূলক প্রক্রিয়া তত্ত্ব, M-অনুমান, বুটস্ট্র্যাপ পদ্ধতি সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।