2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

Бутстреп-тесты для почти согласованности распределения

Основная информация

  • ID статьи: 2410.20918
  • Название: Bootstrap tests for almost goodness-of-fit
  • Авторы: Ампаро Байло (Автономный университет Мадрида), Хавьер Карсамо (Университет Страны Басков)
  • Классификация: stat.ME (статистические методы), math.ST (математическая статистика), stat.AP (прикладная статистика), stat.TH (теория статистики)
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2410.20918

Аннотация

В данной работе предлагается тест "почти согласованности распределения" (almost goodness-of-fit, AGoF) для оценки того, насколько хорошо параметрическая модель представляет вероятностное распределение наблюдаемой выборки. Конкретно, для функции распределения FF и параметрического семейства G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\} рассматривается задача проверки гипотез: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon где ϵ>0\epsilon > 0 — допустимая погрешность, G(θF)G(\theta_F) — представитель FF в параметрическом классе. Приближённая модель определяется через M-оценки, и предложены два согласованных и легко реализуемых бутстреп-метода для проведения теста.

Научный контекст и мотивация

Постановка проблемы

Традиционные тесты согласованности распределения имеют фундаментальный недостаток: они помещают утверждение "модель является разумным приближением данных" в нулевую гипотезу H0H_0, поэтому могут предоставить статистическое свидетельство только "несогласованности" модели, но не могут подтвердить фактическую "согласованность".

Научная мотивация

  1. Ограничения традиционных тестов GoF: классические методы могут только отвергнуть модель, но не могут подтвердить её применимость
  2. Практические потребности: на практике нас больше интересует, является ли модель "достаточно хорошей", чем является ли она абсолютно точной
  3. Важность приближённого моделирования: в реальности редко встречаются модели, идеально описывающие данные; необходимо допускать определённую степень отклонения

Недостатки существующих методов

  • Предельное распределение статистик типа Колмогорова-Смирнова при оценивании параметров сложно и не гауссово
  • Бутстреп-методы обычно несогласованны при оценивании супремум-нормы
  • Отсутствует единая схема для проверки приближённости параметрических семейств

Основные вклады

  1. Предложена схема теста AGoF: "приближённая согласованность" помещается в альтернативную гипотезу, что позволяет предоставить статистическое свидетельство применимости модели
  2. Использование LpL^p-расстояния: по сравнению с традиционной супремум-нормой, LpL^p-норма обладает лучшими теоретическими свойствами и вычислительными преимуществами
  3. Разработка двух бутстреп-методов: доказана их согласованность и предложены практические алгоритмы реализации
  4. Введение статистики AGoF: количественно измеряет процент улучшения модели относительно неинформативного базового уровня
  5. Полный теоретический анализ: включает асимптотические распределения, согласованность бутстреп-методов и другие теоретические гарантии

Описание методологии

Определение задачи

Дана выборка X1,,XnX_1, \ldots, X_n из неизвестного распределения FF и параметрическое семейство моделей G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}. Требуется проверить: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

где θF\theta_F определяется через M-оценку: EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0.

Архитектура основного метода

1. Оценивание параметров

Используется M-оценитель, решающий: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

2. Тестовая статистика

Нормализованная статистика: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

3. Построение области отклонения

Предложена область отклонения: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} где cn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n}, QT(α)Q_T(\alpha) — квантиль уровня α\alpha предельного распределения.

Технические инновации

1. Преимущества выбора LpL^p-расстояния

  • Адамаровская дифференцируемость: для 1<p<1 < p < \infty LpL^p-норма адамаровски дифференцируема, что удобно для применения функционального дельта-метода
  • Гауссовский предел: при общих предположениях асимптотическое распределение гауссово
  • Согласованность бутстреп-метода: при надлежащих условиях стандартный бутстреп-оценитель согласован
  • Гибкость: регулировка значения pp позволяет контролировать чувствительность к хвостам распределения

2. Теоретическая схема

Установлена полная асимптотическая теория, включая:

  • Слабую сходимость эмпирических процессов в пространстве LpL^p
  • Предельное распределение процессов с оценёнными параметрами
  • Согласованность бутстреп-процессов

Теоретические результаты

Основные теоремы

Теорема 1: Слабая сходимость процесса

При предположениях 1-2, XL2/p,1X \in L^{2/p,1} тогда и только тогда, когда: Gn(θF)GθF в LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ в } L^p где GθFG_{\theta_F} — центрированный гауссовский процесс.

Теорема 2: Асимптотическое распределение тестовой статистики

  • При p=1p = 1: T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • При 1<p<1 < p < \infty: T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

Следствие 1: Условия нормальности

Предельное распределение нормально тогда и только тогда, когда:

  • p=1p = 1: множество контакта CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\} имеет нулевую меру Лебега
  • 1<p<1 < p < \infty: FG(θF)F \neq G(\theta_F)

Согласованность бутстреп-метода

Теорема 3 и Следствие 2 доказывают, что при надлежащих предположениях бутстреп-статистика слабо сходится к тому же предельному распределению.

Экспериментальная схема

Дизайн моделирования

  • Объёмы выборок: n=30,50,100,500n = 30, 50, 100, 500
  • Количество бутстреп-повторений: B=2000B = 2000
  • Уровень значимости: α=0.05\alpha = 0.05
  • Повторения Монте-Карло: 1000

Тестовые сценарии

  1. Вейбулл против экспоненциального распределения: p=1p = 1, истинное распределение Вейбулл(2,1)
  2. Гауссова смесь против нормального распределения: p=2p = 2, истинное распределение двухкомпонентная гауссова смесь
  3. Отрицательное биномиальное против распределения Пуассона: p=1p = 1, дискретное распределение
  4. Кумарасвами против бета-распределения: p=1p = 1, ограниченный носитель
  5. Распределение Стьюдента против нормального: p=4p = 4, тяжёлые хвосты
  6. Логнормальное против гамма-распределения: p=1p = 1, асимметричное распределение

Два бутстреп-метода

  • Бутстреп 1: метод, основанный на квантилях, условие отклонения: 2FnG(θ^n)pϵ^(α)<ϵ2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • Бутстреп 2: метод, основанный на нормальном приближении, условие отклонения: FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

Результаты экспериментов

Основные выводы

1. Сравнение производительности методов

  • Средние объёмы выборок (n=500n = 500): оба метода показывают сходные результаты и хорошо контролируют уровень теста
  • Малые объёмы выборок (n100n \leq 100): Бутстреп 2 обычно лучше контролирует номинальный уровень значимости
  • Высокие значения статистики AGoF (> 0.9): Бутстреп 1 показывает лучшие результаты

2. Примеры конкретных результатов

На примере модели Вейбулла против экспоненциального распределения:

  • FG(θF)1=0.3002\|F - G(\theta_F)\|_1 = 0.3002
  • Статистика AGoF: G(F,G)=0.194G(F,G) = 0.194 (улучшение только на 19.4% по сравнению с постоянной моделью)
  • Функция мощности показывает, что при n=500n = 500 два метода практически неразличимы

3. Практические рекомендации

  • Статистика AGoF в диапазоне 0-0.9: рекомендуется Бутстреп 2
  • Статистика AGoF выше 0.9: рекомендуется Бутстреп 1
  • При малых объёмах выборок требуется осторожное толкование результатов

Практические приложения

Приложение 1: Серологическое обследование Гаити

Данные: 4308 образцов сыворотки IgG (антиген Bm33) из национального серологического обследования Гаити

Анализ: проверка AGoF для моделей нормальной смеси с 1-5 компонентами

  • Двухкомпонентная модель показывает лучшие результаты: ϵ2(0.05)0.022\epsilon^*_2(0.05) \approx 0.022 (L1L^1), G(F,G2)>0.97G^*(F,G_2) > 0.97
  • Однокомпонентная нормальная модель недостаточна: улучшение < 78%
  • Модели с 3 и более компонентами дают ограниченное улучшение (< 1%)

Приложение 2: Прочность на разрыв углеродного волокна

Данные: примерно 1200 образцов углеродного волокна при различных длинах базы при испытании на растяжение

Сравнение моделей: Вейбулл, трёхпараметрический Вейбулл, асимметричное нормальное, двумодальный Вейбулл

Основные результаты:

  • Двумодальное распределение Вейбулла показывает лучшие результаты при большинстве длин базы
  • Производительность модели значительно снижается с увеличением длины базы (кроме двумодального Вейбулла)
  • Линейный регрессионный анализ подтверждает статистическую значимость этой тенденции

Связанные работы

Традиционные тесты согласованности распределения

  • Тест Колмогорова-Смирнова и его ограничения
  • Тест Крамера-фон Мизеса и проблема зависимости от распределения

Тесты эквивалентности

  • Метод альтернативной гипотезы Лемана (Wellek, 2021)
  • Области толерантности для полиномиальных моделей (Liu and Lindsay, 2009)
  • Оптимальные тесты эквивалентности (Romano, 2005)

Связанные процедуры проверки гипотез

  • Точная проверка гипотез (Berger and Delampady, 1987)
  • Согласованные процедуры проверки связанных гипотез (Dette and Sen, 2013)
  • Тесты верификации соседства (Baringhaus and Henze, 2024)

Заключение и обсуждение

Основные выводы

  1. Эффективность метода: тест AGoF успешно решает проблему традиционных тестов GoF, которые могут предоставить только свидетельство "несогласованности"
  2. Полнота теории: предоставлена полная асимптотическая теория и доказательства согласованности бутстреп-методов
  3. Практичность: два бутстреп-метода легко реализуются и применимы к широкому классу параметрических моделей

Ограничения

  1. Условия интегрируемости: требуется выполнение условия XL2/p,1X \in L^{2/p,1}, что ограничивает область применения
  2. Выбор параметров: выбор допустимой погрешности ϵ\epsilon по-прежнему требует знания предметной области
  3. Вычислительная сложность: по сравнению с простыми тестами GoF требует больших вычислительных затрат

Направления будущих исследований

  1. Многомерное расширение: распространение метода на многомерные распределения
  2. Непараметрические альтернативы: рассмотрение непараметрических и полупараметрических моделей
  3. Адаптивные методы: разработка методов автоматического выбора ϵ\epsilon на основе данных

Глубокая оценка

Преимущества

  1. Теоретическая инновация: впервые систематически помещает "приближённую согласованность" в альтернативную гипотезу, что представляет важный концептуальный прорыв
  2. Методологическая полнота: от теоретического анализа до алгоритмов реализации всё очень полно
  3. Практическая ценность: статистика AGoF предоставляет интуитивную меру качества модели
  4. Технические преимущества: выбор LpL^p-расстояния имеет явные преимущества как в теории, так и в вычислениях

Недостатки

  1. Условия предположений: схема M-оценок и условия интегрируемости могут ограничить применимость
  2. Регулировка параметров: выбор значения pp и ϵ\epsilon не имеет систематического руководства
  3. Вычислительная эффективность: бутстреп-процесс требует значительных вычислительных затрат

Влияние

  1. Научный вклад: предоставляет новое направление исследований в области тестов согласованности распределения
  2. Практическая ценность: имеет важные перспективы применения в выборе и проверке моделей
  3. Воспроизводимость: полные теоретические результаты и ясное описание алгоритмов облегчают воспроизведение

Области применения

  • Проверка применимости параметрических моделей
  • Выбор и сравнение моделей
  • Проверка моделей в нормативно-правовых актах и контроле качества
  • Оценка моделей распределения в управлении рисками

Библиография

Статья ссылается на богатую литературу по смежным вопросам, охватывающую теорию эмпирических процессов, M-оценки, методы бутстреп и другие важные работы в этих областях, обеспечивая прочную теоретическую базу для исследования.