2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

BaÃllo, CÃ¡rcamo

We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolÎ¸) : \boldsymbolÎ¸ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolÎ¸_F) \|_p \geq Îµ\quad \text{vs} \quad H_1: \| F - G(\boldsymbolÎ¸_F) \|_p < Îµ, \] where $Îµ>0$ is a margin of error and $G(\boldsymbolÎ¸_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.

academic

Бутстреп-тесты для почти согласованности распределения

Основная информация

ID статьи: 2410.20918
Название: Bootstrap tests for almost goodness-of-fit
Авторы: Ампаро Байло (Автономный университет Мадрида), Хавьер Карсамо (Университет Страны Басков)
Классификация: stat.ME (статистические методы), math.ST (математическая статистика), stat.AP (прикладная статистика), stat.TH (теория статистики)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2410.20918

Аннотация

В данной работе предлагается тест "почти согласованности распределения" (almost goodness-of-fit, AGoF) для оценки того, насколько хорошо параметрическая модель представляет вероятностное распределение наблюдаемой выборки. Конкретно, для функции распределения $F$ и параметрического семейства $\mathcal{G}=\{G(\theta) : \theta \in \Theta\}$ рассматривается задача проверки гипотез: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$ где $\epsilon > 0$ — допустимая погрешность, $G(\theta_F)$ — представитель $F$ в параметрическом классе. Приближённая модель определяется через M-оценки, и предложены два согласованных и легко реализуемых бутстреп-метода для проведения теста.

Научный контекст и мотивация

Постановка проблемы

Традиционные тесты согласованности распределения имеют фундаментальный недостаток: они помещают утверждение "модель является разумным приближением данных" в нулевую гипотезу $H_0$ , поэтому могут предоставить статистическое свидетельство только "несогласованности" модели, но не могут подтвердить фактическую "согласованность".

Научная мотивация

Ограничения традиционных тестов GoF: классические методы могут только отвергнуть модель, но не могут подтвердить её применимость
Практические потребности: на практике нас больше интересует, является ли модель "достаточно хорошей", чем является ли она абсолютно точной
Важность приближённого моделирования: в реальности редко встречаются модели, идеально описывающие данные; необходимо допускать определённую степень отклонения

Недостатки существующих методов

Предельное распределение статистик типа Колмогорова-Смирнова при оценивании параметров сложно и не гауссово
Бутстреп-методы обычно несогласованны при оценивании супремум-нормы
Отсутствует единая схема для проверки приближённости параметрических семейств

Основные вклады

Предложена схема теста AGoF: "приближённая согласованность" помещается в альтернативную гипотезу, что позволяет предоставить статистическое свидетельство применимости модели
Использование $L^p$ -расстояния: по сравнению с традиционной супремум-нормой, $L^p$ -норма обладает лучшими теоретическими свойствами и вычислительными преимуществами
Разработка двух бутстреп-методов: доказана их согласованность и предложены практические алгоритмы реализации
Введение статистики AGoF: количественно измеряет процент улучшения модели относительно неинформативного базового уровня
Полный теоретический анализ: включает асимптотические распределения, согласованность бутстреп-методов и другие теоретические гарантии

Описание методологии

Определение задачи

Дана выборка $X_1, \ldots, X_n$ из неизвестного распределения $F$ и параметрическое семейство моделей $\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}$ . Требуется проверить: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$

где $\theta_F$ определяется через M-оценку: $E_F[\psi_{\theta_F}(X)] = 0$ .

Архитектура основного метода

1. Оценивание параметров

Используется M-оценитель, решающий: $\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0$

2. Тестовая статистика

Нормализованная статистика: $T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)$

3. Построение области отклонения

Предложена область отклонения: $R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\}$ где $c_n(\alpha) = -Q_T(\alpha)/\sqrt{n}$ , $Q_T(\alpha)$ — квантиль уровня $\alpha$ предельного распределения.

Технические инновации

1. Преимущества выбора $L^p$ -расстояния

Адамаровская дифференцируемость: для $1 < p < \infty$ $L^p$ -норма адамаровски дифференцируема, что удобно для применения функционального дельта-метода
Гауссовский предел: при общих предположениях асимптотическое распределение гауссово
Согласованность бутстреп-метода: при надлежащих условиях стандартный бутстреп-оценитель согласован
Гибкость: регулировка значения $p$ позволяет контролировать чувствительность к хвостам распределения

2. Теоретическая схема

Установлена полная асимптотическая теория, включая:

Слабую сходимость эмпирических процессов в пространстве $L^p$
Предельное распределение процессов с оценёнными параметрами
Согласованность бутстреп-процессов

Теоретические результаты

Основные теоремы

Теорема 1: Слабая сходимость процесса

При предположениях 1-2, $X \in L^{2/p,1}$ тогда и только тогда, когда: $G_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ в } L^p$ где $G_{\theta_F}$ — центрированный гауссовский процесс.

Теорема 2: Асимптотическое распределение тестовой статистики

При $p = 1$ : $T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))$
При $1 < p < \infty$ : $T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))$

Следствие 1: Условия нормальности

Предельное распределение нормально тогда и только тогда, когда:

$p = 1$ : множество контакта $C_{\theta_F} = \{F = G(\theta_F)\}$ имеет нулевую меру Лебега
$1 < p < \infty$ : $F \neq G(\theta_F)$

Согласованность бутстреп-метода

Теорема 3 и Следствие 2 доказывают, что при надлежащих предположениях бутстреп-статистика слабо сходится к тому же предельному распределению.

Экспериментальная схема

Дизайн моделирования

Объёмы выборок: $n = 30, 50, 100, 500$
Количество бутстреп-повторений: $B = 2000$
Уровень значимости: $\alpha = 0.05$
Повторения Монте-Карло: 1000

Тестовые сценарии

Вейбулл против экспоненциального распределения: $p = 1$ , истинное распределение Вейбулл(2,1)
Гауссова смесь против нормального распределения: $p = 2$ , истинное распределение двухкомпонентная гауссова смесь
Отрицательное биномиальное против распределения Пуассона: $p = 1$ , дискретное распределение
Кумарасвами против бета-распределения: $p = 1$ , ограниченный носитель
Распределение Стьюдента против нормального: $p = 4$ , тяжёлые хвосты
Логнормальное против гамма-распределения: $p = 1$ , асимметричное распределение

Два бутстреп-метода

Бутстреп 1: метод, основанный на квантилях, условие отклонения: $2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon$
Бутстреп 2: метод, основанный на нормальном приближении, условие отклонения: $\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon$

Результаты экспериментов

Основные выводы

1. Сравнение производительности методов

Средние объёмы выборок ( $n = 500$ ): оба метода показывают сходные результаты и хорошо контролируют уровень теста
Малые объёмы выборок ( $n \leq 100$ ): Бутстреп 2 обычно лучше контролирует номинальный уровень значимости
Высокие значения статистики AGoF (> 0.9): Бутстреп 1 показывает лучшие результаты

2. Примеры конкретных результатов

На примере модели Вейбулла против экспоненциального распределения:

$\|F - G(\theta_F)\|_1 = 0.3002$
Статистика AGoF: $G(F,G) = 0.194$ (улучшение только на 19.4% по сравнению с постоянной моделью)
Функция мощности показывает, что при $n = 500$ два метода практически неразличимы

3. Практические рекомендации

Статистика AGoF в диапазоне 0-0.9: рекомендуется Бутстреп 2
Статистика AGoF выше 0.9: рекомендуется Бутстреп 1
При малых объёмах выборок требуется осторожное толкование результатов

Практические приложения

Приложение 1: Серологическое обследование Гаити

Данные: 4308 образцов сыворотки IgG (антиген Bm33) из национального серологического обследования Гаити

Анализ: проверка AGoF для моделей нормальной смеси с 1-5 компонентами

Двухкомпонентная модель показывает лучшие результаты: $\epsilon^*_2(0.05) \approx 0.022$ ( $L^1$ ), $G^*(F,G_2) > 0.97$
Однокомпонентная нормальная модель недостаточна: улучшение < 78%
Модели с 3 и более компонентами дают ограниченное улучшение (< 1%)

Приложение 2: Прочность на разрыв углеродного волокна

Данные: примерно 1200 образцов углеродного волокна при различных длинах базы при испытании на растяжение

Сравнение моделей: Вейбулл, трёхпараметрический Вейбулл, асимметричное нормальное, двумодальный Вейбулл

Основные результаты:

Двумодальное распределение Вейбулла показывает лучшие результаты при большинстве длин базы
Производительность модели значительно снижается с увеличением длины базы (кроме двумодального Вейбулла)
Линейный регрессионный анализ подтверждает статистическую значимость этой тенденции

Связанные работы

Традиционные тесты согласованности распределения

Тест Колмогорова-Смирнова и его ограничения
Тест Крамера-фон Мизеса и проблема зависимости от распределения

Тесты эквивалентности

Метод альтернативной гипотезы Лемана (Wellek, 2021)
Области толерантности для полиномиальных моделей (Liu and Lindsay, 2009)
Оптимальные тесты эквивалентности (Romano, 2005)

Связанные процедуры проверки гипотез

Точная проверка гипотез (Berger and Delampady, 1987)
Согласованные процедуры проверки связанных гипотез (Dette and Sen, 2013)
Тесты верификации соседства (Baringhaus and Henze, 2024)

Заключение и обсуждение

Основные выводы

Эффективность метода: тест AGoF успешно решает проблему традиционных тестов GoF, которые могут предоставить только свидетельство "несогласованности"
Полнота теории: предоставлена полная асимптотическая теория и доказательства согласованности бутстреп-методов
Практичность: два бутстреп-метода легко реализуются и применимы к широкому классу параметрических моделей

Ограничения

Условия интегрируемости: требуется выполнение условия $X \in L^{2/p,1}$ , что ограничивает область применения
Выбор параметров: выбор допустимой погрешности $\epsilon$ по-прежнему требует знания предметной области
Вычислительная сложность: по сравнению с простыми тестами GoF требует больших вычислительных затрат

Направления будущих исследований

Многомерное расширение: распространение метода на многомерные распределения
Непараметрические альтернативы: рассмотрение непараметрических и полупараметрических моделей
Адаптивные методы: разработка методов автоматического выбора $\epsilon$ на основе данных

Глубокая оценка

Преимущества

Теоретическая инновация: впервые систематически помещает "приближённую согласованность" в альтернативную гипотезу, что представляет важный концептуальный прорыв
Методологическая полнота: от теоретического анализа до алгоритмов реализации всё очень полно
Практическая ценность: статистика AGoF предоставляет интуитивную меру качества модели
Технические преимущества: выбор $L^p$ -расстояния имеет явные преимущества как в теории, так и в вычислениях

Недостатки

Условия предположений: схема M-оценок и условия интегрируемости могут ограничить применимость
Регулировка параметров: выбор значения $p$ и $\epsilon$ не имеет систематического руководства
Вычислительная эффективность: бутстреп-процесс требует значительных вычислительных затрат

Влияние

Научный вклад: предоставляет новое направление исследований в области тестов согласованности распределения
Практическая ценность: имеет важные перспективы применения в выборе и проверке моделей
Воспроизводимость: полные теоретические результаты и ясное описание алгоритмов облегчают воспроизведение

Области применения

Проверка применимости параметрических моделей
Выбор и сравнение моделей
Проверка моделей в нормативно-правовых актах и контроле качества
Оценка моделей распределения в управлении рисками

Библиография

Статья ссылается на богатую литературу по смежным вопросам, охватывающую теорию эмпирических процессов, M-оценки, методы бутстреп и другие важные работы в этих областях, обеспечивая прочную теоретическую базу для исследования.