2025-11-23T19:04:16.167784

Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels

Almendra-Hernández, Bakenhus, Karwa et al.
A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families. For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
academic

Неасимптотические тесты согласия и выбор модели в оцененных стохастических блочных моделях

Основная информация

  • ID статьи: 2510.13636
  • Название: Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels
  • Авторы: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
  • Классификация: stat.ME cs.SI math.ST stat.TH
  • Дата публикации: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.13636

Аннотация

В данной работе исследуются проблемы тестирования согласия для оцененных стохастических блочных моделей (valued stochastic blockmodel, SBM). Оцененные SBM представляют собой универсальный метод моделирования сетевых данных, разбивая узлы на блоки, где связи между узлами измеряются подсчетами или метками. Семейство моделей допускает различные схемы выборки диад, включая классическую SBM, пуассоновскую SBM и помеченную SBM, а также случаи, когда некоторые наблюдения ребер цензурированы. Статья сосредоточена на конечновыборочном тестировании небернуллиевых SBM, выводя явные движения марковского базиса, необходимые для генерирования выборок из эталонного распределения, и определяя статистики согласия для оценки соответствия модели. Для помеченных SBM (включая модели с цензурированными ребрами) исследуется асимптотическое поведение этих статистик.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Как проводить тесты согласия для небернуллиевых оцененных стохастических блочных моделей, особенно в конечновыборочном случае
  2. Значимость:
    • При анализе сетевых данных определение того, влияет ли принадлежность узлов к блокам на формирование сети, является ключевым вопросом
    • Существующие методы в основном ориентированы на простые графы (бернуллиевы диады), тогда как реальные сетевые данные часто содержат подсчеты или несколько типов связей
    • Конечновыборочное тестирование имеет важное практическое значение для малых выборок

Ограничения существующих методов

  1. Ограничения классической SBM: Большинство существующих подходов используют простые графы, моделируя диады как бернуллиевы случайные величины
  2. Проблемы асимптотических методов: Критерии больших выборок, такие как BIC, дают сбой в сетевых моделях при росте размерности параметров
  3. Отсутствие теоретических гарантий: Существующие методы не предоставляют теоретических гарантий для распределения нулевой гипотезы и асимптотической мощности

Исследовательская мотивация

  • Расширение методов марковского базиса из алгебраической статистики на небернуллиевы сетевые модели
  • Построение частично байесовского тестового фреймворка, учитывающего неопределенность параметров
  • Предоставление теоретического руководства для выбора модели, особенно для выбора количества блоков

Основные вклады

  1. Теоретические вклады:
    • Вывод явных марковских базисов для пуассоновской SBM и помеченной SBM
    • Доказательство состоятельности интерполяционных оценок
    • Установление асимптотической теории для статистик согласия
  2. Методологические вклады:
    • Предложение условных тестов согласия для фиксированного и неизвестного распределения блоков
    • Построение фреймворка вычисления частично байесовских p-значений
    • Разработка алгоритма выборки по волокнам на основе MCMC
  3. Прикладные вклады:
    • Применение методов к анализу взаимодействий хозяин-паразит в экологических сетях
    • Проверка мощности и уровня ошибки первого рода на моделируемых данных
    • Предоставление практических рекомендаций для выбора модели

Подробное описание методов

Определение задачи

Дан оцененный граф G=(Guv)1u<vnG = (G_{uv})_{1≤u<v≤n}, где GuvG_{uv} представляет интенсивность связи (подсчет или метку) между парой узлов {u,v}\{u,v\}. Цель состоит в:

  1. Тестировании соответствия сети заданной оцененной SBM
  2. Проведении теста согласия модели при неизвестном распределении блоков
  3. Выборе подходящего количества блоков kk

Архитектура модели

1. Определение оцененной SBM

Для nn узлов и kk блоков оцененная SBM предполагает:

  • Условная независимость: Guv ⁣ ⁣ ⁣GuvZG_{uv} \perp\!\!\!\perp G_{u'v'} | Z для любых двух диад
  • Форма экспоненциального семейства: Pθ(G=gZ=z)=1u<vnh(guv)expTz(guv),θzuzvψ(θzuzv)P_θ(G = g | Z = z) = \prod_{1≤u<v≤n} \frac{h(g_{uv})\exp⟨T_z(g_{uv}), θ_{z_uz_v}⟩}{ψ(θ_{z_uz_v})}

где hh — базовая мера, TzT_z — достаточная статистика, θθ — вектор параметров.

2. Частные случаи

  • Классическая SBM: GuvZ=zBernoulli(θzuzv)G_{uv} | Z = z \sim \text{Bernoulli}(θ_{z_uz_v})
  • Пуассоновская SBM: GuvZ=zPoisson(θzuzv)G_{uv} | Z = z \sim \text{Poisson}(θ_{z_uz_v})
  • Помеченная SBM: GuvZ=zMultinomial(N,(θzuzv())=1L)G_{uv} | Z = z \sim \text{Multinomial}(N, (θ^{(ℓ)}_{z_uz_v})^L_{ℓ=1})

3. Конструкция марковского базиса

Марковский базис для пуассоновской SBM: B={εuvεuv:zu=zu,zv=zv}B = \{ε_{uv} - ε_{u'v'} : z_u = z_{u'}, z_v = z_{v'}\}

Марковский базис для помеченной SBM: B={εuv()+εuv()εuv()εuv():,[L],zu=zu,zv=zv}B = \{ε^{(ℓ)}_{uv} + ε^{(ℓ')}_{u'v'} - ε^{(ℓ')}_{uv} - ε^{(ℓ)}_{u'v'} : ℓ,ℓ' ∈ [L], z_u = z_{u'}, z_v = z_{v'}\}

Технические инновации

1. Фреймворк условного тестирования

  • Определение волокна: Fz,t:={gG:Tz(g)=t}F_{z,t} := \{g ∈ G : T_z(g) = t\}
  • Условное распределение: P(G=gTz(g)=t)=h(g)gFz,th(g)P(G = g | T_z(g) = t) = \frac{h(g)}{\sum_{g' ∈ F_{z,t}} h(g')}
  • Точное p-значение: p(z,g)=P(GoFz(G)GoFz(g)Tz(g))p(z,g) = P(\text{GoF}_z(G) ≥ \text{GoF}_z(g) | T_z(g))

2. Частично байесовский метод

Для неизвестного распределения блоков определяется частично байесовское p-значение: pb(g)=zZn,kp(z,g)P(Z=zg)p_b(g) = \sum_{z ∈ Z_{n,k}} p(z,g)P(Z = z | g)

Этот подход обрабатывает неопределенность распределения блоков путем усреднения по апостериорному распределению.

3. Статистики согласия

Для пуассоновской SBM: GoFz(g)=u=1ni=1k(muiniθ^zui)2niθ^zui\text{GoF}_z(g) = \sum_{u=1}^n \sum_{i=1}^k \frac{(m_{ui} - n_iθ̂_{z_ui})^2}{n_iθ̂_{z_ui}}

Для помеченной SBM: GoFz(g)=χBC2(g,z)=u=1ni=1k=1L1(mui()niθ^zui())2niθ^zui()\text{GoF}_z(g) = χ^2_{BC}(g,z) = \sum_{u=1}^n \sum_{i=1}^k \sum_{ℓ=1}^{L-1} \frac{(m^{(ℓ)}_{ui} - n_iθ̂^{(ℓ)}_{z_ui})^2}{n_iθ̂^{(ℓ)}_{z_ui}}

Экспериментальная установка

Наборы данных

  1. Моделируемые данные:
    • Количество узлов: n=50,100n = 50, 100
    • 4 различные матрицы связей θ(1),θ(2),θ(3),θ(4)θ^{(1)}, θ^{(2)}, θ^{(3)}, θ^{(4)}
    • 100 графов, сгенерированных для каждой конфигурации
  2. Реальные данные:
    • Сеть видов паразитических грибов (154 узла)
    • Сеть видов деревьев (51 узел)
    • Веса ребер представляют количество общих видов хозяев/паразитов

Метрики оценки

  1. Уровень ошибки первого рода: Частота отклонения нулевой гипотезы при уровне значимости 0,05
  2. Мощность теста: Частота отклонения модели при различных количествах блоков
  3. Точность выбора модели: Сравнение с критерием ICL

Методы сравнения

  • Критерий ICL (интегрированное полное правдоподобие)
  • Вариационный алгоритм EM для оценки распределения блоков
  • Реализация пакета sbm на R

Детали реализации

  • Длина цепи MCMC: контролируется параметром numGraphs
  • Оценка распределения блоков: использование вариационного алгоритма EM
  • Порог апостериорной вероятности: ε=1/mε = 1/m, где mm — размер носителя

Результаты экспериментов

Основные результаты

1. Проверка мощности и уровня ошибки первого рода

Результаты при n=50n=50:

θ2 блока3 блока4 блока5 блоков
θ⁽¹⁾1.000.590.050.01
θ⁽²⁾1.000.660.030.03
θ⁽³⁾0.881.000.070.04
θ⁽⁴⁾1.000.990.060.03

Результаты при n=100n=100:

θ2 блока3 блока4 блока5 блоков
θ⁽¹⁾1.000.980.050.00
θ⁽²⁾1.001.000.060.01
θ⁽³⁾1.001.000.080.02
θ⁽⁴⁾1.001.000.080.02

2. Применение к реальным данным

Сеть видов деревьев:

  • Количество блоков 3-7: p-значение = 0
  • Количество блоков 8-9: p-значение = 0.01
  • Количество блоков 10: p-значение = 0.19
  • Количество блоков 11-15: p-значение ≥ 0.68

Сеть видов грибов:

  • Количество блоков 3-17: p-значение = 0
  • Количество блоков 18-21: p-значение = 0.01
  • Количество блоков 22: p-значение = 0.07

Экспериментальные находки

  1. Эффективность метода: Частота отклонения близка к 1 при использовании 2 или 3 блоков и близка к 0 при использовании 4 или 5 блоков, что соответствует ожиданиям
  2. Эффект размера выборки: Большие размеры выборок (n=100n=100) обеспечивают большую статистическую мощность
  3. Различия с существующими методами:
    • Предложенный метод выбирает 10 блоков для сети деревьев и 22 блока для сети грибов
    • Критерий ICL выбирает 7 блоков для сети деревьев и 9 блоков для сети грибов
    • Различия могут быть обусловлены консервативностью метода и строгими требованиями к соответствию модели

Связанные работы

Тесты согласия для сетей

  1. Спектральные методы: Спектральный тест согласия Lei (2016)
  2. Методы ERGM: Методы сравнения эталонного распределения Hunter et al. (2008)
  3. Улучшенные тесты: Работа Hu et al. (2021), непосредственно решающая проблемы вычислительных затрат и теоретических гарантий

Стохастические блочные модели

  1. Классическая SBM: Расширение латентных блоков Holland et al. (1983)
  2. Оцененные сети: Расширение ERGM на сетевые данные с подсчетами Krivitsky (2012)
  3. Выбор модели: Выбор модели на основе правдоподобия Wang и Bickel (2017)

Алгебраическая статистика

  1. Марковские базисы: Фундаментальная теория Diaconis и Sturmfels (1998)
  2. Применение к сетям: Конечновыборочное тестирование бернуллиевых SBM Karwa et al. (2023)
  3. Динамическая конструкция: Методы динамического марковского базиса Gross et al. (2014)

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: Успешное расширение методов алгебраической статистики на небернуллиевы сетевые модели с обеспечением строгой теоретической базы
  2. Эффективность метода: Предложенный тестовый метод демонстрирует хорошие статистические свойства как на моделируемых, так и на реальных данных
  3. Практическая ценность: Предоставление практического решения для выбора модели в оцененных сетях

Ограничения

  1. Вычислительная сложность: Методы MCMC могут столкнуться с проблемами сходимости на крупномасштабных сетях
  2. Консервативность: Метод может быть чрезмерно консервативным, приводя к выбору большего количества блоков
  3. Зависимость от распределения блоков: Метод зависит от качества оценки распределения блоков

Направления будущих исследований

  1. Составные марковские цепи: Разработка методов, способных выполнять выборку из нескольких волокон
  2. Оптимизация вычислений: Улучшение сходимости MCMC и вычислительной эффективности
  3. Расширенные приложения: Интеграция с динамическими и многоуровневыми сетями

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставление полного теоретического фреймворка, включая доказательства состоятельности и асимптотический анализ
  2. Методологическая новизна: Первое применение методов марковского базиса к небернуллиевым SBM
  3. Комплексные эксперименты: Включение анализа мощности, проверки уровня ошибки первого рода и применения к реальным данным
  4. Ясное изложение: Логичная структура статьи с точным описанием технических деталей

Недостатки

  1. Вычислительные вызовы: Вычислительная сложность может стать узким местом для крупномасштабных сетей
  2. Чувствительность параметров: Метод достаточно чувствителен к качеству оценки распределения блоков
  3. Ограниченное сравнение: Недостаточное сравнение с другими неасимптотическими методами

Влияние

  1. Академическая ценность: Открытие новых направлений в пересечении сетевой статистики и алгебраической статистики
  2. Практическая ценность: Предоставление инструментов для анализа сетей в экологии, социальных науках и других областях
  3. Воспроизводимость: Предоставление подробного описания алгоритмов, облегчающего реализацию и воспроизведение

Сценарии применения

  1. Сети малого и среднего размера: Метод показывает хорошие результаты при количестве узлов не более нескольких сотен
  2. Оцененные сетевые данные: Особенно подходит для данных с подсчетами или многоуровневыми метками
  3. Строгие статистические выводы: Приложения, требующие точного статистического вывода

Библиография

Основные цитируемые работы включают:

  • Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
  • Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
  • Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
  • Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models