A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- ID статьи: 2510.13636
- Название: Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels
- Авторы: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
- Классификация: stat.ME cs.SI math.ST stat.TH
- Дата публикации: 16 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.13636
В данной работе исследуются проблемы тестирования согласия для оцененных стохастических блочных моделей (valued stochastic blockmodel, SBM). Оцененные SBM представляют собой универсальный метод моделирования сетевых данных, разбивая узлы на блоки, где связи между узлами измеряются подсчетами или метками. Семейство моделей допускает различные схемы выборки диад, включая классическую SBM, пуассоновскую SBM и помеченную SBM, а также случаи, когда некоторые наблюдения ребер цензурированы. Статья сосредоточена на конечновыборочном тестировании небернуллиевых SBM, выводя явные движения марковского базиса, необходимые для генерирования выборок из эталонного распределения, и определяя статистики согласия для оценки соответствия модели. Для помеченных SBM (включая модели с цензурированными ребрами) исследуется асимптотическое поведение этих статистик.
- Основная проблема: Как проводить тесты согласия для небернуллиевых оцененных стохастических блочных моделей, особенно в конечновыборочном случае
- Значимость:
- При анализе сетевых данных определение того, влияет ли принадлежность узлов к блокам на формирование сети, является ключевым вопросом
- Существующие методы в основном ориентированы на простые графы (бернуллиевы диады), тогда как реальные сетевые данные часто содержат подсчеты или несколько типов связей
- Конечновыборочное тестирование имеет важное практическое значение для малых выборок
- Ограничения классической SBM: Большинство существующих подходов используют простые графы, моделируя диады как бернуллиевы случайные величины
- Проблемы асимптотических методов: Критерии больших выборок, такие как BIC, дают сбой в сетевых моделях при росте размерности параметров
- Отсутствие теоретических гарантий: Существующие методы не предоставляют теоретических гарантий для распределения нулевой гипотезы и асимптотической мощности
- Расширение методов марковского базиса из алгебраической статистики на небернуллиевы сетевые модели
- Построение частично байесовского тестового фреймворка, учитывающего неопределенность параметров
- Предоставление теоретического руководства для выбора модели, особенно для выбора количества блоков
- Теоретические вклады:
- Вывод явных марковских базисов для пуассоновской SBM и помеченной SBM
- Доказательство состоятельности интерполяционных оценок
- Установление асимптотической теории для статистик согласия
- Методологические вклады:
- Предложение условных тестов согласия для фиксированного и неизвестного распределения блоков
- Построение фреймворка вычисления частично байесовских p-значений
- Разработка алгоритма выборки по волокнам на основе MCMC
- Прикладные вклады:
- Применение методов к анализу взаимодействий хозяин-паразит в экологических сетях
- Проверка мощности и уровня ошибки первого рода на моделируемых данных
- Предоставление практических рекомендаций для выбора модели
Дан оцененный граф G=(Guv)1≤u<v≤n, где Guv представляет интенсивность связи (подсчет или метку) между парой узлов {u,v}. Цель состоит в:
- Тестировании соответствия сети заданной оцененной SBM
- Проведении теста согласия модели при неизвестном распределении блоков
- Выборе подходящего количества блоков k
Для n узлов и k блоков оцененная SBM предполагает:
- Условная независимость: Guv⊥⊥Gu′v′∣Z для любых двух диад
- Форма экспоненциального семейства:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
где h — базовая мера, Tz — достаточная статистика, θ — вектор параметров.
- Классическая SBM: Guv∣Z=z∼Bernoulli(θzuzv)
- Пуассоновская SBM: Guv∣Z=z∼Poisson(θzuzv)
- Помеченная SBM: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
Марковский базис для пуассоновской SBM:
B={εuv−εu′v′:zu=zu′,zv=zv′}
Марковский базис для помеченной SBM:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- Определение волокна: Fz,t:={g∈G:Tz(g)=t}
- Условное распределение: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- Точное p-значение: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
Для неизвестного распределения блоков определяется частично байесовское p-значение:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
Этот подход обрабатывает неопределенность распределения блоков путем усреднения по апостериорному распределению.
Для пуассоновской SBM:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
Для помеченной SBM:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- Моделируемые данные:
- Количество узлов: n=50,100
- 4 различные матрицы связей θ(1),θ(2),θ(3),θ(4)
- 100 графов, сгенерированных для каждой конфигурации
- Реальные данные:
- Сеть видов паразитических грибов (154 узла)
- Сеть видов деревьев (51 узел)
- Веса ребер представляют количество общих видов хозяев/паразитов
- Уровень ошибки первого рода: Частота отклонения нулевой гипотезы при уровне значимости 0,05
- Мощность теста: Частота отклонения модели при различных количествах блоков
- Точность выбора модели: Сравнение с критерием ICL
- Критерий ICL (интегрированное полное правдоподобие)
- Вариационный алгоритм EM для оценки распределения блоков
- Реализация пакета sbm на R
- Длина цепи MCMC: контролируется параметром numGraphs
- Оценка распределения блоков: использование вариационного алгоритма EM
- Порог апостериорной вероятности: ε=1/m, где m — размер носителя
Результаты при n=50:
| θ | 2 блока | 3 блока | 4 блока | 5 блоков |
|---|
| θ⁽¹⁾ | 1.00 | 0.59 | 0.05 | 0.01 |
| θ⁽²⁾ | 1.00 | 0.66 | 0.03 | 0.03 |
| θ⁽³⁾ | 0.88 | 1.00 | 0.07 | 0.04 |
| θ⁽⁴⁾ | 1.00 | 0.99 | 0.06 | 0.03 |
Результаты при n=100:
| θ | 2 блока | 3 блока | 4 блока | 5 блоков |
|---|
| θ⁽¹⁾ | 1.00 | 0.98 | 0.05 | 0.00 |
| θ⁽²⁾ | 1.00 | 1.00 | 0.06 | 0.01 |
| θ⁽³⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
| θ⁽⁴⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
Сеть видов деревьев:
- Количество блоков 3-7: p-значение = 0
- Количество блоков 8-9: p-значение = 0.01
- Количество блоков 10: p-значение = 0.19
- Количество блоков 11-15: p-значение ≥ 0.68
Сеть видов грибов:
- Количество блоков 3-17: p-значение = 0
- Количество блоков 18-21: p-значение = 0.01
- Количество блоков 22: p-значение = 0.07
- Эффективность метода: Частота отклонения близка к 1 при использовании 2 или 3 блоков и близка к 0 при использовании 4 или 5 блоков, что соответствует ожиданиям
- Эффект размера выборки: Большие размеры выборок (n=100) обеспечивают большую статистическую мощность
- Различия с существующими методами:
- Предложенный метод выбирает 10 блоков для сети деревьев и 22 блока для сети грибов
- Критерий ICL выбирает 7 блоков для сети деревьев и 9 блоков для сети грибов
- Различия могут быть обусловлены консервативностью метода и строгими требованиями к соответствию модели
- Спектральные методы: Спектральный тест согласия Lei (2016)
- Методы ERGM: Методы сравнения эталонного распределения Hunter et al. (2008)
- Улучшенные тесты: Работа Hu et al. (2021), непосредственно решающая проблемы вычислительных затрат и теоретических гарантий
- Классическая SBM: Расширение латентных блоков Holland et al. (1983)
- Оцененные сети: Расширение ERGM на сетевые данные с подсчетами Krivitsky (2012)
- Выбор модели: Выбор модели на основе правдоподобия Wang и Bickel (2017)
- Марковские базисы: Фундаментальная теория Diaconis и Sturmfels (1998)
- Применение к сетям: Конечновыборочное тестирование бернуллиевых SBM Karwa et al. (2023)
- Динамическая конструкция: Методы динамического марковского базиса Gross et al. (2014)
- Теоретический вклад: Успешное расширение методов алгебраической статистики на небернуллиевы сетевые модели с обеспечением строгой теоретической базы
- Эффективность метода: Предложенный тестовый метод демонстрирует хорошие статистические свойства как на моделируемых, так и на реальных данных
- Практическая ценность: Предоставление практического решения для выбора модели в оцененных сетях
- Вычислительная сложность: Методы MCMC могут столкнуться с проблемами сходимости на крупномасштабных сетях
- Консервативность: Метод может быть чрезмерно консервативным, приводя к выбору большего количества блоков
- Зависимость от распределения блоков: Метод зависит от качества оценки распределения блоков
- Составные марковские цепи: Разработка методов, способных выполнять выборку из нескольких волокон
- Оптимизация вычислений: Улучшение сходимости MCMC и вычислительной эффективности
- Расширенные приложения: Интеграция с динамическими и многоуровневыми сетями
- Теоретическая строгость: Предоставление полного теоретического фреймворка, включая доказательства состоятельности и асимптотический анализ
- Методологическая новизна: Первое применение методов марковского базиса к небернуллиевым SBM
- Комплексные эксперименты: Включение анализа мощности, проверки уровня ошибки первого рода и применения к реальным данным
- Ясное изложение: Логичная структура статьи с точным описанием технических деталей
- Вычислительные вызовы: Вычислительная сложность может стать узким местом для крупномасштабных сетей
- Чувствительность параметров: Метод достаточно чувствителен к качеству оценки распределения блоков
- Ограниченное сравнение: Недостаточное сравнение с другими неасимптотическими методами
- Академическая ценность: Открытие новых направлений в пересечении сетевой статистики и алгебраической статистики
- Практическая ценность: Предоставление инструментов для анализа сетей в экологии, социальных науках и других областях
- Воспроизводимость: Предоставление подробного описания алгоритмов, облегчающего реализацию и воспроизведение
- Сети малого и среднего размера: Метод показывает хорошие результаты при количестве узлов не более нескольких сотен
- Оцененные сетевые данные: Особенно подходит для данных с подсчетами или многоуровневыми метками
- Строгие статистические выводы: Приложения, требующие точного статистического вывода
Основные цитируемые работы включают:
- Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
- Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
- Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
- Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models