2025-11-23T19:04:16.167784

Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels

Almendra-Hernández, Bakenhus, Karwa et al.
A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families. For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
academic

가치 있는 확률적 블록 모델에서의 비점근 적합도 검정 및 모델 선택

기본 정보

  • 논문 ID: 2510.13636
  • 제목: Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels
  • 저자: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
  • 분류: stat.ME cs.SI math.ST stat.TH
  • 발표 시간: 2025년 10월 16일
  • 논문 링크: https://arxiv.org/abs/2510.13636

초록

본 논문은 가치 있는 확률적 블록 모델(valued stochastic blockmodel, SBM)의 적합도 검정 문제를 연구한다. 가치 있는 SBM은 네트워크 데이터를 모델링하는 범용 방법으로, 노드를 블록으로 분류하고 노드 간의 연결을 계수 또는 레이블로 측정한다. 이 모델 계열은 고전적 SBM, 포아송 SBM, 표지된 SBM을 포함한 다양한 dyad 샘플링 방식과 일부 간선 관측이 중도절단된 경우를 허용한다. 논문은 비베르누이 SBM의 유한 표본 검정에 중점을 두고, 참조 분포 표본을 생성하는 데 필요한 명시적 마르코프 기저 이동을 도출하며, 모델 적합을 결정하는 적합도 통계량을 정의한다. 표지된 SBM(중도절단 간선 모델 포함)의 경우, 이들 통계량의 점근 거동을 연구한다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 특히 유한 표본 상황에서 비베르누이 가치 있는 확률적 블록 모델에 대한 적합도 검정을 수행하는 방법
  2. 중요성:
    • 네트워크 데이터 분석에서 노드의 블록 소속이 네트워크 형성에 영향을 미치는지 여부를 결정하는 것이 핵심 문제
    • 기존 방법은 주로 단순 그래프(베르누이 dyad)를 대상으로 하지만, 실제 네트워크 데이터는 종종 계수 또는 다양한 유형의 연결을 포함
    • 유한 표본 검정은 소규모 데이터에서 중요한 실용적 가치를 가짐

기존 방법의 한계

  1. 고전적 SBM의 제한: 대부분의 기존 프레임워크는 단순 그래프를 사용하며 dyad를 베르누이 확률변수로 모델링
  2. 점근 방법의 문제: BIC와 같은 대표본 기준은 네트워크 모델에서 매개변수 차원이 증가할 때 실패
  3. 이론적 보장 부족: 기존 방법은 귀무가설 분포 및 점근 검정력에 대한 이론적 보장 부족

연구 동기

  • 대수 통계의 마르코프 기저 방법을 비베르누이 네트워크 모델로 확장
  • 매개변수 불확실성을 고려하는 부분 베이지안 검정 프레임워크 구축
  • 특히 블록 수 선택에 대한 모델 선택의 이론적 지침 제공

핵심 기여

  1. 이론적 기여:
    • 포아송 SBM 및 표지된 SBM의 명시적 마르코프 기저 도출
    • 보간 추정기의 일관성 증명
    • 적합도 통계량의 점근 이론 확립
  2. 방법론적 기여:
    • 고정 블록 할당 및 미지 블록 할당 상황에서의 조건부 적합도 검정 제안
    • 부분 베이지안 p값 계산 프레임워크 구축
    • MCMC 기반 섬유 샘플링 알고리즘 개발
  3. 응용 기여:
    • 생태 네트워크의 숙주-기생충 상호작용 분석에 방법 적용
    • 시뮬레이션 데이터에서 방법의 검정력 및 제1종 오류율 검증
    • 모델 선택을 위한 실용적 지침 제공

방법론 상세 설명

작업 정의

주어진 가치 있는 네트워크 G=(Guv)1u<vnG = (G_{uv})_{1≤u<v≤n}에서 GuvG_{uv}는 노드 쌍 {u,v}\{u,v\} 간의 연결 강도(계수 또는 레이블)를 나타내며, 목표는:

  1. 네트워크가 주어진 가치 있는 SBM을 따르는지 검정
  2. 블록 할당이 미지일 때 모델 적합도 검정 수행
  3. 적절한 블록 수 kk 선택

모델 구조

1. 가치 있는 SBM 정의

nn개의 노드와 kk개의 블록에 대해, 가치 있는 SBM은 다음을 가정:

  • 조건부 독립성: 임의의 두 dyad에 대해 Guv ⁣ ⁣ ⁣GuvZG_{uv} \perp\!\!\!\perp G_{u'v'} | Z
  • 지수족 형식: Pθ(G=gZ=z)=1u<vnh(guv)expTz(guv),θzuzvψ(θzuzv)P_θ(G = g | Z = z) = \prod_{1≤u<v≤n} \frac{h(g_{uv})\exp⟨T_z(g_{uv}), θ_{z_uz_v}⟩}{ψ(θ_{z_uz_v})}

여기서 hh는 기저 측도, TzT_z는 충분 통계량, θθ는 매개변수 벡터.

2. 특수한 경우

  • 고전적 SBM: GuvZ=zBernoulli(θzuzv)G_{uv} | Z = z \sim \text{Bernoulli}(θ_{z_uz_v})
  • 포아송 SBM: GuvZ=zPoisson(θzuzv)G_{uv} | Z = z \sim \text{Poisson}(θ_{z_uz_v})
  • 표지된 SBM: GuvZ=zMultinomial(N,(θzuzv())=1L)G_{uv} | Z = z \sim \text{Multinomial}(N, (θ^{(ℓ)}_{z_uz_v})^L_{ℓ=1})

3. 마르코프 기저 구성

포아송 SBM의 마르코프 기저: B={εuvεuv:zu=zu,zv=zv}B = \{ε_{uv} - ε_{u'v'} : z_u = z_{u'}, z_v = z_{v'}\}

표지된 SBM의 마르코프 기저: B={εuv()+εuv()εuv()εuv():,[L],zu=zu,zv=zv}B = \{ε^{(ℓ)}_{uv} + ε^{(ℓ')}_{u'v'} - ε^{(ℓ')}_{uv} - ε^{(ℓ)}_{u'v'} : ℓ,ℓ' ∈ [L], z_u = z_{u'}, z_v = z_{v'}\}

기술적 혁신점

1. 조건부 검정 프레임워크

  • 섬유 정의: Fz,t:={gG:Tz(g)=t}F_{z,t} := \{g ∈ G : T_z(g) = t\}
  • 조건부 분포: P(G=gTz(g)=t)=h(g)gFz,th(g)P(G = g | T_z(g) = t) = \frac{h(g)}{\sum_{g' ∈ F_{z,t}} h(g')}
  • 정확 p값: p(z,g)=P(GoFz(G)GoFz(g)Tz(g))p(z,g) = P(\text{GoF}_z(G) ≥ \text{GoF}_z(g) | T_z(g))

2. 부분 베이지안 방법

미지 블록 할당에 대해, 부분 베이지안 p값을 다음과 같이 정의: pb(g)=zZn,kp(z,g)P(Z=zg)p_b(g) = \sum_{z ∈ Z_{n,k}} p(z,g)P(Z = z | g)

이 방법은 사후 분포에 대해 평균화하여 블록 할당의 불확실성을 처리한다.

3. 적합도 통계량

포아송 SBM: GoFz(g)=u=1ni=1k(muiniθ^zui)2niθ^zui\text{GoF}_z(g) = \sum_{u=1}^n \sum_{i=1}^k \frac{(m_{ui} - n_iθ̂_{z_ui})^2}{n_iθ̂_{z_ui}}

표지된 SBM: GoFz(g)=χBC2(g,z)=u=1ni=1k=1L1(mui()niθ^zui())2niθ^zui()\text{GoF}_z(g) = χ^2_{BC}(g,z) = \sum_{u=1}^n \sum_{i=1}^k \sum_{ℓ=1}^{L-1} \frac{(m^{(ℓ)}_{ui} - n_iθ̂^{(ℓ)}_{z_ui})^2}{n_iθ̂^{(ℓ)}_{z_ui}}

실험 설정

데이터셋

  1. 시뮬레이션 데이터:
    • 노드 수: n=50,100n = 50, 100
    • 4가지 다른 연결 행렬 θ(1),θ(2),θ(3),θ(4)θ^{(1)}, θ^{(2)}, θ^{(3)}, θ^{(4)}
    • 각 설정에서 100개의 그래프 생성
  2. 실제 데이터:
    • 기생 진균 종 네트워크(154개 노드)
    • 나무 종 네트워크(51개 노드)
    • 간선 가중치는 공유 숙주/기생충 종의 수를 나타냄

평가 지표

  1. 제1종 오류율: 유의 수준 0.05에서의 귀무가설 거부율
  2. 검정력: 다양한 블록 수에서의 모델 거부율
  3. 모델 선택 정확도: ICL 기준과의 비교

비교 방법

  • ICL(적분 완전 우도) 기준
  • 블록 할당 추정을 위한 변분 EM 알고리즘
  • sbm R 패키지 구현

구현 세부사항

  • MCMC 체인 길이: numGraphs 매개변수로 제어
  • 블록 할당 추정: 변분 EM 알고리즘 사용
  • 사후 확률 임계값: ε=1/mε = 1/m (여기서 mm은 지지 집합 크기)

실험 결과

주요 결과

1. 검정력 및 제1종 오류율 검증

n=50n=50일 때의 결과:

θ2블록3블록4블록5블록
θ⁽¹⁾1.000.590.050.01
θ⁽²⁾1.000.660.030.03
θ⁽³⁾0.881.000.070.04
θ⁽⁴⁾1.000.990.060.03

n=100n=100일 때의 결과:

θ2블록3블록4블록5블록
θ⁽¹⁾1.000.980.050.00
θ⁽²⁾1.001.000.060.01
θ⁽³⁾1.001.000.080.02
θ⁽⁴⁾1.001.000.080.02

2. 실제 데이터 응용

나무 종 네트워크:

  • 블록 수 3-7: p값 = 0
  • 블록 수 8-9: p값 = 0.01
  • 블록 수 10: p값 = 0.19
  • 블록 수 11-15: p값 ≥ 0.68

진균 종 네트워크:

  • 블록 수 3-17: p값 = 0
  • 블록 수 18-21: p값 = 0.01
  • 블록 수 22: p값 = 0.07

실험 발견

  1. 방법의 유효성: 2개 또는 3개 블록 사용 시 거부율이 1에 가깝고, 4개 또는 5개 블록 사용 시 0에 가까워 예상과 일치
  2. 표본 크기 효과: 더 큰 표본 크기(n=100n=100)가 더 강한 통계적 검정력 제공
  3. 기존 방법과의 차이:
    • 본 방법은 나무 종 네트워크 10개 블록, 진균 네트워크 22개 블록 선택
    • ICL 기준은 나무 종 네트워크 7개 블록, 진균 네트워크 9개 블록 선택
    • 차이는 방법의 보수성과 모델 적합에 대한 엄격한 요구로 인한 것일 수 있음

관련 연구

네트워크 적합도 검정

  1. 스펙트럼 방법: Lei (2016)의 스펙트럼 적합도 검정
  2. ERGM 방법: Hunter 등(2008)의 참조 분포 비교 방법
  3. 개선된 검정: Hu 등(2021)의 계산 비용 및 이론적 보장 직접 해결

확률적 블록 모델

  1. 고전적 SBM: Holland 등(1983)의 잠재 블록 확장
  2. 가치 있는 네트워크: Krivitsky (2012)의 ERGM을 계수 네트워크로 확장
  3. 모델 선택: Wang과 Bickel (2017)의 우도 모델 선택

대수 통계

  1. 마르코프 기저: Diaconis와 Sturmfels (1998)의 기초 이론
  2. 네트워크 응용: Karwa 등(2023)의 베르누이 SBM에 대한 유한 표본 검정
  3. 동적 구성: Gross 등(2014)의 동적 마르코프 기저 방법

결론 및 논의

주요 결론

  1. 이론적 기여: 대수 통계 방법을 비베르누이 네트워크 모델로 성공적으로 확장하여 엄격한 이론적 기초 제공
  2. 방법의 유효성: 제안된 검정 방법이 시뮬레이션 및 실제 데이터에서 양호한 통계적 성질 보임
  3. 실용적 가치: 가치 있는 네트워크의 모델 선택에 대한 실행 가능한 해결책 제공

한계

  1. 계산 복잡성: MCMC 방법은 대규모 네트워크에서 수렴 문제에 직면할 수 있음
  2. 보수성: 방법이 과도하게 보수적일 수 있어 더 많은 블록 수 선택 유도
  3. 블록 할당 의존성: 방법이 블록 할당 추정 품질에 의존

향후 방향

  1. 복합 마르코프 체인: 여러 섬유를 샘플링할 수 있는 방법 개발
  2. 계산 최적화: MCMC 수렴성 및 계산 효율성 개선
  3. 응용 확장: 동적 네트워크 및 다층 네트워크와의 결합

심층 평가

장점

  1. 이론적 엄밀성: 일관성 증명 및 점근 분석을 포함한 완전한 이론 프레임워크 제공
  2. 방법의 참신성: 마르코프 기저 방법을 비베르누이 SBM에 처음 적용
  3. 포괄적 실험: 검정력 분석, 제1종 오류율 검증 및 실제 데이터 응용 포함
  4. 명확한 작성: 논문 구조가 합리적이고 기술 세부사항이 정확하게 기술됨

부족한 점

  1. 계산 도전: 대규모 네트워크의 경우 계산 복잡도가 병목이 될 수 있음
  2. 매개변수 민감성: 방법이 블록 할당 추정 품질에 상당히 민감
  3. 제한된 비교: 다른 비점근 방법과의 비교가 충분하지 않음

영향력

  1. 학술적 가치: 네트워크 통계와 대수 통계의 교차 연구에 새로운 방향 개척
  2. 실용적 가치: 생태학, 사회과학 등 분야의 네트워크 분석에 도구 제공
  3. 재현성: 상세한 알고리즘 설명으로 구현 및 재현 용이

적용 시나리오

  1. 소규모에서 중규모 네트워크: 방법이 노드 수 수백 이하일 때 양호한 성능 발휘
  2. 가치 있는 네트워크 데이터: 특히 계수 또는 다중 레이블 네트워크 데이터에 적합
  3. 엄격한 통계 검정: 정확한 통계 추론이 필요한 응용 시나리오

참고 문헌

주요 참고 문헌:

  • Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
  • Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
  • Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
  • Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models