2025-11-11T16:28:09.601154

SAT-sampling for statistical significance testing in sparse contingency tables

Scharpfenecker, Windisch
Exact conditional tests for contingency tables require sampling from fibers with fixed margins. Classical Markov basis MCMC is general but often impractical: computing full Markov bases that connect all fibers of a given constraint matrix can be infeasible and the resulting chains may converge slowly, especially in sparse settings or in presence of structural zeros. We introduce a SAT-based alternative that encodes fibers as Boolean circuits which allows modern SAT samplers to generate tables randomly. We analyze the sampling bias that SAT samplers may introduce, provide diagnostics, and propose practical mitigation. We propose hybrid MCMC schemes that combine SAT proposals with local moves to ensure correct stationary distributions which do not necessarily require connectivity via local moves which is particularly beneficial in presence of structural zeros. Across benchmarks, including small and involved tables with many structural zeros where pure Markov-basis methods underperform, our methods deliver reliable conditional p-values and often outperform samplers that rely on precomputed Markov bases.
academic

Muestreo SAT para pruebas de significancia estadística en tablas de contingencia dispersas

Información Básica

  • ID del artículo: 2511.05709
  • Título: SAT-sampling for statistical significance testing in sparse contingency tables
  • Autores: Patrick Scharpfenecker, Tobias Windisch (Universidad de Ciencias Aplicadas Kempten, Alemania)
  • Clasificación: stat.ME (Estadística - Metodología), math.CO (Matemática - Combinatoria), stat.CO (Estadística - Computación)
  • Fecha de publicación: 7 de noviembre de 2025
  • Enlace del artículo: https://arxiv.org/abs/2511.05709

Resumen

Este artículo propone un nuevo método basado en solucionadores SAT para reemplazar los métodos tradicionales de MCMC con base de Markov en pruebas condicionales exactas de tablas de contingencia. Los métodos tradicionales requieren calcular una base de Markov completa que conecte todas las fibras, lo cual frecuentemente es inviable en configuraciones dispersas o cuando existen ceros estructurales, además de presentar convergencia lenta. Los autores codifican las fibras como circuitos booleanos, utilizando muestreadores SAT modernos para generar tablas aleatoriamente, analizan el sesgo de muestreo que los muestreadores SAT pueden introducir, y proponen estrategias prácticas de mitigación. Mediante esquemas MCMC híbridos que combinan propuestas SAT y movimientos locales, se garantiza la distribución estacionaria correcta, siendo particularmente adecuado para casos con ceros estructurales.

Antecedentes de investigación y motivación

Definición del problema

La inferencia condicional exacta en tablas de contingencia es un problema importante en estadística, particularmente para pruebas de independencia. Estos problemas requieren muestrear fibras bajo restricciones de márgenes fijos, es decir, encontrar tablas de enteros no negativos uu que satisfagan restricciones lineales Au=bAu = b.

Limitaciones de los métodos existentes

Los métodos tradicionales de MCMC con base de Markov enfrentan dos cuellos de botella principales:

  1. Complejidad computacional: Calcular una base de Markov completa para modelos realistas y tamaños de tabla es generalmente prohibitivo o completamente inviable computacionalmente
  2. Problemas de convergencia: Incluso cuando hay una base disponible, los movimientos inducidos pueden mezclar lentamente, requiriendo un trabajo de ajuste considerable
  3. Problema de ceros estructurales: Los ceros estructurales y otras restricciones aumentan el tamaño de la base de Markov y complican la conectividad

Motivación de la investigación

Los autores observan que los solucionadores SAT modernos funcionan excepcionalmente bien con instancias grandes y estructuradas, particularmente los solucionadores CDCL (Conflict-Driven Clause Learning). Los avances recientes en técnicas de muestreo SAT (como UniGen3, CMSGen, etc.) ofrecen nuevas posibilidades para resolver el problema de muestreo de fibras.

Contribuciones principales

  1. Método de codificación SAT: Propone un método eficiente para codificar restricciones de fibras como circuitos booleanos, transformados a forma CNF mediante la transformación de Tseitin, manteniendo dispersidad e implementando propagación de unidades fuerte en solucionadores CDCL
  2. Análisis de sesgo de muestreo: Cuantifica el grado y estructura del sesgo de muestreo en muestreadores SAT de última generación, desarrolla técnicas prácticas de mitigación para mejorar la precisión de los valores p condicionales
  3. Esquema MCMC híbrido: Propone dos esquemas híbridos An(M)A_n(M) y Pn,k(M)P_{n,k}(M) que combinan propuestas SAT y movimientos locales, garantizando la distribución estacionaria correcta
  4. Mejora de rendimiento: Demuestra ventajas de rendimiento respecto a métodos tradicionales de base de Markov en pruebas comparativas que incluyen tablas pequeñas complejas con ceros estructurales

Detalles del método

Definición de la tarea

Dada una matriz de restricciones ANk×dA \in \mathbb{N}^{k \times d} y un vector de márgenes bZkb \in \mathbb{Z}^k, el objetivo es muestrear desde la fibra FA,b={uNd:Au=b}F_{A,b} = \{u \in \mathbb{N}^d : Au = b\} para aproximar el valor p condicional:

Eρ[f]=uFA,bf(u)ρ(u)E_\rho[f] = \sum_{u \in F_{A,b}} f(u)\rho(u)

donde ρ(v)1v1!vd!\rho(v) \sim \frac{1}{v_1! \cdots v_d!}, f(v)=1X(v)X(uobs)f(v) = \mathbf{1}_{X(v) \geq X(u^{obs})}

Arquitectura de codificación SAT

Codificación de circuitos booleanos

  1. Representación de restricciones: Reformula restricciones lineales Au=bAu = b como una serie de adiciones, multiplicaciones y verificaciones de igualdad
  2. Representación binaria: Utiliza ll bits para representar cada entrada, donde l=log2(maxi,j,Ai,j>0biAi,j)l = \lceil \log_2(\max_{i,j,A_{i,j}>0} \frac{b_i}{A_{i,j}}) \rceil
  3. Construcción del circuito: Construye un circuito booleano CC de tamaño poly(k,d,l)\text{poly}(k,d,l)

Transformación de Tseitin

Utiliza la codificación clásica de Tseitin para transformar el circuito CC a forma CNF FF, satisfaciendo:

  • C(u1,,ud)=1C(u_1, \ldots, u_d) = 1 si y solo si existen y1,,ymy_1, \ldots, y_m tales que F(u1,,ud,y1,,ym)=1F(u_1, \ldots, u_d, y_1, \ldots, y_m) = 1
  • Establece una biyección entre FA,b[2l1]dF_{A,b} \cap [2^l-1]^d y las soluciones satisfacibles de FF

Esquema MCMC híbrido

Esquema An(M)A_n(M)

En cada nn pasos, uno utiliza el muestreador SAT y los restantes utilizan un conjunto de movimientos predefinidos MM:

  • Alterna entre pasos SAT y movimientos de base de Markov
  • Mantiene una proporción baja de pasos SAT para mitigar el sesgo estructural

Esquema Pn,k(M)P_{n,k}(M)

Gestiona kk paseos aleatorios en paralelo:

  • Primero utiliza el muestreador SAT para muestrear nn puntos iniciales independientes de la fibra
  • Luego ejecuta kk paseos aleatorios utilizando MM
  • Cada nn pasos, selecciona aleatoriamente un paseo para continuar nn pasos

Corrección de Metropolis-Hastings

Para propuestas SAT, calcula la probabilidad de aceptación: pW(u,v)=min{1,W(v,u)W(u,v)i=1dui!vi!}p_W(u,v) = \min\left\{1, \frac{W(v,u)}{W(u,v)} \cdot \prod_{i=1}^d \frac{u_i!}{v_i!}\right\}

Configuración experimental

Categorías de modelos

  1. Modelo de independencia Id1××dkI_{d_1 \times \cdots \times d_k}: Modelo de independencia d1×d2××dkd_1 \times d_2 \times \cdots \times d_k
  2. Modelo de cuasi-independencia QId1××dk(S)QI_{d_1 \times \cdots \times d_k}(S): Modelo de independencia con ceros estructurales SS
  3. Modelo sin interacción de tres factores N3FdN3F_d: Modelo sin interacción de tres factores en tabla d×d×dd \times d \times d

Esquema de evaluación

Utiliza el esquema de evaluación del Algoritmo 1:

  • Genera T=100T=100 muestras iniciales
  • Ejecuta la prueba de Fisher para cada muestra
  • Mide el número de pasos para converger al valor p condicional (no el número de muestras)
  • Evalúa los pasos necesarios para alcanzar precisión de 0.005

Detalles de implementación

  • Utiliza CMSGen como muestreador SAT principal (más rápido que UniGen3)
  • Para cálculo de MLE, implementa método de descenso de gradiente general
  • Utiliza optimización L-BFGS, monitoreando la divergencia de márgenes A(uobsu^(θ))2\|A(u^{obs} - \hat{u}(\theta))\|_2

Resultados experimentales

Resultados principales

Los resultados experimentales muestran que el método basado en SAT supera al método de base de Markov en múltiples escenarios, particularmente en los siguientes casos:

  1. Tablas dispersas: Desempeño destacado cuando el tamaño de muestra es pequeño o existen ceros estructurales
  2. Estructuras complejas: El esquema An(M)A_n(M) supera a Pn,k(M)P_{n,k}(M) en instancias de problemas grandes
  3. Manejo de ceros estructurales: Garantiza convergencia al valor p correcto sin necesidad de base de Markov completa (como base de Graver)

Desempeño específico

  • Modelo N3F4: El método híbrido supera significativamente al método puro de Markov con tamaños de muestra 80 y 100
  • Modelo QI5×5: Verifica convergencia al valor p verdadero mediante enumeración completa de fibras
  • Modelo QI10×10: Demuestra velocidad de convergencia más rápida bajo varios tamaños de muestra

Análisis de sesgo de muestreo

La Figura 2 muestra que el método SAT puro presenta un sesgo estructural fuerte, siendo inadecuado para aproximación directa de valores p, pero los esquemas híbridos mitigan exitosamente este problema, logrando convergencia al valor p correcto.

Trabajo relacionado

Métodos tradicionales

  • MCMC con base de Markov: Trabajo pionero de Diaconis y Sturmfels (1998)
  • Base de Markov dinámica: Método de cálculo inmediato de movimientos de Dobra (2011)
  • Métodos de base de retícula: Investigación de movimientos de base de retícula de Hazelton y Karimi (2024)

Desarrollos modernos

  • Método RUMBA: Muestreo de puntos de retícula de alta dimensión de Bakenhus y Petrović (2024)
  • Estrategias específicas del problema: Prueba de independencia para tablas grandes dispersas de Zhang (2019)
  • Método Heat-bath: Ajuste dinámico de longitud de movimiento de Stanley y Windisch (2018)

Tecnología SAT

  • Solucionadores SAT: Solucionadores de alto rendimiento como CryptoMiniSat5, Kissat
  • Muestreo SAT: Herramientas de muestreo como UniGen3, CMSGen, SMT-Sampler

Conclusiones y discusión

Conclusiones principales

  1. El método basado en SAT proporciona una alternativa efectiva para muestreo de fibras, siendo particularmente adecuado para configuraciones dispersas con ceros estructurales
  2. Los esquemas MCMC híbridos mitigan exitosamente el problema de sesgo estructural de los muestreadores SAT
  3. En escenarios complejos que involucran tamaños de muestra pequeños o muchos ceros estructurales, el método supera significativamente a los métodos tradicionales de base de Markov

Limitaciones

  1. Costo computacional: El tiempo de un único muestreo SAT puede ser superior al de un único movimiento local
  2. Requisitos de memoria: La codificación booleana de matrices de diseño grandes y conjuntos de restricciones ricos puede crecer rápidamente
  3. Ajuste de hiperparámetros: El método híbrido introduce hiperparámetros que requieren ajuste (como número de paseos, pasos por paseo)

Direcciones futuras

  1. Métodos de codificación más eficientes para sistemas de restricciones de dimensión ultra-alta
  2. Estrategias de selección de hiperparámetros adaptativos
  3. Combinación con otras técnicas de muestreo modernas

Evaluación profunda

Fortalezas

  1. Fuerte innovación: Primera aplicación sistemática de tecnología SAT al problema de muestreo de fibras
  2. Teoría sólida: Proporciona análisis riguroso de sesgo de muestreo y estrategias de mitigación
  3. Experimentación completa: Pruebas comparativas exhaustivas que abarcan múltiples categorías de modelos y escenarios
  4. Alto valor práctico: Particularmente adecuado para escenarios dispersos y con ceros estructurales donde los métodos tradicionales fallan

Insuficiencias

  1. Limitaciones de escalabilidad: Para problemas de escala extremadamente grande, los requisitos de memoria de la codificación booleana pueden convertirse en cuello de botella
  2. Sensibilidad de parámetros: El rendimiento del esquema híbrido depende de la selección de hiperparámetros, careciendo de orientación para ajuste automático
  3. Comparación limitada: Principalmente compara con métodos tradicionales de base de Markov, careciendo de comparación con otros métodos modernos

Impacto

  1. Contribución académica: Abre nuevas direcciones para investigación interdisciplinaria entre computación estadística y optimización combinatoria
  2. Valor práctico: Proporciona herramientas prácticas para análisis de tablas de contingencia complejas
  3. Reproducibilidad: Promete implementación de código abierto, favoreciendo la promoción del método

Escenarios de aplicación

  1. Análisis de tablas de contingencia dispersas con muchos ceros estructurales
  2. Problemas de restricciones de alta dimensión donde el cálculo de base de Markov tradicional es inviable
  3. Escenarios que requieren exploración rápida de regiones de fibra distantes
  4. Pruebas condicionales exactas con tamaños de muestra pequeños

Referencias

Este artículo cita literatura importante de estadística, matemática combinatoria e informática, incluyendo:

  • Diaconis y Sturmfels (1998): Trabajo pionero sobre algoritmos algebraicos para muestreo de distribuciones condicionales
  • Literatura de solucionadores SAT modernos: CryptoMiniSat5, UniGen3, CMSGen, etc.
  • Métodos de computación estadística: Investigación relacionada con bases de Markov, bases dinámicas y bases de retícula