2025-11-11T16:28:09.601154

SAT-sampling for statistical significance testing in sparse contingency tables

Scharpfenecker, Windisch

Exact conditional tests for contingency tables require sampling from fibers with fixed margins. Classical Markov basis MCMC is general but often impractical: computing full Markov bases that connect all fibers of a given constraint matrix can be infeasible and the resulting chains may converge slowly, especially in sparse settings or in presence of structural zeros. We introduce a SAT-based alternative that encodes fibers as Boolean circuits which allows modern SAT samplers to generate tables randomly. We analyze the sampling bias that SAT samplers may introduce, provide diagnostics, and propose practical mitigation. We propose hybrid MCMC schemes that combine SAT proposals with local moves to ensure correct stationary distributions which do not necessarily require connectivity via local moves which is particularly beneficial in presence of structural zeros. Across benchmarks, including small and involved tables with many structural zeros where pure Markov-basis methods underperform, our methods deliver reliable conditional p-values and often outperform samplers that rely on precomputed Markov bases.

academic

Muestreo SAT para pruebas de significancia estadística en tablas de contingencia dispersas

Información Básica

ID del artículo: 2511.05709
Título: SAT-sampling for statistical significance testing in sparse contingency tables
Autores: Patrick Scharpfenecker, Tobias Windisch (Universidad de Ciencias Aplicadas Kempten, Alemania)
Clasificación: stat.ME (Estadística - Metodología), math.CO (Matemática - Combinatoria), stat.CO (Estadística - Computación)
Fecha de publicación: 7 de noviembre de 2025
Enlace del artículo: https://arxiv.org/abs/2511.05709

Resumen

Este artículo propone un nuevo método basado en solucionadores SAT para reemplazar los métodos tradicionales de MCMC con base de Markov en pruebas condicionales exactas de tablas de contingencia. Los métodos tradicionales requieren calcular una base de Markov completa que conecte todas las fibras, lo cual frecuentemente es inviable en configuraciones dispersas o cuando existen ceros estructurales, además de presentar convergencia lenta. Los autores codifican las fibras como circuitos booleanos, utilizando muestreadores SAT modernos para generar tablas aleatoriamente, analizan el sesgo de muestreo que los muestreadores SAT pueden introducir, y proponen estrategias prácticas de mitigación. Mediante esquemas MCMC híbridos que combinan propuestas SAT y movimientos locales, se garantiza la distribución estacionaria correcta, siendo particularmente adecuado para casos con ceros estructurales.

Antecedentes de investigación y motivación

Definición del problema

La inferencia condicional exacta en tablas de contingencia es un problema importante en estadística, particularmente para pruebas de independencia. Estos problemas requieren muestrear fibras bajo restricciones de márgenes fijos, es decir, encontrar tablas de enteros no negativos $u$ que satisfagan restricciones lineales $Au = b$ .

Limitaciones de los métodos existentes

Los métodos tradicionales de MCMC con base de Markov enfrentan dos cuellos de botella principales:

Complejidad computacional: Calcular una base de Markov completa para modelos realistas y tamaños de tabla es generalmente prohibitivo o completamente inviable computacionalmente
Problemas de convergencia: Incluso cuando hay una base disponible, los movimientos inducidos pueden mezclar lentamente, requiriendo un trabajo de ajuste considerable
Problema de ceros estructurales: Los ceros estructurales y otras restricciones aumentan el tamaño de la base de Markov y complican la conectividad

Motivación de la investigación

Los autores observan que los solucionadores SAT modernos funcionan excepcionalmente bien con instancias grandes y estructuradas, particularmente los solucionadores CDCL (Conflict-Driven Clause Learning). Los avances recientes en técnicas de muestreo SAT (como UniGen3, CMSGen, etc.) ofrecen nuevas posibilidades para resolver el problema de muestreo de fibras.

Contribuciones principales

Método de codificación SAT: Propone un método eficiente para codificar restricciones de fibras como circuitos booleanos, transformados a forma CNF mediante la transformación de Tseitin, manteniendo dispersidad e implementando propagación de unidades fuerte en solucionadores CDCL
Análisis de sesgo de muestreo: Cuantifica el grado y estructura del sesgo de muestreo en muestreadores SAT de última generación, desarrolla técnicas prácticas de mitigación para mejorar la precisión de los valores p condicionales
Esquema MCMC híbrido: Propone dos esquemas híbridos $A_n(M)$ y $P_{n,k}(M)$ que combinan propuestas SAT y movimientos locales, garantizando la distribución estacionaria correcta
Mejora de rendimiento: Demuestra ventajas de rendimiento respecto a métodos tradicionales de base de Markov en pruebas comparativas que incluyen tablas pequeñas complejas con ceros estructurales

Detalles del método

Definición de la tarea

Dada una matriz de restricciones $A \in \mathbb{N}^{k \times d}$ y un vector de márgenes $b \in \mathbb{Z}^k$ , el objetivo es muestrear desde la fibra $F_{A,b} = \{u \in \mathbb{N}^d : Au = b\}$ para aproximar el valor p condicional:

$E_\rho[f] = \sum_{u \in F_{A,b}} f(u)\rho(u)$

donde $\rho(v) \sim \frac{1}{v_1! \cdots v_d!}$ , $f(v) = \mathbf{1}_{X(v) \geq X(u^{obs})}$

Arquitectura de codificación SAT

Codificación de circuitos booleanos

Representación de restricciones: Reformula restricciones lineales $Au = b$ como una serie de adiciones, multiplicaciones y verificaciones de igualdad
Representación binaria: Utiliza $l$ bits para representar cada entrada, donde $l = \lceil \log_2(\max_{i,j,A_{i,j}>0} \frac{b_i}{A_{i,j}}) \rceil$
Construcción del circuito: Construye un circuito booleano $C$ de tamaño $\text{poly}(k,d,l)$

Transformación de Tseitin

Utiliza la codificación clásica de Tseitin para transformar el circuito $C$ a forma CNF $F$ , satisfaciendo:

$C(u_1, \ldots, u_d) = 1$ si y solo si existen $y_1, \ldots, y_m$ tales que $F(u_1, \ldots, u_d, y_1, \ldots, y_m) = 1$
Establece una biyección entre $F_{A,b} \cap [2^l-1]^d$ y las soluciones satisfacibles de $F$

Esquema MCMC híbrido

Esquema $A_n(M)$

En cada $n$ pasos, uno utiliza el muestreador SAT y los restantes utilizan un conjunto de movimientos predefinidos $M$ :

Alterna entre pasos SAT y movimientos de base de Markov
Mantiene una proporción baja de pasos SAT para mitigar el sesgo estructural

Esquema $P_{n,k}(M)$

Gestiona $k$ paseos aleatorios en paralelo:

Primero utiliza el muestreador SAT para muestrear $n$ puntos iniciales independientes de la fibra
Luego ejecuta $k$ paseos aleatorios utilizando $M$
Cada $n$ pasos, selecciona aleatoriamente un paseo para continuar $n$ pasos

Corrección de Metropolis-Hastings

Para propuestas SAT, calcula la probabilidad de aceptación: $p_W(u,v) = \min\left\{1, \frac{W(v,u)}{W(u,v)} \cdot \prod_{i=1}^d \frac{u_i!}{v_i!}\right\}$

Configuración experimental

Categorías de modelos

Modelo de independencia $I_{d_1 \times \cdots \times d_k}$ : Modelo de independencia $d_1 \times d_2 \times \cdots \times d_k$
Modelo de cuasi-independencia $QI_{d_1 \times \cdots \times d_k}(S)$ : Modelo de independencia con ceros estructurales $S$
Modelo sin interacción de tres factores $N3F_d$ : Modelo sin interacción de tres factores en tabla $d \times d \times d$

Esquema de evaluación

Utiliza el esquema de evaluación del Algoritmo 1:

Genera $T=100$ muestras iniciales
Ejecuta la prueba de Fisher para cada muestra
Mide el número de pasos para converger al valor p condicional (no el número de muestras)
Evalúa los pasos necesarios para alcanzar precisión de 0.005

Detalles de implementación

Utiliza CMSGen como muestreador SAT principal (más rápido que UniGen3)
Para cálculo de MLE, implementa método de descenso de gradiente general
Utiliza optimización L-BFGS, monitoreando la divergencia de márgenes $\|A(u^{obs} - \hat{u}(\theta))\|_2$

Resultados experimentales

Resultados principales

Los resultados experimentales muestran que el método basado en SAT supera al método de base de Markov en múltiples escenarios, particularmente en los siguientes casos:

Tablas dispersas: Desempeño destacado cuando el tamaño de muestra es pequeño o existen ceros estructurales
Estructuras complejas: El esquema $A_n(M)$ supera a $P_{n,k}(M)$ en instancias de problemas grandes
Manejo de ceros estructurales: Garantiza convergencia al valor p correcto sin necesidad de base de Markov completa (como base de Graver)

Desempeño específico

Modelo N3F4: El método híbrido supera significativamente al método puro de Markov con tamaños de muestra 80 y 100
Modelo QI5×5: Verifica convergencia al valor p verdadero mediante enumeración completa de fibras
Modelo QI10×10: Demuestra velocidad de convergencia más rápida bajo varios tamaños de muestra

MCMC con base de Markov: Trabajo pionero de Diaconis y Sturmfels (1998)
Base de Markov dinámica: Método de cálculo inmediato de movimientos de Dobra (2011)
Métodos de base de retícula: Investigación de movimientos de base de retícula de Hazelton y Karimi (2024)

Desarrollos modernos

Método RUMBA: Muestreo de puntos de retícula de alta dimensión de Bakenhus y Petrović (2024)
Estrategias específicas del problema: Prueba de independencia para tablas grandes dispersas de Zhang (2019)
Método Heat-bath: Ajuste dinámico de longitud de movimiento de Stanley y Windisch (2018)

Tecnología SAT

Solucionadores SAT: Solucionadores de alto rendimiento como CryptoMiniSat5, Kissat
Muestreo SAT: Herramientas de muestreo como UniGen3, CMSGen, SMT-Sampler

Conclusiones y discusión

Conclusiones principales

El método basado en SAT proporciona una alternativa efectiva para muestreo de fibras, siendo particularmente adecuado para configuraciones dispersas con ceros estructurales
Los esquemas MCMC híbridos mitigan exitosamente el problema de sesgo estructural de los muestreadores SAT
En escenarios complejos que involucran tamaños de muestra pequeños o muchos ceros estructurales, el método supera significativamente a los métodos tradicionales de base de Markov

Limitaciones

Costo computacional: El tiempo de un único muestreo SAT puede ser superior al de un único movimiento local
Requisitos de memoria: La codificación booleana de matrices de diseño grandes y conjuntos de restricciones ricos puede crecer rápidamente
Ajuste de hiperparámetros: El método híbrido introduce hiperparámetros que requieren ajuste (como número de paseos, pasos por paseo)

Direcciones futuras

Métodos de codificación más eficientes para sistemas de restricciones de dimensión ultra-alta
Estrategias de selección de hiperparámetros adaptativos
Combinación con otras técnicas de muestreo modernas

Evaluación profunda

Fortalezas

Fuerte innovación: Primera aplicación sistemática de tecnología SAT al problema de muestreo de fibras
Teoría sólida: Proporciona análisis riguroso de sesgo de muestreo y estrategias de mitigación
Experimentación completa: Pruebas comparativas exhaustivas que abarcan múltiples categorías de modelos y escenarios
Alto valor práctico: Particularmente adecuado para escenarios dispersos y con ceros estructurales donde los métodos tradicionales fallan

Insuficiencias

Limitaciones de escalabilidad: Para problemas de escala extremadamente grande, los requisitos de memoria de la codificación booleana pueden convertirse en cuello de botella
Sensibilidad de parámetros: El rendimiento del esquema híbrido depende de la selección de hiperparámetros, careciendo de orientación para ajuste automático
Comparación limitada: Principalmente compara con métodos tradicionales de base de Markov, careciendo de comparación con otros métodos modernos

Impacto

Contribución académica: Abre nuevas direcciones para investigación interdisciplinaria entre computación estadística y optimización combinatoria
Valor práctico: Proporciona herramientas prácticas para análisis de tablas de contingencia complejas
Reproducibilidad: Promete implementación de código abierto, favoreciendo la promoción del método

Escenarios de aplicación

Análisis de tablas de contingencia dispersas con muchos ceros estructurales
Problemas de restricciones de alta dimensión donde el cálculo de base de Markov tradicional es inviable
Escenarios que requieren exploración rápida de regiones de fibra distantes
Pruebas condicionales exactas con tamaños de muestra pequeños

Referencias

Este artículo cita literatura importante de estadística, matemática combinatoria e informática, incluyendo:

Diaconis y Sturmfels (1998): Trabajo pionero sobre algoritmos algebraicos para muestreo de distribuciones condicionales
Literatura de solucionadores SAT modernos: CryptoMiniSat5, UniGen3, CMSGen, etc.
Métodos de computación estadística: Investigación relacionada con bases de Markov, bases dinámicas y bases de retícula