Exact conditional tests for contingency tables require sampling from fibers with fixed margins. Classical Markov basis MCMC is general but often impractical: computing full Markov bases that connect all fibers of a given constraint matrix can be infeasible and the resulting chains may converge slowly, especially in sparse settings or in presence of structural zeros. We introduce a SAT-based alternative that encodes fibers as Boolean circuits which allows modern SAT samplers to generate tables randomly. We analyze the sampling bias that SAT samplers may introduce, provide diagnostics, and propose practical mitigation. We propose hybrid MCMC schemes that combine SAT proposals with local moves to ensure correct stationary distributions which do not necessarily require connectivity via local moves which is particularly beneficial in presence of structural zeros. Across benchmarks, including small and involved tables with many structural zeros where pure Markov-basis methods underperform, our methods deliver reliable conditional p-values and often outperform samplers that rely on precomputed Markov bases.
- ID del artículo: 2511.05709
- Título: SAT-sampling for statistical significance testing in sparse contingency tables
- Autores: Patrick Scharpfenecker, Tobias Windisch (Universidad de Ciencias Aplicadas Kempten, Alemania)
- Clasificación: stat.ME (Estadística - Metodología), math.CO (Matemática - Combinatoria), stat.CO (Estadística - Computación)
- Fecha de publicación: 7 de noviembre de 2025
- Enlace del artículo: https://arxiv.org/abs/2511.05709
Este artículo propone un nuevo método basado en solucionadores SAT para reemplazar los métodos tradicionales de MCMC con base de Markov en pruebas condicionales exactas de tablas de contingencia. Los métodos tradicionales requieren calcular una base de Markov completa que conecte todas las fibras, lo cual frecuentemente es inviable en configuraciones dispersas o cuando existen ceros estructurales, además de presentar convergencia lenta. Los autores codifican las fibras como circuitos booleanos, utilizando muestreadores SAT modernos para generar tablas aleatoriamente, analizan el sesgo de muestreo que los muestreadores SAT pueden introducir, y proponen estrategias prácticas de mitigación. Mediante esquemas MCMC híbridos que combinan propuestas SAT y movimientos locales, se garantiza la distribución estacionaria correcta, siendo particularmente adecuado para casos con ceros estructurales.
La inferencia condicional exacta en tablas de contingencia es un problema importante en estadística, particularmente para pruebas de independencia. Estos problemas requieren muestrear fibras bajo restricciones de márgenes fijos, es decir, encontrar tablas de enteros no negativos u que satisfagan restricciones lineales Au=b.
Los métodos tradicionales de MCMC con base de Markov enfrentan dos cuellos de botella principales:
- Complejidad computacional: Calcular una base de Markov completa para modelos realistas y tamaños de tabla es generalmente prohibitivo o completamente inviable computacionalmente
- Problemas de convergencia: Incluso cuando hay una base disponible, los movimientos inducidos pueden mezclar lentamente, requiriendo un trabajo de ajuste considerable
- Problema de ceros estructurales: Los ceros estructurales y otras restricciones aumentan el tamaño de la base de Markov y complican la conectividad
Los autores observan que los solucionadores SAT modernos funcionan excepcionalmente bien con instancias grandes y estructuradas, particularmente los solucionadores CDCL (Conflict-Driven Clause Learning). Los avances recientes en técnicas de muestreo SAT (como UniGen3, CMSGen, etc.) ofrecen nuevas posibilidades para resolver el problema de muestreo de fibras.
- Método de codificación SAT: Propone un método eficiente para codificar restricciones de fibras como circuitos booleanos, transformados a forma CNF mediante la transformación de Tseitin, manteniendo dispersidad e implementando propagación de unidades fuerte en solucionadores CDCL
- Análisis de sesgo de muestreo: Cuantifica el grado y estructura del sesgo de muestreo en muestreadores SAT de última generación, desarrolla técnicas prácticas de mitigación para mejorar la precisión de los valores p condicionales
- Esquema MCMC híbrido: Propone dos esquemas híbridos An(M) y Pn,k(M) que combinan propuestas SAT y movimientos locales, garantizando la distribución estacionaria correcta
- Mejora de rendimiento: Demuestra ventajas de rendimiento respecto a métodos tradicionales de base de Markov en pruebas comparativas que incluyen tablas pequeñas complejas con ceros estructurales
Dada una matriz de restricciones A∈Nk×d y un vector de márgenes b∈Zk, el objetivo es muestrear desde la fibra FA,b={u∈Nd:Au=b} para aproximar el valor p condicional:
Eρ[f]=∑u∈FA,bf(u)ρ(u)
donde ρ(v)∼v1!⋯vd!1, f(v)=1X(v)≥X(uobs)
- Representación de restricciones: Reformula restricciones lineales Au=b como una serie de adiciones, multiplicaciones y verificaciones de igualdad
- Representación binaria: Utiliza l bits para representar cada entrada, donde l=⌈log2(maxi,j,Ai,j>0Ai,jbi)⌉
- Construcción del circuito: Construye un circuito booleano C de tamaño poly(k,d,l)
Utiliza la codificación clásica de Tseitin para transformar el circuito C a forma CNF F, satisfaciendo:
- C(u1,…,ud)=1 si y solo si existen y1,…,ym tales que F(u1,…,ud,y1,…,ym)=1
- Establece una biyección entre FA,b∩[2l−1]d y las soluciones satisfacibles de F
En cada n pasos, uno utiliza el muestreador SAT y los restantes utilizan un conjunto de movimientos predefinidos M:
- Alterna entre pasos SAT y movimientos de base de Markov
- Mantiene una proporción baja de pasos SAT para mitigar el sesgo estructural
Gestiona k paseos aleatorios en paralelo:
- Primero utiliza el muestreador SAT para muestrear n puntos iniciales independientes de la fibra
- Luego ejecuta k paseos aleatorios utilizando M
- Cada n pasos, selecciona aleatoriamente un paseo para continuar n pasos
Para propuestas SAT, calcula la probabilidad de aceptación:
pW(u,v)=min{1,W(u,v)W(v,u)⋅∏i=1dvi!ui!}
- Modelo de independencia Id1×⋯×dk: Modelo de independencia d1×d2×⋯×dk
- Modelo de cuasi-independencia QId1×⋯×dk(S): Modelo de independencia con ceros estructurales S
- Modelo sin interacción de tres factores N3Fd: Modelo sin interacción de tres factores en tabla d×d×d
Utiliza el esquema de evaluación del Algoritmo 1:
- Genera T=100 muestras iniciales
- Ejecuta la prueba de Fisher para cada muestra
- Mide el número de pasos para converger al valor p condicional (no el número de muestras)
- Evalúa los pasos necesarios para alcanzar precisión de 0.005
- Utiliza CMSGen como muestreador SAT principal (más rápido que UniGen3)
- Para cálculo de MLE, implementa método de descenso de gradiente general
- Utiliza optimización L-BFGS, monitoreando la divergencia de márgenes ∥A(uobs−u^(θ))∥2
Los resultados experimentales muestran que el método basado en SAT supera al método de base de Markov en múltiples escenarios, particularmente en los siguientes casos:
- Tablas dispersas: Desempeño destacado cuando el tamaño de muestra es pequeño o existen ceros estructurales
- Estructuras complejas: El esquema An(M) supera a Pn,k(M) en instancias de problemas grandes
- Manejo de ceros estructurales: Garantiza convergencia al valor p correcto sin necesidad de base de Markov completa (como base de Graver)
- Modelo N3F4: El método híbrido supera significativamente al método puro de Markov con tamaños de muestra 80 y 100
- Modelo QI5×5: Verifica convergencia al valor p verdadero mediante enumeración completa de fibras
- Modelo QI10×10: Demuestra velocidad de convergencia más rápida bajo varios tamaños de muestra
La Figura 2 muestra que el método SAT puro presenta un sesgo estructural fuerte, siendo inadecuado para aproximación directa de valores p, pero los esquemas híbridos mitigan exitosamente este problema, logrando convergencia al valor p correcto.
- MCMC con base de Markov: Trabajo pionero de Diaconis y Sturmfels (1998)
- Base de Markov dinámica: Método de cálculo inmediato de movimientos de Dobra (2011)
- Métodos de base de retícula: Investigación de movimientos de base de retícula de Hazelton y Karimi (2024)
- Método RUMBA: Muestreo de puntos de retícula de alta dimensión de Bakenhus y Petrović (2024)
- Estrategias específicas del problema: Prueba de independencia para tablas grandes dispersas de Zhang (2019)
- Método Heat-bath: Ajuste dinámico de longitud de movimiento de Stanley y Windisch (2018)
- Solucionadores SAT: Solucionadores de alto rendimiento como CryptoMiniSat5, Kissat
- Muestreo SAT: Herramientas de muestreo como UniGen3, CMSGen, SMT-Sampler
- El método basado en SAT proporciona una alternativa efectiva para muestreo de fibras, siendo particularmente adecuado para configuraciones dispersas con ceros estructurales
- Los esquemas MCMC híbridos mitigan exitosamente el problema de sesgo estructural de los muestreadores SAT
- En escenarios complejos que involucran tamaños de muestra pequeños o muchos ceros estructurales, el método supera significativamente a los métodos tradicionales de base de Markov
- Costo computacional: El tiempo de un único muestreo SAT puede ser superior al de un único movimiento local
- Requisitos de memoria: La codificación booleana de matrices de diseño grandes y conjuntos de restricciones ricos puede crecer rápidamente
- Ajuste de hiperparámetros: El método híbrido introduce hiperparámetros que requieren ajuste (como número de paseos, pasos por paseo)
- Métodos de codificación más eficientes para sistemas de restricciones de dimensión ultra-alta
- Estrategias de selección de hiperparámetros adaptativos
- Combinación con otras técnicas de muestreo modernas
- Fuerte innovación: Primera aplicación sistemática de tecnología SAT al problema de muestreo de fibras
- Teoría sólida: Proporciona análisis riguroso de sesgo de muestreo y estrategias de mitigación
- Experimentación completa: Pruebas comparativas exhaustivas que abarcan múltiples categorías de modelos y escenarios
- Alto valor práctico: Particularmente adecuado para escenarios dispersos y con ceros estructurales donde los métodos tradicionales fallan
- Limitaciones de escalabilidad: Para problemas de escala extremadamente grande, los requisitos de memoria de la codificación booleana pueden convertirse en cuello de botella
- Sensibilidad de parámetros: El rendimiento del esquema híbrido depende de la selección de hiperparámetros, careciendo de orientación para ajuste automático
- Comparación limitada: Principalmente compara con métodos tradicionales de base de Markov, careciendo de comparación con otros métodos modernos
- Contribución académica: Abre nuevas direcciones para investigación interdisciplinaria entre computación estadística y optimización combinatoria
- Valor práctico: Proporciona herramientas prácticas para análisis de tablas de contingencia complejas
- Reproducibilidad: Promete implementación de código abierto, favoreciendo la promoción del método
- Análisis de tablas de contingencia dispersas con muchos ceros estructurales
- Problemas de restricciones de alta dimensión donde el cálculo de base de Markov tradicional es inviable
- Escenarios que requieren exploración rápida de regiones de fibra distantes
- Pruebas condicionales exactas con tamaños de muestra pequeños
Este artículo cita literatura importante de estadística, matemática combinatoria e informática, incluyendo:
- Diaconis y Sturmfels (1998): Trabajo pionero sobre algoritmos algebraicos para muestreo de distribuciones condicionales
- Literatura de solucionadores SAT modernos: CryptoMiniSat5, UniGen3, CMSGen, etc.
- Métodos de computación estadística: Investigación relacionada con bases de Markov, bases dinámicas y bases de retícula