2025-11-11T16:28:09.601154

SAT-sampling for statistical significance testing in sparse contingency tables

Scharpfenecker, Windisch
Exact conditional tests for contingency tables require sampling from fibers with fixed margins. Classical Markov basis MCMC is general but often impractical: computing full Markov bases that connect all fibers of a given constraint matrix can be infeasible and the resulting chains may converge slowly, especially in sparse settings or in presence of structural zeros. We introduce a SAT-based alternative that encodes fibers as Boolean circuits which allows modern SAT samplers to generate tables randomly. We analyze the sampling bias that SAT samplers may introduce, provide diagnostics, and propose practical mitigation. We propose hybrid MCMC schemes that combine SAT proposals with local moves to ensure correct stationary distributions which do not necessarily require connectivity via local moves which is particularly beneficial in presence of structural zeros. Across benchmarks, including small and involved tables with many structural zeros where pure Markov-basis methods underperform, our methods deliver reliable conditional p-values and often outperform samplers that rely on precomputed Markov bases.
academic

Échantillonnage SAT pour les tests de signification statistique dans les tableaux de contingence creux

Informations de base

  • ID de l'article: 2511.05709
  • Titre: Échantillonnage SAT pour les tests de signification statistique dans les tableaux de contingence creux
  • Auteurs: Patrick Scharpfenecker, Tobias Windisch (Université des Sciences Appliquées Kempten, Allemagne)
  • Classification: stat.ME (Statistiques - Méthodologie), math.CO (Mathématiques - Combinatoire), stat.CO (Statistiques - Calcul)
  • Date de publication: 7 novembre 2025
  • Lien de l'article: https://arxiv.org/abs/2511.05709

Résumé

Cet article propose une nouvelle méthode basée sur les solveurs SAT pour remplacer les méthodes MCMC traditionnelles basées sur les bases de Markov pour les tests conditionnels exacts sur les tableaux de contingence. Les méthodes traditionnelles nécessitent le calcul d'une base de Markov complète reliant toutes les fibres, ce qui est souvent impraticable et converge lentement dans les contextes creux ou en présence de zéros structurels. Les auteurs encodent les fibres sous forme de circuits booléens et utilisent des échantillonneurs SAT modernes pour générer aléatoirement des tableaux. Ils analysent les biais d'échantillonnage potentiels introduits par les échantillonneurs SAT et proposent des stratégies d'atténuation pratiques. Grâce à un schéma MCMC hybride combinant des propositions SAT et des mouvements locaux, la distribution stationnaire correcte est assurée, particulièrement adaptée aux cas avec zéros structurels.

Contexte et motivation de la recherche

Définition du problème

L'inférence conditionnelle exacte sur les tableaux de contingence est un problème important en statistique, en particulier pour les tests d'indépendance. Ces problèmes nécessitent d'échantillonner à partir de fibres (fibers) sous des contraintes de marges fixes, c'est-à-dire de trouver des tableaux d'entiers non négatifs uu satisfaisant les contraintes linéaires Au=bAu = b.

Limitations des méthodes existantes

Les méthodes MCMC traditionnelles basées sur les bases de Markov font face à deux goulots d'étranglement majeurs:

  1. Complexité computationnelle: Le calcul d'une base de Markov complète pour les modèles réalistes et les tailles de tableaux est généralement prohibitif ou complètement infaisable
  2. Problèmes de convergence: Même avec une base disponible, les mouvements induits peuvent converger lentement, nécessitant un travail d'ajustement considérable
  3. Problèmes de zéros structurels: Les zéros structurels et autres contraintes augmentent la taille de la base de Markov et compliquent la connectivité

Motivation de la recherche

Les auteurs observent que les solveurs SAT modernes excellent dans le traitement de grandes instances structurées, en particulier les solveurs CDCL (Conflict-Driven Clause Learning). Les progrès récents des techniques d'échantillonnage SAT (tels que UniGen3, CMSGen, etc.) offrent de nouvelles possibilités pour résoudre le problème d'échantillonnage de fibres.

Contributions principales

  1. Méthode d'encodage SAT: Propose une méthode efficace pour encoder les contraintes de fibres sous forme de circuits booléens, convertis en forme CNF via la transformation de Tseitin, préservant la parcimonie et réalisant une propagation unitaire forte dans les solveurs CDCL
  2. Analyse du biais d'échantillonnage: Quantifie l'ampleur et la structure du biais d'échantillonnage dans les échantillonneurs SAT de pointe, développe des techniques pratiques d'atténuation pour améliorer la précision des valeurs p conditionnelles
  3. Schémas MCMC hybrides: Propose deux schémas hybrides An(M)A_n(M) et Pn,k(M)P_{n,k}(M) combinant des propositions SAT et des mouvements locaux, assurant la distribution stationnaire correcte
  4. Amélioration des performances: Démontre les avantages de performance par rapport aux méthodes traditionnelles basées sur les bases de Markov sur des benchmarks incluant de petits tableaux complexes avec zéros structurels

Détails de la méthode

Définition de la tâche

Étant donné une matrice de contraintes ANk×dA \in \mathbb{N}^{k \times d} et un vecteur de marges bZkb \in \mathbb{Z}^k, l'objectif est d'échantillonner à partir de la fibre FA,b={uNd:Au=b}F_{A,b} = \{u \in \mathbb{N}^d : Au = b\} pour approximer la valeur p conditionnelle:

Eρ[f]=uFA,bf(u)ρ(u)E_\rho[f] = \sum_{u \in F_{A,b}} f(u)\rho(u)

ρ(v)1v1!vd!\rho(v) \sim \frac{1}{v_1! \cdots v_d!}, f(v)=1X(v)X(uobs)f(v) = \mathbf{1}_{X(v) \geq X(u^{obs})}

Architecture d'encodage SAT

Encodage par circuit booléen

  1. Représentation des contraintes: Reformule les contraintes linéaires Au=bAu = b en une série d'additions, multiplications et vérifications d'égalité
  2. Représentation en bits: Utilise ll bits pour représenter chaque entrée, où l=log2(maxi,j,Ai,j>0biAi,j)l = \lceil \log_2(\max_{i,j,A_{i,j}>0} \frac{b_i}{A_{i,j}}) \rceil
  3. Construction du circuit: Construit un circuit booléen CC de taille poly(k,d,l)\text{poly}(k,d,l)

Transformation de Tseitin

Utilise l'encodage Tseitin classique pour convertir le circuit CC en forme CNF FF, satisfaisant:

  • C(u1,,ud)=1C(u_1, \ldots, u_d) = 1 si et seulement s'il existe y1,,ymy_1, \ldots, y_m tels que F(u1,,ud,y1,,ym)=1F(u_1, \ldots, u_d, y_1, \ldots, y_m) = 1
  • Établit une bijection entre FA,b[2l1]dF_{A,b} \cap [2^l-1]^d et les solutions satisfaisantes de FF

Schémas MCMC hybrides

Schéma An(M)A_n(M)

Une étape sur nn utilise l'échantillonneur SAT, les autres utilisent un ensemble de mouvements prédéfinis MM:

  • Alterne entre les étapes SAT et les mouvements de base de Markov
  • Maintient un faible ratio d'étapes SAT pour atténuer les biais structurels

Schéma Pn,k(M)P_{n,k}(M)

Gère en parallèle kk marches aléatoires:

  • Utilise d'abord l'échantillonneur SAT pour échantillonner nn points initiaux indépendants à partir de la fibre
  • Exécute ensuite kk marches aléatoires utilisant MM
  • Sélectionne aléatoirement une marche pour continuer nn étapes tous les nn pas

Correction de Metropolis-Hastings

Pour les propositions SAT, calcule la probabilité d'acceptation: pW(u,v)=min{1,W(v,u)W(u,v)i=1dui!vi!}p_W(u,v) = \min\left\{1, \frac{W(v,u)}{W(u,v)} \cdot \prod_{i=1}^d \frac{u_i!}{v_i!}\right\}

Configuration expérimentale

Catégories de modèles

  1. Modèles d'indépendance Id1××dkI_{d_1 \times \cdots \times d_k}: Modèles d'indépendance d1×d2××dkd_1 \times d_2 \times \cdots \times d_k
  2. Modèles quasi-indépendance QId1××dk(S)QI_{d_1 \times \cdots \times d_k}(S): Modèles d'indépendance avec zéros structurels SS
  3. Modèles sans interaction triple N3FdN3F_d: Modèles sans interaction triple sur tableaux d×d×dd \times d \times d

Schéma d'évaluation

Utilise le schéma d'évaluation de l'Algorithme 1:

  • Génère T=100T=100 échantillons initiaux
  • Exécute le test de Fisher pour chaque échantillon
  • Mesure le nombre d'étapes pour converger vers la valeur p conditionnelle (plutôt que le nombre d'échantillons)
  • Évalue le nombre d'étapes nécessaires pour atteindre une précision de 0,005

Détails d'implémentation

  • Utilise CMSGen comme échantillonneur SAT principal (plus rapide qu'UniGen3)
  • Pour le calcul du MLE, implémente une méthode de descente de gradient générale
  • Utilise l'optimisation L-BFGS, surveille la divergence des marges A(uobsu^(θ))2\|A(u^{obs} - \hat{u}(\theta))\|_2

Résultats expérimentaux

Résultats principaux

Les résultats expérimentaux montrent que la méthode basée sur SAT surpasse la méthode basée sur les bases de Markov dans plusieurs scénarios, particulièrement dans les cas suivants:

  1. Tableaux creux: Performance exceptionnelle avec petits volumes d'échantillons ou présence de zéros structurels
  2. Structures complexes: Le schéma An(M)A_n(M) surpasse Pn,k(M)P_{n,k}(M) sur les grandes instances de problèmes
  3. Traitement des zéros structurels: Assure la convergence vers la valeur p correcte sans nécessiter une base de Markov complète (comme la base de Graver)

Performances spécifiques

  • Modèle N3F4: Avec des volumes d'échantillons de 80 et 100, la méthode hybride surpasse significativement la méthode purement Markov
  • Modèle QI5×5: Converge vers la vraie valeur p vérifiée par énumération complète de la fibre
  • Modèle QI10×10: Démontre une convergence plus rapide pour tous les volumes d'échantillons

Analyse du biais d'échantillonnage

La Figure 2 montre que la méthode SAT pure présente un biais structurel fort, ne pouvant pas être utilisée directement pour l'approximation de valeurs p, mais les schémas hybrides atténuent avec succès ce problème, réalisant la convergence vers la valeur p correcte.

Travaux connexes

Méthodes traditionnelles

  • MCMC basé sur les bases de Markov: Travail fondateur de Diaconis et Sturmfels (1998)
  • Bases de Markov dynamiques: Méthode de calcul instantané de mouvements de Dobra (2011)
  • Méthodes basées sur les réseaux: Recherche sur les mouvements basés sur les réseaux de Hazelton et Karimi (2024)

Développements modernes

  • Méthode RUMBA: Échantillonnage de points de réseau haute dimension de Bakenhus et Petrović (2024)
  • Stratégies spécifiques au problème: Test d'indépendance sur tableaux creux de grande taille de Zhang (2019)
  • Méthode Heat-bath: Ajustement dynamique de la longueur des mouvements de Stanley et Windisch (2018)

Techniques SAT

  • Solveurs SAT: Solveurs haute performance CryptoMiniSat5, Kissat, etc.
  • Échantillonnage SAT: Outils d'échantillonnage UniGen3, CMSGen, SMT-Sampler, etc.

Conclusions et discussion

Conclusions principales

  1. La méthode basée sur SAT fournit une alternative efficace pour l'échantillonnage de fibres, particulièrement adaptée aux contextes creux avec zéros structurels
  2. Les schémas MCMC hybrides atténuent avec succès les biais structurels des échantillonneurs SAT
  3. La méthode surpasse significativement les méthodes traditionnelles basées sur les bases de Markov dans les scénarios complexes impliquant de petits volumes d'échantillons ou de nombreux zéros structurels

Limitations

  1. Surcharge computationnelle: Le temps d'un seul échantillonnage SAT peut être supérieur à celui d'un seul mouvement local
  2. Besoins en mémoire: L'encodage booléen de grandes matrices de conception et d'ensembles de contraintes riches peut croître rapidement
  3. Ajustement des hyperparamètres: La méthode hybride introduit des hyperparamètres nécessitant un ajustement (comme le nombre de marches, le nombre d'étapes par marche)

Directions futures

  1. Méthodes d'encodage plus efficaces pour les systèmes de contraintes ultra-haute dimension
  2. Stratégies de sélection adaptative des hyperparamètres
  3. Combinaison avec d'autres techniques d'échantillonnage modernes

Évaluation approfondie

Points forts

  1. Innovation forte: Première application systématique de la technologie SAT au problème d'échantillonnage de fibres
  2. Théorie solide: Fournit une analyse rigoureuse du biais d'échantillonnage et des stratégies d'atténuation
  3. Expériences complètes: Benchmarks complets couvrant plusieurs catégories de modèles et scénarios
  4. Valeur pratique élevée: Particulièrement adapté aux scénarios creux et avec zéros structurels où les méthodes traditionnelles échouent

Insuffisances

  1. Limitations de scalabilité: Pour les problèmes extrêmement volumineux, les besoins en mémoire de l'encodage booléen peuvent devenir un goulot d'étranglement
  2. Sensibilité aux paramètres: Les performances du schéma hybride dépendent de la sélection des hyperparamètres, manquant de directives d'ajustement automatique
  3. Comparaisons limitées: Comparaisons principalement avec les méthodes traditionnelles basées sur les bases de Markov, manquant de comparaisons avec d'autres méthodes modernes

Impact

  1. Contribution académique: Ouvre de nouvelles directions pour la recherche interdisciplinaire entre le calcul statistique et l'optimisation combinatoire
  2. Valeur pratique: Fournit des outils pratiques pour l'analyse de tableaux de contingence complexes
  3. Reproductibilité: S'engage à fournir une implémentation open-source, favorisant la diffusion de la méthode

Scénarios applicables

  1. Analyse de tableaux de contingence creux avec de nombreux zéros structurels
  2. Problèmes de contraintes haute dimension où le calcul de la base de Markov traditionnelle est infaisable
  3. Scénarios nécessitant une exploration rapide de régions de fibres éloignées
  4. Tests conditionnels exacts avec petits volumes d'échantillons

Références

Cet article cite des travaux importants en statistique, mathématiques combinatoires et informatique, notamment:

  • Diaconis et Sturmfels (1998): Travail fondateur sur les algorithmes algébriques pour l'échantillonnage de distributions conditionnelles
  • Littérature des solveurs SAT modernes: CryptoMiniSat5, UniGen3, CMSGen, etc.
  • Méthodes de calcul statistique: Recherches connexes sur les bases de Markov, bases dynamiques, bases de réseaux, etc.