2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

Modèles d'Espace d'État pour Réseaux de Données Tabulaires Pré-ajustés par Données Antérieures

Informations Fondamentales

  • ID de l'article: 2510.14573
  • Titre: State-Space Models for Tabular Prior-Data Fitted Networks
  • Auteurs: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • Classification: cs.LG
  • Date de publication/Conférence: Actes du 1er Atelier ICML sur les Modèles Fondamentaux pour Données Structurées, Vancouver, Canada. 2025
  • Lien de l'article: https://arxiv.org/abs/2510.14573

Résumé

Les avancées récentes dans les modèles fondamentaux pour données tabulaires, tels que TabPFN, ont démontré que les architectures Transformer pré-entraînées peuvent approximer l'inférence bayésienne avec des performances prédictives élevées. Cependant, les Transformers souffrent d'une complexité quadratique par rapport à la longueur de la séquence, motivant l'exploration de modèles de séquence plus efficaces. Dans ce travail, nous examinons le potentiel d'utiliser Hydra, un modèle d'espace d'état structuré bidirectionnel à temps linéaire (SSM), comme alternative aux Transformers dans TabPFN. Un défi clé réside dans la sensibilité inhérente des SSM à l'ordre des jetons d'entrée - une propriété indésirable pour les ensembles de données tabulaires où l'ordre des lignes est sémantiquement insignifiant. Nous examinons dans quelle mesure une approche bidirectionnelle peut préserver l'efficacité et permettre l'agrégation symétrique du contexte. Nos expériences montrent que cette approche réduit la dépendance à l'ordre, atteignant des performances prédictives compétitives par rapport au modèle TabPFN original.

Contexte et Motivation de la Recherche

  1. Problème à résoudre: Cette recherche aborde le problème d'efficacité computationnelle de l'architecture Transformer dans les modèles fondamentaux pour données tabulaires, en particulier sa complexité O(n²) qui limite la scalabilité sur les grands ensembles de données.
  2. Importance du problème: TabPFN en tant que modèle fondamental pour données tabulaires a démontré des performances exceptionnelles, capable d'approximer l'inférence bayésienne en millisecondes, mais son architecture basée sur Transformer fait face à des goulots d'étranglement mémoire et computationnels lors du traitement de données à grande échelle.
  3. Limitations des approches existantes:
    • Le mécanisme d'auto-attention du Transformer possède une complexité quadratique
    • Remplacer directement le Transformer par Mamba introduit une sensibilité à l'ordre de la séquence d'entrée
    • L'ordre des lignes dans les données tabulaires est sémantiquement insignifiant, ce qui entre en conflit avec la conception causale des SSM
  4. Motivation de la recherche: Explorer les modèles d'espace d'état structurés (SSM) comme alternative aux Transformers, en préservant les avantages d'efficacité de la complexité linéaire tout en réduisant la dépendance à l'ordre d'entrée par un mécanisme de traitement bidirectionnel.

Contributions Principales

  1. Architecture TabPFN basée sur Hydra proposée: Intégration du modèle d'espace d'état structuré bidirectionnel Hydra dans TabPFN, réalisant un traitement des données tabulaires avec complexité temporelle linéaire.
  2. Introduction de la technique de Permutation Répétée du Contexte (RCP): Réduction supplémentaire de la sensibilité des SSM à l'ordre des séquences par permutation aléatoire répétée des entrées et moyenne des résultats prédictifs.
  3. Amélioration significative de la scalabilité: Comparée au TabPFN original, la nouvelle méthode peut traiter des ensembles de données deux ordres de grandeur plus importants (extension de 2¹⁵ à 2¹⁷ lignes).
  4. Maintien de performances prédictives compétitives: Sur l'ensemble de référence OpenML CC-18, la précision du TabPFN basé sur Hydra n'est inférieure que de 1,1% au modèle original.

Explication Détaillée de la Méthode

Définition de la Tâche

Cet article étudie les tâches de classification tabulaire, où:

  • Entrée: Ensemble de données tabulaires complet contenant les échantillons d'entraînement et de test
  • Sortie: Prédictions de probabilité de classe pour les échantillons de test
  • Contraintes: L'inférence doit être complétée en une seule passe avant, sans mise à jour de gradients ni ajustement fin

Architecture du Modèle

1. Remplacement de l'Architecture Hydra

  • Conception centrale: Remplacement de l'encodeur Transformer par un empilement de couches Hydra
  • Traitement bidirectionnel: Utilisation de mélangeurs de matrices quasi-séparables pour modéliser l'espace d'état bidirectionnel
  • Structure des couches: Chaque couche Hydra comprend un mélange d'espace d'état bidirectionnel, suivi d'une transformation avant

2. Préservation de la Stratégie d'Intégration

  • Conservation de la méthode d'intégration des données du TabPFN original
  • Chaque entrée représentée comme concaténation de valeurs de caractéristiques et d'étiquettes de classe
  • Traitement des données non étiquetées lors de l'inférence par marginalisation de toutes les assignations d'étiquettes possibles

3. Permutation Répétée du Contexte (RCP)

Le flux algorithmique est le suivant:

Entrée: nombre de permutations r, contexte D, échantillon de test xtest
Sortie: valeur de classe prédite
Initialiser liste vide: outputs ← []
pour i = 1 à r faire
    Mélanger les lignes de D: Dp ← shuffle(D)
    Concaténer xtest à Dp: Din ← Dp ∪ xtest
    Prédire: outputs[i] ← PFN.predict(Din)
fin pour
Retourner la moyenne de outputs

Points d'Innovation Technique

  1. Bidirectionnalité résolvant la sensibilité à l'ordre: Comparé au Mamba unidirectionnel, le traitement bidirectionnel d'Hydra peut agréger symétriquement les informations contextuelles, réduisant la dépendance à l'ordre d'entrée.
  2. Complexité linéaire: Réalisation d'une complexité O(n) par multiplication de matrices quasi-séparables, offrant un avantage significatif par rapport à O(n²) du Transformer.
  3. Stratégie RCP: Innovation consistant à réduire davantage la sensibilité à l'ordre par permutations aléatoires répétées et moyenne des résultats, conception personnalisée pour les caractéristiques des données tabulaires.

Configuration Expérimentale

Ensembles de Données

  • Ensemble de données principal: Suite de référence OpenML CC-18
  • Critères de filtrage: ≤2000 lignes, ≤100 caractéristiques, ≤10 classes
  • Ensemble de données final: 30 ensembles de données de classification multi-classe
  • Division des données: Chaque ensemble de données divisé aléatoirement en ensembles d'entraînement/test 16 fois

Métriques d'Évaluation

  1. Précision (Accuracy): Taux de correction de classification
  2. AUC OvO: AUC multi-classe Un-contre-Un
  3. Divergence KL: Mesure de la différence de distribution prédictive sous différentes permutations d'entrée, évaluation de la sensibilité à l'ordre
  4. Temps d'inférence: Temps de calcul sous différentes tailles d'entrée
  5. Utilisation mémoire: Taille maximale d'ensemble de données traitable

Méthodes de Comparaison

  • TabPFN basé sur Transformer: Modèle de base original
  • TabPFN basé sur Mamba: Solution de remplacement SSM unidirectionnel
  • TabPFN basé sur Hydra: Approche SSM bidirectionnelle proposée dans cet article

Détails d'Implémentation

  • Matériel d'entraînement: GPU Nvidia A40 (48GB)
  • Matériel de test: NVIDIA H100 80GB
  • Temps d'entraînement: Transformer 48 heures, Mamba 52 heures, Hydra 134 heures
  • Hyperparamètres clés:
    • Taux d'apprentissage: 0.0001
    • Nombre de couches SSM: 24 couches (2 fois celui du Transformer)
    • Dimension d'intégration: 1024

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de Scalabilité

  • Limite Transformer: 2¹⁵ lignes (limitée par 80GB de mémoire GPU)
  • Limite Hydra: 2¹⁷ lignes (limitée par l'indexation 32 bits PyTorch, non par le matériel)
  • Amélioration de performance: Augmentation de 100 fois de la taille de données traitable

2. Comparaison de Performance Prédictive

  • Hydra vs Transformer: Différence de précision moyenne -1,1%, différence AUC -1,1%
  • Hydra vs Mamba: Précision Hydra en moyenne 3,6% supérieure
  • Analyse de variance: Hydra présente une variance de performance inférieure à celle de Mamba

3. Analyse de Sensibilité à l'Ordre

Mesurée par divergence KL:

  • La divergence KL diminue significativement avec l'augmentation du nombre d'itérations RCP
  • Hydra présente une sensibilité à l'ordre inférieure à celle de Mamba
  • La stratégie RCP réduit efficacement l'impact des permutations anormales

Expériences d'Ablation

Impact du Nombre d'Itérations RCP

  • Précision: Amélioration avec l'augmentation du nombre d'itérations RCP, mais amélioration relative modeste
  • Divergence KL: Diminution significative, indiquant une réduction de la dépendance à l'ordre
  • Coût computationnel: Augmentation linéaire du temps d'inférence de r fois

Comparaison d'Architecture

  • Unidirectionnel vs Bidirectionnel: Le mécanisme bidirectionnel d'Hydra surpasse clairement le traitement unidirectionnel de Mamba
  • Configuration des couches: Suivant les recommandations du document Mamba, utilisation de 2 fois le nombre de couches du Transformer

Découvertes Expérimentales

  1. Importance de la bidirectionnalité: Le traitement bidirectionnel est crucial pour la nature non-ordonnée des données tabulaires
  2. Équilibre efficacité-performance: Amélioration significative de l'efficacité tout en maintenant des performances compétitives
  3. Efficacité de RCP: La stratégie de moyenne de permutations multiples réduit efficacement la sensibilité à l'ordre
  4. Dépassement des limitations matérielles: Dépassement avec succès des limitations mémoire du Transformer sur données à grande échelle

Travaux Connexes

Modèles Fondamentaux pour Données Tabulaires

  • TabPFN: Modèle Transformer pionniers pour données tabulaires
  • TabFlex: Solution d'extension utilisant l'attention linéaire
  • Mambular: Modèle d'apprentissage profond tabulaire basé sur Mamba

Modèles d'Espace d'État

  • Mamba: Modèle d'espace d'état sélectif, réalisant complexité linéaire
  • Hydra: Extension SSM bidirectionnelle, supportant modélisation non-causale
  • S4: Travail fondamental sur modèles d'espace d'état structurés pour séquences

Méthodes d'Optimisation d'Efficacité

  • FlashAttention: Réduction des besoins mémoire du Transformer par optimisation E/S
  • Linear Attention: Alternative de mécanisme d'attention à complexité linéaire

Conclusion et Discussion

Conclusions Principales

  1. Hydra résout avec succès le problème de scalabilité de TabPFN, augmentant la capacité de traitement de deux ordres de grandeur
  2. Les SSM bidirectionnels sont plus appropriés que les SSM unidirectionnels pour la nature non-ordonnée des données tabulaires
  3. La stratégie RCP est une méthode efficace pour réduire la sensibilité à l'ordre des SSM
  4. Performance compétitive avec le Transformer maintenue tout en préservant la complexité linéaire

Limitations

  1. Nécessité de réentraînement: Réentraînement du modèle complet requis en raison des différences architecturales
  2. Limitation du contexte: Expériences toujours limitées à moins de 1000 lignes, exploration insuffisante de scénarios à grande échelle
  3. Surcharge RCP: Permutations multiples augmentent le temps d'inférence de r fois
  4. Optimisation d'ordre: Recherche insuffisante sur les stratégies de permutation optimales pour SSM

Directions Futures

  1. Validation à grande échelle: Test du TabPFN basé sur SSM sur ensembles de données >10k lignes
  2. Permutation optimale: Recherche de stratégies de permutation de lignes optimales pour SSM
  3. Optimisation architecturale: Exploration d'architectures SSM bidirectionnelles plus efficaces
  4. Analyse théorique: Compréhension approfondie des fondations théoriques de la bidirectionnalité pour modélisation de données tabulaires

Évaluation Approfondie

Points Forts

  1. Définition claire du problème: Identification précise du goulot d'étranglement central de TabPFN avec solution ciblée
  2. Choix technique judicieux: Les caractéristiques bidirectionnelles d'Hydra correspondent bien à la nature non-ordonnée des données tabulaires
  3. Conception expérimentale complète: Évaluation multidimensionnelle incluant performance, efficacité et sensibilité à l'ordre
  4. Force de conviction des résultats: Amélioration significative de scalabilité maintenant les performances
  5. Utilité pratique élevée de la méthode: Stratégie RCP simple, efficace, facile à implémenter et déployer

Insuffisances

  1. Degré d'innovation limité: Principalement combinaison d'applications de technologies existantes, manque d'innovation fondamentale
  2. Analyse théorique insuffisante: Explication théorique insuffisante de pourquoi la bidirectionnalité résout le problème de sensibilité à l'ordre
  3. Échelle expérimentale limitée: Toujours limitée à ensembles de données relativement petits, capacité de traitement à grande échelle insuffisamment démontrée
  4. Comparaisons incomplètes: Manque de comparaisons directes avec autres méthodes de complexité linéaire (comme Linear Attention)
  5. Analyse d'hyperparamètres insuffisante: Optimisation d'hyperparamètres insuffisante en raison des coûts d'entraînement élevés

Impact

  1. Contribution académique: Fournit nouvelles perspectives et preuves empiriques pour optimisation d'efficacité des modèles fondamentaux tabulaires
  2. Valeur pratique: Résout problèmes de scalabilité dans applications réelles, valeur pratique élevée
  3. Signification inspirante: Démontre potentiel des SSM dans modélisation de données structurées, peut inspirer recherches connexes
  4. Reproductibilité: Code publiquement disponible, configuration expérimentale détaillée, excellente reproductibilité

Scénarios d'Application

  1. Classification tabulaire à grande échelle: Particulièrement adapté aux tâches de classification tabulaire nécessitant traitement de nombreux échantillons
  2. Scénarios d'inférence en temps réel: Complexité linéaire appropriée pour applications exigeant vitesse d'inférence stricte
  3. Environnements à ressources limitées: Nécessite moins mémoire et ressources computationnelles comparé au Transformer
  4. Apprentissage peu supervisé: Préserve avantages de TabPFN dans scénarios peu supervisés

Références

Les références principales incluent:

  1. Hollmann et al. (2023) - Article original TabPFN
  2. Gu & Dao (2023) - Architecture Mamba
  3. Hwang et al. (2024) - SSM bidirectionnel Hydra
  4. Dao et al. (2022) - Technique d'optimisation FlashAttention
  5. Zeng et al. (2024) - Méthode attention linéaire TabFlex

Cet article apporte une contribution précieuse à la résolution du problème de scalabilité des modèles fondamentaux tabulaires. En combinant intelligemment les SSM bidirectionnels et la stratégie de permutation répétée, il équilibre avec succès les exigences d'efficacité et de performance. Bien que présentant certaines insuffisances en innovation théorique, sa valeur pratique et sa signification inspirante pour recherches futures méritent reconnaissance.