2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.

Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.

academic

Modèles d'Espace d'État pour Réseaux de Données Tabulaires Pré-ajustés par Données Antérieures

Informations Fondamentales

ID de l'article: 2510.14573
Titre: State-Space Models for Tabular Prior-Data Fitted Networks
Auteurs: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
Classification: cs.LG
Date de publication/Conférence: Actes du 1er Atelier ICML sur les Modèles Fondamentaux pour Données Structurées, Vancouver, Canada. 2025
Lien de l'article: https://arxiv.org/abs/2510.14573

Résumé

Les avancées récentes dans les modèles fondamentaux pour données tabulaires, tels que TabPFN, ont démontré que les architectures Transformer pré-entraînées peuvent approximer l'inférence bayésienne avec des performances prédictives élevées. Cependant, les Transformers souffrent d'une complexité quadratique par rapport à la longueur de la séquence, motivant l'exploration de modèles de séquence plus efficaces. Dans ce travail, nous examinons le potentiel d'utiliser Hydra, un modèle d'espace d'état structuré bidirectionnel à temps linéaire (SSM), comme alternative aux Transformers dans TabPFN. Un défi clé réside dans la sensibilité inhérente des SSM à l'ordre des jetons d'entrée - une propriété indésirable pour les ensembles de données tabulaires où l'ordre des lignes est sémantiquement insignifiant. Nous examinons dans quelle mesure une approche bidirectionnelle peut préserver l'efficacité et permettre l'agrégation symétrique du contexte. Nos expériences montrent que cette approche réduit la dépendance à l'ordre, atteignant des performances prédictives compétitives par rapport au modèle TabPFN original.

Contexte et Motivation de la Recherche

Problème à résoudre: Cette recherche aborde le problème d'efficacité computationnelle de l'architecture Transformer dans les modèles fondamentaux pour données tabulaires, en particulier sa complexité O(n²) qui limite la scalabilité sur les grands ensembles de données.
Importance du problème: TabPFN en tant que modèle fondamental pour données tabulaires a démontré des performances exceptionnelles, capable d'approximer l'inférence bayésienne en millisecondes, mais son architecture basée sur Transformer fait face à des goulots d'étranglement mémoire et computationnels lors du traitement de données à grande échelle.
Limitations des approches existantes:
- Le mécanisme d'auto-attention du Transformer possède une complexité quadratique
- Remplacer directement le Transformer par Mamba introduit une sensibilité à l'ordre de la séquence d'entrée
- L'ordre des lignes dans les données tabulaires est sémantiquement insignifiant, ce qui entre en conflit avec la conception causale des SSM
Motivation de la recherche: Explorer les modèles d'espace d'état structurés (SSM) comme alternative aux Transformers, en préservant les avantages d'efficacité de la complexité linéaire tout en réduisant la dépendance à l'ordre d'entrée par un mécanisme de traitement bidirectionnel.

Contributions Principales

Architecture TabPFN basée sur Hydra proposée: Intégration du modèle d'espace d'état structuré bidirectionnel Hydra dans TabPFN, réalisant un traitement des données tabulaires avec complexité temporelle linéaire.
Introduction de la technique de Permutation Répétée du Contexte (RCP): Réduction supplémentaire de la sensibilité des SSM à l'ordre des séquences par permutation aléatoire répétée des entrées et moyenne des résultats prédictifs.
Amélioration significative de la scalabilité: Comparée au TabPFN original, la nouvelle méthode peut traiter des ensembles de données deux ordres de grandeur plus importants (extension de 2¹⁵ à 2¹⁷ lignes).
Maintien de performances prédictives compétitives: Sur l'ensemble de référence OpenML CC-18, la précision du TabPFN basé sur Hydra n'est inférieure que de 1,1% au modèle original.

Explication Détaillée de la Méthode

Définition de la Tâche

Cet article étudie les tâches de classification tabulaire, où:

Entrée: Ensemble de données tabulaires complet contenant les échantillons d'entraînement et de test
Sortie: Prédictions de probabilité de classe pour les échantillons de test
Contraintes: L'inférence doit être complétée en une seule passe avant, sans mise à jour de gradients ni ajustement fin

Architecture du Modèle

1. Remplacement de l'Architecture Hydra

Conception centrale: Remplacement de l'encodeur Transformer par un empilement de couches Hydra
Traitement bidirectionnel: Utilisation de mélangeurs de matrices quasi-séparables pour modéliser l'espace d'état bidirectionnel
Structure des couches: Chaque couche Hydra comprend un mélange d'espace d'état bidirectionnel, suivi d'une transformation avant

2. Préservation de la Stratégie d'Intégration

Conservation de la méthode d'intégration des données du TabPFN original
Chaque entrée représentée comme concaténation de valeurs de caractéristiques et d'étiquettes de classe
Traitement des données non étiquetées lors de l'inférence par marginalisation de toutes les assignations d'étiquettes possibles

3. Permutation Répétée du Contexte (RCP)

Le flux algorithmique est le suivant:

Entrée: nombre de permutations r, contexte D, échantillon de test xtest
Sortie: valeur de classe prédite
Initialiser liste vide: outputs ← []
pour i = 1 à r faire
    Mélanger les lignes de D: Dp ← shuffle(D)
    Concaténer xtest à Dp: Din ← Dp ∪ xtest
    Prédire: outputs[i] ← PFN.predict(Din)
fin pour
Retourner la moyenne de outputs

Points d'Innovation Technique

Bidirectionnalité résolvant la sensibilité à l'ordre: Comparé au Mamba unidirectionnel, le traitement bidirectionnel d'Hydra peut agréger symétriquement les informations contextuelles, réduisant la dépendance à l'ordre d'entrée.
Complexité linéaire: Réalisation d'une complexité O(n) par multiplication de matrices quasi-séparables, offrant un avantage significatif par rapport à O(n²) du Transformer.
Stratégie RCP: Innovation consistant à réduire davantage la sensibilité à l'ordre par permutations aléatoires répétées et moyenne des résultats, conception personnalisée pour les caractéristiques des données tabulaires.

Configuration Expérimentale

Ensembles de Données

Ensemble de données principal: Suite de référence OpenML CC-18
Critères de filtrage: ≤2000 lignes, ≤100 caractéristiques, ≤10 classes
Ensemble de données final: 30 ensembles de données de classification multi-classe
Division des données: Chaque ensemble de données divisé aléatoirement en ensembles d'entraînement/test 16 fois

Métriques d'Évaluation

Précision (Accuracy): Taux de correction de classification
AUC OvO: AUC multi-classe Un-contre-Un
Divergence KL: Mesure de la différence de distribution prédictive sous différentes permutations d'entrée, évaluation de la sensibilité à l'ordre
Temps d'inférence: Temps de calcul sous différentes tailles d'entrée
Utilisation mémoire: Taille maximale d'ensemble de données traitable

Méthodes de Comparaison

TabPFN basé sur Transformer: Modèle de base original
TabPFN basé sur Mamba: Solution de remplacement SSM unidirectionnel
TabPFN basé sur Hydra: Approche SSM bidirectionnelle proposée dans cet article

Détails d'Implémentation

Matériel d'entraînement: GPU Nvidia A40 (48GB)
Matériel de test: NVIDIA H100 80GB
Temps d'entraînement: Transformer 48 heures, Mamba 52 heures, Hydra 134 heures
Hyperparamètres clés:
- Taux d'apprentissage: 0.0001
- Nombre de couches SSM: 24 couches (2 fois celui du Transformer)
- Dimension d'intégration: 1024

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de Scalabilité

Limite Transformer: 2¹⁵ lignes (limitée par 80GB de mémoire GPU)
Limite Hydra: 2¹⁷ lignes (limitée par l'indexation 32 bits PyTorch, non par le matériel)
Amélioration de performance: Augmentation de 100 fois de la taille de données traitable

2. Comparaison de Performance Prédictive

Hydra vs Transformer: Différence de précision moyenne -1,1%, différence AUC -1,1%
Hydra vs Mamba: Précision Hydra en moyenne 3,6% supérieure
Analyse de variance: Hydra présente une variance de performance inférieure à celle de Mamba

3. Analyse de Sensibilité à l'Ordre

Mesurée par divergence KL:

La divergence KL diminue significativement avec l'augmentation du nombre d'itérations RCP
Hydra présente une sensibilité à l'ordre inférieure à celle de Mamba
La stratégie RCP réduit efficacement l'impact des permutations anormales

Expériences d'Ablation

Impact du Nombre d'Itérations RCP

Précision: Amélioration avec l'augmentation du nombre d'itérations RCP, mais amélioration relative modeste
Divergence KL: Diminution significative, indiquant une réduction de la dépendance à l'ordre
Coût computationnel: Augmentation linéaire du temps d'inférence de r fois

Comparaison d'Architecture

Unidirectionnel vs Bidirectionnel: Le mécanisme bidirectionnel d'Hydra surpasse clairement le traitement unidirectionnel de Mamba
Configuration des couches: Suivant les recommandations du document Mamba, utilisation de 2 fois le nombre de couches du Transformer

Découvertes Expérimentales

Importance de la bidirectionnalité: Le traitement bidirectionnel est crucial pour la nature non-ordonnée des données tabulaires
Équilibre efficacité-performance: Amélioration significative de l'efficacité tout en maintenant des performances compétitives
Efficacité de RCP: La stratégie de moyenne de permutations multiples réduit efficacement la sensibilité à l'ordre
Dépassement des limitations matérielles: Dépassement avec succès des limitations mémoire du Transformer sur données à grande échelle

Travaux Connexes

Modèles Fondamentaux pour Données Tabulaires

TabPFN: Modèle Transformer pionniers pour données tabulaires
TabFlex: Solution d'extension utilisant l'attention linéaire
Mambular: Modèle d'apprentissage profond tabulaire basé sur Mamba

Modèles d'Espace d'État

Mamba: Modèle d'espace d'état sélectif, réalisant complexité linéaire
Hydra: Extension SSM bidirectionnelle, supportant modélisation non-causale
S4: Travail fondamental sur modèles d'espace d'état structurés pour séquences

Méthodes d'Optimisation d'Efficacité

FlashAttention: Réduction des besoins mémoire du Transformer par optimisation E/S
Linear Attention: Alternative de mécanisme d'attention à complexité linéaire

Conclusion et Discussion

Conclusions Principales

Hydra résout avec succès le problème de scalabilité de TabPFN, augmentant la capacité de traitement de deux ordres de grandeur
Les SSM bidirectionnels sont plus appropriés que les SSM unidirectionnels pour la nature non-ordonnée des données tabulaires
La stratégie RCP est une méthode efficace pour réduire la sensibilité à l'ordre des SSM
Performance compétitive avec le Transformer maintenue tout en préservant la complexité linéaire

Limitations

Nécessité de réentraînement: Réentraînement du modèle complet requis en raison des différences architecturales
Limitation du contexte: Expériences toujours limitées à moins de 1000 lignes, exploration insuffisante de scénarios à grande échelle
Surcharge RCP: Permutations multiples augmentent le temps d'inférence de r fois
Optimisation d'ordre: Recherche insuffisante sur les stratégies de permutation optimales pour SSM

Directions Futures

Validation à grande échelle: Test du TabPFN basé sur SSM sur ensembles de données >10k lignes
Permutation optimale: Recherche de stratégies de permutation de lignes optimales pour SSM
Optimisation architecturale: Exploration d'architectures SSM bidirectionnelles plus efficaces
Analyse théorique: Compréhension approfondie des fondations théoriques de la bidirectionnalité pour modélisation de données tabulaires

Évaluation Approfondie

Points Forts

Définition claire du problème: Identification précise du goulot d'étranglement central de TabPFN avec solution ciblée
Choix technique judicieux: Les caractéristiques bidirectionnelles d'Hydra correspondent bien à la nature non-ordonnée des données tabulaires
Conception expérimentale complète: Évaluation multidimensionnelle incluant performance, efficacité et sensibilité à l'ordre
Force de conviction des résultats: Amélioration significative de scalabilité maintenant les performances
Utilité pratique élevée de la méthode: Stratégie RCP simple, efficace, facile à implémenter et déployer

Insuffisances

Degré d'innovation limité: Principalement combinaison d'applications de technologies existantes, manque d'innovation fondamentale
Analyse théorique insuffisante: Explication théorique insuffisante de pourquoi la bidirectionnalité résout le problème de sensibilité à l'ordre
Échelle expérimentale limitée: Toujours limitée à ensembles de données relativement petits, capacité de traitement à grande échelle insuffisamment démontrée
Comparaisons incomplètes: Manque de comparaisons directes avec autres méthodes de complexité linéaire (comme Linear Attention)
Analyse d'hyperparamètres insuffisante: Optimisation d'hyperparamètres insuffisante en raison des coûts d'entraînement élevés

Impact

Contribution académique: Fournit nouvelles perspectives et preuves empiriques pour optimisation d'efficacité des modèles fondamentaux tabulaires
Valeur pratique: Résout problèmes de scalabilité dans applications réelles, valeur pratique élevée
Signification inspirante: Démontre potentiel des SSM dans modélisation de données structurées, peut inspirer recherches connexes
Reproductibilité: Code publiquement disponible, configuration expérimentale détaillée, excellente reproductibilité

Scénarios d'Application

Classification tabulaire à grande échelle: Particulièrement adapté aux tâches de classification tabulaire nécessitant traitement de nombreux échantillons
Scénarios d'inférence en temps réel: Complexité linéaire appropriée pour applications exigeant vitesse d'inférence stricte
Environnements à ressources limitées: Nécessite moins mémoire et ressources computationnelles comparé au Transformer
Apprentissage peu supervisé: Préserve avantages de TabPFN dans scénarios peu supervisés

Références

Les références principales incluent:

Hollmann et al. (2023) - Article original TabPFN
Gu & Dao (2023) - Architecture Mamba
Hwang et al. (2024) - SSM bidirectionnel Hydra
Dao et al. (2022) - Technique d'optimisation FlashAttention
Zeng et al. (2024) - Méthode attention linéaire TabFlex

Cet article apporte une contribution précieuse à la résolution du problème de scalabilité des modèles fondamentaux tabulaires. En combinant intelligemment les SSM bidirectionnels et la stratégie de permutation répétée, il équilibre avec succès les exigences d'efficacité et de performance. Bien que présentant certaines insuffisances en innovation théorique, sa valeur pratique et sa signification inspirante pour recherches futures méritent reconnaissance.