2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.

Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.

academic

Modelli State-Space per Reti Tabellari Prior-Data Fitted

Informazioni Fondamentali

ID Articolo: 2510.14573
Titolo: State-Space Models for Tabular Prior-Data Fitted Networks
Autori: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
Classificazione: cs.LG
Data di Pubblicazione/Conferenza: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Canada. 2025
Link Articolo: https://arxiv.org/abs/2510.14573

Riassunto

I recenti progressi nei modelli fondamentali per dati tabulari, come TabPFN, hanno dimostrato che le architetture Transformer pre-addestrate possono approssimare l'inferenza bayesiana con elevate prestazioni predittive. Tuttavia, i Transformer soffrono di complessità quadratica rispetto alla lunghezza della sequenza, motivando l'esplorazione di modelli di sequenza più efficienti. In questo lavoro, investighiamo il potenziale dell'utilizzo di Hydra, un modello bidirezionale di spazio degli stati strutturato a tempo lineare (SSM), come alternativa ai Transformer in TabPFN. Una sfida chiave risiede nella sensibilità intrinseca dell'SSM all'ordine dei token di input - una proprietà indesiderabile per i dataset tabulari dove l'ordine delle righe è semanticamente insignificante. Investighiamo in che misura un approccio bidirezionale possa preservare l'efficienza e abilitare l'aggregazione simmetrica del contesto. I nostri esperimenti mostrano che questo approccio riduce la dipendenza dall'ordine, raggiungendo prestazioni predittive competitive con il modello TabPFN originale.

Contesto di Ricerca e Motivazione

Problema da risolvere: Questa ricerca affronta il problema dell'efficienza computazionale dell'architettura Transformer nei modelli fondamentali per dati tabulari, in particolare la sua complessità O(n²) che limita la scalabilità su dataset di grandi dimensioni.
Importanza del problema: TabPFN come modello fondamentale per dati tabulari ha dimostrato prestazioni eccellenti, completando l'approssimazione dell'inferenza bayesiana in millisecondi, ma la sua architettura basata su Transformer affronta colli di bottiglia di memoria e calcolo nel trattamento di dati su larga scala.
Limitazioni dei metodi esistenti:
- Il meccanismo di auto-attenzione del Transformer ha complessità quadratica
- La sostituzione diretta di Mamba al Transformer introduce sensibilità all'ordine della sequenza di input
- L'ordine delle righe nei dati tabulari è semanticamente insignificante, entrando in conflitto con il design causale dell'SSM
Motivazione della ricerca: Esplorare i modelli di spazio degli stati strutturati (SSM) come alternativa ai Transformer, mantenendo i vantaggi di efficienza della complessità lineare, riducendo al contempo la dipendenza dall'ordine di input attraverso un meccanismo di elaborazione bidirezionale.

Contributi Fondamentali

Proposta dell'architettura TabPFN basata su Hydra: Integrazione del modello di spazio degli stati strutturato bidirezionale Hydra in TabPFN, realizzando l'elaborazione dei dati tabulari con complessità temporale lineare.
Introduzione della tecnica di Permutazione Ripetuta del Contesto (RCP): Riduzione ulteriore della sensibilità dell'SSM all'ordine della sequenza attraverso permutazioni casuali multiple dell'input e media dei risultati predittivi.
Realizzazione di un significativo miglioramento della scalabilità: Rispetto a TabPFN originale, il nuovo metodo può elaborare dataset due ordini di grandezza più grandi (da 2¹⁵ a 2¹⁷ righe).
Mantenimento di prestazioni predittive competitive: Nel benchmark OpenML CC-18, l'accuratezza di Hydra-based TabPFN è inferiore solo dell'1,1% rispetto al modello originale.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo studia compiti di classificazione tabulare, dove:

Input: Dataset completo di dati tabulari contenente campioni di addestramento e test
Output: Previsioni di probabilità di classe per i campioni di test
Vincoli: L'inferenza deve essere completata in un singolo passaggio in avanti, senza aggiornamenti di gradiente o fine-tuning

Architettura del Modello

1. Sostituzione dell'Architettura Hydra

Design fondamentale: Sostituzione dello stack dell'encoder Transformer con strati Hydra
Elaborazione bidirezionale: Utilizzo di mixer di matrici quasi-separabili per realizzare la modellazione dello spazio degli stati bidirezionale
Struttura dello strato: Ogni strato Hydra contiene mixing dello spazio degli stati bidirezionale, seguito da trasformazione feed-forward

2. Conservazione della Strategia di Embedding

Conservazione del metodo di embedding dei dati di TabPFN originale
Ogni input rappresentato come concatenazione di valori di feature e etichette di classe
Gestione dei dati non etichettati durante l'inferenza attraverso marginalizzazione di tutti i possibili assegnamenti di etichette

3. Permutazione Ripetuta del Contesto (RCP)

Il flusso dell'algoritmo è il seguente:

Input: numero di permutazioni r, contesto D, campione di test xtest
Output: valore di classe predetto
Inizializza lista vuota: outputs ← []
for i = 1 to r do
    Mescola righe di D: Dp ← shuffle(D)
    Concatena xtest a Dp: Din ← Dp ∪ xtest
    Predizione: outputs[i] ← PFN.predict(Din)
end for
Restituisci media di outputs

Punti di Innovazione Tecnica

Bidirezionalità per risolvere la sensibilità all'ordine: Rispetto a Mamba unidirezionale, l'elaborazione bidirezionale di Hydra può aggregare simmetricamente le informazioni di contesto, riducendo la dipendenza dall'ordine di input.
Complessità lineare: Realizzazione della complessità O(n) attraverso moltiplicatori di matrici quasi-separabili, con vantaggi significativi rispetto a O(n²) del Transformer.
Strategia RCP: Innovativa riduzione della sensibilità all'ordine attraverso permutazioni casuali multiple e media dei risultati, un design personalizzato per le caratteristiche dei dati tabulari.

Configurazione Sperimentale

Dataset

Dataset principale: Suite di benchmark OpenML CC-18
Criteri di filtro: ≤2000 righe, ≤100 feature, ≤10 classi
Dataset finale: 30 dataset di classificazione multiclasse
Divisione dei dati: Ogni dataset diviso casualmente in set di addestramento/test 16 volte

Metriche di Valutazione

Accuratezza (Accuracy): Tasso di correttezza della classificazione
AUC OvO: AUC multiclasse One-vs-One
Divergenza KL: Misurazione della differenza nella distribuzione predittiva tra diversi ordinamenti di input, valutazione della sensibilità all'ordine
Tempo di inferenza: Tempo di calcolo con diverse dimensioni di input
Utilizzo della memoria: Dimensione massima del dataset elaborabile

Metodi di Confronto

TabPFN basato su Transformer: Modello baseline originale
TabPFN basato su Mamba: Soluzione di sostituzione SSM unidirezionale
TabPFN basato su Hydra: Soluzione SSM bidirezionale proposta in questo articolo

Dettagli di Implementazione

Hardware di addestramento: GPU Nvidia A40 (48GB)
Hardware di test: NVIDIA H100 80GB
Tempo di addestramento: Transformer 48 ore, Mamba 52 ore, Hydra 134 ore
Iperparametri chiave:
- Tasso di apprendimento: 0.0001
- Numero di strati SSM: 24 strati (2 volte quello del Transformer)
- Dimensione di embedding: 1024

Risultati Sperimentali

Risultati Principali

1. Confronto della Scalabilità

Limite Transformer: 2¹⁵ righe (limitato da 80GB di memoria GPU)
Limite Hydra: 2¹⁷ righe (limitato dall'indice a 32 bit di PyTorch, non dal hardware)
Miglioramento delle prestazioni: Aumento di 100 volte nella scala dei dati elaborabili

2. Confronto delle Prestazioni Predittive

Hydra vs Transformer: Differenza di accuratezza media -1,1%, differenza AUC -1,1%
Hydra vs Mamba: Accuratezza di Hydra in media superiore del 3,6%
Analisi della varianza: Hydra mostra varianza di prestazioni inferiore rispetto a Mamba

3. Analisi della Sensibilità all'Ordine

Misurata attraverso divergenza KL:

La divergenza KL diminuisce significativamente con l'aumento del numero di RCP
Hydra mostra sensibilità all'ordine inferiore rispetto a Mamba
La strategia RCP riduce efficacemente l'impatto degli ordinamenti anomali

Esperimenti di Ablazione

Impatto del Numero di RCP

Accuratezza: Migliora con l'aumento del numero di RCP, ma il miglioramento è relativamente modesto
Divergenza KL: Diminuisce significativamente, indicando ridotta dipendenza dall'ordine
Costo computazionale: Aumenta linearmente di r volte il tempo di inferenza

Confronto dell'Architettura

Unidirezionale vs Bidirezionale: Il meccanismo bidirezionale di Hydra è chiaramente superiore all'elaborazione unidirezionale di Mamba
Impostazione del numero di strati: Segue le raccomandazioni del documento Mamba, utilizzando 2 volte il numero di strati del Transformer

Scoperte Sperimentali

Importanza della bidirezionalità: L'elaborazione bidirezionale è cruciale per la natura non ordinata dei dati tabulari
Equilibrio tra efficienza e prestazioni: Realizzazione di significativi miglioramenti di efficienza mantenendo prestazioni competitive
Efficacia di RCP: La strategia di permutazione multipla e media riduce efficacemente la sensibilità all'ordine
Superamento dei limiti hardware: Superamento con successo dei limiti di memoria del Transformer su dati su larga scala

Lavori Correlati

Modelli Fondamentali Tabulari

TabPFN: Modello Transformer tabulare pioneristico
TabFlex: Soluzione di estensione con attenzione lineare
Mambular: Modello di deep learning tabulare basato su Mamba

Modelli di Spazio degli Stati

Mamba: Modello di spazio degli stati selettivo, realizzazione di complessità lineare
Hydra: Estensione SSM bidirezionale, supporto per modellazione non causale
S4: Lavoro fondamentale nei modelli di sequenza dello spazio degli stati strutturato

Metodi di Ottimizzazione dell'Efficienza

FlashAttention: Riduzione dei requisiti di memoria del Transformer attraverso ottimizzazione IO
Linear Attention: Alternativa di meccanismo di attenzione con complessità lineare

Conclusioni e Discussione

Conclusioni Principali

Hydra risolve con successo il problema della scalabilità di TabPFN, aumentando la capacità di elaborazione di due ordini di grandezza
L'SSM bidirezionale è più adatto della SSM unidirezionale per la natura non ordinata dei dati tabulari
La strategia RCP è un metodo efficace per ridurre la sensibilità all'ordine dell'SSM
Realizzazione di prestazioni competitive con il Transformer mantenendo complessità lineare

Limitazioni

Necessità di riaddestrare: A causa delle differenze architetturali, è necessario riaddestrare l'intero modello
Limitazione del contesto: Gli esperimenti rimangono limitati a meno di 1000 righe, senza esplorare sufficientemente scenari su larga scala
Overhead di RCP: Permutazioni multiple aumentano il tempo di inferenza di r volte
Ottimizzazione dell'ordine: Mancanza di ricerca approfondita su strategie di ordinamento ottimale

Direzioni Future

Validazione su larga scala: Test di SSM-based TabPFN su dataset con >10k righe
Ordinamento ottimale: Ricerca di strategie di ordinamento delle righe ottimali per SSM
Ottimizzazione dell'architettura: Esplorazione di architetture SSM bidirezionali più efficienti
Analisi teorica: Comprensione approfondita della base teorica della bidirezionalità nella modellazione dei dati tabulari

Valutazione Approfondita

Punti di Forza

Definizione chiara del problema: Identificazione accurata del collo di bottiglia fondamentale di TabPFN e proposta di soluzione mirata
Scelta tecnica razionale: La caratteristica bidirezionale di Hydra corrisponde bene alla natura non ordinata dei dati tabulari
Design sperimentale completo: Valutazione multidimensionale che include prestazioni, efficienza e sensibilità all'ordine
Risultati convincenti: Realizzazione di significativi miglioramenti di scalabilità mantenendo le prestazioni
Alta praticità del metodo: La strategia RCP è semplice, efficace e facile da implementare e distribuire

Insufficienze

Grado di innovazione limitato: Principalmente combinazione e applicazione di tecniche esistenti, mancanza di innovazione fondamentale
Analisi teorica insufficiente: Mancanza di spiegazione teorica approfondita del perché la bidirezionalità risolve il problema della sensibilità all'ordine
Scala sperimentale limitata: Ancora limitata a dataset relativamente piccoli, incapace di dimostrare pienamente la capacità di elaborazione su larga scala
Confronto incompleto: Mancanza di confronto diretto con altri metodi di complessità lineare (come Linear Attention)
Analisi degli iperparametri insufficiente: A causa dell'alto costo di addestramento, mancanza di ottimizzazione sufficiente degli iperparametri

Impatto

Contributo accademico: Fornisce nuove prospettive e prove empiriche per l'ottimizzazione dell'efficienza dei modelli fondamentali tabulari
Valore pratico: Risolve problemi di scalabilità nelle applicazioni pratiche, con elevato valore pratico
Significato ispiratore: Dimostra il potenziale dell'SSM nella modellazione dei dati strutturati, potendo ispirare ulteriori ricerche correlate
Riproducibilità: Codice pubblicamente disponibile, configurazione sperimentale dettagliata, buona riproducibilità

Scenari Applicabili

Classificazione tabulare su larga scala: Particolarmente adatto per compiti di classificazione tabulare che richiedono l'elaborazione di un gran numero di campioni
Scenari di inferenza in tempo reale: La complessità lineare la rende adatta per applicazioni con requisiti rigorosi sulla velocità di inferenza
Ambienti con risorse limitate: Richiede meno memoria e risorse computazionali rispetto al Transformer
Apprendimento con pochi campioni: Mantiene i vantaggi di TabPFN negli scenari di apprendimento con pochi campioni

Riferimenti Bibliografici

I principali riferimenti bibliografici includono:

Hollmann et al. (2023) - Articolo originale di TabPFN
Gu & Dao (2023) - Architettura Mamba
Hwang et al. (2024) - SSM bidirezionale Hydra
Dao et al. (2022) - Tecnica di ottimizzazione FlashAttention
Zeng et al. (2024) - Metodo di attenzione lineare TabFlex

Questo articolo fornisce un contributo prezioso nella risoluzione del problema della scalabilità dei modelli fondamentali tabulari, combinando abilmente SSM bidirezionale e strategia di permutazione ripetuta, raggiungendo con successo l'equilibrio tra i requisiti di efficienza e prestazioni. Sebbene presenti insufficienze nell'innovazione teorica, il suo valore pratico e il significato ispiratore per la ricerca futura meritano riconoscimento.