2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

Modelli State-Space per Reti Tabellari Prior-Data Fitted

Informazioni Fondamentali

  • ID Articolo: 2510.14573
  • Titolo: State-Space Models for Tabular Prior-Data Fitted Networks
  • Autori: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • Classificazione: cs.LG
  • Data di Pubblicazione/Conferenza: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Canada. 2025
  • Link Articolo: https://arxiv.org/abs/2510.14573

Riassunto

I recenti progressi nei modelli fondamentali per dati tabulari, come TabPFN, hanno dimostrato che le architetture Transformer pre-addestrate possono approssimare l'inferenza bayesiana con elevate prestazioni predittive. Tuttavia, i Transformer soffrono di complessità quadratica rispetto alla lunghezza della sequenza, motivando l'esplorazione di modelli di sequenza più efficienti. In questo lavoro, investighiamo il potenziale dell'utilizzo di Hydra, un modello bidirezionale di spazio degli stati strutturato a tempo lineare (SSM), come alternativa ai Transformer in TabPFN. Una sfida chiave risiede nella sensibilità intrinseca dell'SSM all'ordine dei token di input - una proprietà indesiderabile per i dataset tabulari dove l'ordine delle righe è semanticamente insignificante. Investighiamo in che misura un approccio bidirezionale possa preservare l'efficienza e abilitare l'aggregazione simmetrica del contesto. I nostri esperimenti mostrano che questo approccio riduce la dipendenza dall'ordine, raggiungendo prestazioni predittive competitive con il modello TabPFN originale.

Contesto di Ricerca e Motivazione

  1. Problema da risolvere: Questa ricerca affronta il problema dell'efficienza computazionale dell'architettura Transformer nei modelli fondamentali per dati tabulari, in particolare la sua complessità O(n²) che limita la scalabilità su dataset di grandi dimensioni.
  2. Importanza del problema: TabPFN come modello fondamentale per dati tabulari ha dimostrato prestazioni eccellenti, completando l'approssimazione dell'inferenza bayesiana in millisecondi, ma la sua architettura basata su Transformer affronta colli di bottiglia di memoria e calcolo nel trattamento di dati su larga scala.
  3. Limitazioni dei metodi esistenti:
    • Il meccanismo di auto-attenzione del Transformer ha complessità quadratica
    • La sostituzione diretta di Mamba al Transformer introduce sensibilità all'ordine della sequenza di input
    • L'ordine delle righe nei dati tabulari è semanticamente insignificante, entrando in conflitto con il design causale dell'SSM
  4. Motivazione della ricerca: Esplorare i modelli di spazio degli stati strutturati (SSM) come alternativa ai Transformer, mantenendo i vantaggi di efficienza della complessità lineare, riducendo al contempo la dipendenza dall'ordine di input attraverso un meccanismo di elaborazione bidirezionale.

Contributi Fondamentali

  1. Proposta dell'architettura TabPFN basata su Hydra: Integrazione del modello di spazio degli stati strutturato bidirezionale Hydra in TabPFN, realizzando l'elaborazione dei dati tabulari con complessità temporale lineare.
  2. Introduzione della tecnica di Permutazione Ripetuta del Contesto (RCP): Riduzione ulteriore della sensibilità dell'SSM all'ordine della sequenza attraverso permutazioni casuali multiple dell'input e media dei risultati predittivi.
  3. Realizzazione di un significativo miglioramento della scalabilità: Rispetto a TabPFN originale, il nuovo metodo può elaborare dataset due ordini di grandezza più grandi (da 2¹⁵ a 2¹⁷ righe).
  4. Mantenimento di prestazioni predittive competitive: Nel benchmark OpenML CC-18, l'accuratezza di Hydra-based TabPFN è inferiore solo dell'1,1% rispetto al modello originale.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo studia compiti di classificazione tabulare, dove:

  • Input: Dataset completo di dati tabulari contenente campioni di addestramento e test
  • Output: Previsioni di probabilità di classe per i campioni di test
  • Vincoli: L'inferenza deve essere completata in un singolo passaggio in avanti, senza aggiornamenti di gradiente o fine-tuning

Architettura del Modello

1. Sostituzione dell'Architettura Hydra

  • Design fondamentale: Sostituzione dello stack dell'encoder Transformer con strati Hydra
  • Elaborazione bidirezionale: Utilizzo di mixer di matrici quasi-separabili per realizzare la modellazione dello spazio degli stati bidirezionale
  • Struttura dello strato: Ogni strato Hydra contiene mixing dello spazio degli stati bidirezionale, seguito da trasformazione feed-forward

2. Conservazione della Strategia di Embedding

  • Conservazione del metodo di embedding dei dati di TabPFN originale
  • Ogni input rappresentato come concatenazione di valori di feature e etichette di classe
  • Gestione dei dati non etichettati durante l'inferenza attraverso marginalizzazione di tutti i possibili assegnamenti di etichette

3. Permutazione Ripetuta del Contesto (RCP)

Il flusso dell'algoritmo è il seguente:

Input: numero di permutazioni r, contesto D, campione di test xtest
Output: valore di classe predetto
Inizializza lista vuota: outputs ← []
for i = 1 to r do
    Mescola righe di D: Dp ← shuffle(D)
    Concatena xtest a Dp: Din ← Dp ∪ xtest
    Predizione: outputs[i] ← PFN.predict(Din)
end for
Restituisci media di outputs

Punti di Innovazione Tecnica

  1. Bidirezionalità per risolvere la sensibilità all'ordine: Rispetto a Mamba unidirezionale, l'elaborazione bidirezionale di Hydra può aggregare simmetricamente le informazioni di contesto, riducendo la dipendenza dall'ordine di input.
  2. Complessità lineare: Realizzazione della complessità O(n) attraverso moltiplicatori di matrici quasi-separabili, con vantaggi significativi rispetto a O(n²) del Transformer.
  3. Strategia RCP: Innovativa riduzione della sensibilità all'ordine attraverso permutazioni casuali multiple e media dei risultati, un design personalizzato per le caratteristiche dei dati tabulari.

Configurazione Sperimentale

Dataset

  • Dataset principale: Suite di benchmark OpenML CC-18
  • Criteri di filtro: ≤2000 righe, ≤100 feature, ≤10 classi
  • Dataset finale: 30 dataset di classificazione multiclasse
  • Divisione dei dati: Ogni dataset diviso casualmente in set di addestramento/test 16 volte

Metriche di Valutazione

  1. Accuratezza (Accuracy): Tasso di correttezza della classificazione
  2. AUC OvO: AUC multiclasse One-vs-One
  3. Divergenza KL: Misurazione della differenza nella distribuzione predittiva tra diversi ordinamenti di input, valutazione della sensibilità all'ordine
  4. Tempo di inferenza: Tempo di calcolo con diverse dimensioni di input
  5. Utilizzo della memoria: Dimensione massima del dataset elaborabile

Metodi di Confronto

  • TabPFN basato su Transformer: Modello baseline originale
  • TabPFN basato su Mamba: Soluzione di sostituzione SSM unidirezionale
  • TabPFN basato su Hydra: Soluzione SSM bidirezionale proposta in questo articolo

Dettagli di Implementazione

  • Hardware di addestramento: GPU Nvidia A40 (48GB)
  • Hardware di test: NVIDIA H100 80GB
  • Tempo di addestramento: Transformer 48 ore, Mamba 52 ore, Hydra 134 ore
  • Iperparametri chiave:
    • Tasso di apprendimento: 0.0001
    • Numero di strati SSM: 24 strati (2 volte quello del Transformer)
    • Dimensione di embedding: 1024

Risultati Sperimentali

Risultati Principali

1. Confronto della Scalabilità

  • Limite Transformer: 2¹⁵ righe (limitato da 80GB di memoria GPU)
  • Limite Hydra: 2¹⁷ righe (limitato dall'indice a 32 bit di PyTorch, non dal hardware)
  • Miglioramento delle prestazioni: Aumento di 100 volte nella scala dei dati elaborabili

2. Confronto delle Prestazioni Predittive

  • Hydra vs Transformer: Differenza di accuratezza media -1,1%, differenza AUC -1,1%
  • Hydra vs Mamba: Accuratezza di Hydra in media superiore del 3,6%
  • Analisi della varianza: Hydra mostra varianza di prestazioni inferiore rispetto a Mamba

3. Analisi della Sensibilità all'Ordine

Misurata attraverso divergenza KL:

  • La divergenza KL diminuisce significativamente con l'aumento del numero di RCP
  • Hydra mostra sensibilità all'ordine inferiore rispetto a Mamba
  • La strategia RCP riduce efficacemente l'impatto degli ordinamenti anomali

Esperimenti di Ablazione

Impatto del Numero di RCP

  • Accuratezza: Migliora con l'aumento del numero di RCP, ma il miglioramento è relativamente modesto
  • Divergenza KL: Diminuisce significativamente, indicando ridotta dipendenza dall'ordine
  • Costo computazionale: Aumenta linearmente di r volte il tempo di inferenza

Confronto dell'Architettura

  • Unidirezionale vs Bidirezionale: Il meccanismo bidirezionale di Hydra è chiaramente superiore all'elaborazione unidirezionale di Mamba
  • Impostazione del numero di strati: Segue le raccomandazioni del documento Mamba, utilizzando 2 volte il numero di strati del Transformer

Scoperte Sperimentali

  1. Importanza della bidirezionalità: L'elaborazione bidirezionale è cruciale per la natura non ordinata dei dati tabulari
  2. Equilibrio tra efficienza e prestazioni: Realizzazione di significativi miglioramenti di efficienza mantenendo prestazioni competitive
  3. Efficacia di RCP: La strategia di permutazione multipla e media riduce efficacemente la sensibilità all'ordine
  4. Superamento dei limiti hardware: Superamento con successo dei limiti di memoria del Transformer su dati su larga scala

Lavori Correlati

Modelli Fondamentali Tabulari

  • TabPFN: Modello Transformer tabulare pioneristico
  • TabFlex: Soluzione di estensione con attenzione lineare
  • Mambular: Modello di deep learning tabulare basato su Mamba

Modelli di Spazio degli Stati

  • Mamba: Modello di spazio degli stati selettivo, realizzazione di complessità lineare
  • Hydra: Estensione SSM bidirezionale, supporto per modellazione non causale
  • S4: Lavoro fondamentale nei modelli di sequenza dello spazio degli stati strutturato

Metodi di Ottimizzazione dell'Efficienza

  • FlashAttention: Riduzione dei requisiti di memoria del Transformer attraverso ottimizzazione IO
  • Linear Attention: Alternativa di meccanismo di attenzione con complessità lineare

Conclusioni e Discussione

Conclusioni Principali

  1. Hydra risolve con successo il problema della scalabilità di TabPFN, aumentando la capacità di elaborazione di due ordini di grandezza
  2. L'SSM bidirezionale è più adatto della SSM unidirezionale per la natura non ordinata dei dati tabulari
  3. La strategia RCP è un metodo efficace per ridurre la sensibilità all'ordine dell'SSM
  4. Realizzazione di prestazioni competitive con il Transformer mantenendo complessità lineare

Limitazioni

  1. Necessità di riaddestrare: A causa delle differenze architetturali, è necessario riaddestrare l'intero modello
  2. Limitazione del contesto: Gli esperimenti rimangono limitati a meno di 1000 righe, senza esplorare sufficientemente scenari su larga scala
  3. Overhead di RCP: Permutazioni multiple aumentano il tempo di inferenza di r volte
  4. Ottimizzazione dell'ordine: Mancanza di ricerca approfondita su strategie di ordinamento ottimale

Direzioni Future

  1. Validazione su larga scala: Test di SSM-based TabPFN su dataset con >10k righe
  2. Ordinamento ottimale: Ricerca di strategie di ordinamento delle righe ottimali per SSM
  3. Ottimizzazione dell'architettura: Esplorazione di architetture SSM bidirezionali più efficienti
  4. Analisi teorica: Comprensione approfondita della base teorica della bidirezionalità nella modellazione dei dati tabulari

Valutazione Approfondita

Punti di Forza

  1. Definizione chiara del problema: Identificazione accurata del collo di bottiglia fondamentale di TabPFN e proposta di soluzione mirata
  2. Scelta tecnica razionale: La caratteristica bidirezionale di Hydra corrisponde bene alla natura non ordinata dei dati tabulari
  3. Design sperimentale completo: Valutazione multidimensionale che include prestazioni, efficienza e sensibilità all'ordine
  4. Risultati convincenti: Realizzazione di significativi miglioramenti di scalabilità mantenendo le prestazioni
  5. Alta praticità del metodo: La strategia RCP è semplice, efficace e facile da implementare e distribuire

Insufficienze

  1. Grado di innovazione limitato: Principalmente combinazione e applicazione di tecniche esistenti, mancanza di innovazione fondamentale
  2. Analisi teorica insufficiente: Mancanza di spiegazione teorica approfondita del perché la bidirezionalità risolve il problema della sensibilità all'ordine
  3. Scala sperimentale limitata: Ancora limitata a dataset relativamente piccoli, incapace di dimostrare pienamente la capacità di elaborazione su larga scala
  4. Confronto incompleto: Mancanza di confronto diretto con altri metodi di complessità lineare (come Linear Attention)
  5. Analisi degli iperparametri insufficiente: A causa dell'alto costo di addestramento, mancanza di ottimizzazione sufficiente degli iperparametri

Impatto

  1. Contributo accademico: Fornisce nuove prospettive e prove empiriche per l'ottimizzazione dell'efficienza dei modelli fondamentali tabulari
  2. Valore pratico: Risolve problemi di scalabilità nelle applicazioni pratiche, con elevato valore pratico
  3. Significato ispiratore: Dimostra il potenziale dell'SSM nella modellazione dei dati strutturati, potendo ispirare ulteriori ricerche correlate
  4. Riproducibilità: Codice pubblicamente disponibile, configurazione sperimentale dettagliata, buona riproducibilità

Scenari Applicabili

  1. Classificazione tabulare su larga scala: Particolarmente adatto per compiti di classificazione tabulare che richiedono l'elaborazione di un gran numero di campioni
  2. Scenari di inferenza in tempo reale: La complessità lineare la rende adatta per applicazioni con requisiti rigorosi sulla velocità di inferenza
  3. Ambienti con risorse limitate: Richiede meno memoria e risorse computazionali rispetto al Transformer
  4. Apprendimento con pochi campioni: Mantiene i vantaggi di TabPFN negli scenari di apprendimento con pochi campioni

Riferimenti Bibliografici

I principali riferimenti bibliografici includono:

  1. Hollmann et al. (2023) - Articolo originale di TabPFN
  2. Gu & Dao (2023) - Architettura Mamba
  3. Hwang et al. (2024) - SSM bidirezionale Hydra
  4. Dao et al. (2022) - Tecnica di ottimizzazione FlashAttention
  5. Zeng et al. (2024) - Metodo di attenzione lineare TabFlex

Questo articolo fornisce un contributo prezioso nella risoluzione del problema della scalabilità dei modelli fondamentali tabulari, combinando abilmente SSM bidirezionale e strategia di permutazione ripetuta, raggiungendo con successo l'equilibrio tra i requisiti di efficienza e prestazioni. Sebbene presenti insufficienze nell'innovazione teorica, il suo valore pratico e il significato ispiratore per la ricerca futura meritano riconoscimento.