2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.

Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.

academic

State-Space Models für tabellarische Prior-Data Fitted Networks

Grundinformationen

Paper-ID: 2510.14573
Titel: State-Space Models for Tabular Prior-Data Fitted Networks
Autoren: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
Klassifizierung: cs.LG
Veröffentlichungszeit/Konferenz: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Kanada. 2025
Paper-Link: https://arxiv.org/abs/2510.14573

Zusammenfassung

Jüngste Fortschritte bei Foundation Models für tabellarische Daten, wie TabPFN, haben gezeigt, dass vortrainierte Transformer-Architekturen bayesianische Inferenz mit hoher Vorhersageleistung approximieren können. Allerdings leiden Transformer unter quadratischer Komplexität in Bezug auf die Sequenzlänge, was die Erforschung effizienterer Sequenzmodelle motiviert. In dieser Arbeit untersuchen wir das Potenzial von Hydra, einem bidirektionalen linearen strukturierten State-Space-Modell (SSM), als Alternative zu Transformern in TabPFN. Eine Schlüsselherausforderung liegt in der inhärenten Empfindlichkeit von SSMs gegenüber der Reihenfolge von Eingabe-Token – eine unerwünschte Eigenschaft für tabellarische Datensätze, bei denen die Zeilenreihenfolge semantisch bedeutungslos ist. Wir untersuchen, inwieweit ein bidirektionaler Ansatz Effizienz bewahren und symmetrische Kontextaggregation ermöglichen kann. Unsere Experimente zeigen, dass dieser Ansatz die Reihenfolgeabhängigkeit reduziert und eine Vorhersageleistung erreicht, die mit dem ursprünglichen TabPFN-Modell konkurrenzfähig ist.

Forschungshintergrund und Motivation

Zu lösende Probleme: Diese Forschung befasst sich mit dem Rechenkomplexitätsproblem der Transformer-Architektur in Foundation Models für tabellarische Daten, insbesondere mit ihrer O(n²)-Komplexität, die die Skalierbarkeit bei großen Datensätzen einschränkt.
Bedeutung des Problems: TabPFN als Foundation Model für tabellarische Daten zeigt hervorragende Leistung und kann bayesianische Inferenz-Approximation im Millisekundenbereich durchführen, aber seine Transformer-basierte Architektur sieht sich bei der Verarbeitung großer Datenmengen mit Speicher- und Rechenbeschränkungen konfrontiert.
Einschränkungen bestehender Methoden:
- Der Self-Attention-Mechanismus von Transformern hat quadratische Komplexität
- Der direkte Austausch von Transformer durch Mamba führt zu Empfindlichkeit gegenüber der Eingabesequenzreihenfolge
- Die Zeilenreihenfolge in tabellarischen Daten ist semantisch bedeutungslos, was mit dem kausalen Design von SSMs kollidiert
Forschungsmotivation: Erforschung strukturierter State-Space-Modelle (SSM) als Alternative zu Transformern, um sowohl die Effizienzvorteile der linearen Komplexität zu bewahren als auch durch bidirektionale Verarbeitungsmechanismen die Abhängigkeit von der Eingabereihenfolge zu reduzieren.

Kernbeiträge

Vorschlag einer auf Hydra basierenden TabPFN-Architektur: Integration des bidirektionalen strukturierten State-Space-Modells Hydra in TabPFN zur Realisierung linearer Zeitkomplexität bei der Verarbeitung tabellarischer Daten.
Einführung der Repeated Context Permutation (RCP) Technik: Weitere Reduzierung der SSM-Empfindlichkeit gegenüber der Sequenzreihenfolge durch mehrfaches zufälliges Permutieren von Eingaben und Durchschnittsbildung der Vorhersageergebnisse.
Realisierung signifikanter Skalierbarkeitssteigerungen: Im Vergleich zum ursprünglichen TabPFN kann die neue Methode zwei Größenordnungen größere Datensätze verarbeiten (Erweiterung von 2¹⁵ auf 2¹⁷ Zeilen).
Beibehaltung konkurrenzfähiger Vorhersageleistung: Bei der OpenML CC-18 Benchmark-Suite liegt die Genauigkeit des Hydra-basierten TabPFN nur 1,1% unter dem ursprünglichen Modell.

Methodische Details

Aufgabendefinition

Diese Arbeit untersucht tabellarische Klassifizierungsaufgaben, bei denen:

Eingabe: Vollständiger tabellarischer Datensatz mit Trainings- und Testproben
Ausgabe: Klassenwahrscheinlichkeitsvorhersagen für Testproben
Einschränkungen: Inferenz muss in einem einzigen Forward Pass ohne Gradientenaktualisierung oder Feinabstimmung durchgeführt werden

Modellarchitektur

1. Hydra-Architektur-Austausch

Kerndesign: Ersatz des Transformer-Encoders durch gestapelte Hydra-Schichten
Bidirektionale Verarbeitung: Nutzung quasi-separierbarer Matrixmischer zur Realisierung bidirektionaler State-Space-Modellierung
Schichtstruktur: Jede Hydra-Schicht enthält bidirektionale State-Space-Mischung, gefolgt von Feed-Forward-Transformation

2. Beibehaltung der Embedding-Strategie

Beibehaltung der ursprünglichen Dateneinbettungsmethode von TabPFN
Jede Eingabe wird als Verkettung von Merkmalswert und Klassenlabel dargestellt
Bei der Inferenz wird mit nicht gekennzeichneten Daten durch Marginalisierung aller möglichen Labelzuweisungen umgegangen

3. Repeated Context Permutation (RCP)

Der Algorithmusablauf ist wie folgt:

Eingabe: Permutationszahl r, Kontext D, Testprobe xtest
Ausgabe: Vorhergesagte Klassenwerte
Initialisiere leere Liste: outputs ← []
for i = 1 to r do
    Permutiere Zeilen von D: Dp ← shuffle(D)
    Verkette xtest mit Dp: Din ← Dp ∪ xtest
    Vorhersage: outputs[i] ← PFN.predict(Din)
end for
Rückgabe Durchschnitt von outputs

Technische Innovationen

Bidirektionalität löst Reihenfolgeempfindlichkeit: Im Vergleich zum unidirektionalen Mamba kann Hydra durch bidirektionale Verarbeitung Kontextinformationen symmetrisch aggregieren und die Abhängigkeit von der Eingabereihenfolge reduzieren.
Lineare Komplexität: Realisierung von O(n)-Komplexität durch quasi-separierbare Matrixmultiplikation, mit signifikantem Vorteil gegenüber der O(n²)-Komplexität von Transformern.
RCP-Strategie: Innovativer Ansatz zur weiteren Reduzierung der Reihenfolgeempfindlichkeit durch mehrfache zufällige Permutation und Ergebnisdurchschnittsbildung, ein maßgeschneidertes Design für die Charakteristiken tabellarischer Daten.

Experimentelle Einrichtung

Datensätze

Hauptdatensätze: OpenML CC-18 Benchmark-Suite
Filterkriterien: ≤2000 Zeilen, ≤100 Merkmale, ≤10 Klassen
Endgültige Datensätze: 30 Mehrklassen-Klassifizierungsdatensätze
Datenteilung: Jeder Datensatz wird 16-mal zufällig in Trainings-/Testsätze aufgeteilt

Bewertungsmetriken

Genauigkeit (Accuracy): Klassifizierungskorrektheit
AUC OvO: One-vs-One Mehrklassen-AUC
KL-Divergenz: Messung der Unterschiede in Vorhersageverteilungen unter verschiedenen Eingabepermutationen, Bewertung der Reihenfolgeempfindlichkeit
Inferenzzeit: Rechenzeit bei verschiedenen Eingabegrößen
Speichernutzung: Maximale verarbeitbare Datensatzgröße

Vergleichsmethoden

Transformer-basiertes TabPFN: Ursprüngliches Baseline-Modell
Mamba-basiertes TabPFN: Unidirektionale SSM-Austausch-Lösung
Hydra-basiertes TabPFN: Der in dieser Arbeit vorgeschlagene bidirektionale SSM-Ansatz

Implementierungsdetails

Trainings-Hardware: Nvidia A40 GPU (48GB)
Test-Hardware: NVIDIA H100 80GB
Trainingszeit: Transformer 48 Stunden, Mamba 52 Stunden, Hydra 134 Stunden
Wichtige Hyperparameter:
- Lernrate: 0,0001
- SSM-Schichtenzahl: 24 Schichten (2x Transformer)
- Einbettungsdimension: 1024

Experimentelle Ergebnisse

Hauptergebnisse

1. Skalierbarkeitvergleich

Transformer-Grenzwert: 2¹⁵ Zeilen (begrenzt durch 80GB VRAM)
Hydra-Grenzwert: 2¹⁷ Zeilen (begrenzt durch 32-Bit-Indexierung von PyTorch, nicht Hardware)
Leistungssteigerung: 100-fache Steigerung der verarbeitbaren Datengröße

2. Vorhersageleistungsvergleich

Hydra vs. Transformer: Durchschnittliche Genauigkeitsdifferenz -1,1%, AUC-Differenz -1,1%
Hydra vs. Mamba: Hydra-Genauigkeit durchschnittlich 3,6% höher
Varianzanalyse: Hydra zeigt niedrigere Leistungsvarianz als Mamba

3. Reihenfolgeempfindlichkeitsanalyse

Gemessen durch KL-Divergenz:

KL-Divergenz sinkt signifikant mit zunehmender RCP-Anzahl
Hydra zeigt niedrigere Reihenfolgeempfindlichkeit als Mamba
RCP-Strategie reduziert effektiv die Auswirkungen anomaler Permutationen

Ablationsstudien

Auswirkung der RCP-Anzahl

Genauigkeit: Verbessert sich mit zunehmender RCP-Anzahl, aber mit relativ kleinen Verbesserungen
KL-Divergenz: Sinkt signifikant, was auf reduzierte Reihenfolgeabhängigkeit hindeutet
Rechenkost: Steigt linear um den Faktor r der Inferenzzeit

Architekturvergleich

Unidirektional vs. Bidirektional: Hydras bidirektionaler Mechanismus ist deutlich überlegen gegenüber Mambas unidirektionaler Verarbeitung
Schichtenzahl-Einstellung: Folgt Mambas Papierempfehlung mit 2x Transformer-Schichten

Experimentelle Erkenntnisse

Bedeutung der Bidirektionalität: Bidirektionale Verarbeitung ist für die ungeordnete Natur tabellarischer Daten entscheidend
Ausgleich zwischen Effizienz und Leistung: Signifikante Effizienzsteigerung bei Beibehaltung konkurrenzfähiger Leistung
Effektivität von RCP: Die Mehrfach-Permutations-Durchschnittsstrategie reduziert effektiv die Reihenfolgeempfindlichkeit
Durchbruch bei Hardwarebeschränkungen: Erfolgreiche Überwindung der Speicherbeschränkungen von Transformern bei großen Datenmengen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Hydra löst erfolgreich das Skalierbarkeitsproblem von TabPFN und erhöht die Verarbeitungskapazität um zwei Größenordnungen
Bidirektionale SSM sind besser für die ungeordnete Natur tabellarischer Daten geeignet als unidirektionale SSM
RCP-Strategie ist eine effektive Methode zur Reduzierung der SSM-Reihenfolgeempfindlichkeit
Konkurrenzfähige Leistung mit Transformern bei Beibehaltung linearer Komplexität

Einschränkungen

Umschulungsbedarf: Aufgrund von Architekturunterschieden ist eine Neutrainierung des gesamten Modells erforderlich
Kontextbeschränkung: Experimente sind immer noch auf weniger als 1000 Zeilen beschränkt, ohne großflächige Szenarien vollständig zu erkunden
RCP-Overhead: Mehrfache Permutationen erhöhen die Inferenzzeit um den Faktor r
Reihenfolgeoptimierung: Keine tiefgehende Untersuchung optimaler Permutationsstrategien

Zukünftige Richtungen

Großflächige Validierung: Testen von SSM-basiertem TabPFN auf Datensätzen mit >10k Zeilen
Optimale Permutation: Erforschung optimaler Zeilenpermutationsstrategien für SSM
Architekturoptimierung: Erforschung effizienterer bidirektionaler SSM-Architekturen
Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen der Bidirektionalität für die tabellarische Datenmodellierung

Tiefgreifende Bewertung

Stärken

Klare Problemdefinition: Genaue Identifizierung des Kernengpasses von TabPFN mit gezielter Lösung
Rationale Technologiewahl: Die bidirektionale Eigenschaft von Hydra passt gut zur ungeordneten Natur tabellarischer Daten
Umfassendes Experimentdesign: Mehrschichtige Bewertung von Leistung, Effizienz und Reihenfolgeempfindlichkeit
Überzeugende Ergebnisse: Signifikante Skalierbarkeitssteigerung bei Beibehaltung der Leistung
Hohe praktische Anwendbarkeit: RCP-Strategie ist einfach, effektiv und leicht zu implementieren

Mängel

Begrenzte Innovationsstufe: Hauptsächlich Kombination bestehender Techniken, fehlende grundlegende Innovation
Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum Bidirektionalität Reihenfolgeempfindlichkeit löst
Begrenzte Experimentskala: Immer noch auf relativ kleine Datensätze beschränkt, unzureichende Demonstration großflächiger Verarbeitungsfähigkeiten
Unvollständige Vergleiche: Fehlende direkte Vergleiche mit anderen linearen Komplexitätsmethoden (z.B. Linear Attention)
Unzureichende Hyperparameter-Analyse: Aufgrund hoher Trainingskosten keine umfassende Hyperparameter-Optimierung durchgeführt

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven und empirische Evidenz für die Effizienzoptimierung tabellarischer Foundation Models
Praktischer Wert: Löst Skalierbarkeitsprobleme in praktischen Anwendungen mit hohem praktischem Wert
Inspirationswert: Demonstriert das Potenzial von SSM in der strukturierten Datenmodellierung und kann weitere verwandte Forschung inspirieren
Reproduzierbarkeit: Öffentlich verfügbarer Code, detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit

Anwendungsszenarien

Großflächige tabellarische Klassifizierung: Besonders geeignet für tabellarische Klassifizierungsaufgaben mit großen Stichprobenmengen
Echtzeit-Inferenzszenarios: Lineare Komplexität macht es für Anwendungen mit strengem Inferenzgeschwindigkeitsanforderungen geeignet
Ressourcenbeschränkte Umgebungen: Benötigt weniger Speicher und Rechenressourcen als Transformer
Few-Shot-Learning: Behält die Vorteile von TabPFN in Few-Shot-Szenarien bei

Referenzen

Wichtige Referenzen umfassen:

Hollmann et al. (2023) - Originalpapier zu TabPFN
Gu & Dao (2023) - Mamba-Architektur
Hwang et al. (2024) - Hydra bidirektionales SSM
Dao et al. (2022) - FlashAttention-Optimierungstechnik
Zeng et al. (2024) - TabFlex lineare Aufmerksamkeitsmethode

Dieses Papier leistet einen wertvollen Beitrag zur Lösung des Skalierbarkeitsproblems tabellarischer Foundation Models. Durch geschickte Kombination bidirektionaler SSM und wiederholter Permutationsstrategien wird erfolgreich ein Ausgleich zwischen Effizienz und Leistung erreicht. Obwohl es in Bezug auf theoretische Innovation Mängel aufweist, sind sein praktischer Wert und seine Inspirationskraft für zukünftige Forschung bemerkenswert.