2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

State-Space Models für tabellarische Prior-Data Fitted Networks

Grundinformationen

  • Paper-ID: 2510.14573
  • Titel: State-Space Models for Tabular Prior-Data Fitted Networks
  • Autoren: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • Klassifizierung: cs.LG
  • Veröffentlichungszeit/Konferenz: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Kanada. 2025
  • Paper-Link: https://arxiv.org/abs/2510.14573

Zusammenfassung

Jüngste Fortschritte bei Foundation Models für tabellarische Daten, wie TabPFN, haben gezeigt, dass vortrainierte Transformer-Architekturen bayesianische Inferenz mit hoher Vorhersageleistung approximieren können. Allerdings leiden Transformer unter quadratischer Komplexität in Bezug auf die Sequenzlänge, was die Erforschung effizienterer Sequenzmodelle motiviert. In dieser Arbeit untersuchen wir das Potenzial von Hydra, einem bidirektionalen linearen strukturierten State-Space-Modell (SSM), als Alternative zu Transformern in TabPFN. Eine Schlüsselherausforderung liegt in der inhärenten Empfindlichkeit von SSMs gegenüber der Reihenfolge von Eingabe-Token – eine unerwünschte Eigenschaft für tabellarische Datensätze, bei denen die Zeilenreihenfolge semantisch bedeutungslos ist. Wir untersuchen, inwieweit ein bidirektionaler Ansatz Effizienz bewahren und symmetrische Kontextaggregation ermöglichen kann. Unsere Experimente zeigen, dass dieser Ansatz die Reihenfolgeabhängigkeit reduziert und eine Vorhersageleistung erreicht, die mit dem ursprünglichen TabPFN-Modell konkurrenzfähig ist.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Diese Forschung befasst sich mit dem Rechenkomplexitätsproblem der Transformer-Architektur in Foundation Models für tabellarische Daten, insbesondere mit ihrer O(n²)-Komplexität, die die Skalierbarkeit bei großen Datensätzen einschränkt.
  2. Bedeutung des Problems: TabPFN als Foundation Model für tabellarische Daten zeigt hervorragende Leistung und kann bayesianische Inferenz-Approximation im Millisekundenbereich durchführen, aber seine Transformer-basierte Architektur sieht sich bei der Verarbeitung großer Datenmengen mit Speicher- und Rechenbeschränkungen konfrontiert.
  3. Einschränkungen bestehender Methoden:
    • Der Self-Attention-Mechanismus von Transformern hat quadratische Komplexität
    • Der direkte Austausch von Transformer durch Mamba führt zu Empfindlichkeit gegenüber der Eingabesequenzreihenfolge
    • Die Zeilenreihenfolge in tabellarischen Daten ist semantisch bedeutungslos, was mit dem kausalen Design von SSMs kollidiert
  4. Forschungsmotivation: Erforschung strukturierter State-Space-Modelle (SSM) als Alternative zu Transformern, um sowohl die Effizienzvorteile der linearen Komplexität zu bewahren als auch durch bidirektionale Verarbeitungsmechanismen die Abhängigkeit von der Eingabereihenfolge zu reduzieren.

Kernbeiträge

  1. Vorschlag einer auf Hydra basierenden TabPFN-Architektur: Integration des bidirektionalen strukturierten State-Space-Modells Hydra in TabPFN zur Realisierung linearer Zeitkomplexität bei der Verarbeitung tabellarischer Daten.
  2. Einführung der Repeated Context Permutation (RCP) Technik: Weitere Reduzierung der SSM-Empfindlichkeit gegenüber der Sequenzreihenfolge durch mehrfaches zufälliges Permutieren von Eingaben und Durchschnittsbildung der Vorhersageergebnisse.
  3. Realisierung signifikanter Skalierbarkeitssteigerungen: Im Vergleich zum ursprünglichen TabPFN kann die neue Methode zwei Größenordnungen größere Datensätze verarbeiten (Erweiterung von 2¹⁵ auf 2¹⁷ Zeilen).
  4. Beibehaltung konkurrenzfähiger Vorhersageleistung: Bei der OpenML CC-18 Benchmark-Suite liegt die Genauigkeit des Hydra-basierten TabPFN nur 1,1% unter dem ursprünglichen Modell.

Methodische Details

Aufgabendefinition

Diese Arbeit untersucht tabellarische Klassifizierungsaufgaben, bei denen:

  • Eingabe: Vollständiger tabellarischer Datensatz mit Trainings- und Testproben
  • Ausgabe: Klassenwahrscheinlichkeitsvorhersagen für Testproben
  • Einschränkungen: Inferenz muss in einem einzigen Forward Pass ohne Gradientenaktualisierung oder Feinabstimmung durchgeführt werden

Modellarchitektur

1. Hydra-Architektur-Austausch

  • Kerndesign: Ersatz des Transformer-Encoders durch gestapelte Hydra-Schichten
  • Bidirektionale Verarbeitung: Nutzung quasi-separierbarer Matrixmischer zur Realisierung bidirektionaler State-Space-Modellierung
  • Schichtstruktur: Jede Hydra-Schicht enthält bidirektionale State-Space-Mischung, gefolgt von Feed-Forward-Transformation

2. Beibehaltung der Embedding-Strategie

  • Beibehaltung der ursprünglichen Dateneinbettungsmethode von TabPFN
  • Jede Eingabe wird als Verkettung von Merkmalswert und Klassenlabel dargestellt
  • Bei der Inferenz wird mit nicht gekennzeichneten Daten durch Marginalisierung aller möglichen Labelzuweisungen umgegangen

3. Repeated Context Permutation (RCP)

Der Algorithmusablauf ist wie folgt:

Eingabe: Permutationszahl r, Kontext D, Testprobe xtest
Ausgabe: Vorhergesagte Klassenwerte
Initialisiere leere Liste: outputs ← []
for i = 1 to r do
    Permutiere Zeilen von D: Dp ← shuffle(D)
    Verkette xtest mit Dp: Din ← Dp ∪ xtest
    Vorhersage: outputs[i] ← PFN.predict(Din)
end for
Rückgabe Durchschnitt von outputs

Technische Innovationen

  1. Bidirektionalität löst Reihenfolgeempfindlichkeit: Im Vergleich zum unidirektionalen Mamba kann Hydra durch bidirektionale Verarbeitung Kontextinformationen symmetrisch aggregieren und die Abhängigkeit von der Eingabereihenfolge reduzieren.
  2. Lineare Komplexität: Realisierung von O(n)-Komplexität durch quasi-separierbare Matrixmultiplikation, mit signifikantem Vorteil gegenüber der O(n²)-Komplexität von Transformern.
  3. RCP-Strategie: Innovativer Ansatz zur weiteren Reduzierung der Reihenfolgeempfindlichkeit durch mehrfache zufällige Permutation und Ergebnisdurchschnittsbildung, ein maßgeschneidertes Design für die Charakteristiken tabellarischer Daten.

Experimentelle Einrichtung

Datensätze

  • Hauptdatensätze: OpenML CC-18 Benchmark-Suite
  • Filterkriterien: ≤2000 Zeilen, ≤100 Merkmale, ≤10 Klassen
  • Endgültige Datensätze: 30 Mehrklassen-Klassifizierungsdatensätze
  • Datenteilung: Jeder Datensatz wird 16-mal zufällig in Trainings-/Testsätze aufgeteilt

Bewertungsmetriken

  1. Genauigkeit (Accuracy): Klassifizierungskorrektheit
  2. AUC OvO: One-vs-One Mehrklassen-AUC
  3. KL-Divergenz: Messung der Unterschiede in Vorhersageverteilungen unter verschiedenen Eingabepermutationen, Bewertung der Reihenfolgeempfindlichkeit
  4. Inferenzzeit: Rechenzeit bei verschiedenen Eingabegrößen
  5. Speichernutzung: Maximale verarbeitbare Datensatzgröße

Vergleichsmethoden

  • Transformer-basiertes TabPFN: Ursprüngliches Baseline-Modell
  • Mamba-basiertes TabPFN: Unidirektionale SSM-Austausch-Lösung
  • Hydra-basiertes TabPFN: Der in dieser Arbeit vorgeschlagene bidirektionale SSM-Ansatz

Implementierungsdetails

  • Trainings-Hardware: Nvidia A40 GPU (48GB)
  • Test-Hardware: NVIDIA H100 80GB
  • Trainingszeit: Transformer 48 Stunden, Mamba 52 Stunden, Hydra 134 Stunden
  • Wichtige Hyperparameter:
    • Lernrate: 0,0001
    • SSM-Schichtenzahl: 24 Schichten (2x Transformer)
    • Einbettungsdimension: 1024

Experimentelle Ergebnisse

Hauptergebnisse

1. Skalierbarkeitvergleich

  • Transformer-Grenzwert: 2¹⁵ Zeilen (begrenzt durch 80GB VRAM)
  • Hydra-Grenzwert: 2¹⁷ Zeilen (begrenzt durch 32-Bit-Indexierung von PyTorch, nicht Hardware)
  • Leistungssteigerung: 100-fache Steigerung der verarbeitbaren Datengröße

2. Vorhersageleistungsvergleich

  • Hydra vs. Transformer: Durchschnittliche Genauigkeitsdifferenz -1,1%, AUC-Differenz -1,1%
  • Hydra vs. Mamba: Hydra-Genauigkeit durchschnittlich 3,6% höher
  • Varianzanalyse: Hydra zeigt niedrigere Leistungsvarianz als Mamba

3. Reihenfolgeempfindlichkeitsanalyse

Gemessen durch KL-Divergenz:

  • KL-Divergenz sinkt signifikant mit zunehmender RCP-Anzahl
  • Hydra zeigt niedrigere Reihenfolgeempfindlichkeit als Mamba
  • RCP-Strategie reduziert effektiv die Auswirkungen anomaler Permutationen

Ablationsstudien

Auswirkung der RCP-Anzahl

  • Genauigkeit: Verbessert sich mit zunehmender RCP-Anzahl, aber mit relativ kleinen Verbesserungen
  • KL-Divergenz: Sinkt signifikant, was auf reduzierte Reihenfolgeabhängigkeit hindeutet
  • Rechenkost: Steigt linear um den Faktor r der Inferenzzeit

Architekturvergleich

  • Unidirektional vs. Bidirektional: Hydras bidirektionaler Mechanismus ist deutlich überlegen gegenüber Mambas unidirektionaler Verarbeitung
  • Schichtenzahl-Einstellung: Folgt Mambas Papierempfehlung mit 2x Transformer-Schichten

Experimentelle Erkenntnisse

  1. Bedeutung der Bidirektionalität: Bidirektionale Verarbeitung ist für die ungeordnete Natur tabellarischer Daten entscheidend
  2. Ausgleich zwischen Effizienz und Leistung: Signifikante Effizienzsteigerung bei Beibehaltung konkurrenzfähiger Leistung
  3. Effektivität von RCP: Die Mehrfach-Permutations-Durchschnittsstrategie reduziert effektiv die Reihenfolgeempfindlichkeit
  4. Durchbruch bei Hardwarebeschränkungen: Erfolgreiche Überwindung der Speicherbeschränkungen von Transformern bei großen Datenmengen

Verwandte Arbeiten

Tabellarische Foundation Models

  • TabPFN: Bahnbrechendes Transformer-Modell für tabellarische Daten
  • TabFlex: Erweiterungsansatz mit linearer Aufmerksamkeit
  • Mambular: Tabellarisches Deep-Learning-Modell basierend auf Mamba

State-Space-Modelle

  • Mamba: Selektives State-Space-Modell mit linearer Komplexität
  • Hydra: Bidirektionale SSM-Erweiterung mit nicht-kausaler Modellierung
  • S4: Grundlegende Arbeiten zu strukturierten State-Space-Sequenzmodellen

Effizienzoptimierungsmethoden

  • FlashAttention: Speicherreduktion von Transformern durch IO-Optimierung
  • Linear Attention: Alternative Aufmerksamkeitsmechanismen mit linearer Komplexität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Hydra löst erfolgreich das Skalierbarkeitsproblem von TabPFN und erhöht die Verarbeitungskapazität um zwei Größenordnungen
  2. Bidirektionale SSM sind besser für die ungeordnete Natur tabellarischer Daten geeignet als unidirektionale SSM
  3. RCP-Strategie ist eine effektive Methode zur Reduzierung der SSM-Reihenfolgeempfindlichkeit
  4. Konkurrenzfähige Leistung mit Transformern bei Beibehaltung linearer Komplexität

Einschränkungen

  1. Umschulungsbedarf: Aufgrund von Architekturunterschieden ist eine Neutrainierung des gesamten Modells erforderlich
  2. Kontextbeschränkung: Experimente sind immer noch auf weniger als 1000 Zeilen beschränkt, ohne großflächige Szenarien vollständig zu erkunden
  3. RCP-Overhead: Mehrfache Permutationen erhöhen die Inferenzzeit um den Faktor r
  4. Reihenfolgeoptimierung: Keine tiefgehende Untersuchung optimaler Permutationsstrategien

Zukünftige Richtungen

  1. Großflächige Validierung: Testen von SSM-basiertem TabPFN auf Datensätzen mit >10k Zeilen
  2. Optimale Permutation: Erforschung optimaler Zeilenpermutationsstrategien für SSM
  3. Architekturoptimierung: Erforschung effizienterer bidirektionaler SSM-Architekturen
  4. Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen der Bidirektionalität für die tabellarische Datenmodellierung

Tiefgreifende Bewertung

Stärken

  1. Klare Problemdefinition: Genaue Identifizierung des Kernengpasses von TabPFN mit gezielter Lösung
  2. Rationale Technologiewahl: Die bidirektionale Eigenschaft von Hydra passt gut zur ungeordneten Natur tabellarischer Daten
  3. Umfassendes Experimentdesign: Mehrschichtige Bewertung von Leistung, Effizienz und Reihenfolgeempfindlichkeit
  4. Überzeugende Ergebnisse: Signifikante Skalierbarkeitssteigerung bei Beibehaltung der Leistung
  5. Hohe praktische Anwendbarkeit: RCP-Strategie ist einfach, effektiv und leicht zu implementieren

Mängel

  1. Begrenzte Innovationsstufe: Hauptsächlich Kombination bestehender Techniken, fehlende grundlegende Innovation
  2. Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum Bidirektionalität Reihenfolgeempfindlichkeit löst
  3. Begrenzte Experimentskala: Immer noch auf relativ kleine Datensätze beschränkt, unzureichende Demonstration großflächiger Verarbeitungsfähigkeiten
  4. Unvollständige Vergleiche: Fehlende direkte Vergleiche mit anderen linearen Komplexitätsmethoden (z.B. Linear Attention)
  5. Unzureichende Hyperparameter-Analyse: Aufgrund hoher Trainingskosten keine umfassende Hyperparameter-Optimierung durchgeführt

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven und empirische Evidenz für die Effizienzoptimierung tabellarischer Foundation Models
  2. Praktischer Wert: Löst Skalierbarkeitsprobleme in praktischen Anwendungen mit hohem praktischem Wert
  3. Inspirationswert: Demonstriert das Potenzial von SSM in der strukturierten Datenmodellierung und kann weitere verwandte Forschung inspirieren
  4. Reproduzierbarkeit: Öffentlich verfügbarer Code, detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit

Anwendungsszenarien

  1. Großflächige tabellarische Klassifizierung: Besonders geeignet für tabellarische Klassifizierungsaufgaben mit großen Stichprobenmengen
  2. Echtzeit-Inferenzszenarios: Lineare Komplexität macht es für Anwendungen mit strengem Inferenzgeschwindigkeitsanforderungen geeignet
  3. Ressourcenbeschränkte Umgebungen: Benötigt weniger Speicher und Rechenressourcen als Transformer
  4. Few-Shot-Learning: Behält die Vorteile von TabPFN in Few-Shot-Szenarien bei

Referenzen

Wichtige Referenzen umfassen:

  1. Hollmann et al. (2023) - Originalpapier zu TabPFN
  2. Gu & Dao (2023) - Mamba-Architektur
  3. Hwang et al. (2024) - Hydra bidirektionales SSM
  4. Dao et al. (2022) - FlashAttention-Optimierungstechnik
  5. Zeng et al. (2024) - TabFlex lineare Aufmerksamkeitsmethode

Dieses Papier leistet einen wertvollen Beitrag zur Lösung des Skalierbarkeitsproblems tabellarischer Foundation Models. Durch geschickte Kombination bidirektionaler SSM und wiederholter Permutationsstrategien wird erfolgreich ein Ausgleich zwischen Effizienz und Leistung erreicht. Obwohl es in Bezug auf theoretische Innovation Mängel aufweist, sind sein praktischer Wert und seine Inspirationskraft für zukünftige Forschung bemerkenswert.