2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

表形式データ用の状態空間モデルに基づくPrior-Data Fitted Networks

基本情報

  • 論文ID: 2510.14573
  • タイトル: State-Space Models for Tabular Prior-Data Fitted Networks
  • 著者: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • 分類: cs.LG
  • 発表時期/会議: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Canada. 2025
  • 論文リンク: https://arxiv.org/abs/2510.14573

概要

TabPFNなどの表形式データ用基盤モデルの最近の進展により、事前学習されたTransformerアーキテクチャがベイズ推論を高い予測性能で近似できることが実証されました。しかし、Transformerはシーケンス長に対して二次の計算量を持つため、より効率的なシーケンスモデルの探索が求められています。本研究では、双方向線形時間構造化状態空間モデル(SSM)であるHydraをTabPFNのTransformerの代替案として使用する可能性を調査します。主な課題は、SSMが入力トークンの順序に対して本質的に敏感であることです。これは、行の順序が意味的に無意味である表形式データセットにとって望ましくない特性です。双方向アプローチが効率性を保持し、対称的なコンテキスト集約を可能にする程度を調査します。実験結果から、このアプローチが順序依存性を低減し、元のTabPFNモデルと競争力のある予測性能を達成することが示されました。

研究背景と動機

  1. 解決すべき問題: 本研究は、表形式データ用基盤モデルにおけるTransformerアーキテクチャの計算効率の問題に対処しています。特に、O(n²)の計算量複雑性は大規模データセット上でのスケーラビリティを制限しています。
  2. 問題の重要性: TabPFNは表形式データの基盤モデルとして優れた性能を示し、ミリ秒単位でベイズ推論の近似を完了できますが、Transformerベースのアーキテクチャは大規模データ処理時にメモリと計算のボトルネックに直面しています。
  3. 既存手法の限界:
    • Transformerの自己注意機構は二次の計算量を持つ
    • TransformerをMambaで直接置き換えると、入力シーケンスの順序に対する感度が導入される
    • 表形式データでは行の順序は意味的に無意味であり、これはSSMの因果性設計と矛盾する
  4. 研究動機: 構造化状態空間モデル(SSM)をTransformerの代替案として探索し、線形計算量の効率性の利点を保持しながら、双方向処理機構を通じて入力順序への依存性を低減することです。

核心的貢献

  1. HydraベースのTabPFNアーキテクチャの提案: 双方向構造化状態空間モデルHydraをTabPFNに統合し、表形式データの線形時間計算量処理を実現しました。
  2. 繰り返しコンテキスト順列(RCP)技術の導入: 入力を複数回ランダムに順列化し、予測結果を平均化することで、SSMのシーケンス順序に対する感度をさらに低減します。
  3. 顕著なスケーラビリティの向上: 元のTabPFNと比較して、新手法は2桁大きなデータセット(2¹⁵行から2¹⁷行に拡張)を処理できます。
  4. 競争力のある予測性能の維持: OpenML CC-18ベンチマークテストにおいて、HydraベースのTabPFNの精度は元のモデルより1.1%低いだけです。

方法の詳細

タスク定義

本論文は表形式分類タスクを研究しており、以下の特徴があります:

  • 入力: 訓練サンプルとテストサンプルを含む完全な表形式データセット
  • 出力: テストサンプルのクラス確率予測
  • 制約: 単一の前向きパスで推論を完了する必要があり、勾配更新またはファインチューニングは不要

モデルアーキテクチャ

1. Hydraアーキテクチャの置き換え

  • 核心設計: Hydra層スタックでTransformerエンコーダを置き換え
  • 双方向処理: 準可分離行列ミキサーを利用した双方向状態空間モデリング
  • 層構造: 各Hydra層は双方向状態空間ミキシングの後にフィードフォワード変換を含む

2. 埋め込み戦略の保持

  • 元のTabPFNのデータ埋め込み方法を保持
  • 各入力は特徴値とクラスラベルの連結として表現
  • 推論時は、すべての可能なラベル割り当てを周辺化することでラベルなしデータを処理

3. 繰り返しコンテキスト順列(RCP)

アルゴリズムフローは以下の通りです:

入力: 順列回数r、コンテキストD、テストサンプルxtest
出力: 予測されたクラス値
空リストを初期化: outputs ← []
for i = 1 to r do
    Dの行をシャッフル: Dp ← shuffle(D)
    xtestをDpに連結: Din ← Dp ∪ xtest
    予測: outputs[i] ← PFN.predict(Din)
end for
outputsの平均値を返す

技術的革新点

  1. 双方向性による順序感度の解決: 単方向のMambaと比較して、Hydraの双方向処理はコンテキスト情報を対称的に集約でき、入力順序への依存性を低減します。
  2. 線形計算量: 準可分離行列乗算器を通じてO(n)計算量を実現し、Transformerの O(n²)と比較して顕著な利点があります。
  3. RCP戦略: 複数回のランダム順列と結果平均化を通じて順序感度をさらに低減する革新的な方法で、これは表形式データの特性に対する定制化設計です。

実験設定

データセット

  • 主要データセット: OpenML CC-18ベンチマークスイート
  • フィルタリング条件: ≤2000行、≤100特徴、≤10クラス
  • 最終データセット: 30個の多クラス分類データセット
  • データ分割: 各データセットを訓練/テストセットに16回ランダムに分割

評価指標

  1. 精度(Accuracy): 分類正解率
  2. AUC OvO: One-vs-One多クラスAUC
  3. KL発散: 異なる入力順列下での予測分布の差異を測定し、順序感度を評価
  4. 推論時間: 異なる入力規模での計算時間
  5. メモリ使用量: 処理可能な最大データセット規模

比較手法

  • TransformerベースのTabPFN: 元のベースラインモデル
  • MambaベースのTabPFN: 単方向SSM置き換え案
  • HydraベースのTabPFN: 本論文で提案された双方向SSM案

実装詳細

  • 訓練ハードウェア: Nvidia A40 GPU (48GB)
  • テストハードウェア: NVIDIA H100 80GB
  • 訓練時間: Transformer 48時間、Mamba 52時間、Hydra 134時間
  • 主要ハイパーパラメータ:
    • 学習率: 0.0001
    • SSM層数: 24層(Transformerの2倍)
    • 埋め込み次元: 1024

実験結果

主要結果

1. スケーラビリティ比較

  • Transformerの限界: 2¹⁵行(80GBメモリ制限)
  • Hydraの限界: 2¹⁷行(PyTorch 32ビットインデックス制限、ハードウェア制限ではない)
  • 性能向上: 処理可能なデータ規模が100倍向上

2. 予測性能比較

  • Hydra対Transformer: 平均精度差-1.1%、AUC差-1.1%
  • Hydra対Mamba: Hydra精度が平均3.6%高い
  • 分散分析: Hydraはambaより低い性能分散を示す

3. 順序感度分析

KL発散で測定:

  • RCP回数の増加に伴いKL発散が顕著に低減
  • Hydraはambaより低い順序感度を示す
  • RCP戦略は異常な順列の影響を効果的に低減

アブレーション実験

RCP回数の影響

  • 精度: RCP回数の増加に伴い向上するが、改善幅は相対的に小さい
  • KL発散: 顕著に低減し、順序依存性の低減を示す
  • 計算コスト: 推論時間がr倍線形に増加

アーキテクチャ比較

  • 単方向対双方向: Hydraの双方向機構はambaの単方向処理より明らかに優れている
  • 層数設定: Mambaの論文の推奨に従い、Transformerの2倍の層数を使用

実験的発見

  1. 双方向性の重要性: 双方向処理は表形式データの無序特性にとって重要
  2. 効率と性能のバランス: 競争力のある性能を保持しながら顕著な効率向上を実現
  3. RCPの有効性: 複数順列平均戦略は順序感度を効果的に低減できる
  4. ハードウェア制限の突破: Transformerの大規模データ上のメモリ制限を成功裏に突破

関連研究

表形式基盤モデル

  • TabPFN: 表形式データ用Transformerモデルの先駆的研究
  • TabFlex: 線形注意を使用した拡張案
  • Mambular: Mambaベースの表形式深層学習モデル

状態空間モデル

  • Mamba: 選択的状態空間モデル、線形計算量を実現
  • Hydra: 双方向SSM拡張、非因果モデリングをサポート
  • S4: 構造化状態空間シーケンスモデルの基礎研究

効率最適化手法

  • FlashAttention: IO最適化によるTransformerメモリ要件の削減
  • Linear Attention: 線形計算量の注意機構の代替案

結論と考察

主要結論

  1. HydraはTabPFNのスケーラビリティ問題を成功裏に解決し、処理能力を2桁向上させた
  2. 双方向SSMは単方向SSMより表形式データの無序特性に適している
  3. RCP戦略はSSMの順序感度を低減する効果的な方法である
  4. 線形計算量を保持しながらTransformerと競争力のある性能を実現した

限界

  1. 再訓練の必要性: アーキテクチャの違いにより、モデル全体の再訓練が必要
  2. コンテキスト制限: 実験は依然として1000行以内に制限され、大規模シナリオを十分に探索していない
  3. RCPのオーバーヘッド: 複数順列がr倍の推論時間を増加させる
  4. 順序最適化: 最適な順列戦略の深入りした研究が不足している

今後の方向性

  1. 大規模検証: >10k行のデータセット上でSSMベースのTabPFNをテスト
  2. 最適順列: SSMに対する最適な行順列戦略を研究
  3. アーキテクチャ最適化: より効率的な双方向SSMアーキテクチャを探索
  4. 理論分析: 双方向性が表形式データモデリングに与える理論的基礎を深く理解

深い評価

利点

  1. 問題定義が明確: TabPFNの核心的なボトルネックを正確に特定し、針対性のある解決案を提案
  2. 技術選択が合理的: Hydraの双方向特性は表形式データの無序特性とよく一致
  3. 実験設計が完全: 性能、効率、順序感度など多次元の評価を含む
  4. 結果の説得力が強い: 性能を保持しながら顕著なスケーラビリティ向上を実現
  5. 方法の実用性が高い: RCP戦略はシンプルで効果的、実装と展開が容易

不足点

  1. 革新度が限定的: 主に既存技術の組み合わせ応用で、根本的な革新が不足
  2. 理論分析が不十分: 双方向性がなぜ順序感度問題を解決できるかについて深入りした理論的説明が不足
  3. 実験規模が制限的: 依然として相対的に小規模なデータセットに制限され、大規模処理能力を十分に展示していない
  4. 比較が不十分: 他の線形計算量手法(Linear Attentionなど)との直接比較が不足
  5. ハイパーパラメータ分析が不十分: 訓練コストが高いため、十分なハイパーパラメータ最適化が実施されていない

影響力

  1. 学術的貢献: 表形式基盤モデルの効率最適化に新しい思考と実証的証拠を提供
  2. 実用価値: 実際のアプリケーションにおけるスケーラビリティ問題を解決し、高い実用価値を持つ
  3. 啓発的意義: SSMが構造化データモデリングにおける潜在力を示し、関連研究をさらに啓発する可能性がある
  4. 再現性: コードが公開可能で、実験設定が詳細であり、良好な再現性を持つ

適用シーン

  1. 大規模表形式分類: 特に大量のサンプルを処理する必要のある表形式分類タスクに適している
  2. リアルタイム推論シーン: 線形計算量により、推論速度に厳密な要件のあるアプリケーションに適している
  3. リソース制限環境: Transformerと比較してメモリと計算リソースが少なくて済む
  4. 少数ショット学習: TabPFNの少数サンプルシナリオでの利点を保持

参考文献

主要な参考文献には以下が含まれます:

  1. Hollmann et al. (2023) - TabPFN元論文
  2. Gu & Dao (2023) - Mambaアーキテクチャ
  3. Hwang et al. (2024) - Hydra双方向SSM
  4. Dao et al. (2022) - FlashAttention最適化技術
  5. Zeng et al. (2024) - TabFlex線形注意手法

本論文は表形式基盤モデルのスケーラビリティ問題の解決において価値のある貢献をしており、双方向SSMと繰り返し順列戦略を巧みに組み合わせることで、効率と性能の需要を成功裏にバランスさせています。理論的革新の面では不足していますが、その実用価値と今後の研究への啓発的意義は認識する価値があります。