2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

State-Space Models for Tabular Prior-Data Fitted Networks

基本信息

  • 论文ID: 2510.14573
  • 标题: State-Space Models for Tabular Prior-Data Fitted Networks
  • 作者: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • 分类: cs.LG
  • 发表时间/会议: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Canada. 2025
  • 论文链接: https://arxiv.org/abs/2510.14573

摘要

Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.

研究背景与动机

  1. 要解决的问题: 本研究针对表格数据基础模型中Transformer架构的计算效率问题,特别是其O(n²)的复杂度限制了在大型数据集上的可扩展性。
  2. 问题的重要性: TabPFN作为表格数据的基础模型展现了出色的性能,能够在毫秒级别内完成贝叶斯推理近似,但其基于Transformer的架构在处理大规模数据时面临内存和计算瓶颈。
  3. 现有方法的局限性:
    • Transformer的自注意力机制具有二次复杂度
    • 直接用Mamba替换Transformer会引入对输入序列顺序的敏感性
    • 表格数据中行的顺序在语义上是无意义的,这与SSM的因果性设计相冲突
  4. 研究动机: 探索结构化状态空间模型(SSM)作为Transformer的替代方案,既保持线性复杂度的效率优势,又通过双向处理机制减少对输入顺序的依赖。

核心贡献

  1. 提出了基于Hydra的TabPFN架构: 将双向结构化状态空间模型Hydra集成到TabPFN中,实现线性时间复杂度的表格数据处理。
  2. 引入重复上下文排列(RCP)技术: 通过多次随机排列输入并平均预测结果来进一步减少SSM对序列顺序的敏感性。
  3. 实现了显著的可扩展性提升: 相比原始TabPFN,新方法能处理两个数量级更大的数据集(从2¹⁵行扩展到2¹⁷行)。
  4. 保持了竞争性的预测性能: 在OpenML CC-18基准测试中,Hydra-based TabPFN的准确率仅比原始模型低1.1%。

方法详解

任务定义

本文研究表格分类任务,其中:

  • 输入: 包含训练和测试样本的完整表格数据集
  • 输出: 对测试样本的类别概率预测
  • 约束: 需要在单次前向传播中完成推理,无需梯度更新或微调

模型架构

1. Hydra架构替换

  • 核心设计: 用Hydra层堆叠替换Transformer编码器
  • 双向处理: 利用准可分离矩阵混合器实现双向状态空间建模
  • 层结构: 每个Hydra层包含双向状态空间混合,后跟前馈变换

2. 嵌入策略保持

  • 保留原始TabPFN的数据嵌入方法
  • 每个输入表示为特征值和类标签的拼接
  • 推理时通过边缘化所有可能的标签分配处理未标记数据

3. 重复上下文排列(RCP)

算法流程如下:

输入: 排列次数r, 上下文D, 测试样本xtest
输出: 预测的类别值
初始化空列表: outputs ← []
for i = 1 to r do
    打乱D的行: Dp ← shuffle(D)
    拼接xtest到Dp: Din ← Dp ∪ xtest
    预测: outputs[i] ← PFN.predict(Din)
end for
返回 outputs的平均值

技术创新点

  1. 双向性解决顺序敏感性: 相比单向的Mamba,Hydra的双向处理能够对称地聚合上下文信息,减少对输入顺序的依赖。
  2. 线性复杂度: 通过准可分离矩阵乘法器实现O(n)复杂度,相比Transformer的O(n²)有显著优势。
  3. RCP策略: 创新性地通过多次随机排列和结果平均来进一步降低顺序敏感性,这是针对表格数据特性的定制化设计。

实验设置

数据集

  • 主要数据集: OpenML CC-18基准测试套件
  • 过滤条件: ≤2000行,≤100特征,≤10类别
  • 最终数据集: 30个多类分类数据集
  • 数据划分: 每个数据集随机划分为训练/测试集16次

评价指标

  1. 准确率(Accuracy): 分类正确率
  2. AUC OvO: One-vs-One多类AUC
  3. KL散度: 衡量不同输入排列下预测分布的差异,评估顺序敏感性
  4. 推理时间: 不同输入规模下的计算时间
  5. 内存使用: 可处理的最大数据集规模

对比方法

  • Transformer-based TabPFN: 原始基线模型
  • Mamba-based TabPFN: 单向SSM替换方案
  • Hydra-based TabPFN: 本文提出的双向SSM方案

实现细节

  • 训练硬件: Nvidia A40 GPU (48GB)
  • 测试硬件: NVIDIA H100 80GB
  • 训练时间: Transformer 48小时,Mamba 52小时,Hydra 134小时
  • 关键超参数:
    • 学习率: 0.0001
    • SSM层数: 24层(Transformer的2倍)
    • 嵌入维度: 1024

实验结果

主要结果

1. 可扩展性对比

  • Transformer极限: 2¹⁵行(受80GB显存限制)
  • Hydra极限: 2¹⁷行(受PyTorch 32位索引限制,非硬件限制)
  • 性能提升: 可处理数据规模提升100倍

2. 预测性能对比

  • Hydra vs Transformer: 准确率平均差异-1.1%,AUC差异-1.1%
  • Hydra vs Mamba: Hydra准确率平均高出3.6%
  • 方差分析: Hydra表现出比Mamba更低的性能方差

3. 顺序敏感性分析

通过KL散度衡量:

  • 随着RCP次数增加,KL散度显著降低
  • Hydra比Mamba表现出更低的顺序敏感性
  • RCP策略有效减少了异常排列的影响

消融实验

RCP次数影响

  • 准确率: 随RCP次数增加而提升,但改善幅度相对较小
  • KL散度: 显著降低,表明顺序依赖性减少
  • 计算成本: 线性增加r倍推理时间

架构对比

  • 单向vs双向: Hydra的双向机制明显优于Mamba的单向处理
  • 层数设置: 遵循Mamba论文建议,使用2倍Transformer层数

实验发现

  1. 双向性的重要性: 双向处理对于表格数据的无序性质至关重要
  2. 效率与性能平衡: 在保持竞争性能的同时实现了显著的效率提升
  3. RCP的有效性: 多次排列平均策略能够有效减少顺序敏感性
  4. 硬件限制突破: 成功突破了Transformer在大规模数据上的内存限制

相关工作

表格基础模型

  • TabPFN: 开创性的表格数据Transformer模型
  • TabFlex: 使用线性注意力的扩展方案
  • Mambular: 基于Mamba的表格深度学习模型

状态空间模型

  • Mamba: 选择性状态空间模型,实现线性复杂度
  • Hydra: 双向SSM扩展,支持非因果建模
  • S4: 结构化状态空间序列模型的基础工作

效率优化方法

  • FlashAttention: 通过IO优化减少Transformer内存需求
  • Linear Attention: 线性复杂度的注意力机制替代方案

结论与讨论

主要结论

  1. Hydra成功解决了TabPFN的可扩展性问题,将处理能力提升两个数量级
  2. 双向SSM相比单向SSM更适合表格数据的无序特性
  3. RCP策略是减少SSM顺序敏感性的有效方法
  4. 在保持线性复杂度的同时实现了与Transformer竞争的性能

局限性

  1. 重训练需求: 由于架构差异,需要重新训练整个模型
  2. 上下文限制: 实验仍限制在1000行以内,未充分探索大规模场景
  3. RCP开销: 多次排列增加了r倍的推理时间
  4. 顺序优化: 未深入研究最优排列策略

未来方向

  1. 大规模验证: 在>10k行的数据集上测试SSM-based TabPFN
  2. 最优排列: 研究针对SSM的最优行排列策略
  3. 架构优化: 探索更高效的双向SSM架构
  4. 理论分析: 深入理解双向性对表格数据建模的理论基础

深度评价

优点

  1. 问题定义清晰: 准确识别了TabPFN的核心瓶颈并提出针对性解决方案
  2. 技术选择合理: Hydra的双向特性很好地匹配了表格数据的无序性质
  3. 实验设计完整: 包含了性能、效率、顺序敏感性等多维度评估
  4. 结果说服力强: 在保持性能的同时实现了显著的可扩展性提升
  5. 方法实用性高: RCP策略简单有效,易于实现和部署

不足

  1. 创新程度有限: 主要是现有技术的组合应用,缺乏根本性创新
  2. 理论分析不足: 对于为什么双向性能够解决顺序敏感性问题缺乏深入的理论解释
  3. 实验规模受限: 仍然受限于相对较小的数据集,未能充分展示大规模处理能力
  4. 对比不够全面: 缺少与其他线性复杂度方法(如Linear Attention)的直接对比
  5. 超参数分析不充分: 由于训练成本高,未进行充分的超参数优化

影响力

  1. 学术贡献: 为表格基础模型的效率优化提供了新的思路和实证证据
  2. 实用价值: 解决了实际应用中的可扩展性问题,具有较高的实用价值
  3. 启发意义: 展示了SSM在结构化数据建模中的潜力,可能启发更多相关研究
  4. 可复现性: 代码公开可获取,实验设置详细,具有良好的可复现性

适用场景

  1. 大规模表格分类: 特别适合需要处理大量样本的表格分类任务
  2. 实时推理场景: 线性复杂度使其适合对推理速度有严格要求的应用
  3. 资源受限环境: 相比Transformer需要更少的内存和计算资源
  4. 小样本学习: 保持了TabPFN在少样本场景下的优势

参考文献

主要参考文献包括:

  1. Hollmann et al. (2023) - TabPFN原始论文
  2. Gu & Dao (2023) - Mamba架构
  3. Hwang et al. (2024) - Hydra双向SSM
  4. Dao et al. (2022) - FlashAttention优化技术
  5. Zeng et al. (2024) - TabFlex线性注意力方法

本论文在解决表格基础模型可扩展性问题方面做出了有价值的贡献,通过巧妙地结合双向SSM和重复排列策略,成功平衡了效率与性能的需求。尽管在理论创新方面有所不足,但其实用价值和对未来研究的启发意义值得认可。