State-Space Models for Tabular Prior-Data Fitted Networks
Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
표형 데이터를 위한 기초 모델의 최근 발전(예: TabPFN)은 사전학습된 Transformer 아키텍처가 높은 예측 성능으로 베이지안 추론을 근사할 수 있음을 보여주었습니다. 그러나 Transformer는 시퀀스 길이에 대해 이차 복잡도를 가지므로, 더 효율적인 시퀀스 모델의 탐색이 필요합니다. 본 연구에서는 양방향 선형시간 구조화 상태공간 모델(SSM)인 Hydra를 TabPFN의 Transformer 대체 모델로 사용할 가능성을 조사합니다. 핵심 과제는 SSM의 입력 토큰 순서에 대한 내재적 민감성입니다. 표형 데이터에서는 행의 순서가 의미론적으로 무의미하기 때문입니다. 양방향 접근 방식이 효율성을 유지하면서 대칭적 문맥 집계를 가능하게 하는 정도를 조사합니다. 실험 결과는 이 접근 방식이 순서 의존성을 감소시키면서 원본 TabPFN 모델과 경쟁력 있는 예측 성능을 달성함을 보여줍니다.
입력: 배열 횟수 r, 문맥 D, 테스트 샘플 xtest
출력: 예측된 클래스 값
초기화: 빈 리스트 outputs ← []
for i = 1 to r do
D의 행 섞기: Dp ← shuffle(D)
xtest를 Dp에 연결: Din ← Dp ∪ xtest
예측: outputs[i] ← PFN.predict(Din)
end for
outputs의 평균값 반환
본 논문은 표형 기초 모델의 확장성 문제 해결에 가치 있는 기여를 하였으며, 양방향 SSM과 반복 배열 전략을 교묘하게 결합하여 효율성과 성능의 요구를 성공적으로 균형 있게 조정했습니다. 이론적 혁신 측면에서 부족함이 있지만, 실용적 가치와 향후 연구에 대한 영감 제공 의미는 인정할 만합니다.