State-Space Models for Tabular Prior-Data Fitted Networks
Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic
Модели пространства состояний для табличных сетей Prior-Data Fitted Networks
Недавние достижения в области фундаментальных моделей для табличных данных, таких как TabPFN, продемонстрировали, что предварительно обученные архитектуры Transformer могут аппроксимировать байесовский вывод с высокой предсказательной производительностью. Однако Transformers страдают от квадратичной сложности относительно длины последовательности, что мотивирует исследование более эффективных моделей последовательностей. В данной работе мы исследуем потенциал использования Hydra, двунаправленной линейной модели структурированного пространства состояний (SSM), в качестве альтернативы Transformers в TabPFN. Ключевая проблема заключается в врождённой чувствительности SSM к порядку входных токенов — нежелательное свойство для табличных наборов данных, где порядок строк семантически бессмыслен. Мы исследуем, в какой степени двунаправленный подход может сохранить эффективность и обеспечить симметричную агрегацию контекста. Наши эксперименты показывают, что этот подход снижает зависимость от порядка, достигая предсказательной производительности, конкурентоспособной с исходной моделью TabPFN.
Решаемая проблема: Данное исследование направлено на решение проблемы вычислительной эффективности архитектуры Transformer в фундаментальных моделях для табличных данных, в частности её O(n²) сложность ограничивает масштабируемость на больших наборах данных.
Важность проблемы: TabPFN как фундаментальная модель для табличных данных демонстрирует отличную производительность, способна аппроксимировать байесовский вывод на миллисекундном уровне, однако её архитектура на основе Transformer сталкивается с узкими местами памяти и вычислений при обработке крупномасштабных данных.
Ограничения существующих методов:
Механизм самовнимания Transformer имеет квадратичную сложность
Прямая замена Transformer на Mamba вводит чувствительность к порядку входной последовательности
Порядок строк в табличных данных семантически бессмыслен, что противоречит причинному дизайну SSM
Исследовательская мотивация: Исследование структурированных моделей пространства состояний (SSM) как альтернативы Transformer, сохраняя преимущества линейной сложности, одновременно снижая зависимость от порядка входных данных через двунаправленный механизм обработки.
Предложена архитектура TabPFN на основе Hydra: Интеграция двунаправленной структурированной модели пространства состояний Hydra в TabPFN, обеспечивающая линейную временную сложность обработки табличных данных.
Введена техника повторяющейся перестановки контекста (RCP): Дальнейшее снижение чувствительности SSM к порядку последовательности путём многократной случайной перестановки входных данных и усреднения результатов предсказания.
Достигнут значительный прирост масштабируемости: По сравнению с исходной TabPFN новый метод может обрабатывать наборы данных на два порядка больше (расширение с 2¹⁵ до 2¹⁷ строк).
Сохранена конкурентоспособная предсказательная производительность: На эталонном тесте OpenML CC-18 точность Hydra-based TabPFN всего на 1,1% ниже исходной модели.
Основной дизайн: Замена стека слоёв кодировщика Transformer на слои Hydra
Двунаправленная обработка: Использование квазиразделимых матричных миксеров для двунаправленного моделирования пространства состояний
Структура слоя: Каждый слой Hydra содержит двунаправленное смешивание пространства состояний, за которым следует преобразование прямого распространения
Вход: количество перестановок r, контекст D, тестовый образец xtest
Выход: предсказанное значение класса
Инициализация пустого списка: outputs ← []
для i = 1 до r выполнить
Перемешать строки D: Dp ← shuffle(D)
Конкатенировать xtest с Dp: Din ← Dp ∪ xtest
Предсказание: outputs[i] ← PFN.predict(Din)
конец цикла
Вернуть среднее значение outputs
Двунаправленность решает чувствительность к порядку: По сравнению с однонаправленной Mamba, двунаправленная обработка Hydra может симметрично агрегировать информацию контекста, снижая зависимость от порядка входных данных.
Линейная сложность: Реализация O(n) сложности через квазиразделимые матричные умножители, что даёт значительное преимущество перед O(n²) Transformer.
Стратегия RCP: Инновационное снижение чувствительности к порядку путём многократной случайной перестановки и усреднения результатов, что является специализированным дизайном для характеристик табличных данных.
Ограниченная степень инноваций: В основном представляет собой комбинацию существующих технологий, не хватает фундаментальных инноваций
Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему двунаправленность решает проблему чувствительности к порядку
Ограниченный масштаб экспериментов: По-прежнему ограничены относительно небольшими наборами данных, недостаточно демонстрируют возможности крупномасштабной обработки
Неполное сравнение: Отсутствует прямое сравнение с другими методами линейной сложности (например, Linear Attention)
Недостаточный анализ гиперпараметров: Из-за высоких затрат на обучение не проведена достаточная оптимизация гиперпараметров
Dao et al. (2022) - техника оптимизации FlashAttention
Zeng et al. (2024) - метод линейного внимания TabFlex
Данная статья вносит ценный вклад в решение проблемы масштабируемости фундаментальных моделей для табличных данных. Путём умелого сочетания двунаправленной SSM и стратегии повторяющихся перестановок успешно достигнут баланс между требованиями эффективности и производительности. Несмотря на некоторые недостатки в теоретических инновациях, её практическая ценность и вдохновляющее значение для будущих исследований заслуживают признания.