2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta
Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
academic

TabDistill: Дистилляция трансформаторов в нейронные сети для классификации табличных данных в режиме few-shot

Основная информация

  • ID статьи: 2511.05704
  • Название: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
  • Авторы: Pasan Dissanayake, Sanghamitra Dutta (Университет Мэриленда, Колледж-Парк)
  • Категория: cs.LG cs.AI cs.CL
  • Дата публикации: 7 ноября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2511.05704

Аннотация

Модели на основе трансформаторов продемонстрировали перспективную производительность на табличных данных по сравнению с классическими методами, такими как нейронные сети и градиентные бустированные деревья решений (GBDT), в сценариях с ограниченными данными обучения. Они используют предварительно полученные знания для адаптации к новым областям, достигая хороших результатов с несколькими примерами обучения, что называется режимом few-shot. Однако улучшение производительности в режиме few-shot достигается за счет значительного увеличения сложности и количества параметров. Чтобы избежать этого компромисса, мы представляем TabDistill — новую стратегию дистилляции предварительно полученных знаний из сложных моделей на основе трансформаторов в более простые нейронные сети для эффективной классификации табличных данных. Наша система обеспечивает лучшее из обоих миров: параметрическую эффективность при хорошей производительности с ограниченными данными обучения. Дистиллированные нейронные сети превосходят классические базовые методы, такие как обычные нейронные сети, XGBoost и логистическая регрессия при равном объеме данных обучения, а в некоторых случаях даже исходные модели на основе трансформаторов, из которых они были дистиллированы.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает центральное противоречие в классификации табличных данных: в сценариях few-shot модели на основе трансформаторов, хотя и показывают отличную производительность, имеют огромное количество параметров и высокую вычислительную сложность, что затрудняет их развертывание в практических приложениях.

Важность проблемы

  1. Практические требования приложений: В высокорисковых областях, таких как финансы, здравоохранение и производство, дефицит аннотированных данных является распространённой проблемой, например при диагностике редких заболеваний или прогнозировании столетних природных явлений
  2. Стоимость аннотирования данных: В финансовых приложениях аннотирование данных дорого, подвержено субъективности, ошибкам и отсутствию консенсуса
  3. Ограничения развертывания: Практические приложения требуют параметрически эффективных и масштабируемых моделей, адаптированных к различным уровням инфраструктуры

Ограничения существующих методов

  1. Традиционные методы: XGBoost, CatBoost, LightGBM показывают отличные результаты при достаточном количестве данных, но значительно теряют в производительности в сценариях few-shot
  2. Методы на основе трансформаторов: TabPFN, TabLLM и другие показывают отличные результаты в режиме few-shot, но имеют параметры на уровне миллионов или даже миллиардов, что приводит к высоким затратам на вывод
  3. Компромисс эффективность-производительность: Отсутствуют решения, которые одновременно сохраняют производительность few-shot и обеспечивают параметрическую эффективность

Исследовательская мотивация

Авторы ставят центральный вопрос: "Можно ли достичь лучшего из обоих миров, сохраняя параметрическую эффективность и хорошую производительность с ограниченными данными обучения?"

Основные вклады

  1. Предложение системы TabDistill: Новая стратегия дистилляции знаний из моделей трансформаторов в нейронные сети, обеспечивающая параметрически эффективную классификацию табличных данных
  2. Двойная реализация модели: Реализация системы на основе TabPFN (~11M параметров) и BigScience T0pp (~11B параметров) с дистилляцией в MLP с ~1000 параметрами
  3. Экспериментальная проверка: Верификация на 5 табличных наборах данных, где дистиллированные MLP превосходят классические базовые методы и в некоторых случаях даже исходные модели трансформаторов
  4. Инновационная стратегия обучения: Введение техники обучения на основе перестановок для избежания переобучения на экстремально малых наборах обучения

Подробное описание метода

Определение задачи

Дан небольшой набор табличных данных DN={(xn,yn),xnX,yn{0,1},n=1,...,N}D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}, где N10N \sim 10. Цель состоит в использовании знаний из предварительно обученной модели трансформатора ff для генерации простой MLP hθ(x):X{0,1}h_\theta(x): X \to \{0,1\}.

Архитектура модели

Общая система

TabDistill включает два этапа:

  • Этап 1: Тонкая настройка базовой модели трансформатора для генерации качественной MLP
  • Этап 2: Дополнительная опциональная тонкая настройка MLP

Основные компоненты

  1. Разложение базовой модели:
    • Кодировщик: fE(s):SZf_E(s): S \to Z
    • Декодировщик: fD(z):Z{0,1}f_D(z): Z \to \{0,1\}
  2. Архитектура MLP:
    h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
    

    где R — количество слоёв, L — ширина скрытых слоёв
  3. Линейное отображение:
    m_η(z) = LayerNorm(Az + b)
    

    где ARdim(Θ)×dim(Z)A \in R^{dim(Θ)×dim(Z)}, η=(A,b)η = (A,b)

Процесс обучения

Функция потерь этапа 1:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

где θ=mη(fE(g(DN)))θ = m_η(f_E(g(D_N)))

Технические инновации

  1. Идея гиперсети: Заимствование опыта из компьютерного зрения, использование трансформатора в качестве гиперсети для генерации весов нейронной сети
  2. Увеличение перестановками: Случайная перестановка порядка признаков на каждой эпохе обучения для избежания переобучения
  3. Параметрически эффективная тонкая настройка: Настройка только параметров линейного отображения ηη с сохранением параметров базовой модели
  4. Двухэтапный дизайн: Сначала дистилляция, затем тонкая настройка для полного использования предварительно полученных знаний

Конкретные реализации

TabDistill + TabPFN

  • Прямое использование табличных данных, g(x)=xg(x) = x (тождественное преобразование)
  • Размерность выхода кодировщика: 192N192N
  • Размерность матрицы отображения: dim(Θ)×192Ndim(Θ) × 192N

TabDistill + T0pp

  • Использование текстовой сериализации: "The <column name> is <value>"
  • Размерность выхода кодировщика: 4096
  • Размерность матрицы отображения: dim(Θ)×4096dim(Θ) × 4096

Экспериментальная установка

Наборы данных

Использованы 5 открытых табличных наборов данных:

  1. Bank (UCI Bank Marketing): Прогнозирование подписки клиента на срочный вклад
  2. Blood (UCI Blood Transfusion): Прогнозирование вероятности сдачи крови
  3. Calhousing (California Housing): Прогнозирование стоимости жилого района
  4. Heart (UCI Heart Disease): Прогнозирование наличия сердечного заболевания
  5. Income (Census Income): Прогнозирование годового дохода выше 50K

Метрики оценки

Использована ROC-AUC в качестве основной метрики оценки, учитывающей производительность классификации в сценариях few-shot.

Методы сравнения

  1. Классические базовые методы: Логистическая регрессия, XGBoost, независимо обученная MLP
  2. Базовые модели: TabPFN, T0pp (TabLLM)
  3. Дистиллированные модели: TabDistill + TabPFN, TabDistill + T0pp

Детали реализации

  • Архитектура MLP: 4 слоя, 10 нейронов на слой (~1000 параметров)
  • Параметры обучения: Этап 1 — 300 эпох тонкой настройки, этап 2 — дополнительно 100 эпох
  • Оптимизация гиперпараметров: Поиск по сетке с использованием Weights & Biases
  • Масштабы выборок: N ∈ {4, 8, 16, 32, 64}

Результаты экспериментов

Основные результаты

Согласно результатам ROC-AUC в таблице 1:

Сценарий экстремально малых выборок (N=4)

  • TabDistill + TabPFN достигает 0.72 на наборе данных Bank, значительно превосходя все классические базовые методы
  • TabDistill + T0pp показывает отличные результаты на нескольких наборах данных, например Calhousing (0.67) и Income (0.70)

Тенденции производительности

  1. Улучшение производительности с увеличением выборки: Все методы показывают общее улучшение при увеличении N
  2. Различия в базовых методах: Ни один классический метод не является универсально оптимальным на всех наборах данных
  3. Различия в выборе модели: TabDistill + TabPFN в целом превосходит TabDistill + T0pp, но на наборе данных Income наблюдается обратная ситуация

Сравнение с базовыми моделями

Таблица 3 показывает удивительные результаты:

  • В некоторых случаях дистиллированная MLP превосходит исходную модель трансформатора
  • Например, на наборе данных Bank при N=4: TabDistill + TabPFN (0.72) > TabPFN (0.62)
  • Это указывает на то, что процесс дистилляции не только сжимает модель, но и может улучшить производительность

Абляционные исследования

Влияние сложности модели (таблица 2)

  • Тестирование влияния количества слоёв R на производительность
  • Результаты показывают: производительность снижается при превышении определённого порога сложности
  • Архитектура с 4 слоями показывает лучшие результаты в большинстве случаев

Анализ атрибуции признаков (рисунок 3)

Использование SHAP для анализа важности признаков:

  • Дистиллированная модель согласуется с классическими базовыми методами в отношении важности признаков
  • Даже после перестановки признаков модель правильно идентифицирует важные признаки
  • Это доказывает, что базовая модель правильно изучила связь между весами MLP и порядком признаков

Экспериментальные находки

  1. Значительный эффект дистилляции: Дистиллированные модели явно превосходят классические методы в сценариях экстремально малых выборок
  2. Параметрическая эффективность: Сжатие с миллионов/миллиардов параметров до тысячи параметров обеспечивает огромное улучшение эффективности
  3. Эффективная передача знаний: Предварительно полученные знания успешно передаются в простую MLP
  4. Хорошая робастность: Стратегия увеличения перестановками эффективно предотвращает переобучение

Связанные работы

Классические алгоритмы для табличных данных

  • Традиционные преимущества: XGBoost, LightGBM, CatBoost долгое время доминировали в области табличных данных
  • Ограничения few-shot: Классические модели, обученные с нуля, показывают значительное снижение производительности в сценариях few-shot

Применение трансформаторов к табличным данным

  • SAINT: Использование механизма внимания для моделирования взаимодействия строк и столбцов, введение самоконтролируемого предварительного обучения
  • TabPFN: Предварительное обучение на большом количестве синтетических табличных данных, прогнозирование новых задач без дополнительного обучения
  • Серия TabLLM: Сериализация табличных данных в текст, использование LLM для классификации

Метаобучение и гиперсети

  • Связь с метаобучением: Трансформаторы хорошо подходят для контекстного обучения, аналогично парадигме метаобучения
  • Применение гиперсетей: В компьютерном зрении уже существуют работы по использованию трансформаторов для генерации весов нейронных сетей
  • Инновация данной работы: Первое применение этой идеи к области табличных данных

Дистилляция знаний

  • Традиционная дистилляция: Выравнивание выходов студенческой и учительской моделей через функцию потерь
  • Отличие данной работы: Прямое извлечение нейронной сети из трансформатора без необходимости выравнивания потерь

Заключение и обсуждение

Основные выводы

  1. Проверка эффективности: TabDistill успешно достигает баланса между параметрической эффективностью и производительностью few-shot
  2. Преимущества производительности: Дистиллированная MLP в большинстве случаев превосходит классические базовые методы, а в некоторых сценариях даже исходный трансформатор
  3. Практическая ценность: Предоставляет практически развёртываемое решение, удовлетворяющее различным требованиям инфраструктуры

Ограничения

Авторы честно указывают на следующие недостатки:

  1. Производительность на больших выборках: При увеличении объёма обучающих выборок улучшение производительности ограничено
  2. Простота функции отображения: Текущее использование простого линейного отображения может ограничивать верхний предел производительности
  3. Наследование смещений: Дистиллированная модель может наследовать смещения базовой модели
  4. Область применения: В настоящее время проверена только на задачах бинарной классификации

Направления будущих исследований

  1. Улучшение функции отображения: Исследование более сложных функций отображения для повышения производительности
  2. Расширение приложений: Распространение на логический вывод на естественном языке, настройку инструкций и другие задачи few-shot
  3. Смягчение смещений: Уменьшение смещений базовой модели через тонкую настройку MLP на втором этапе
  4. Многозадачное обучение: Исследование возможности одновременной обработки нескольких табличных задач

Глубокая оценка

Преимущества

  1. Высокая целевая направленность проблемы: Точное выявление и решение центрального противоречия в практических приложениях
  2. Инновационность метода: Первое применение идеи гиперсетей к дистилляции табличных данных
  3. Полнота экспериментального дизайна:
    • Верификация на нескольких наборах данных
    • Достаточное сравнение с базовыми методами
    • Подробные абляционные исследования
    • Анализ атрибуции признаков
  4. Убедительные результаты: Не только достижение ожидаемых целей, но и обнаружение интересного явления, когда дистиллированная модель превосходит исходную
  5. Высокая практическая ценность: Предоставление непосредственно применимого решения

Недостатки

  1. Недостаток теоретического анализа: Отсутствие теоретического объяснения того, почему дистиллированная модель может превосходить исходную
  2. Ограниченный масштаб наборов данных: Верификация только на 5 относительно небольших наборах данных
  3. Единообразие типов задач: Рассмотрены только задачи бинарной классификации, без регрессии или многоклассовой классификации
  4. Ограниченный выбор базовых моделей: Тестирование только двух базовых моделей с ограниченным охватом
  5. Отсутствие анализа вычислительных затрат: Отсутствует подробное сравнение фактических вычислительных затрат на обучение и вывод

Влияние

  1. Академический вклад:
    • Открытие нового направления дистилляции трансформаторов для табличных данных
    • Предоставление новых идей решения для few-shot обучения
    • Связь двух областей исследований: гиперсетей и дистилляции знаний
  2. Практическая ценность:
    • Решение важной проблемы практического развёртывания
    • Предоставление жизнеспособного решения для сред с ограниченными ресурсами
    • Возможность прямого применения в промышленных сценариях
  3. Воспроизводимость:
    • Предоставление подробных деталей реализации
    • Обещание открытого исходного кода повышает воспроизводимость
    • Ясная и повторяемая экспериментальная установка

Применимые сценарии

  1. Среды с ограниченными ресурсами: Мобильные устройства, граничные вычисления и другие сценарии
  2. Приложения few-shot: Медицинская диагностика, финансовый контроль рисков, контроль качества и другие области с дефицитом данных
  3. Требования к реальному времени вывода: Онлайн-сервисы, требующие быстрого ответа
  4. Требования к интерпретируемости модели: Простая MLP более интерпретируема по сравнению со сложным трансформатором

Библиография

Статья цитирует богатый объём связанных работ, включая в основном:

  • Классические методы табличных данных: XGBoost, LightGBM, CatBoost и другие
  • Применение трансформаторов к табличным данным: TabPFN, SAINT, серия TabLLM
  • Дистилляция знаний: классические работы Hinton и других
  • Гиперсети: связанные приложения в компьютерном зрении
  • Метаобучение: исследования контекстного обучения трансформаторов

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение практической проблемы с достаточной экспериментальной верификацией, обладающая значительной академической и практической ценностью. Несмотря на некоторые ограничения, она вносит важный вклад в развитие соответствующих областей исследований.