2025-11-15T09:01:12.242557

Numerical Methods for Kernel Slicing

Rux, Hertrich, Neumayer
Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.
academic

Численные методы для срезов ядер

Основная информация

  • ID статьи: 2510.11478
  • Название: Numerical Methods for Kernel Slicing
  • Авторы: Nicolaj Rux (Технический университет Хемница), Johannes Hertrich (Université Paris Dauphine-PSL и Inria Mokaplan), Sebastian Neumayer (Технический университет Хемница)
  • Классификация: math.NA, cs.NA
  • Дата публикации: 14 октября 2025
  • Ссылка на статью: https://arxiv.org/abs/2510.11478v1

Аннотация

Ядерные функции имеют решающее значение для моделирования взаимодействий в машинном обучении. Однако прямое вычисление сумм ядер имеет квадратичную сложность относительно количества выборок. Недавние методы срезов Фурье могут снизить сложность до линейной при условии, что ядро может быть срезано и известны его коэффициенты Фурье. Для получения этих коэффициентов в работе отношение срезов рассматривается как обратная задача, предлагаются два алгоритма восстановления. Обширные численные эксперименты демонстрируют скорость и точность методов.

Исследовательский контекст и мотивация

Основная проблема

Методы ядер широко применяются в машинном обучении для оценки плотности, классификации методом опорных векторов, анализа главных компонент, максимального среднего расхождения (MMD) и других задач. Вычислительным узким местом этих приложений обычно является вычисление выражений вида:

sm:=n=1NF(xnym)wn,m=1,,Ms_m := \sum_{n=1}^N F(\|x_n - y_m\|)w_n, \quad m = 1,\ldots,M

где FC([0,))F \in C([0,\infty)) — радиальная базисная функция, x1,,xN,y1,,yMRdx_1,\ldots,x_N, y_1,\ldots,y_M \in \mathbb{R}^d — точки выборки, wRNw \in \mathbb{R}^N — веса.

Вызовы вычислительной сложности

Прямое вычисление требует O(NMd)O(NMd) операций, что неприемлемо для больших наборов данных. Классические методы, такие как быстрое суммирование Фурье и быстрый мультипольный метод, хотя и снижают сложность до O(M+N)O(M+N), демонстрируют экспоненциальную зависимость от размерности d>4d > 4 из-за зависимости от быстрого преобразования Фурье или пространственного разбиения, что делает их неприменимыми.

Преимущества алгоритмов срезов

Основная идея алгоритмов срезов заключается в поиске функции fLloc1([0,))f \in L^1_{loc}([0,\infty)) такой, что:

F(x)=1ωd1Sd1f(ξ,x)dξF(\|x\|) = \frac{1}{\omega_{d-1}} \int_{S^{d-1}} f(|\langle\xi, x\rangle|)d\xi

где ωd1=2πd/2/Γ(d/2)\omega_{d-1} = 2\pi^{d/2}/\Gamma(d/2) — мера поверхности единичной сферы в Rd\mathbb{R}^d. Путём дискретизации интеграла суммирование ядер сводится к одномерному случаю, который эффективно вычисляется с помощью быстрого суммирования Фурье.

Основные вклады

  1. Формализация задачи восстановления функции срезов как обратной задачи с установлением полной теоретической базы
  2. Предложение двух численных алгоритмов для восстановления коэффициентов косинусного ряда, необходимых для быстрого суммирования Фурье
  3. Предоставление строгих оценок ошибок, включая анализ прямой ошибки и ошибки срезов
  4. Обширные численные эксперименты, подтверждающие эффективность и точность методов на различных ядерных функциях
  5. Расширение области применимости методов для работы с неизвестными функциями срезов без аналитических знаний

Подробное описание методов

Определение задачи

Дана радиальная базисная функция F:[0,)RF: [0,\infty) \to \mathbb{R}, найти функцию f:[0,)Rf: [0,\infty) \to \mathbb{R} такую, что выполняется отношение срезов F=Sd[f]F = S_d[f], где SdS_d — обобщённый оператор дробного интеграла Римана-Лиувилля:

Sd[f](s)=01f(ts)ϱd(t)dtS_d[f](s) = \int_0^1 f(ts)\varrho_d(t)dt

где ϱd(t):=cd(1t2)(d3)/2\varrho_d(t) := c_d(1-t^2)^{(d-3)/2}, cd:=2Γ(d/2)πΓ((d1)/2)c_d := \frac{2\Gamma(d/2)}{\sqrt{\pi}\Gamma((d-1)/2)}.

Архитектура модели

1. Построение задачи оптимизации

Восстановление функции срезов преобразуется в задачу регуляризованной минимизации:

a^=argminaRKSd[fa]FH2+τ2faG2\hat{a} = \arg\min_{a \in \mathbb{R}^K} \|S_d[f_a] - F\|_H^2 + \tau^2\|f_a\|_G^2

где fa=C1[a]f_a = C^{-1}[a]KK-членный косинусный ряд:

fa(t)=a0+2k=1K1akcos(πkt)f_a(t) = a_0 + \sqrt{2}\sum_{k=1}^{K-1} a_k \cos(\pi kt)

2. Метод в пространственной области (Алгоритм 1)

  • Построение матрицы: вычисление hk:=Sd[gk]h_k := S_d[g_k], где gkg_k — базисные функции косинусов
  • Дискретизация: использование квадратурной формулы Гаусса-Лежандра для приближения интегралов
  • Решение: решение задачи наименьших квадратов H^Tab^22+τ2Da22\|\hat{H}^T a - \hat{b}\|_2^2 + \tau^2\|Da\|_2^2

3. Метод в частотной области (Алгоритм 2)

  • Представление оператора: построение матричного представления оператора S:=CSdC1S := C \circ S_d \circ C^{-1}
  • Вычисление коэффициентов: использование соотношения Sj,k=Sd[sinc(+j)+sinc(j)](k)S_{j,k} = S_d[\text{sinc}(\cdot + j) + \text{sinc}(\cdot - j)](k)
  • Решение оптимизации: решение регуляризованной задачи в пространстве частот

Технические инновации

  1. Теоретическая база: установление теории ограниченности оператора срезов SdS_d в различных функциональных пространствах
  2. Численная устойчивость: обработка плохо обусловленных задач посредством регуляризации Тихонова
  3. Разложение ошибки: разделение полной ошибки на прямую ошибку и ошибку срезов
  4. Анализ сходимости: доказательство скоростей сходимости при предположениях о гладкости функций

Экспериментальная установка

Наборы данных

Тестирование на множестве радиальных базисных функций:

  • Гауссова: F(s)=exp(s2/(2c2))F(s) = \exp(-s^2/(2c^2))
  • Лапласа: F(s)=exp(cs)F(s) = \exp(-c|s|)
  • Обратная мультиквадрик (IMQ): F(s)=(c2+s2)1/2F(s) = (c^2 + s^2)^{-1/2}
  • Тонкопластинчатый сплайн (TPS): F(s)=(cs)2log(cs)F(s) = (cs)^2\log(|cs|)
  • Логарифмическое ядро (LOG): F(s)=log(cs)F(s) = \log(|cs|)
  • Функция-бугор и мультиквадрик (MQ)

Метрики оценки

  • Прямая ошибка: FK(s)F(s)|F_K(s) - F(s)|
  • Относительная ошибка L2: ss^2/s2\|s - \hat{s}\|_2/\|s\|_2
  • Сравнение времени выполнения

Методы сравнения

  • Прямой метод: усечённый ряд Фурье при известном аналитическом решении f=Sd1[F]f = S_d^{-1}[F]
  • PyKeOps: высокооптимизированный пакет для вычислений на GPU
  • Три конфигурации: S-L2-H1, F-L2-H1, F-H1-H1

Детали реализации

  • Использование L=210L = 2^{10} точек квадратуры
  • K=28K = 2^8 коэффициентов косинусов в области определения, J=210J = 2^{10} в области значений
  • Параметр регуляризации τ{106,107,104}\tau \in \{10^{-6}, 10^{-7}, 10^{-4}\}

Результаты экспериментов

Основные результаты

Анализ прямой ошибки

Для функций Лапласа и функции-бугра прямая ошибка FK(s)F(s)|F_K(s) - F(s)| остаётся меньше 10210^{-2} на всём интервале [0,1][0,1], с несколько большей ошибкой в нерегулярных областях функций (например, в точке s=0s=0 для функции Лапласа).

Точность быстрого суммирования ядер

При тестировании на d=1000d=1000 измерениях с N=M=104N=M=10^4 выборками:

ФункцияS-L2-H1F-L2-H1F-H1-H1Direct
Gauss6.53×10⁻³6.62×10⁻³6.61×10⁻³6.56×10⁻³
Laplace8.58×10⁻³8.32×10⁻³1.30×10⁻²5.90×10⁻³
IMQ2.25×10⁻³2.27×10⁻³2.28×10⁻³2.26×10⁻³
LOG1.00×10⁻¹1.80×10⁻¹1.55×10⁻¹2.98×10¹

Сравнение времени выполнения

  • Вычислительные затраты: время вычисления коэффициентов составляет примерно 0.1 секунды (GPU) до 1.3 секунды (CPU)
  • Эффект ускорения: методы быстрого суммирования начинают превосходить прямые методы при N3×103N \geq 3 \times 10^3
  • Значительное ускорение: для N=5×104N = 5 \times 10^4 выборок достигается примерно 50-кратное ускорение

Абляционные исследования

Выбор параметра регуляризации τ\tau критически важен:

  • Слишком малое τ\tau приводит к численной нестабильности
  • Слишком большое τ\tau приводит к чрезмерной регуляризации
  • Оптимальные значения обычно находятся в диапазоне 10610^{-6} до 10410^{-4}

Связанные работы

Развитие методов срезов

  • Первоначально появились в случайных одномерных проекциях расстояния Вассерштейна
  • Расширены на ядерные метрики, такие как MMD
  • Тесно связаны со случайными признаками Фурье, но более универсальны

Методы быстрого суммирования ядер

  • Традиционные методы: неравномерное быстрое преобразование Фурье, быстрый мультипольный метод
  • Вызовы высокой размерности: проклятие размерности ограничивает применимость традиционных методов
  • Реализации на GPU: KeOps и подобные остаются конкурентоспособными на средних размерностях

Теоретическая база

Отношение срезов имеет несколько названий в гармоническом анализе и дробном исчислении:

  • Сопряжённое преобразование Радона
  • Обобщённый дробный интеграл Римана-Лиувилля
  • Частный случай интеграла Эрдейи-Кобера

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: установлена полная теория оператора срезов, включая оценки норм операторов и границы ошибок
  2. Численные методы: предложенные два алгоритма эффективно восстанавливают коэффициенты неизвестных функций срезов
  3. Практическая ценность: методы значительно превосходят прямые вычисления в высокомерных случаях и применимы к крупномасштабным приложениям

Ограничения

  1. Зависимость от размерности: хотя сложность улучшена, всё ещё требуется O(dP)O(dP) вычислений
  2. Чувствительность к регуляризации: требуется тщательная настройка параметра регуляризации
  3. Требования гладкости: анализ сходимости зависит от предположений о гладкости функций

Направления будущих исследований

  1. Адаптивный выбор параметров: разработка методов автоматического выбора параметра регуляризации
  2. Более эффективные квадратуры: исследование специализированных квадратурных правил для повышения точности
  3. Расширение приложений: проверка практической применимости методов в конкретных задачах машинного обучения

Глубокая оценка

Преимущества

  1. Теоретическая строгость: предоставлена полная база функционального анализа, включая ограниченность операторов и анализ сходимости
  2. Практичность методов: оба алгоритма имеют свои преимущества, метод в пространственной области интуитивен, метод в частотной области теоретически элегантен
  3. Полнота экспериментов: тестирование на множестве ядерных функций от гладких до негладких, подтверждающее робастность методов
  4. Отличная производительность: достигнуто значительное ускорение вычислений при сохранении точности

Недостатки

  1. Настройка параметров: выбор параметра регуляризации требует опыта, отсутствуют автоматизированные методы
  2. Требования к памяти: хранение матриц может стать узким местом в экстремально высокомерных случаях
  3. Обработка особых случаев: производительность методов ограничена для некоторых плохо обусловленных ядер (например, LOG)

Влияние

  1. Академическая ценность: предоставлены новые теоретические инструменты и численные методы для высокомерных ядерных методов
  2. Практическое значение: имеет важное значение для крупномасштабных приложений машинного обучения
  3. Воспроизводимость: предоставлен открытый исходный код, облегчающий использование и расширение методов исследователями

Сценарии применения

  • Крупномасштабное машинное обучение: особенно подходит для приложений ядерных методов с большим количеством выборок и высокой размерностью
  • Научные вычисления: имеет широкие перспективы применения в численном моделировании, требующем эффективного суммирования ядер
  • Системы реального времени: после предварительного вычисления коэффициентов возможна быстрая онлайн-обработка

Библиография

Статья цитирует 52 связанные работы, охватывающие важные исследования в области ядерных методов, быстрых алгоритмов, гармонического анализа и других областей, обеспечивая прочную теоретическую базу для исследования.