Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.
Авторы: Nicolaj Rux (Технический университет Хемница), Johannes Hertrich (Université Paris Dauphine-PSL и Inria Mokaplan), Sebastian Neumayer (Технический университет Хемница)
Ядерные функции имеют решающее значение для моделирования взаимодействий в машинном обучении. Однако прямое вычисление сумм ядер имеет квадратичную сложность относительно количества выборок. Недавние методы срезов Фурье могут снизить сложность до линейной при условии, что ядро может быть срезано и известны его коэффициенты Фурье. Для получения этих коэффициентов в работе отношение срезов рассматривается как обратная задача, предлагаются два алгоритма восстановления. Обширные численные эксперименты демонстрируют скорость и точность методов.
Методы ядер широко применяются в машинном обучении для оценки плотности, классификации методом опорных векторов, анализа главных компонент, максимального среднего расхождения (MMD) и других задач. Вычислительным узким местом этих приложений обычно является вычисление выражений вида:
sm:=∑n=1NF(∥xn−ym∥)wn,m=1,…,M
где F∈C([0,∞)) — радиальная базисная функция, x1,…,xN,y1,…,yM∈Rd — точки выборки, w∈RN — веса.
Прямое вычисление требует O(NMd) операций, что неприемлемо для больших наборов данных. Классические методы, такие как быстрое суммирование Фурье и быстрый мультипольный метод, хотя и снижают сложность до O(M+N), демонстрируют экспоненциальную зависимость от размерности d>4 из-за зависимости от быстрого преобразования Фурье или пространственного разбиения, что делает их неприменимыми.
Основная идея алгоритмов срезов заключается в поиске функции f∈Lloc1([0,∞)) такой, что:
F(∥x∥)=ωd−11∫Sd−1f(∣⟨ξ,x⟩∣)dξ
где ωd−1=2πd/2/Γ(d/2) — мера поверхности единичной сферы в Rd. Путём дискретизации интеграла суммирование ядер сводится к одномерному случаю, который эффективно вычисляется с помощью быстрого суммирования Фурье.
Дана радиальная базисная функция F:[0,∞)→R, найти функцию f:[0,∞)→R такую, что выполняется отношение срезов F=Sd[f], где Sd — обобщённый оператор дробного интеграла Римана-Лиувилля:
Sd[f](s)=∫01f(ts)ϱd(t)dt
где ϱd(t):=cd(1−t2)(d−3)/2, cd:=πΓ((d−1)/2)2Γ(d/2).
Для функций Лапласа и функции-бугра прямая ошибка ∣FK(s)−F(s)∣ остаётся меньше 10−2 на всём интервале [0,1], с несколько большей ошибкой в нерегулярных областях функций (например, в точке s=0 для функции Лапласа).
Теоретическая строгость: предоставлена полная база функционального анализа, включая ограниченность операторов и анализ сходимости
Практичность методов: оба алгоритма имеют свои преимущества, метод в пространственной области интуитивен, метод в частотной области теоретически элегантен
Полнота экспериментов: тестирование на множестве ядерных функций от гладких до негладких, подтверждающее робастность методов
Отличная производительность: достигнуто значительное ускорение вычислений при сохранении точности
Статья цитирует 52 связанные работы, охватывающие важные исследования в области ядерных методов, быстрых алгоритмов, гармонического анализа и других областей, обеспечивая прочную теоретическую базу для исследования.