Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.
Autoren: Nicolaj Rux (Technische Universität Chemnitz), Johannes Hertrich (Université Paris Dauphine-PSL und Inria Mokaplan), Sebastian Neumayer (Technische Universität Chemnitz)
Kernfunktionen sind für die Modellierung von Wechselwirkungen im maschinellen Lernen von entscheidender Bedeutung. Die brute-force-Berechnung der relevanten Kernsummen weist jedoch eine quadratische Komplexität in Bezug auf die Stichprobengröße auf. Kürzliche Fourier-Slicing-Methoden können die Komplexität auf linear reduzieren, vorausgesetzt, die Kernfunktion ist slicebar und ihre Fourier-Koeffizienten sind bekannt. Um diese Koeffizienten zu erhalten, wird die Slicing-Beziehung in dieser Arbeit als inverses Problem behandelt und zwei Wiederherstellungsalgorithmen werden vorgeschlagen. Umfangreiche numerische Experimente demonstrieren die Geschwindigkeit und Genauigkeit der Methode.
Kernmethoden werden im maschinellen Lernen weit verbreitet für Dichteabschätzung, Support-Vector-Machine-Klassifizierung, Hauptkomponentenanalyse, Maximum Mean Discrepancy (MMD) und andere Aufgaben verwendet. Der Rechnenengpass dieser Anwendungen liegt typischerweise in der Auswertung von Ausdrücken der Form:
sm:=∑n=1NF(∥xn−ym∥)wn,m=1,…,M
wobei F∈C([0,∞)) eine radiale Basisfunktion ist, x1,…,xN,y1,…,yM∈Rd Stichprobenpunkte sind und w∈RN Gewichte sind.
Die direkte Berechnung erfordert O(NMd) Operationen, was für große Datensätze nicht praktikabel ist. Klassische Methoden wie schnelle Fourier-Summation und schnelle Multipol-Methoden können zwar die Komplexität auf O(M+N) reduzieren, zeigen aber aufgrund ihrer Abhängigkeit von der schnellen Fourier-Transformation oder räumlicher Zerlegung eine exponentielle Abhängigkeit von der Dimension d>4, was sie unpraktikabel macht.
Die grundlegende Idee des Slicing-Algorithmus besteht darin, eine Funktion f∈Lloc1([0,∞)) zu finden, so dass:
F(∥x∥)=ωd−11∫Sd−1f(∣⟨ξ,x⟩∣)dξ
wobei ωd−1=2πd/2/Γ(d/2) das Oberflächenmaß der d-dimensionalen Sphäre ist. Durch Diskretisierung des Integrals kann die Kernsumme auf den eindimensionalen Fall vereinfacht werden, wobei die schnelle Fourier-Summation für effiziente Berechnungen verwendet wird.
Gegeben eine radiale Basisfunktion F:[0,∞)→R, finde eine Funktion f:[0,∞)→R, so dass die Slicing-Beziehung F=Sd[f] erfüllt ist, wobei Sd der verallgemeinerte Riemann-Liouville-Bruchintegraloperator ist:
Sd[f](s)=∫01f(ts)ϱd(t)dt
wobei ϱd(t):=cd(1−t2)(d−3)/2, cd:=πΓ((d−1)/2)2Γ(d/2).
Für Laplace- und Bump-Funktionen liegt der Vorwärtsfehler ∣FK(s)−F(s)∣ über das gesamte Intervall [0,1] unter 10−2, mit etwas größeren Fehlern in unregelmäßigen Funktionsbereichen (wie bei s=0 für die Laplace-Funktion).
Theoretischer Beitrag: Etablierung einer vollständigen Theorie des Slicing-Operators, einschließlich Operatornorm-Abschätzungen und Fehlerschranken
Numerische Methoden: Die vorgeschlagenen zwei Algorithmen können Koeffizienten unbekannter Slicing-Funktionen effektiv wiederherstellen
Praktischer Wert: Die Methode ist in hochdimensionalen Fällen deutlich überlegen gegenüber Brute-Force-Berechnung und eignet sich für großskalige Anwendungen
Das Paper zitiert 52 relevante Referenzen, die wichtige Arbeiten aus mehreren Bereichen wie Kernmethoden, schnelle Algorithmen und harmonische Analyse abdecken und eine solide theoretische Grundlage für die Forschung bieten.