Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.
Autori: Nicolaj Rux (Chemnitz University of Technology), Johannes Hertrich (Université Paris Dauphine-PSL and Inria Mokaplan), Sebastian Neumayer (Chemnitz University of Technology)
Le funzioni kernel sono cruciali nel machine learning per la modellazione delle relazioni di interazione. Tuttavia, il calcolo diretto della somma di kernel correlati presenta una complessità computazionale che cresce quadraticamente con il numero di campioni. I recenti metodi di slicing di Fourier possono ridurre la complessità a lineare, a condizione che il kernel sia sliceable e i suoi coefficienti di Fourier siano noti. Per ottenere questi coefficienti, il presente articolo formula il problema di slicing come un problema inverso e propone due algoritmi di recupero. Numerosi esperimenti numerici dimostrano la velocità e l'accuratezza dei metodi proposti.
I metodi kernel sono ampiamente applicati nel machine learning per stima della densità, classificazione con macchine a vettori di supporto, analisi delle componenti principali, massima differenza media (MMD) e altri compiti. Il collo di bottiglia computazionale di queste applicazioni è solitamente la valutazione di espressioni della forma:
sm:=∑n=1NF(∥xn−ym∥)wn,m=1,…,M
dove F∈C([0,∞)) è una funzione radiale di base, x1,…,xN,y1,…,yM∈Rd sono punti campione e w∈RN sono pesi.
Il calcolo diretto richiede O(NMd) operazioni, il che è impraticabile per grandi dataset. I metodi classici come la trasformata di Fourier veloce e il metodo del multipolo veloce, sebbene riducano la complessità a O(M+N), presentano una dipendenza esponenziale dalla dimensione d>4 a causa della loro dipendenza dalla trasformata di Fourier veloce o dalla partizione dello spazio, rendendoli impraticabili.
L'idea fondamentale dell'algoritmo di slicing è trovare una funzione f∈Lloc1([0,∞)) tale che:
F(∥x∥)=ωd−11∫Sd−1f(∣⟨ξ,x⟩∣)dξ
dove ωd−1=2πd/2/Γ(d/2) è la misura della superficie della sfera d-dimensionale. Attraverso la discretizzazione dell'integrale, la somma di kernel può essere semplificata al caso unidimensionale, calcolato efficientemente utilizzando la trasformata di Fourier veloce.
Data una funzione radiale di base F:[0,∞)→R, trovare una funzione f:[0,∞)→R tale che la relazione di slicing F=Sd[f] sia soddisfatta, dove Sd è l'operatore integrale frazionario di Riemann-Liouville generalizzato:
Sd[f](s)=∫01f(ts)ϱd(t)dt
dove ϱd(t):=cd(1−t2)(d−3)/2, cd:=πΓ((d−1)/2)2Γ(d/2).
Per le funzioni Laplace e Bump, l'errore in avanti ∣FK(s)−F(s)∣ rimane inferiore a 10−2 su tutto l'intervallo [0,1], con errori leggermente più grandi nelle regioni irregolari della funzione (come in s=0 per la funzione Laplace).
Contributi teorici: Stabilimento di una teoria completa dell'operatore di slicing, includendo stime della norma dell'operatore e limiti dell'errore
Metodi numerici: I due algoritmi proposti recuperano efficacemente i coefficienti delle funzioni di slicing sconosciute
Valore pratico: I metodi mostrano vantaggi significativi rispetto al calcolo bruto in situazioni ad alta dimensione, applicabili a problemi su larga scala
Rigore teorico: Fornitura di un quadro teorico completo di analisi funzionale, includendo la limitatezza dell'operatore e l'analisi della convergenza
Praticità dei metodi: I due algoritmi presentano vantaggi distinti, con il metodo nel dominio spaziale intuitivo e il metodo nel dominio della frequenza teoricamente elegante
Completezza sperimentale: Test su molteplici kernel, da lisci a non lisci, verificando la robustezza dei metodi
Prestazioni eccellenti: Realizzazione di accelerazione computazionale significativa mantenendo l'accuratezza
L'articolo cita 52 opere correlate, coprendo lavori importanti in molteplici campi inclusi metodi kernel, algoritmi veloci e analisi armonica, fornendo una base teorica solida per la ricerca.