Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.
Auteurs: Nicolaj Rux (Université Technologique de Chemnitz), Johannes Hertrich (Université Paris Dauphine-PSL et Inria Mokaplan), Sebastian Neumayer (Université Technologique de Chemnitz)
Les fonctions noyau sont essentielles en apprentissage automatique pour modéliser les relations d'interaction. Cependant, le calcul brutal des sommes de noyaux présente une complexité qui croît quadratiquement avec le nombre d'échantillons. Les méthodes récentes de découpage par transformée de Fourier peuvent réduire la complexité à une croissance linéaire, à condition que le noyau soit découpable et que ses coefficients de Fourier soient connus. Pour obtenir ces coefficients, cet article formule le problème de découpage comme un problème inverse et propose deux algorithmes de récupération. De nombreuses expériences numériques démontrent la rapidité et la précision de la méthode.
Les méthodes à noyau sont largement appliquées en apprentissage automatique pour l'estimation de densité, la classification par machines à vecteurs de support, l'analyse en composantes principales, la différence de moyennes maximales (MMD) et autres tâches. Le goulot d'étranglement computationnel de ces applications réside généralement dans l'évaluation d'expressions de la forme:
sm:=∑n=1NF(∥xn−ym∥)wn,m=1,…,M
où F∈C([0,∞)) est une fonction de base radiale, x1,…,xN,y1,…,yM∈Rd sont des points d'échantillons, et w∈RN est un vecteur de poids.
Le calcul direct nécessite O(NMd) opérations, ce qui est impraticable pour les grands ensembles de données. Les méthodes classiques telles que la sommation rapide par transformée de Fourier et la méthode multipolaire rapide, bien qu'elles réduisent la complexité à O(M+N), présentent une dépendance exponentielle à la dimension d>4 en raison de leur dépendance à la transformée de Fourier rapide ou à la partition spatiale, les rendant impraticables.
L'idée fondamentale de l'algorithme de découpage est de trouver une fonction f∈Lloc1([0,∞)) telle que:
F(∥x∥)=ωd−11∫Sd−1f(∣⟨ξ,x⟩∣)dξ
où ωd−1=2πd/2/Γ(d/2) est la mesure de surface de la sphère d-dimensionnelle. En discrétisant l'intégrale, la sommation de noyau peut être simplifiée au cas unidimensionnel et calculée efficacement à l'aide de la sommation rapide par transformée de Fourier.
Formalisation du problème de récupération de fonction de découpage comme problème inverse, établissant un cadre théorique complet
Proposition de deux algorithmes numériques pour récupérer les coefficients de série cosinus nécessaires à la sommation rapide par transformée de Fourier
Fourniture d'estimations d'erreur rigoureuses, incluant l'analyse des erreurs directes et des erreurs de découpage
Expériences numériques extensives validant l'efficacité et la précision de la méthode sur diverses fonctions noyau
Extension de l'applicabilité de la méthode, permettant le traitement de noyaux avec fonctions de découpage inconnues sans connaissance analytique
Étant donnée une fonction de base radiale F:[0,∞)→R, trouver une fonction f:[0,∞)→R telle que la relation de découpage F=Sd[f] soit satisfaite, où Sd est l'opérateur d'intégrale fractionnaire généralisée de Riemann-Liouville:
Sd[f](s)=∫01f(ts)ϱd(t)dt
où ϱd(t):=cd(1−t2)(d−3)/2, cd:=πΓ((d−1)/2)2Γ(d/2).
Pour les fonctions Laplace et bump, l'erreur directe ∣FK(s)−F(s)∣ reste inférieure à 10−2 sur tout l'intervalle [0,1], avec des erreurs légèrement plus importantes dans les régions irrégulières des fonctions (comme en s=0 pour la fonction Laplace).
Contribution théorique: Établissement d'une théorie complète de l'opérateur de découpage, incluant les estimations de normes d'opérateur et les bornes d'erreur
Méthodes numériques: Les deux algorithmes proposés peuvent efficacement récupérer les coefficients de fonctions de découpage inconnues
Valeur pratique: La méthode surpasse significativement le calcul brutal en haute dimension et convient aux applications à grande échelle
Rigueur théorique: Fourniture d'un cadre théorique complet d'analyse fonctionnelle, incluant la bornitude d'opérateur et l'analyse de convergence
Praticité de la méthode: Les deux algorithmes présentent chacun des avantages, la méthode spatiale étant intuitive et la méthode fréquentielle théoriquement élégante
Expériences complètes: Tests sur diverses fonctions noyau, des lisses aux non-lisses, validant la robustesse de la méthode
Performance excellente: Réalisation d'une accélération computationnelle significative tout en maintenant la précision
Apprentissage automatique à grande échelle: Particulièrement adapté aux applications de méthodes à noyau avec grand nombre d'échantillons et haute dimension
Calcul scientifique: Perspectives d'application large dans les simulations numériques nécessitant une sommation de noyau efficace
Systèmes en temps réel: Possibilité de réaliser une inférence en ligne rapide après précalcul des coefficients
L'article cite 52 références pertinentes, couvrant plusieurs domaines incluant les méthodes à noyau, les algorithmes rapides et l'analyse harmonique, fournissant une base théorique solide pour la recherche.