2025-11-15T09:01:12.242557

Numerical Methods for Kernel Slicing

Rux, Hertrich, Neumayer

Kernels are key in machine learning for modeling interactions. Unfortunately, brute-force computation of the related kernel sums scales quadratically with the number of samples. Recent Fourier-slicing methods lead to an improved linear complexity, provided that the kernel can be sliced and its Fourier coefficients are known. To obtain these coefficients, we view the slicing relation as an inverse problem and present two algorithms for their recovery. Extensive numerical experiments demonstrate the speed and accuracy of our methods.

academic

Méthodes Numériques pour le Découpage par Noyau

Informations Fondamentales

ID de l'article: 2510.11478
Titre: Numerical Methods for Kernel Slicing
Auteurs: Nicolaj Rux (Université Technologique de Chemnitz), Johannes Hertrich (Université Paris Dauphine-PSL et Inria Mokaplan), Sebastian Neumayer (Université Technologique de Chemnitz)
Classification: math.NA, cs.NA
Date de publication: 14 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.11478v1

Résumé

Les fonctions noyau sont essentielles en apprentissage automatique pour modéliser les relations d'interaction. Cependant, le calcul brutal des sommes de noyaux présente une complexité qui croît quadratiquement avec le nombre d'échantillons. Les méthodes récentes de découpage par transformée de Fourier peuvent réduire la complexité à une croissance linéaire, à condition que le noyau soit découpable et que ses coefficients de Fourier soient connus. Pour obtenir ces coefficients, cet article formule le problème de découpage comme un problème inverse et propose deux algorithmes de récupération. De nombreuses expériences numériques démontrent la rapidité et la précision de la méthode.

Contexte de Recherche et Motivation

Problème Central

Les méthodes à noyau sont largement appliquées en apprentissage automatique pour l'estimation de densité, la classification par machines à vecteurs de support, l'analyse en composantes principales, la différence de moyennes maximales (MMD) et autres tâches. Le goulot d'étranglement computationnel de ces applications réside généralement dans l'évaluation d'expressions de la forme:

$s_m := \sum_{n=1}^N F(\|x_n - y_m\|)w_n, \quad m = 1,\ldots,M$

où $F \in C([0,\infty))$ est une fonction de base radiale, $x_1,\ldots,x_N, y_1,\ldots,y_M \in \mathbb{R}^d$ sont des points d'échantillons, et $w \in \mathbb{R}^N$ est un vecteur de poids.

Défis de Complexité Computationnelle

Le calcul direct nécessite $O(NMd)$ opérations, ce qui est impraticable pour les grands ensembles de données. Les méthodes classiques telles que la sommation rapide par transformée de Fourier et la méthode multipolaire rapide, bien qu'elles réduisent la complexité à $O(M+N)$ , présentent une dépendance exponentielle à la dimension $d > 4$ en raison de leur dépendance à la transformée de Fourier rapide ou à la partition spatiale, les rendant impraticables.

Avantages de l'Algorithme de Découpage

L'idée fondamentale de l'algorithme de découpage est de trouver une fonction $f \in L^1_{loc}([0,\infty))$ telle que:

$F(\|x\|) = \frac{1}{\omega_{d-1}} \int_{S^{d-1}} f(|\langle\xi, x\rangle|)d\xi$

où $\omega_{d-1} = 2\pi^{d/2}/\Gamma(d/2)$ est la mesure de surface de la sphère $d$ -dimensionnelle. En discrétisant l'intégrale, la sommation de noyau peut être simplifiée au cas unidimensionnel et calculée efficacement à l'aide de la sommation rapide par transformée de Fourier.

Contributions Principales

Formalisation du problème de récupération de fonction de découpage comme problème inverse, établissant un cadre théorique complet
Proposition de deux algorithmes numériques pour récupérer les coefficients de série cosinus nécessaires à la sommation rapide par transformée de Fourier
Fourniture d'estimations d'erreur rigoureuses, incluant l'analyse des erreurs directes et des erreurs de découpage
Expériences numériques extensives validant l'efficacité et la précision de la méthode sur diverses fonctions noyau
Extension de l'applicabilité de la méthode, permettant le traitement de noyaux avec fonctions de découpage inconnues sans connaissance analytique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donnée une fonction de base radiale $F: [0,\infty) \to \mathbb{R}$ , trouver une fonction $f: [0,\infty) \to \mathbb{R}$ telle que la relation de découpage $F = S_d[f]$ soit satisfaite, où $S_d$ est l'opérateur d'intégrale fractionnaire généralisée de Riemann-Liouville:

$S_d[f](s) = \int_0^1 f(ts)\varrho_d(t)dt$

où $\varrho_d(t) := c_d(1-t^2)^{(d-3)/2}$ , $c_d := \frac{2\Gamma(d/2)}{\sqrt{\pi}\Gamma((d-1)/2)}$ .

Architecture du Modèle

1. Construction du Problème d'Optimisation

La récupération de fonction de découpage est transformée en problème de minimisation régularisée:

$\hat{a} = \arg\min_{a \in \mathbb{R}^K} \|S_d[f_a] - F\|_H^2 + \tau^2\|f_a\|_G^2$

où $f_a = C^{-1}[a]$ est une série cosinus à $K$ termes:

$f_a(t) = a_0 + \sqrt{2}\sum_{k=1}^{K-1} a_k \cos(\pi kt)$

2. Méthode dans le Domaine Spatial (Algorithme 1)

Construction matricielle: Calcul de $h_k := S_d[g_k]$ , où $g_k$ sont les fonctions de base cosinus
Discrétisation: Utilisation de la quadrature de Gauss-Legendre pour approximer les intégrales
Résolution: Résolution du problème des moindres carrés $\|\hat{H}^T a - \hat{b}\|_2^2 + \tau^2\|Da\|_2^2$

3. Méthode dans le Domaine Fréquentiel (Algorithme 2)

Représentation d'opérateur: Construction de la représentation matricielle de l'opérateur $S := C \circ S_d \circ C^{-1}$
Calcul des coefficients: Utilisation de la relation $S_{j,k} = S_d[\text{sinc}(\cdot + j) + \text{sinc}(\cdot - j)](k)$
Résolution d'optimisation: Résolution du problème régularisé dans l'espace fréquentiel

Points d'Innovation Technique

Fondations théoriques: Établissement de la théorie de bornitude de l'opérateur de découpage $S_d$ sur différents espaces de fonctions
Stabilité numérique: Traitement des problèmes mal posés par régularisation de Tikhonov
Décomposition d'erreur: Décomposition de l'erreur totale en erreur directe et erreur de découpage
Analyse de convergence: Preuve des taux de convergence sous hypothèses de régularité des fonctions

Configuration Expérimentale

Ensembles de Données

Tests réalisés avec plusieurs fonctions de base radiale:

Gaussienne: $F(s) = \exp(-s^2/(2c^2))$
Laplace: $F(s) = \exp(-c|s|)$
Inverse multiquadrique (IMQ): $F(s) = (c^2 + s^2)^{-1/2}$
Spline plaque mince (TPS): $F(s) = (cs)^2\log(|cs|)$
Noyau logarithmique (LOG): $F(s) = \log(|cs|)$
Fonction bump et Multiquadrique (MQ)

Métriques d'Évaluation

Erreur directe: $|F_K(s) - F(s)|$
Erreur relative L2: $\|s - \hat{s}\|_2/\|s\|_2$
Comparaison des temps d'exécution

Méthodes de Comparaison

Méthode directe: Série de Fourier tronquée lorsque la solution analytique $f = S_d^{-1}[F]$ est connue
PyKeOps: Paquet de calcul brutal hautement optimisé pour GPU
Trois configurations: S-L2-H1, F-L2-H1, F-H1-H1

Détails d'Implémentation

Utilisation de $L = 2^{10}$ points de quadrature
$K = 2^8$ coefficients cosinus dans le domaine, $J = 2^{10}$ dans la plage
Paramètre de régularisation $\tau \in \{10^{-6}, 10^{-7}, 10^{-4}\}$

Résultats Expérimentaux

Résultats Principaux

Analyse de l'Erreur Directe

Pour les fonctions Laplace et bump, l'erreur directe $|F_K(s) - F(s)|$ reste inférieure à $10^{-2}$ sur tout l'intervalle $[0,1]$ , avec des erreurs légèrement plus importantes dans les régions irrégulières des fonctions (comme en $s=0$ pour la fonction Laplace).

Précision de la Sommation Rapide de Noyau

Dans les tests avec $d=1000$ dimensions, $N=M=10^4$ échantillons:

Fonction	S-L2-H1	F-L2-H1	F-H1-H1	Direct
Gauss	6.53×10⁻³	6.62×10⁻³	6.61×10⁻³	6.56×10⁻³
Laplace	8.58×10⁻³	8.32×10⁻³	1.30×10⁻²	5.90×10⁻³
IMQ	2.25×10⁻³	2.27×10⁻³	2.28×10⁻³	2.26×10⁻³
LOG	1.00×10⁻¹	1.80×10⁻¹	1.55×10⁻¹	2.98×10¹

Comparaison des Temps d'Exécution

Surcharge computationnelle: Le temps de calcul des coefficients est d'environ 0,1 seconde (GPU) à 1,3 seconde (CPU)
Effet d'accélération: La méthode de sommation rapide commence à surpasser la méthode brutale lorsque $N \geq 3 \times 10^3$
Accélération significative: Pour $N = 5 \times 10^4$ échantillons, une accélération d'environ 50 fois est réalisée

Expériences d'Ablation

Le choix du paramètre de régularisation $\tau$ est crucial:

Un $\tau$ trop petit entraîne une instabilité numérique
Un $\tau$ trop grand entraîne une surégularisation
La valeur optimale se situe généralement dans la plage $10^{-6}$ à $10^{-4}$

Travaux Connexes

Développement des Méthodes de Découpage

Apparition initiale dans les projections aléatoires unidimensionnelles de la distance de Wasserstein
Extension aux mesures de noyau telles que MMD
Étroitement liée aux caractéristiques de Fourier aléatoires mais plus générale

Méthodes Rapides de Sommation de Noyau

Méthodes traditionnelles: transformée de Fourier rapide non équidistante, méthode multipolaire rapide
Défis en haute dimension: la malédiction de la dimensionnalité limite l'applicabilité des méthodes traditionnelles
Implémentations GPU: KeOps et autres restent compétitifs en dimensions moyennes

Fondations Théoriques

La relation de découpage porte plusieurs noms en analyse harmonique et calcul fractionnaire:

Transformée de Radon adjointe
Intégrale fractionnaire généralisée de Riemann-Liouville
Cas particulier de l'intégrale d'Erdelyi-Kober

Conclusions et Discussion

Conclusions Principales

Contribution théorique: Établissement d'une théorie complète de l'opérateur de découpage, incluant les estimations de normes d'opérateur et les bornes d'erreur
Méthodes numériques: Les deux algorithmes proposés peuvent efficacement récupérer les coefficients de fonctions de découpage inconnues
Valeur pratique: La méthode surpasse significativement le calcul brutal en haute dimension et convient aux applications à grande échelle

Limitations

Dépendance dimensionnelle: Bien qu'améliorée, la complexité nécessite toujours $O(dP)$ opérations
Sensibilité de régularisation: Nécessite un ajustement minutieux du paramètre de régularisation
Exigences de régularité: L'analyse de convergence dépend d'hypothèses de régularité des fonctions

Directions Futures

Sélection de paramètres adaptatifs: Développement de méthodes pour sélectionner automatiquement le paramètre de régularisation
Quadrature plus efficace: Exploration de règles de quadrature spécialisées pour améliorer la précision
Extension d'applications: Validation de l'applicabilité pratique de la méthode dans des tâches d'apprentissage automatique concrètes

Évaluation Approfondie

Points Forts

Rigueur théorique: Fourniture d'un cadre théorique complet d'analyse fonctionnelle, incluant la bornitude d'opérateur et l'analyse de convergence
Praticité de la méthode: Les deux algorithmes présentent chacun des avantages, la méthode spatiale étant intuitive et la méthode fréquentielle théoriquement élégante
Expériences complètes: Tests sur diverses fonctions noyau, des lisses aux non-lisses, validant la robustesse de la méthode
Performance excellente: Réalisation d'une accélération computationnelle significative tout en maintenant la précision

Insuffisances

Ajustement de paramètres: La sélection du paramètre de régularisation nécessite de l'expérience, manquant de méthodes automatisées
Exigences mémoire: Le stockage matriciel peut devenir un goulot d'étranglement en cas de très haute dimension
Traitement de cas particuliers: Les performances de la méthode sont limitées pour certaines fonctions noyau mal posées (comme LOG)

Impact

Valeur académique: Fourniture de nouveaux outils théoriques et techniques numériques pour les méthodes de noyau en haute dimension
Signification pratique: Importance majeure dans les applications à grande échelle de l'apprentissage automatique
Reproductibilité: Mise à disposition de code open-source facilitant l'utilisation et l'extension par les chercheurs

Scénarios d'Application

Apprentissage automatique à grande échelle: Particulièrement adapté aux applications de méthodes à noyau avec grand nombre d'échantillons et haute dimension
Calcul scientifique: Perspectives d'application large dans les simulations numériques nécessitant une sommation de noyau efficace
Systèmes en temps réel: Possibilité de réaliser une inférence en ligne rapide après précalcul des coefficients

Références Bibliographiques

L'article cite 52 références pertinentes, couvrant plusieurs domaines incluant les méthodes à noyau, les algorithmes rapides et l'analyse harmonique, fournissant une base théorique solide pour la recherche.