2025-11-17T05:52:13.175509

Accelerated Evolving Set Processes for Local PageRank Computation

Huang, Luo, Xiao et al.
This work proposes a novel framework based on nested evolving set processes to accelerate Personalized PageRank (PPR) computation. At each stage of the process, we employ a localized inexact proximal point iteration to solve a simplified linear system. We show that the time complexity of such localized methods is upper bounded by $\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\}$ to obtain an $ε$-approximation of the PPR vector, where $m$ denotes the number of edges in the graph and $R$ is a constant defined via nested evolving set processes. Furthermore, the algorithms induced by our framework require solving only $\tilde{\mathcal{O}}(1/\sqrtα)$ such linear systems, where $α$ is the damping factor. When $1/ε^2\ll m$, this implies the existence of an algorithm that computes an $\ epsilon $-approximation of the PPR vector with an overall time complexity of $\tilde{\mathcal{O}}\left(R^2 / (\sqrtαε^2)\right)$, independent of the underlying graph size. Our result resolves an open conjecture from existing literature. Experimental results on real-world graphs validate the efficiency of our methods, demonstrating significant convergence in the early stages.
academic

Processus d'Ensembles Évolutifs Accélérés pour le Calcul du PageRank Local

Informations Fondamentales

  • ID de l'article: 2510.08010
  • Titre: Accelerated Evolving Set Processes for Local PageRank Computation
  • Auteurs: Binbin Huang, Baojian Zhou, Luo Luo, Deqing Yang, Yanghua Xiao (Université Fudan)
  • Classification: cs.LG
  • Conférence de publication: 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article: https://arxiv.org/abs/2510.08010v2

Résumé

Cet article propose un nouveau cadre basé sur les processus d'ensembles évolutifs imbriqués (nested evolving set processes) pour accélérer le calcul du PageRank personnalisé (PPR). À chaque étape, une itération de point proximal inexacte localisée est utilisée pour résoudre un système linéaire simplifié. L'étude montre que la borne supérieure de la complexité temporelle de ces méthodes localisées est min{O~(R2/ε2),O~(m)}\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\} pour obtenir une ε-approximation du vecteur PPR, où m représente le nombre d'arêtes du graphe et R est une constante définie par le processus d'ensembles évolutifs imbriqués. L'algorithme induit par le cadre ne nécessite que la résolution de O~(1/α)\tilde{\mathcal{O}}(1/\sqrt{α}) systèmes linéaires, où α est le facteur d'amortissement. Lorsque 1/ε2m1/ε^2 \ll m, cela implique l'existence d'un algorithme capable de calculer une ε-approximation du vecteur PPR avec une complexité temporelle totale de O~(R2/(αε2))\tilde{\mathcal{O}}(R^2/(\sqrt{α}ε^2)), indépendante de la taille du graphe sous-jacent.

Contexte et Motivation de la Recherche

Définition du Problème

Le vecteur PageRank personnalisé (PPR) π ∈ ℝⁿ est défini comme :

(I - (1-α)(I + AD⁻¹)/2)π = αeₛ

où eₛ est le vecteur de base standard correspondant au nœud source s, α ∈ (0,1) est le facteur d'amortissement, et A et D sont respectivement la matrice d'adjacence et la matrice de degré du graphe non orienté G(V,E).

Motivation de la Recherche

  1. Importance: Le PPR est un outil fondamental pour l'analyse de graphes, largement appliqué au clustering local, à la modélisation des processus de diffusion, aux réseaux de neurones graphiques, etc.
  2. Limitations existantes:
    • Les méthodes standard comme APPR ont une complexité temporelle de O(1/(αε))
    • Les méthodes accélérées font face au défi de la rupture de la monotonie des résidus par les termes de momentum
    • Les méthodes d'accélération existantes peuvent accéder à l'ensemble du graphe, entraînant une complexité temporelle de O(m/√α)
  3. Question ouverte: Existe-t-il une méthode d'accélération locale avec une complexité temporelle dépendant de 1/√α plutôt que de 1/α ?

Contributions Principales

  1. Cadre AESP: Propose le cadre des Processus d'Ensembles Évolutifs Accélérés (AESP), utilisant O~(1/α)\tilde{O}(1/\sqrt{α}) processus d'ensembles évolutifs courts plutôt qu'un seul processus long
  2. Garanties théoriques: Établit une complexité temporelle de O~(vol(St)/(αγt))\tilde{O}(\text{vol}(S_t)/(\sqrt{α}γ_t)), correspondant à la conjecture de limite d'accélération dans la littérature existante
  3. Garanties de localité: Prouve que la borne supérieure de vol(St)/γt\text{vol}(S_t)/γ_t est min{O(R2/ε2),2m}\min\{O(R^2/ε^2), 2m\}, réalisant une complexité indépendante de la taille du graphe lorsque 1/ε2m1/ε^2 \ll m
  4. Vérification expérimentale: Valide l'efficacité de la méthode sur de grands graphes réels, démontrant une accélération significative aux étapes précoces

Détails de la Méthode

Définition de la Tâche

Étant donné un paramètre de précision ε, concevoir un algorithme local pour calculer une ε-approximation π̂ satisfaisant D1(π^π)ε\|D^{-1}(π̂ - π)\|_∞ ≤ ε, tout en évitant d'accéder à l'ensemble du graphe.

Idée Centrale: Processus d'Ensembles Évolutifs Imbriqués

1. Reformulation du Problème

Le système linéaire est reformulé en un problème d'optimisation fortement convexe :

min f(x) = (1/2)x⊤Qx - αx⊤D^(-1/2)b

où Q = ((1+α)/2)I - ((1-α)/2)D^(-1/2)AD^(-1/2), avec valeurs propres λ(Q) ∈ α,1.

2. Définition de l'ESP Imbriqué

À l'itération externe t, le solveur local M maintient une séquence d'ensembles actifs {S_t^(k)}_{k≥0} sur les itérations internes k, avec les mises à jour limitées aux nœuds de l'ensemble actif.

3. Règle de Mise à Jour AESP

x^(t) = M(φ_t, y^(t-1), η, α, b, G)
y^(t) = x^(t) + β_t(x^(t) - x^(t-1))

où β_t est le poids du momentum et M est l'opérateur local.

Opérateur Proximal Inexacte Localisé

LOCGD (Descente de Gradient Locale)

z_t^(k+1) = z_t^(k) - (2∇h_t(z_t^(k)) ∘ 1_{S_t^k})/(1 + α + 2η)

Ensemble de nœuds actifs: Stk={u:uht1/2(zt(k))εt}S_t^k = \{u : |∇_u h_t^{-1/2}(z_t^{(k)})| ≥ ε_t\}

LOCAPPR (APPR Local)

Mise à jour au niveau des coordonnées pour uiStku_i ∈ S_t^k :

z_t^(k_{i+1}) = z_t^(k_i) - (2∇h_t(z_t^{(k_i)}) ∘ 1_{u_i})/(1 + α + 2η)

Points d'Innovation Technique

  1. Préservation de la monotonie: En résolvant un système linéaire PPR régularisé avec un nombre de conditions constant, garantit la décroissance monotone de la norme ℓ₁ du gradient mis à l'échelle par D^{1/2}
  2. Contrôle de la localité: Introduit une constante R pour borner la ratio de gradients dans le processus d'ensembles évolutifs imbriqués
  3. Équilibre entre accélération et localité: Réalise un compromis entre la dépendance du nombre de conditions 1/α et la complexité temporelle par tour O(R²/ε²)

Configuration Expérimentale

Ensembles de Données

Les expériences utilisent 19 graphes du monde réel, de petite à très grande taille :

  • Taille moyenne: com-dblp (317K nœuds, 1M arêtes)
  • Grande taille: ogb-mag240m (244M nœuds, 1.7B arêtes), ogbn-papers100M (111M nœuds, 1.6B arêtes)
  • Autres: com-friendster, wiki-en21, etc.

Métriques d'Évaluation

  • Mesure d'erreur: logD1(π^π)\log \|D^{-1}(π̂-π)\|_∞
  • Mesure d'efficacité: Nombre d'opérations, temps d'exécution
  • Ratio d'accélération: Amélioration de performance par rapport aux méthodes de base

Méthodes de Comparaison

  • APPR: Algorithme standard d'approximation du PageRank personnalisé
  • APPR-opt: APPR avec taille de pas optimale
  • LOCGD: Descente de gradient locale
  • ASPR: PageRank personnalisé creux accéléré
  • FISTA: Algorithme de seuillage itératif rapide

Détails d'Implémentation

  • Facteur d'amortissement: α = 0.01, 0.1
  • Seuil de précision: ε = 10⁻⁶
  • Sélection aléatoire de 5 nœuds sources pour les tests
  • Implémentation en Python, accélération avec numba

Résultats Expérimentaux

Résultats Principaux

Performance sur Graphes de Grande Taille

Sur quatre graphes de grande taille (ogb-mag240m, ogbn-papers100M, com-friendster, wiki-en21) :

  • AESP-LOCAPPR affiche les meilleures performances, grâce aux mises à jour de coordonnées en ligne
  • Accélération précoce: Les méthodes AESP réalisent une convergence plus rapide que les méthodes de base aux étapes précoces
  • Réduction des opérations: Réduction de 2 à 10 fois du nombre d'opérations par rapport à APPR

Analyse de la Dépendance en α

Lorsque α est petit, AESP accélère significativement les méthodes locales standard :

  • Tests dans la plage α ∈ 10⁻³, 10⁻¹
  • Le ratio d'accélération augmente avec la diminution de α, validant la dépendance en √α
  • Réduction significative du temps d'exécution et du nombre d'opérations

Comparaison des Stratégies d'Initialisation

Comparaison de trois stratégies d'initialisation pour z_t^(0) :

  1. Démarrage à froid: z_t^(0) = 0
  2. Estimation précédente: z_t^(0) = x^(t-1)
  3. Initialisation avec momentum: z_t^(0) = y^(t-1) (recommandée)

La stratégie d'initialisation avec momentum affiche les meilleures performances, nécessitant le moins d'itérations de boucle externe.

Expériences d'Ablation

Analyse de la Constante R

  • R reste une petite constante (1.0-1.4) sur les 19 graphes
  • R est insensible à la taille du graphe et au nombre de conditions
  • Valide la raisonnabilité de l'hypothèse de R borné dans l'analyse théorique

Analyse du Ratio vol(S_t)/γ_t

Validation expérimentale de la borne théorique vol(St)/γtmin{Ct0/εt,2m}\text{vol}(S_t)/γ_t ≤ \min\{C_t^0/ε_t, 2m\}.

Travaux Connexes

Méthodes de Calcul du PPR

  • Méthodes itératives: Gradient conjugué, méthode de Chebyshev, complexité O(m/√α)
  • Méthodes locales: APPR (O(1/(αε))), méthodes variationnelles (O(1/((α+μ²)ε)))
  • Tentatives d'accélération: FISTA, couplage linéaire rompent la monotonie, ne peuvent garantir la localité

Processus d'Ensembles Évolutifs

  • Concept proposé par Morris et Peres, utilisé pour l'analyse du temps de mélange
  • Méthode de Chebyshev localisée de Zhou et al., mais manque de garanties de convergence

Optimisation Accélérée

  • Cadre Catalyst: Méthode de point proximal inexacte accélérée
  • Cet article l'adapte aux méthodes locales, préservant la monotonie

Conclusion et Discussion

Conclusions Principales

  1. Percée théorique: Première réalisation d'une accélération locale prouvable pour le calcul du PPR, améliorant la complexité temporelle de O(1/α) à O(1/√α)
  2. Praticité: Lorsque ε ≥ 1/√m, la complexité de l'algorithme est indépendante de la taille du graphe
  3. Généralité: Le cadre peut s'étendre à la forme variationnelle et à d'autres problèmes connexes

Limitations

  1. Borne de la constante R: Impossible de borner universellement R par la taille du graphe ou les paramètres d'entrée
  2. Dépendance en ε²: Lorsque ε < 1/√m, la borne locale se dégrade en O(m/√α)
  3. Écart théorie-pratique: L'estimation conservatrice de ε_t peut entraîner des bornes sous-optimales

Directions Futures

  1. Amélioration des bornes: Explorer si la complexité conjecturée O(1/(√αε)) peut être atteinte
  2. Élimination de la dépendance en R: Éliminer la constante R par des contraintes ou des redémarrages adaptatifs
  3. Extension des applications: Appliquer la technique au PPR bidirectionnel, à l'estimation du PPR à source unique, etc.

Évaluation Approfondie

Avantages

  1. Contribution théorique significative: Résout une conjecture ouverte dans la littérature, établit des garanties théoriques rigoureuses
  2. Innovation méthodologique forte: Combine ingénieusement le cadre Catalyst avec les processus d'ensembles évolutifs localisés
  3. Expérimentation complète: Validation sur 19 graphes de différentes tailles, des petits aux très grands graphes
  4. Rédaction claire: Dérivations mathématiques rigoureuses, descriptions d'algorithmes détaillées

Insuffisances

  1. Limitations pratiques: Avantages peu évidents lorsque ε est très petit, le problème de borne de R affecte l'application pratique
  2. Complexité d'implémentation: La structure imbriquée et l'ajustement des paramètres augmentent la difficulté d'implémentation
  3. Comparaisons incomplètes: Manque de comparaisons détaillées avec les dernières méthodes d'accélération

Impact

  1. Valeur académique: Fournit une nouvelle perspective pour l'accélération des algorithmes de graphes, importance théorique majeure
  2. Valeur pratique: Potentiel d'application dans l'analyse de graphes à grande échelle, les systèmes de recommandation, etc.
  3. Reproductibilité: Code public, configuration expérimentale détaillée

Scénarios d'Application

  1. Analyse de graphes à grande échelle: Particulièrement lorsque les exigences de précision ne sont pas extrêmes (ε ≥ 1/√m)
  2. Systèmes de recommandation en temps réel: Nécessitant un calcul rapide des scores d'importance locale
  3. Réseaux de neurones graphiques: Comme étape de prétraitement pour calculer l'importance des nœuds

Références

Cet article cite 52 références connexes, couvrant plusieurs domaines importants du calcul du PPR, de l'optimisation accélérée et des algorithmes locaux, fournissant une base théorique solide à la recherche.


Évaluation Globale: Ceci est un article de haute qualité combinant théorie et pratique, réalisant des progrès significatifs sur le problème important de l'accélération du calcul du PPR. Bien qu'il présente certaines limitations théoriques, son innovation et sa praticité en font une contribution importante dans ce domaine.