2025-11-17T05:52:13.175509

Accelerated Evolving Set Processes for Local PageRank Computation

Huang, Luo, Xiao et al.
This work proposes a novel framework based on nested evolving set processes to accelerate Personalized PageRank (PPR) computation. At each stage of the process, we employ a localized inexact proximal point iteration to solve a simplified linear system. We show that the time complexity of such localized methods is upper bounded by $\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\}$ to obtain an $ε$-approximation of the PPR vector, where $m$ denotes the number of edges in the graph and $R$ is a constant defined via nested evolving set processes. Furthermore, the algorithms induced by our framework require solving only $\tilde{\mathcal{O}}(1/\sqrtα)$ such linear systems, where $α$ is the damping factor. When $1/ε^2\ll m$, this implies the existence of an algorithm that computes an $\ epsilon $-approximation of the PPR vector with an overall time complexity of $\tilde{\mathcal{O}}\left(R^2 / (\sqrtαε^2)\right)$, independent of the underlying graph size. Our result resolves an open conjecture from existing literature. Experimental results on real-world graphs validate the efficiency of our methods, demonstrating significant convergence in the early stages.
academic

Processi di Insiemi Evolutivi Accelerati per il Calcolo del PageRank Locale

Informazioni Fondamentali

  • ID Articolo: 2510.08010
  • Titolo: Accelerated Evolving Set Processes for Local PageRank Computation
  • Autori: Binbin Huang, Baojian Zhou, Luo Luo, Deqing Yang, Yanghua Xiao (Università di Fudan)
  • Classificazione: cs.LG
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Link Articolo: https://arxiv.org/abs/2510.08010v2

Riassunto

Questo articolo propone un nuovo framework basato su processi di insiemi evolutivi annidati (nested evolving set processes) per accelerare il calcolo del PageRank personalizzato (PPR). In ogni fase, viene adottata un'iterazione approssimata inesatta localizzata per risolvere sistemi lineari semplificati. La ricerca dimostra che il limite superiore della complessità temporale di tali metodi localizzati è min{O~(R2/ε2),O~(m)}\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\} per ottenere un'approssimazione ε del vettore PPR, dove m rappresenta il numero di archi nel grafo e R è una costante definita dal processo di insiemi evolutivi annidati. L'algoritmo indotto dal framework richiede solo di risolvere O~(1/α)\tilde{\mathcal{O}}(1/\sqrt{α}) sistemi lineari di questo tipo, dove α è il fattore di smorzamento. Quando 1/ε2m1/ε^2 \ll m, ciò implica l'esistenza di un algoritmo che calcola un'approssimazione ε del vettore PPR con una complessità temporale totale di O~(R2/(αε2))\tilde{\mathcal{O}}(R^2/(\sqrt{α}ε^2)), indipendente dalla dimensione del grafo sottostante.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il vettore PageRank personalizzato (PPR) π ∈ ℝⁿ è definito come:

(I - (1-α)(I + AD⁻¹)/2)π = αeₛ

dove eₛ è il vettore di base standard corrispondente al nodo sorgente s, α ∈ (0,1) è il fattore di smorzamento, e A e D sono rispettivamente la matrice di adiacenza e la matrice dei gradi del grafo non orientato G(V,E).

Motivazione della Ricerca

  1. Importanza: PPR è uno strumento fondamentale nell'analisi dei grafi, ampiamente applicato nel clustering locale, nella modellazione dei processi di diffusione, nelle reti neurali grafiche e in altri campi
  2. Limitazioni Esistenti:
    • I metodi standard come APPR hanno complessità temporale O(1/(αε))
    • I metodi accelerati affrontano la sfida della rottura della monotonicità dei residui da parte dei termini di momento
    • I metodi accelerati esistenti potrebbero accedere all'intero grafo, risultando in una complessità temporale O(m/√α)
  3. Problema Aperto: Esiste un metodo locale accelerato con complessità temporale dipendente da 1/√α anziché da 1/α?

Contributi Principali

  1. Framework AESP: Propone il framework dei Processi di Insiemi Evolutivi Accelerati (AESP), che utilizza O~(1/α)\tilde{O}(1/\sqrt{α}) processi di insiemi evolutivi brevi anziché un singolo processo lungo
  2. Garanzie Teoriche: Stabilisce una complessità temporale di O~(vol(St)/(αγt))\tilde{O}(\text{vol}(S_t)/(\sqrt{α}γ_t)), corrispondente alla congettura del limite di accelerazione nella letteratura esistente
  3. Garanzie di Località: Dimostra che il limite superiore di vol(St)/γt\text{vol}(S_t)/γ_t è min{O(R2/ε2),2m}\min\{O(R^2/ε^2), 2m\}, realizzando una complessità indipendente dalla dimensione del grafo quando 1/ε2m1/ε^2 \ll m
  4. Verifica Sperimentale: Verifica l'efficacia del metodo su grafi reali su larga scala, dimostrando significativi effetti di accelerazione nelle fasi iniziali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un parametro di precisione ε, progettare un algoritmo locale per calcolare un'approssimazione ε π̂ che soddisfi D1(π^π)ε\|D^{-1}(π̂ - π)\|_∞ ≤ ε, evitando al contempo di accedere all'intero grafo.

Idea Centrale: Processi di Insiemi Evolutivi Annidati

1. Ricostruzione del Problema

Il sistema lineare viene ricostruito come problema di ottimizzazione fortemente convesso:

min f(x) = (1/2)x⊤Qx - αx⊤D^(-1/2)b

dove Q = ((1+α)/2)I - ((1-α)/2)D^(-1/2)AD^(-1/2), con autovalori λ(Q) ∈ α,1.

2. Definizione di ESP Annidato

Nel ciclo esterno all'iterazione t, il risolutore locale M mantiene una sequenza di insiemi attivi {S_t^(k)}_{k≥0} sulle iterazioni del ciclo interno k, con aggiornamenti limitati ai nodi nell'insieme attivo.

3. Regole di Aggiornamento AESP

x^(t) = M(φ_t, y^(t-1), η, α, b, G)
y^(t) = x^(t) + β_t(x^(t) - x^(t-1))

dove β_t è il peso del momento e M è l'operatore locale.

Operatore Approssimato Localizzato Inesatto

LOCGD (Discesa del Gradiente Locale)

z_t^(k+1) = z_t^(k) - (2∇h_t(z_t^(k)) ∘ 1_{S_t^k})/(1 + α + 2η)

Insieme di nodi attivi: Stk={u:uht1/2(zt(k))εt}S_t^k = \{u : |∇_u h_t^{-1/2}(z_t^{(k)})| ≥ ε_t\}

LOCAPPR (APPR Locale)

Aggiornamento a livello di coordinata per uiStku_i ∈ S_t^k:

z_t^(k_{i+1}) = z_t^(k_i) - (2∇h_t(z_t^{(k_i)}) ∘ 1_{u_i})/(1 + α + 2η)

Punti di Innovazione Tecnica

  1. Preservazione della Monotonicità: Risolvendo sistemi lineari PPR regolarizzati con numero di condizionamento costante, garantisce la diminuzione monotona della norma ℓ₁ del gradiente scalato D^{1/2}
  2. Controllo della Località: Introduce una costante R per limitare la limitatezza del rapporto dei gradienti nel processo ESP annidato
  3. Equilibrio tra Accelerazione e Località: Realizza un compromesso tra la dipendenza dal numero di condizionamento 1/α e la complessità temporale per round O(R²/ε²)

Configurazione Sperimentale

Dataset

Gli esperimenti utilizzano 19 grafi del mondo reale, con scale che vanno da piccole a ultra-grandi:

  • Scala Media: com-dblp (317K nodi, 1M archi)
  • Scala Grande: ogb-mag240m (244M nodi, 1.7B archi), ogbn-papers100M (111M nodi, 1.6B archi)
  • Altro: com-friendster, wiki-en21 e altri

Metriche di Valutazione

  • Misura di Errore: logD1(π^π)\log \|D^{-1}(π̂-π)\|_∞
  • Misura di Efficienza: Numero di operazioni, tempo di esecuzione
  • Rapporto di Accelerazione: Miglioramento delle prestazioni rispetto ai metodi di base

Metodi di Confronto

  • APPR: Algoritmo standard di PageRank personalizzato approssimato
  • APPR-opt: APPR con lunghezza di passo ottimale
  • LOCGD: Discesa del gradiente locale
  • ASPR: PageRank personalizzato sparso accelerato
  • FISTA: Algoritmo di soglia di restringimento iterativo veloce

Dettagli di Implementazione

  • Fattore di smorzamento: α = 0.01, 0.1
  • Soglia di precisione: ε = 10⁻⁶
  • Selezione casuale di 5 nodi sorgente per il test
  • Implementazione in Python, con accelerazione tramite numba

Risultati Sperimentali

Risultati Principali

Prestazioni su Grafi su Larga Scala

Su quattro grafi su larga scala (ogb-mag240m, ogbn-papers100M, com-friendster, wiki-en21):

  • AESP-LOCAPPR mostra le migliori prestazioni, grazie agli aggiornamenti delle coordinate online
  • Accelerazione Iniziale: I metodi AESP realizzano una convergenza più veloce rispetto ai metodi di base nelle fasi iniziali
  • Riduzione delle Operazioni: Riduzione di 2-10 volte del numero di operazioni rispetto ad APPR

Analisi della Dipendenza da α

Quando α è piccolo, AESP accelera significativamente i metodi locali standard:

  • Test nell'intervallo α ∈ 10⁻³, 10⁻¹
  • Il rapporto di accelerazione aumenta al diminuire di α, verificando la dipendenza da √α
  • Sia il tempo di esecuzione che il numero di operazioni diminuiscono significativamente

Confronto delle Strategie di Inizializzazione

Confronto di tre strategie di inizializzazione per z_t^(0):

  1. Avvio a Freddo: z_t^(0) = 0
  2. Stima Precedente: z_t^(0) = x^(t-1)
  3. Inizializzazione con Momento: z_t^(0) = y^(t-1) (consigliata)

La strategia di inizializzazione con momento mostra le migliori prestazioni, richiedendo il minor numero di iterazioni del ciclo esterno.

Esperimenti di Ablazione

Analisi della Costante R

  • R rimane una piccola costante (1.0-1.4) su 19 grafi
  • R è insensibile alla dimensione del grafo e al numero di condizionamento
  • Verifica la ragionevolezza dell'ipotesi di limitatezza di R nell'analisi teorica

Analisi del Rapporto vol(S_t)/γ_t

Gli esperimenti verificano il limite teorico vol(St)/γtmin{Ct0/εt,2m}\text{vol}(S_t)/γ_t ≤ \min\{C_t^0/ε_t, 2m\}.

Lavori Correlati

Metodi di Calcolo del PPR

  • Metodi Iterativi: Metodo del gradiente coniugato, metodo di Chebyshev, complessità O(m/√α)
  • Metodi Locali: APPR (O(1/(αε))), metodi variazionali (O(1/((α+μ²)ε)))
  • Tentativi di Accelerazione: FISTA, accoppiamento lineare rompono la monotonicità, non garantiscono la località

Processi di Insiemi Evolutivi

  • Concetto proposto da Morris e Peres, utilizzato per analizzare i tempi di mescolanza
  • Metodo di Chebyshev localizzato di Zhou et al., ma mancano garanzie di convergenza

Ottimizzazione Accelerata

  • Framework Catalyst: Metodo approssimato accelerato di punto prossimale
  • Questo articolo lo adatta ai metodi locali, preservando la monotonicità

Conclusioni e Discussione

Conclusioni Principali

  1. Avanzamento Teorico: Realizza per la prima volta un'accelerazione locale provabilmente corretta nel calcolo del PPR, migliorando la complessità temporale da O(1/α) a O(1/√α)
  2. Praticità: Quando ε ≥ 1/√m, la complessità dell'algoritmo è indipendente dalla dimensione del grafo
  3. Generalità: Il framework è estensibile a forme variazionali e altri problemi correlati

Limitazioni

  1. Limite della Costante R: Non è possibile limitare universalmente R in termini di dimensione del grafo o parametri di input
  2. Dipendenza da ε²: Quando ε < 1/√m, il limite locale degenera a O(m/√α)
  3. Divario tra Teoria e Pratica: Stime conservative di ε_t potrebbero portare a limiti subottimali

Direzioni Future

  1. Miglioramento dei Limiti: Esplorare se è possibile raggiungere la complessità congetturata O(1/(√αε))
  2. Eliminazione della Dipendenza da R: Eliminare la costante R attraverso vincoli o riavvii adattivi
  3. Estensione delle Applicazioni: Applicare la tecnica a PPR bidirezionale, stima PPR a singola sorgente e altri problemi

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Risolve una congettura aperta nella letteratura, stabilendo garanzie teoriche rigorose
  2. Forte Innovazione del Metodo: Combina abilmente il framework Catalyst con processi di insiemi evolutivi localizzati
  3. Esperimenti Completi: Verifica su 19 grafi di diverse scale, da piccoli a ultra-grandi
  4. Scrittura Chiara: Derivazioni matematiche rigorose, descrizioni algoritmi dettagliate

Carenze

  1. Limitazioni di Praticità: Quando ε è molto piccolo, i vantaggi non sono evidenti; il problema della limitazione di R influisce sulle applicazioni pratiche
  2. Complessità di Implementazione: La struttura annidata e la regolazione dei parametri aumentano la difficoltà di implementazione
  3. Confronti Incompleti: Mancano confronti dettagliati con i metodi accelerati più recenti

Impatto

  1. Valore Accademico: Fornisce nuove prospettive per l'accelerazione degli algoritmi grafici, con significato teorico importante
  2. Valore Pratico: Ha potenziale di applicazione nell'analisi di grafi su larga scala, sistemi di raccomandazione e altri campi
  3. Riproducibilità: Codice pubblico, impostazioni sperimentali dettagliate

Scenari Applicabili

  1. Analisi di Grafi su Larga Scala: Specialmente quando i requisiti di precisione non sono estremi (ε ≥ 1/√m)
  2. Sistemi di Raccomandazione in Tempo Reale: Necessità di calcolare rapidamente i punteggi di importanza locale
  3. Reti Neurali Grafiche: Come fase di pre-elaborazione per il calcolo dell'importanza dei nodi

Bibliografia

Questo articolo cita 52 lavori correlati, coprendo importanti ricerche in più campi inclusi il calcolo del PPR, l'ottimizzazione accelerata e gli algoritmi locali, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità che equilibra teoria e pratica, realizzando progressi significativi nel problema importante dell'accelerazione del calcolo del PPR. Sebbene esistano alcune limitazioni teoriche, la sua innovazione e praticità lo rendono un contributo importante nel campo.