2025-11-17T05:52:13.175509

Accelerated Evolving Set Processes for Local PageRank Computation

Huang, Luo, Xiao et al.

This work proposes a novel framework based on nested evolving set processes to accelerate Personalized PageRank (PPR) computation. At each stage of the process, we employ a localized inexact proximal point iteration to solve a simplified linear system. We show that the time complexity of such localized methods is upper bounded by $\min\{\tilde{\mathcal{O}}(R^2/Îµ^2), \tilde{\mathcal{O}}(m)\}$ to obtain an $Îµ$-approximation of the PPR vector, where $m$ denotes the number of edges in the graph and $R$ is a constant defined via nested evolving set processes. Furthermore, the algorithms induced by our framework require solving only $\tilde{\mathcal{O}}(1/\sqrtÎ±)$ such linear systems, where $Î±$ is the damping factor. When $1/Îµ^2\ll m$, this implies the existence of an algorithm that computes an $\ epsilon $-approximation of the PPR vector with an overall time complexity of $\tilde{\mathcal{O}}\left(R^2 / (\sqrtÎ±Îµ^2)\right)$, independent of the underlying graph size. Our result resolves an open conjecture from existing literature. Experimental results on real-world graphs validate the efficiency of our methods, demonstrating significant convergence in the early stages.

academic

Beschleunigte evolvierende Mengenprozesse zur lokalen PageRank-Berechnung

Grundinformationen

Paper-ID: 2510.08010
Titel: Accelerated Evolving Set Processes for Local PageRank Computation
Autoren: Binbin Huang, Baojian Zhou, Luo Luo, Deqing Yang, Yanghua Xiao (Fudan-Universität)
Klassifizierung: cs.LG
Veröffentlichungskonferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025)
Paper-Link: https://arxiv.org/abs/2510.08010v2

Zusammenfassung

Dieses Paper präsentiert einen neuen Rahmen basierend auf verschachtelten evolvierenden Mengenprozessen (nested evolving set processes) zur Beschleunigung der Berechnung von personalisiertem PageRank (PPR). In jeder Phase wird eine lokalisierte inexakte proximale Punkt-Iteration zur Lösung vereinfachter linearer Systeme eingesetzt. Die Forschung zeigt, dass die Zeitkomplexität solcher lokalisierter Methoden durch $\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\}$ begrenzt ist, um eine ε-Approximation des PPR-Vektors zu erhalten, wobei m die Anzahl der Kanten im Graphen darstellt und R eine durch verschachtelte evolvierende Mengenprozesse definierte Konstante ist. Der durch den Rahmen induzierte Algorithmus erfordert nur die Lösung von $\tilde{\mathcal{O}}(1/\sqrt{α})$ solcher linearen Systeme, wobei α der Dämpfungsfaktor ist. Wenn $1/ε^2 \ll m$ , bedeutet dies, dass ein Algorithmus existiert, der eine ε-Approximation des PPR-Vektors mit einer Gesamtzeitkomplexität von $\tilde{\mathcal{O}}(R^2/(\sqrt{α}ε^2))$ berechnet, unabhängig von der Größe des zugrunde liegenden Graphen.

Forschungshintergrund und Motivation

Problemdefinition

Der personalisierte PageRank-Vektor (PPR) π ∈ ℝⁿ ist definiert als:

(I - (1-α)(I + AD⁻¹)/2)π = αeₛ

wobei eₛ der Standardbasisvektor des Quellknotens s ist, α ∈ (0,1) der Dämpfungsfaktor ist, und A und D jeweils die Adjazenzmatrix und Gradmatrix des ungerichteten Graphen G(V,E) sind.

Forschungsmotivation

Bedeutung: PPR ist ein Kernwerkzeug der Graphenanalyse mit breiter Anwendung in lokaler Clusterung, Diffusionsprozessmodellierung und Graphenneuralen Netzen
Bestehende Einschränkungen:
- Standardmethoden wie APPR haben Zeitkomplexität O(1/(αε))
- Beschleunigte Methoden sehen sich der Herausforderung gegenüber, dass Momentumterme die Residuenmonotonie zerstören
- Bestehende beschleunigte Methoden können den gesamten Graphen durchsuchen, was zu O(m/√α) Zeitkomplexität führt
Offene Fragen: Existiert eine lokale beschleunigte Methode mit Zeitkomplexität abhängig von 1/√α statt 1/α?

Kernbeiträge

AESP-Rahmen: Präsentation des Rahmens für beschleunigte evolvierende Mengenprozesse (AESP), der $\tilde{O}(1/\sqrt{α})$ kurze evolvierende Mengenprozesse statt eines einzelnen langen Prozesses verwendet
Theoretische Garantien: Etablierung der Zeitkomplexität $\tilde{O}(\text{vol}(S_t)/(\sqrt{α}γ_t))$ , die die Vermutung über beschleunigte Grenzen in der bestehenden Literatur erfüllt
Lokalisierungsgarantien: Beweis, dass die Obergrenze von $\text{vol}(S_t)/γ_t$ gleich $\min\{O(R^2/ε^2), 2m\}$ ist, was bei $1/ε^2 \ll m$ eine von der Graphengröße unabhängige Komplexität erreicht
Experimentelle Validierung: Verifikation der Methodeneffektivität auf großen realen Graphen mit signifikanter Beschleunigung in frühen Phasen

Methodische Details

Aufgabendefinition

Gegeben ein Genauigkeitsparameter ε, entwerfen Sie einen lokalen Algorithmus zur Berechnung einer ε-Approximation π̂, die $\|D^{-1}(π̂ - π)\|_∞ ≤ ε$ erfüllt, während der Zugriff auf den gesamten Graphen vermieden wird.

Kernidee: Verschachtelte evolvierende Mengenprozesse

1. Problemumformulierung

Umformulierung des linearen Systems als stark konvexes Optimierungsproblem:

min f(x) = (1/2)x⊤Qx - αx⊤D^(-1/2)b

wobei Q = ((1+α)/2)I - ((1-α)/2)D^(-1/2)AD^(-1/2), mit Eigenwerten λ(Q) ∈ α,1.

2. Definition verschachtelter ESP

In der äußeren Schleifenwiederholung t verwaltet der lokale Solver M eine Sequenz aktiver Mengen {S_t^(k)}_{k≥0} über innere Schleifenwiederholungen k, wobei Aktualisierungen auf Knoten in der aktiven Menge beschränkt sind.

3. AESP-Aktualisierungsregel

x^(t) = M(φ_t, y^(t-1), η, α, b, G)
y^(t) = x^(t) + β_t(x^(t) - x^(t-1))

wobei β_t das Momentumgewicht ist und M ein lokaler Operator ist.

Lokalisierte inexakte proximale Operatoren

LOCGD (Lokaler Gradientenabstieg)

z_t^(k+1) = z_t^(k) - (2∇h_t(z_t^(k)) ∘ 1_{S_t^k})/(1 + α + 2η)

Aktive Knotenmenge: $S_t^k = \{u : |∇_u h_t^{-1/2}(z_t^{(k)})| ≥ ε_t\}$

LOCAPPR (Lokales APPR)

Koordinaten-weise Aktualisierung für $u_i ∈ S_t^k$ :

z_t^(k_{i+1}) = z_t^(k_i) - (2∇h_t(z_t^{(k_i)}) ∘ 1_{u_i})/(1 + α + 2η)

Technische Innovationen

Monotonie-Erhaltung: Durch Lösung von regularisierten PPR-Linearsystemen mit konstanter Konditionszahl wird die Monotonie der ℓ₁-Norm des D^{1/2}-skalierten Gradienten gewährleistet
Lokalisierungskontrolle: Einführung einer Konstanten R zur Begrenzung der Gradienten-Verhältnisse in verschachtelten ESP-Prozessen
Ausgleich zwischen Beschleunigung und Lokalisierung: Erreichung eines Kompromisses zwischen der Abhängigkeit von der Konditionszahl 1/α und der Zeitkomplexität pro Runde O(R²/ε²)

Experimentelle Einrichtung

Datensätze

Experimente verwenden 19 reale Graphen mit Größen von klein bis übergroß:

Mittlere Größe: com-dblp (317K Knoten, 1M Kanten)
Große Größe: ogb-mag240m (244M Knoten, 1,7B Kanten), ogbn-papers100M (111M Knoten, 1,6B Kanten)
Weitere: com-friendster, wiki-en21 usw.

Evaluierungsmetriken

Fehlermaß: $\log \|D^{-1}(π̂-π)\|_∞$
Effizienzmaß: Operationszahl, Laufzeit
Beschleunigungsverhältnis: Leistungsverbesserung relativ zu Baseline-Methoden

Vergleichsmethoden

APPR: Standard-Algorithmus für approximiertes personalisiertes PageRank
APPR-opt: APPR mit optimaler Schrittweite
LOCGD: Lokaler Gradientenabstieg
ASPR: Beschleunigte spärliche personalisierte PageRank
FISTA: Schneller iterativer Schwellenwert-Algorithmus

Implementierungsdetails

Dämpfungsfaktor: α = 0,01, 0,1
Genauigkeitsschwelle: ε = 10⁻⁶
Zufällige Auswahl von 5 Quellknoten für Tests
Python-Implementierung mit Numba-Beschleunigung

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei großen Graphen

Auf vier großen Graphen (ogb-mag240m, ogbn-papers100M, com-friendster, wiki-en21):

AESP-LOCAPPR zeigt beste Leistung dank Online-Koordinaten-Aktualisierung
Frühe Beschleunigung: AESP-Methoden erreichen schnellere Konvergenz als Baseline-Methoden in frühen Phasen
Reduzierte Operationen: 2-10fache Reduktion der Operationen im Vergleich zu APPR

α-Abhängigkeitsanalyse

Bei kleinerem α zeigt AESP signifikante Beschleunigung lokaler Methoden:

Tests im Bereich α ∈ 10⁻³, 10⁻¹
Beschleunigungsverhältnis wächst mit sinkendem α und validiert √α-Abhängigkeit
Laufzeit und Operationszahl sinken signifikant

Vergleich von Initialisierungsstrategien

Vergleich von drei Initialisierungsstrategien z_t^(0):

Kalter Start: z_t^(0) = 0
Vorherige Schätzung: z_t^(0) = x^(t-1)
Momentum-Initialisierung: z_t^(0) = y^(t-1) (empfohlen)

Momentum-Initialisierungsstrategie zeigt beste Leistung mit minimaler Anzahl äußerer Schleifenwiederholungen.

Ablationsstudien

Analyse der Konstanten R

R bleibt auf 19 Graphen eine kleine Konstante (1,0-1,4)
R ist unempfindlich gegenüber Graphengröße und Konditionszahl
Validiert die Angemessenheit der Annahme der R-Begrenztheit in der theoretischen Analyse

Analyse des vol(S_t)/γ_t-Verhältnisses

Experimentelle Validierung der theoretischen Grenze $\text{vol}(S_t)/γ_t ≤ \min\{C_t^0/ε_t, 2m\}$ .

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Durchbruch: Erste nachweisbare lokale Beschleunigung der PPR-Berechnung mit Zeitkomplexität-Verbesserung von O(1/α) auf O(1/√α)
Praktikabilität: Wenn ε ≥ 1/√m, ist die Algorithmen-Komplexität unabhängig von der Graphengröße
Universalität: Der Rahmen ist auf Variationsformen und andere verwandte Probleme erweiterbar

Einschränkungen

Konstanten-R-Grenze: R kann nicht universell durch Graphengröße oder Eingabeparameter begrenzt werden
ε²-Abhängigkeit: Wenn ε < 1/√m, degeneriert die lokale Grenze zu O(m/√α)
Theorie-Praxis-Lücke: Konservative Schätzung von ε_t kann zu suboptimalen Grenzen führen

Zukünftige Richtungen

Verbesserte Grenzen: Erkundung, ob die vermutete O(1/(√αε))-Komplexität erreichbar ist
Beseitigung der R-Abhängigkeit: Beseitigung der Konstanten R durch Einschränkungen oder adaptive Neustarts
Erweiterte Anwendungen: Anwendung der Techniken auf bidirektionales PPR, Single-Source-PPR-Schätzung usw.

Tiefgreifende Bewertung

Stärken

Signifikanter theoretischer Beitrag: Löst offene Vermutungen in der Literatur mit strengen theoretischen Garantien
Starke Methodische Innovation: Geschickte Kombination des Catalyst-Rahmens mit lokalen evolvierenden Mengenprozessen
Umfassende Experimente: Validierung auf 19 Graphen unterschiedlicher Größe von klein bis übergroß
Klare Präsentation: Rigorose mathematische Ableitungen und detaillierte Algorithmusbeschreibungen

Schwächen

Praktische Einschränkungen: Vorteil nicht offensichtlich bei sehr kleinem ε, R-Begrenzungsproblem beeinflusst praktische Anwendung
Implementierungskomplexität: Verschachtelte Struktur und Parametereinstellung erhöhen Implementierungsschwierigkeit
Unvollständige Vergleiche: Mangel an detaillierten Vergleichen mit neuesten Beschleunigungsmethoden

Auswirkungen

Akademischer Wert: Bietet neue Perspektiven für Graphen-Algorithmen-Beschleunigung mit großer theoretischer Bedeutung
Praktischer Wert: Potenzielle Anwendungen in großflächiger Graphenanalyse, Empfehlungssystemen usw.
Reproduzierbarkeit: Öffentlich verfügbarer Code mit detaillierten Experimenteinstellungen

Anwendungsszenarien

Großflächige Graphenanalyse: Besonders wenn Genauigkeitsanforderungen nicht extrem hoch sind (ε ≥ 1/√m)
Echtzeit-Empfehlungssysteme: Schnelle Berechnung lokaler Wichtigkeitswerte erforderlich
Graphenneurale Netze: Als Vorverarbeitungsschritt zur Berechnung von Knotenwichtigkeit

Literaturverzeichnis

Dieses Paper zitiert 52 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie PPR-Berechnung, beschleunigte Optimierung und lokale Algorithmen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit Schwerpunkt auf Theorie und Praxis, das signifikante Fortschritte beim wichtigen Problem der PPR-Berechnungsbeschleunigung erzielt. Obwohl einige theoretische Einschränkungen bestehen, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag auf diesem Gebiet.