2025-11-17T05:52:13.175509

Accelerated Evolving Set Processes for Local PageRank Computation

Huang, Luo, Xiao et al.

This work proposes a novel framework based on nested evolving set processes to accelerate Personalized PageRank (PPR) computation. At each stage of the process, we employ a localized inexact proximal point iteration to solve a simplified linear system. We show that the time complexity of such localized methods is upper bounded by $\min\{\tilde{\mathcal{O}}(R^2/Îµ^2), \tilde{\mathcal{O}}(m)\}$ to obtain an $Îµ$-approximation of the PPR vector, where $m$ denotes the number of edges in the graph and $R$ is a constant defined via nested evolving set processes. Furthermore, the algorithms induced by our framework require solving only $\tilde{\mathcal{O}}(1/\sqrtÎ±)$ such linear systems, where $Î±$ is the damping factor. When $1/Îµ^2\ll m$, this implies the existence of an algorithm that computes an $\ epsilon $-approximation of the PPR vector with an overall time complexity of $\tilde{\mathcal{O}}\left(R^2 / (\sqrtÎ±Îµ^2)\right)$, independent of the underlying graph size. Our result resolves an open conjecture from existing literature. Experimental results on real-world graphs validate the efficiency of our methods, demonstrating significant convergence in the early stages.

academic

Procesos de Conjuntos Evolutivos Acelerados para el Cálculo de PageRank Local

Información Básica

ID del Artículo: 2510.08010
Título: Accelerated Evolving Set Processes for Local PageRank Computation
Autores: Binbin Huang, Baojian Zhou, Luo Luo, Deqing Yang, Yanghua Xiao (Universidad de Fudan)
Clasificación: cs.LG
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2510.08010v2

Resumen

Este artículo propone un nuevo marco basado en procesos de conjuntos evolutivos anidados (nested evolving set processes) para acelerar el cálculo del PageRank personalizado (PPR). En cada etapa, se emplean iteraciones de puntos aproximados no exactas localizadas para resolver sistemas lineales simplificados. La investigación demuestra que el límite superior de la complejidad temporal de tales métodos localizados es $\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\}$ para obtener una ε-aproximación del vector PPR, donde m representa el número de aristas en el grafo y R es una constante definida mediante procesos de conjuntos evolutivos anidados. El algoritmo inducido por el marco requiere resolver solo $\tilde{\mathcal{O}}(1/\sqrt{α})$ sistemas lineales de este tipo, donde α es el factor de amortiguamiento. Cuando $1/ε^2 \ll m$ , esto implica la existencia de un algoritmo que calcula la ε-aproximación del vector PPR con una complejidad temporal total de $\tilde{\mathcal{O}}(R^2/(\sqrt{α}ε^2))$ , independiente del tamaño del grafo subyacente.

Antecedentes de Investigación y Motivación

Definición del Problema

El vector de PageRank personalizado (PPR) π ∈ ℝⁿ se define como:

(I - (1-α)(I + AD⁻¹)/2)π = αeₛ

donde eₛ es el vector base estándar correspondiente al nodo fuente s, α ∈ (0,1) es el factor de amortiguamiento, y A y D son respectivamente la matriz de adyacencia y la matriz de grados del grafo no dirigido G(V,E).

Motivación de la Investigación

Importancia: PPR es una herramienta central en análisis de grafos, ampliamente aplicada en agrupamiento local, modelado de procesos de difusión, redes neuronales de grafos y otros campos
Limitaciones Existentes:
- Los métodos estándar como APPR tienen complejidad temporal O(1/(αε))
- Los métodos acelerados enfrentan el desafío de que los términos de momento destruyen la monotonía de los residuos
- Los métodos acelerados existentes pueden acceder a todo el grafo, resultando en complejidad temporal O(m/√α)
Problema Abierto: ¿Existe un método local acelerado con complejidad temporal que dependa de 1/√α en lugar de 1/α?

Contribuciones Principales

Marco AESP: Se propone el marco de Procesos de Conjuntos Evolutivos Acelerados (AESP), que utiliza $\tilde{O}(1/\sqrt{α})$ procesos de conjuntos evolutivos cortos en lugar de un único proceso largo
Garantías Teóricas: Se establece una complejidad temporal de $\tilde{O}(\text{vol}(S_t)/(\sqrt{α}γ_t))$ , coincidiendo con la conjetura de límite acelerado en la literatura existente
Garantías de Localidad: Se demuestra que el límite superior de $\text{vol}(S_t)/γ_t$ es $\min\{O(R^2/ε^2), 2m\}$ , logrando complejidad independiente del tamaño del grafo cuando $1/ε^2 \ll m$
Verificación Experimental: Se valida la efectividad del método en grafos reales a gran escala, demostrando aceleración significativa en etapas tempranas

Explicación Detallada del Método

Definición de la Tarea

Dado un parámetro de precisión ε, diseñar un algoritmo local que calcule una ε-aproximación π̂ satisfaciendo $\|D^{-1}(π̂ - π)\|_∞ ≤ ε$ , evitando simultáneamente acceder a todo el grafo.

Idea Principal: Procesos de Conjuntos Evolutivos Anidados

1. Reconstrucción del Problema

Se reconstruye el sistema lineal como un problema de optimización fuertemente convexa:

min f(x) = (1/2)x⊤Qx - αx⊤D^(-1/2)b

donde Q = ((1+α)/2)I - ((1-α)/2)D^(-1/2)AD^(-1/2), con valores propios λ(Q) ∈ α,1.

2. Definición de ESP Anidado

En la iteración externa t, el solucionador local M mantiene una secuencia de conjuntos activos {S_t^(k)}_{k≥0} sobre iteraciones internas k, con actualizaciones limitadas a nodos dentro del conjunto activo.

3. Regla de Actualización AESP

x^(t) = M(φ_t, y^(t-1), η, α, b, G)
y^(t) = x^(t) + β_t(x^(t) - x^(t-1))

donde β_t es el peso del momento y M es el operador local.

Operador Aproximado No Exacto Localizado

LOCGD (Descenso de Gradiente Local)

z_t^(k+1) = z_t^(k) - (2∇h_t(z_t^(k)) ∘ 1_{S_t^k})/(1 + α + 2η)

Conjunto de nodos activos: $S_t^k = \{u : |∇_u h_t^{-1/2}(z_t^{(k)})| ≥ ε_t\}$

LOCAPPR (APPR Local)

Actualización a nivel de coordenadas para $u_i ∈ S_t^k$ :

z_t^(k_{i+1}) = z_t^(k_i) - (2∇h_t(z_t^{(k_i)}) ∘ 1_{u_i})/(1 + α + 2η)

Puntos de Innovación Técnica

Preservación de Monotonía: Al resolver sistemas lineales PPR regularizados con número de condición constante, se garantiza que la norma ℓ₁ del gradiente escalado por D^{1/2} disminuye monótonamente
Control de Localidad: Se introduce una constante R para acotar la razón de gradientes en procesos ESP anidados
Equilibrio entre Aceleración y Localidad: Se logra un equilibrio entre la dependencia del número de condición 1/α y la complejidad temporal por ronda O(R²/ε²)

Configuración Experimental

Conjuntos de Datos

Los experimentos utilizan 19 grafos del mundo real, con escalas desde pequeña hasta muy grande:

Escala Media: com-dblp (317K nodos, 1M aristas)
Escala Grande: ogb-mag240m (244M nodos, 1.7B aristas), ogbn-papers100M (111M nodos, 1.6B aristas)
Otros: com-friendster, wiki-en21, etc.

Métricas de Evaluación

Medida de Error: $\log \|D^{-1}(π̂-π)\|_∞$
Medida de Eficiencia: Número de operaciones, tiempo de ejecución
Ratio de Aceleración: Mejora de rendimiento relativa a métodos de referencia

Métodos de Comparación

APPR: Algoritmo estándar de PageRank personalizado aproximado
APPR-opt: APPR con tamaño de paso óptimo
LOCGD: Descenso de gradiente local
ASPR: PageRank personalizado disperso acelerado
FISTA: Algoritmo de umbralización iterativa rápida

Detalles de Implementación

Factor de amortiguamiento: α = 0.01, 0.1
Umbral de precisión: ε = 10⁻⁶
Selección aleatoria de 5 nodos fuente para pruebas
Implementación en Python, aceleración mediante numba

Resultados Experimentales

Resultados Principales

Rendimiento en Grafos a Gran Escala

En cuatro grafos a gran escala (ogb-mag240m, ogbn-papers100M, com-friendster, wiki-en21):

AESP-LOCAPPR muestra el mejor rendimiento, beneficiándose de actualizaciones de coordenadas en línea
Aceleración Temprana: Los métodos AESP logran convergencia más rápida que los métodos de referencia en etapas tempranas
Reducción de Operaciones: Se reduce 2-10 veces el número de operaciones en comparación con APPR

Análisis de Dependencia de α

Cuando α es pequeño, AESP acelera significativamente los métodos locales estándar:

Pruebas en rango α ∈ 10⁻³, 10⁻¹
El ratio de aceleración aumenta a medida que α disminuye, verificando la dependencia de √α
Tanto el tiempo de ejecución como el número de operaciones se reducen significativamente

Comparación de Estrategias de Inicialización

Comparación de tres estrategias de inicialización para z_t^(0):

Inicio Frío: z_t^(0) = 0
Estimación Anterior: z_t^(0) = x^(t-1)
Inicialización con Momento: z_t^(0) = y^(t-1) (recomendada)

La estrategia de inicialización con momento muestra el mejor rendimiento, requiriendo el menor número de iteraciones externas.

Experimentos de Ablación

Análisis de la Constante R

R se mantiene como una pequeña constante (1.0-1.4) en los 19 grafos
R es insensible al tamaño del grafo y número de condición
Verifica la razonabilidad de la suposición de R acotado en el análisis teórico

Análisis de la Razón vol(S_t)/γ_t

Se verifica experimentalmente el límite teórico $\text{vol}(S_t)/γ_t ≤ \min\{C_t^0/ε_t, 2m\}$ .

Trabajo Relacionado

Métodos de Cálculo de PPR

Métodos Iterativos: Gradiente conjugado, método de Chebyshev, complejidad O(m/√α)
Métodos Locales: APPR (O(1/(αε))), métodos variacionales (O(1/((α+μ²)ε)))
Intentos de Aceleración: FISTA, acoplamiento lineal destruyen monotonía, sin garantías de localidad

Procesos de Conjuntos Evolutivos

Concepto propuesto por Morris y Peres, utilizado para analizar tiempos de mezcla
Método de Chebyshev localizado de Zhou et al., pero sin garantías de convergencia

Optimización Acelerada

Marco Catalyst: Método de punto aproximado acelerado no exacto
Este artículo lo adapta a métodos locales, preservando monotonía

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico: Primera aceleración comprobable de cálculo de PPR, mejorando complejidad de O(1/α) a O(1/√α)
Practicidad: Cuando ε ≥ 1/√m, la complejidad del algoritmo es independiente del tamaño del grafo
Generalidad: El marco es extensible a formas variacionales y otros problemas relacionados

Limitaciones

Límite de Constante R: No se puede acotar universalmente R mediante tamaño del grafo o parámetros de entrada
Dependencia de ε²: Cuando ε < 1/√m, el límite local se degrada a O(m/√α)
Brecha Teoría-Práctica: Estimaciones conservadoras de ε_t pueden resultar en límites subóptimos

Direcciones Futuras

Mejora de Límites: Explorar si se puede alcanzar la complejidad conjeturada O(1/(√αε))
Eliminar Dependencia de R: Mediante restricciones o reinicio adaptativo
Extensión de Aplicaciones: Aplicar técnicas a PPR bidireccional, estimación PPR de una sola fuente, etc.

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Resuelve una conjetura abierta en la literatura, estableciendo garantías teóricas rigurosas
Innovación Metodológica Fuerte: Combina ingeniosamente el marco Catalyst con procesos de conjuntos evolutivos locales
Experimentación Exhaustiva: Validación en 19 grafos de diferentes escalas, desde pequeños hasta muy grandes
Escritura Clara: Derivaciones matemáticas rigurosas, descripción de algoritmos detallada

Deficiencias

Limitaciones de Practicidad: Ventajas no evidentes cuando ε es muy pequeño, el problema de acotación de R afecta aplicación práctica
Complejidad de Implementación: La estructura anidada y ajuste de parámetros aumentan dificultad de implementación
Comparación Incompleta: Falta comparación detallada con métodos acelerados más recientes

Impacto

Valor Académico: Proporciona nuevas ideas para aceleración de algoritmos de grafos, significancia teórica importante
Valor Práctico: Potencial de aplicación en análisis de grafos a gran escala, sistemas de recomendación, etc.
Reproducibilidad: Código público, configuración experimental detallada

Escenarios Aplicables

Análisis de Grafos a Gran Escala: Especialmente cuando requisitos de precisión no son extremos (ε ≥ 1/√m)
Sistemas de Recomendación en Tiempo Real: Necesidad de cálculo rápido de puntuaciones de importancia local
Redes Neuronales de Grafos: Como paso de preprocesamiento para calcular importancia de nodos

Referencias

Este artículo cita 52 referencias relacionadas, abarcando múltiples campos incluyendo cálculo de PPR, optimización acelerada, algoritmos locales, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad que equilibra teoría y práctica, logrando progreso significativo en el importante problema de aceleración de cálculo de PPR. Aunque presenta algunas limitaciones teóricas, su innovación y practicidad lo convierten en una contribución importante en este campo.