2025-11-17T05:52:13.175509

Accelerated Evolving Set Processes for Local PageRank Computation

Huang, Luo, Xiao et al.
This work proposes a novel framework based on nested evolving set processes to accelerate Personalized PageRank (PPR) computation. At each stage of the process, we employ a localized inexact proximal point iteration to solve a simplified linear system. We show that the time complexity of such localized methods is upper bounded by $\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\}$ to obtain an $ε$-approximation of the PPR vector, where $m$ denotes the number of edges in the graph and $R$ is a constant defined via nested evolving set processes. Furthermore, the algorithms induced by our framework require solving only $\tilde{\mathcal{O}}(1/\sqrtα)$ such linear systems, where $α$ is the damping factor. When $1/ε^2\ll m$, this implies the existence of an algorithm that computes an $\ epsilon $-approximation of the PPR vector with an overall time complexity of $\tilde{\mathcal{O}}\left(R^2 / (\sqrtαε^2)\right)$, independent of the underlying graph size. Our result resolves an open conjecture from existing literature. Experimental results on real-world graphs validate the efficiency of our methods, demonstrating significant convergence in the early stages.
academic

Procesos de Conjuntos Evolutivos Acelerados para el Cálculo de PageRank Local

Información Básica

  • ID del Artículo: 2510.08010
  • Título: Accelerated Evolving Set Processes for Local PageRank Computation
  • Autores: Binbin Huang, Baojian Zhou, Luo Luo, Deqing Yang, Yanghua Xiao (Universidad de Fudan)
  • Clasificación: cs.LG
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08010v2

Resumen

Este artículo propone un nuevo marco basado en procesos de conjuntos evolutivos anidados (nested evolving set processes) para acelerar el cálculo del PageRank personalizado (PPR). En cada etapa, se emplean iteraciones de puntos aproximados no exactas localizadas para resolver sistemas lineales simplificados. La investigación demuestra que el límite superior de la complejidad temporal de tales métodos localizados es min{O~(R2/ε2),O~(m)}\min\{\tilde{\mathcal{O}}(R^2/ε^2), \tilde{\mathcal{O}}(m)\} para obtener una ε-aproximación del vector PPR, donde m representa el número de aristas en el grafo y R es una constante definida mediante procesos de conjuntos evolutivos anidados. El algoritmo inducido por el marco requiere resolver solo O~(1/α)\tilde{\mathcal{O}}(1/\sqrt{α}) sistemas lineales de este tipo, donde α es el factor de amortiguamiento. Cuando 1/ε2m1/ε^2 \ll m, esto implica la existencia de un algoritmo que calcula la ε-aproximación del vector PPR con una complejidad temporal total de O~(R2/(αε2))\tilde{\mathcal{O}}(R^2/(\sqrt{α}ε^2)), independiente del tamaño del grafo subyacente.

Antecedentes de Investigación y Motivación

Definición del Problema

El vector de PageRank personalizado (PPR) π ∈ ℝⁿ se define como:

(I - (1-α)(I + AD⁻¹)/2)π = αeₛ

donde eₛ es el vector base estándar correspondiente al nodo fuente s, α ∈ (0,1) es el factor de amortiguamiento, y A y D son respectivamente la matriz de adyacencia y la matriz de grados del grafo no dirigido G(V,E).

Motivación de la Investigación

  1. Importancia: PPR es una herramienta central en análisis de grafos, ampliamente aplicada en agrupamiento local, modelado de procesos de difusión, redes neuronales de grafos y otros campos
  2. Limitaciones Existentes:
    • Los métodos estándar como APPR tienen complejidad temporal O(1/(αε))
    • Los métodos acelerados enfrentan el desafío de que los términos de momento destruyen la monotonía de los residuos
    • Los métodos acelerados existentes pueden acceder a todo el grafo, resultando en complejidad temporal O(m/√α)
  3. Problema Abierto: ¿Existe un método local acelerado con complejidad temporal que dependa de 1/√α en lugar de 1/α?

Contribuciones Principales

  1. Marco AESP: Se propone el marco de Procesos de Conjuntos Evolutivos Acelerados (AESP), que utiliza O~(1/α)\tilde{O}(1/\sqrt{α}) procesos de conjuntos evolutivos cortos en lugar de un único proceso largo
  2. Garantías Teóricas: Se establece una complejidad temporal de O~(vol(St)/(αγt))\tilde{O}(\text{vol}(S_t)/(\sqrt{α}γ_t)), coincidiendo con la conjetura de límite acelerado en la literatura existente
  3. Garantías de Localidad: Se demuestra que el límite superior de vol(St)/γt\text{vol}(S_t)/γ_t es min{O(R2/ε2),2m}\min\{O(R^2/ε^2), 2m\}, logrando complejidad independiente del tamaño del grafo cuando 1/ε2m1/ε^2 \ll m
  4. Verificación Experimental: Se valida la efectividad del método en grafos reales a gran escala, demostrando aceleración significativa en etapas tempranas

Explicación Detallada del Método

Definición de la Tarea

Dado un parámetro de precisión ε, diseñar un algoritmo local que calcule una ε-aproximación π̂ satisfaciendo D1(π^π)ε\|D^{-1}(π̂ - π)\|_∞ ≤ ε, evitando simultáneamente acceder a todo el grafo.

Idea Principal: Procesos de Conjuntos Evolutivos Anidados

1. Reconstrucción del Problema

Se reconstruye el sistema lineal como un problema de optimización fuertemente convexa:

min f(x) = (1/2)x⊤Qx - αx⊤D^(-1/2)b

donde Q = ((1+α)/2)I - ((1-α)/2)D^(-1/2)AD^(-1/2), con valores propios λ(Q) ∈ α,1.

2. Definición de ESP Anidado

En la iteración externa t, el solucionador local M mantiene una secuencia de conjuntos activos {S_t^(k)}_{k≥0} sobre iteraciones internas k, con actualizaciones limitadas a nodos dentro del conjunto activo.

3. Regla de Actualización AESP

x^(t) = M(φ_t, y^(t-1), η, α, b, G)
y^(t) = x^(t) + β_t(x^(t) - x^(t-1))

donde β_t es el peso del momento y M es el operador local.

Operador Aproximado No Exacto Localizado

LOCGD (Descenso de Gradiente Local)

z_t^(k+1) = z_t^(k) - (2∇h_t(z_t^(k)) ∘ 1_{S_t^k})/(1 + α + 2η)

Conjunto de nodos activos: Stk={u:uht1/2(zt(k))εt}S_t^k = \{u : |∇_u h_t^{-1/2}(z_t^{(k)})| ≥ ε_t\}

LOCAPPR (APPR Local)

Actualización a nivel de coordenadas para uiStku_i ∈ S_t^k:

z_t^(k_{i+1}) = z_t^(k_i) - (2∇h_t(z_t^{(k_i)}) ∘ 1_{u_i})/(1 + α + 2η)

Puntos de Innovación Técnica

  1. Preservación de Monotonía: Al resolver sistemas lineales PPR regularizados con número de condición constante, se garantiza que la norma ℓ₁ del gradiente escalado por D^{1/2} disminuye monótonamente
  2. Control de Localidad: Se introduce una constante R para acotar la razón de gradientes en procesos ESP anidados
  3. Equilibrio entre Aceleración y Localidad: Se logra un equilibrio entre la dependencia del número de condición 1/α y la complejidad temporal por ronda O(R²/ε²)

Configuración Experimental

Conjuntos de Datos

Los experimentos utilizan 19 grafos del mundo real, con escalas desde pequeña hasta muy grande:

  • Escala Media: com-dblp (317K nodos, 1M aristas)
  • Escala Grande: ogb-mag240m (244M nodos, 1.7B aristas), ogbn-papers100M (111M nodos, 1.6B aristas)
  • Otros: com-friendster, wiki-en21, etc.

Métricas de Evaluación

  • Medida de Error: logD1(π^π)\log \|D^{-1}(π̂-π)\|_∞
  • Medida de Eficiencia: Número de operaciones, tiempo de ejecución
  • Ratio de Aceleración: Mejora de rendimiento relativa a métodos de referencia

Métodos de Comparación

  • APPR: Algoritmo estándar de PageRank personalizado aproximado
  • APPR-opt: APPR con tamaño de paso óptimo
  • LOCGD: Descenso de gradiente local
  • ASPR: PageRank personalizado disperso acelerado
  • FISTA: Algoritmo de umbralización iterativa rápida

Detalles de Implementación

  • Factor de amortiguamiento: α = 0.01, 0.1
  • Umbral de precisión: ε = 10⁻⁶
  • Selección aleatoria de 5 nodos fuente para pruebas
  • Implementación en Python, aceleración mediante numba

Resultados Experimentales

Resultados Principales

Rendimiento en Grafos a Gran Escala

En cuatro grafos a gran escala (ogb-mag240m, ogbn-papers100M, com-friendster, wiki-en21):

  • AESP-LOCAPPR muestra el mejor rendimiento, beneficiándose de actualizaciones de coordenadas en línea
  • Aceleración Temprana: Los métodos AESP logran convergencia más rápida que los métodos de referencia en etapas tempranas
  • Reducción de Operaciones: Se reduce 2-10 veces el número de operaciones en comparación con APPR

Análisis de Dependencia de α

Cuando α es pequeño, AESP acelera significativamente los métodos locales estándar:

  • Pruebas en rango α ∈ 10⁻³, 10⁻¹
  • El ratio de aceleración aumenta a medida que α disminuye, verificando la dependencia de √α
  • Tanto el tiempo de ejecución como el número de operaciones se reducen significativamente

Comparación de Estrategias de Inicialización

Comparación de tres estrategias de inicialización para z_t^(0):

  1. Inicio Frío: z_t^(0) = 0
  2. Estimación Anterior: z_t^(0) = x^(t-1)
  3. Inicialización con Momento: z_t^(0) = y^(t-1) (recomendada)

La estrategia de inicialización con momento muestra el mejor rendimiento, requiriendo el menor número de iteraciones externas.

Experimentos de Ablación

Análisis de la Constante R

  • R se mantiene como una pequeña constante (1.0-1.4) en los 19 grafos
  • R es insensible al tamaño del grafo y número de condición
  • Verifica la razonabilidad de la suposición de R acotado en el análisis teórico

Análisis de la Razón vol(S_t)/γ_t

Se verifica experimentalmente el límite teórico vol(St)/γtmin{Ct0/εt,2m}\text{vol}(S_t)/γ_t ≤ \min\{C_t^0/ε_t, 2m\}.

Trabajo Relacionado

Métodos de Cálculo de PPR

  • Métodos Iterativos: Gradiente conjugado, método de Chebyshev, complejidad O(m/√α)
  • Métodos Locales: APPR (O(1/(αε))), métodos variacionales (O(1/((α+μ²)ε)))
  • Intentos de Aceleración: FISTA, acoplamiento lineal destruyen monotonía, sin garantías de localidad

Procesos de Conjuntos Evolutivos

  • Concepto propuesto por Morris y Peres, utilizado para analizar tiempos de mezcla
  • Método de Chebyshev localizado de Zhou et al., pero sin garantías de convergencia

Optimización Acelerada

  • Marco Catalyst: Método de punto aproximado acelerado no exacto
  • Este artículo lo adapta a métodos locales, preservando monotonía

Conclusiones y Discusión

Conclusiones Principales

  1. Avance Teórico: Primera aceleración comprobable de cálculo de PPR, mejorando complejidad de O(1/α) a O(1/√α)
  2. Practicidad: Cuando ε ≥ 1/√m, la complejidad del algoritmo es independiente del tamaño del grafo
  3. Generalidad: El marco es extensible a formas variacionales y otros problemas relacionados

Limitaciones

  1. Límite de Constante R: No se puede acotar universalmente R mediante tamaño del grafo o parámetros de entrada
  2. Dependencia de ε²: Cuando ε < 1/√m, el límite local se degrada a O(m/√α)
  3. Brecha Teoría-Práctica: Estimaciones conservadoras de ε_t pueden resultar en límites subóptimos

Direcciones Futuras

  1. Mejora de Límites: Explorar si se puede alcanzar la complejidad conjeturada O(1/(√αε))
  2. Eliminar Dependencia de R: Mediante restricciones o reinicio adaptativo
  3. Extensión de Aplicaciones: Aplicar técnicas a PPR bidireccional, estimación PPR de una sola fuente, etc.

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Resuelve una conjetura abierta en la literatura, estableciendo garantías teóricas rigurosas
  2. Innovación Metodológica Fuerte: Combina ingeniosamente el marco Catalyst con procesos de conjuntos evolutivos locales
  3. Experimentación Exhaustiva: Validación en 19 grafos de diferentes escalas, desde pequeños hasta muy grandes
  4. Escritura Clara: Derivaciones matemáticas rigurosas, descripción de algoritmos detallada

Deficiencias

  1. Limitaciones de Practicidad: Ventajas no evidentes cuando ε es muy pequeño, el problema de acotación de R afecta aplicación práctica
  2. Complejidad de Implementación: La estructura anidada y ajuste de parámetros aumentan dificultad de implementación
  3. Comparación Incompleta: Falta comparación detallada con métodos acelerados más recientes

Impacto

  1. Valor Académico: Proporciona nuevas ideas para aceleración de algoritmos de grafos, significancia teórica importante
  2. Valor Práctico: Potencial de aplicación en análisis de grafos a gran escala, sistemas de recomendación, etc.
  3. Reproducibilidad: Código público, configuración experimental detallada

Escenarios Aplicables

  1. Análisis de Grafos a Gran Escala: Especialmente cuando requisitos de precisión no son extremos (ε ≥ 1/√m)
  2. Sistemas de Recomendación en Tiempo Real: Necesidad de cálculo rápido de puntuaciones de importancia local
  3. Redes Neuronales de Grafos: Como paso de preprocesamiento para calcular importancia de nodos

Referencias

Este artículo cita 52 referencias relacionadas, abarcando múltiples campos incluyendo cálculo de PPR, optimización acelerada, algoritmos locales, proporcionando base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad que equilibra teoría y práctica, logrando progreso significativo en el importante problema de aceleración de cálculo de PPR. Aunque presenta algunas limitaciones teóricas, su innovación y practicidad lo convierten en una contribución importante en este campo.