2025-11-16T19:07:13.213602

SLoG-Net: Algorithm Unrolling for Source Localization on Graphs

Ye, Mateos
We present a novel model-based deep learning solution for the inverse problem of localizing sources of network diffusion. Starting from first graph signal processing (GSP) principles, we show that the problem reduces to joint (blind) estimation of the forward diffusion filter and a sparse input signal that encodes the source locations. Despite the bilinear nature of the observations in said blind deconvolution task, by requiring invertibility of the diffusion filter we are able to formulate a convex optimization problem and solve it using the alternating-direction method of multipliers (ADMM). We then unroll and truncate the novel ADMM iterations to arrive at a parameterized neural network architecture for Source Localization on Graphs (SLoG-Net), that we train in an end-to-end fashion using labeled data. This supervised learning approach offers several advantages such as interpretability, parameter efficiency, and controllable complexity during inference. Our reproducible numerical experiments corroborate that SLoG-Net exhibits performance on par with the iterative ADMM baseline, but with markedly faster inference times and without needing to manually tune step-size or penalty parameters. Overall, our approach combines the best of both worlds by incorporating the inductive biases of a GSP model-based solution within a data-driven, trainable deep learning architecture for blind deconvolution of graph signals.
academic

SLoG-Net : Déroulement d'algorithme pour la localisation de source sur graphes

Informations de base

  • ID de l'article : 2501.00442
  • Titre : SLoG-Net: Algorithm Unrolling for Source Localization on Graphs
  • Auteurs : Chang Ye, Gonzalo Mateos (Université de Rochester)
  • Classification : eess.SP (Traitement du signal)
  • Date de soumission : 31 décembre 2024 sur arXiv
  • Lien de l'article : https://arxiv.org/abs/2501.00442

Résumé

Cet article propose une solution novatrice d'apprentissage profond basée sur un modèle pour résoudre le problème inverse de localisation de source de diffusion en réseau. À partir des principes fondamentaux du traitement du signal sur graphes (GSP), les auteurs réduisent le problème à l'estimation conjointe (aveugle) du filtre de diffusion avant et du signal d'entrée clairsemé codant la position de la source. Bien que la tâche de déconvolution aveugle présente une nature bilinéaire des observations, en imposant l'inversibilité du filtre de diffusion, il est possible de la formuler comme un problème d'optimisation convexe et de la résoudre à l'aide de la méthode des multiplicateurs avec directions alternées (ADMM). Par la suite, les auteurs déploient et tronquent les itérations ADMM novatrices, obtenant une architecture de réseau neuronal paramétrée pour la localisation de source sur graphes (SLoG-Net), et l'entraînent de bout en bout avec des données étiquetées. Cette approche d'apprentissage supervisé offre des avantages tels que l'interprétabilité, l'efficacité paramétrique et une complexité d'inférence contrôlable.

Contexte et motivation de la recherche

Définition du problème

La localisation de source de diffusion en réseau est un problème inverse important visant à identifier les positions des nœuds sources dans le réseau à partir des signaux de diffusion observés. Plus précisément :

  1. Entrée : Signal de graphe observé Y ∈ ℝ^(N×P), topologie de graphe connue
  2. Sortie : Signal source clairsemé X ∈ ℝ^(N×P) et coefficients de filtre de diffusion inconnus h
  3. Contraintes : Le signal source présente une parcimonie (au maximum S ≪ N éléments non nuls par colonne)

Importance

Ce problème trouve des applications étendues dans plusieurs domaines :

  • Surveillance environnementale basée sur des capteurs
  • Formation d'opinions dans les réseaux sociaux
  • Traitement de signaux neurologiques
  • Épidémiologie
  • Détection de propagation de fausses informations

Limitations des méthodes existantes

  1. Méthodes GSP traditionnelles : Dépendent de techniques de levée matricielle, complexité computationnelle élevée sur les grands graphes
  2. Solveurs itératifs : Nécessitent un ajustement minutieux des pas et des paramètres de régularisation, convergence lente
  3. Modèles probabilistes : Optimaux uniquement sur des structures de graphe spécifiques (par exemple, arbres) ou nécessitent des hypothèses de dépendance restrictives
  4. Ajustement des paramètres : Les méthodes existantes nécessitent une recherche en grille coûteuse pour sélectionner les paramètres

Contributions principales

  1. Contribution théorique : Reformulation du problème d'identification de filtre de graphe aveugle comme un problème d'optimisation convexe sous contrainte de filtre inversible
  2. Innovation algorithmique : Développement d'un algorithme ADMM spécialisé pour résoudre efficacement ce problème d'optimisation convexe
  3. Conception architecturale : Proposition de SLoG-Net, mappant les itérations ADMM en couches de réseau neuronal entraînables par déroulement d'algorithme
  4. Amélioration des performances : Réalisation de performances comparables à l'ADMM itératif, mais avec un temps d'inférence significativement plus rapide
  5. Apprentissage des paramètres : Apprentissage automatique des pas et des paramètres de pénalité par entraînement de bout en bout, sans ajustement manuel

Détails de la méthode

Définition de la tâche

Étant donné un graphe G(V,A) et un signal observé Y = HX, où :

  • H = Σ(l=0 à L-1) h_l S^l est un filtre de graphe d'ordre L
  • S est l'opérateur de décalage de graphe (par exemple, matrice d'adjacence normalisée)
  • X est la matrice de signal source clairsemé

L'objectif est d'estimer conjointement les coefficients de filtre h et l'entrée clairsemée X.

Architecture du modèle

1. Formulation de reconstruction convexe

Sous l'hypothèse d'inversibilité du filtre (Hypothèse 2), conversion du problème en :

min ||X||_{1,1} = ||(Y^T V ⊙ V)g̃||_1
s.c. 1^T_N g̃ = 1

où g̃ est la réponse en fréquence du filtre inverse.

2. Algorithme ADMM

Utilisation de la technique de séparation de variables :

min ||x||_1
s.c. Zg̃ - x = 0, 1^T_N g̃ = c

où Z = Y^T V ⊙ V, x = vecX.

Règles de mise à jour ADMM :

  • Mise à jour du filtre : g̃k+1 = Γ^(-1)Z^T(ρ_λxk - λk) + (ρ_μc - μk)1_N
  • Mise à jour du signal source : xk+1 = S_{ρ_λ^(-1)}(Zg̃k+1 + λk/ρ_λ)
  • Mise à jour des multiplicateurs de Lagrange : λk+1 = λk + ρ_λ(Zg̃k+1 - xk+1)

3. Architecture SLoG-Net

Déroulement des itérations ADMM en réseau neuronal à K couches, chaque couche contenant trois sous-couches :

Sous-couche de filtre G_k :

g̃[k+1] = (Z^T Z + ρ_2^(k) M^(k)M^(k)T)^(-1)[Z^T(x[k] - ρ_1^(k)λ[k]) + M^(k)(ρ_2^(k)m^(k) - ρ_1^(k)μ[k])]

Sous-couche de signal source X_k :

x[k+1] = S_{τ^(k)}(α_1^(k)Zg̃[k+1] + α_2^(k)λ[k])

Sous-couche de multiplicateurs M_k :

λ[k+1] = β_1^(k)λ[k] + β_2^(k)Zg̃[k+1] + β_3^(k)x[k+1]
μ[k+1] = γ^(k)μ[k] + M^(k)T g̃[k+1] + m^(k)

Points techniques innovants

  1. Contraintes apprises : Remplacement des contraintes fixes 1^T g̃ = 1 par une matrice paramétrée M^(k) et un vecteur m^(k)
  2. Découplage par couche : Utilisation de paramètres différents par couche plutôt que partage de paramètres, augmentant la capacité d'expression
  3. Inversion matricielle efficace : Exploitation de la structure diagonale de Z^T Z et du lemme d'inversion matricielle pour une complexité O(N^2)
  4. Connexions résiduelles : Conception du flux de données similaire à ResNet, avec Z entrant dans toutes les couches

Configuration expérimentale

Ensembles de données

  1. Données synthétiques :
    • Types de graphes : Erdős-Rényi, modèle de blocs aléatoires (SBM), Barabási-Albert, graphe géométrique aléatoire
    • Nombre de nœuds : N = 20-100
    • Parcimonie : θ = 0,15
    • Ordre du filtre : L = 5
  2. Données réelles :
    • Réseau social des dauphins (N=62)
    • Club de karaté de Zachary (N=34)
    • Sous-graphe de l'ensemble de données Digg 2009 (N=20)

Métriques d'évaluation

  1. Erreur relative (RE) : ||X̂ - X_test||_F / ||X_test||_F
  2. Précision du support (ACC) : Proportion de positions sources correctement identifiées
  3. Temps d'inférence : Temps d'exécution de la propagation avant

Méthodes de comparaison

  1. Ligne de base ADMM : Algorithme ADMM itératif
  2. Méthode GNN : Réseau de neurones de graphe convolutif
  3. IVGD : Réseau de diffusion de graphe conscient de la validité inversible

Détails d'implémentation

  • Nombre de couches du réseau : K = 5
  • Taille de l'ensemble d'entraînement : |T| = 200k
  • Taille du lot : P = 400
  • Optimiseur : Adam
  • Nombre d'epochs : 30
  • Dimension des paramètres de contrainte : d = 2

Résultats expérimentaux

Résultats principaux

1. Comparaison avec ADMM

  • Robustesse au bruit : SLoG-Net surpasse ADMM à différents niveaux de bruit
  • Vitesse d'inférence : Temps d'inférence de SLoG-Net environ 0,009s, ADMM nécessite 1,99-7,42s
  • Impact du nombre de paramètres : Lorsque le nombre de signaux observés P<160, SLoG-Net surpasse significativement ADMM

2. Performance sur différents types de graphes

Type de grapheNMRE de X̂MRE de ĝACC
ER200,1490,1640,953
SBM200,2190,2150,914
RG200,3830,3770,869
BA200,5790,5370,772
karate340,4540,4520,958
dauphins620,7190,5780,841

3. Comparaison de la complexité computationnelle

NSLoG-NetADMM
200,95×10^-2s2,04s
401,09×10^-2s5,70s
601,27×10^-2s9,41s
801,42×10^-2s12,29s
1001,64×10^-2s14,62s

Études d'ablation

  1. Taille de l'ensemble d'entraînement : Les performances se stabilisent pour |T|≥160k
  2. Nombre de couches du réseau : K=5 est le choix optimal
  3. Dimension des paramètres de contrainte : d=2 montre une amélioration significative par rapport à d=1

Expériences sur données réelles

Sur l'ensemble de données Digg 2009 :

  • AUC moyen de SLoG-Net : 0,56
  • AUC de la ligne de base IVGD : 0,51
  • Bien que les performances absolues soient limitées, SLoG-Net surpasse toujours les méthodes de comparaison sur cette tâche difficile

Travaux connexes

Méthodes de traitement du signal sur graphes

  • Les méthodes GSP traditionnelles utilisent la levée matricielle et la programmation convexe
  • Limitations : complexité computationnelle élevée, ajustement difficile des paramètres

Modèles probabilistes

  • Méthodes d'estimation du maximum de vraisemblance
  • Optimales uniquement sur des structures de graphe spécifiques

Méthodes d'apprentissage profond

  • Réseaux de neurones de graphe (GNN)
  • Applications de la technique de déroulement d'algorithme en traitement du signal

Conclusions et discussion

Conclusions principales

  1. SLoG-Net combine avec succès les méthodes GSP pilotées par le modèle et l'apprentissage profond piloté par les données
  2. Réalise des performances comparables à ADMM, mais avec une accélération de la vitesse d'inférence de 2-3 ordres de grandeur
  3. Apprend automatiquement les paramètres d'optimisation par entraînement de bout en bout, sans ajustement manuel
  4. Montre une bonne robustesse dans les environnements bruyants

Limitations

  1. Scalabilité : Actuellement validé principalement sur des graphes de petite taille (N≤100)
  2. Besoins en données d'entraînement : Nécessite une grande quantité de données étiquetées (200k échantillons)
  3. Dépendance de la structure du graphe : Les performances sont étroitement liées aux caractéristiques spectrales du graphe
  4. Inversibilité du filtre : Dépend d'une hypothèse d'inversibilité relativement forte

Directions futures

  1. Graphes à grande échelle : Développement de versions scalables pour les réseaux de grande taille
  2. Apprentissage par transfert : Étude de la capacité de généralisation du modèle entre différentes structures de graphe
  3. Analyse théorique : Établissement de garanties théoriques pour la stabilité et la transférabilité
  4. Extension des applications : Élargissement à des domaines tels que les neurosciences, la sismologie et l'épidémiologie

Évaluation approfondie

Points forts

  1. Fondations théoriques solides : Basé sur la théorie GSP, dérivations mathématiques rigoureuses
  2. Forte innovativité de la méthode : Première application du déroulement ADMM au problème de localisation de source sur graphes
  3. Expériences complètes : Couvrant les données synthétiques et réelles, plusieurs types de graphes et métriques d'évaluation
  4. Utilité pratique en ingénierie : L'amélioration significative de la vitesse la rend applicable en pratique
  5. Bonne interprétabilité : L'architecture du réseau correspond directement à l'algorithme d'optimisation, facilitant la compréhension

Insuffisances

  1. Limitation d'échelle : Les expériences sont principalement menées sur des graphes de petite taille, applicabilité à grande échelle inconnue
  2. Hypothèses fortes : L'hypothèse d'inversibilité du filtre peut ne pas être satisfaite dans les applications réelles
  3. Comparaisons incomplètes : Manque de comparaisons avec davantage de méthodes d'apprentissage profond récentes
  4. Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la capacité de généralisation

Impact

  1. Valeur académique : Fournit de nouvelles perspectives pour l'application du déroulement d'algorithme en traitement du signal sur graphes
  2. Valeur pratique : Potentiel d'application dans la surveillance de réseau, l'analyse de sentiment, etc.
  3. Reproductibilité : Les auteurs fournissent une implémentation de code complète

Scénarios d'application

  1. Tâches de localisation de source sur des réseaux de petite à moyenne taille
  2. Scénarios d'application avec des exigences élevées en temps réel
  3. Environnements où la structure du graphe est connue et relativement stable
  4. Scénarios d'apprentissage supervisé où les données d'entraînement sont disponibles

Références

L'article cite 46 références pertinentes, couvrant plusieurs domaines tels que le traitement du signal sur graphes, la théorie de l'optimisation et l'apprentissage profond, fournissant une base théorique solide pour la recherche.


Évaluation globale : Cet article est de haute qualité et combine avec succès la théorie de l'optimisation et l'apprentissage profond pour résoudre le problème important de localisation de source sur graphes. Bien qu'il y ait encore de la place pour l'amélioration en termes de scalabilité et d'analyse théorique, son innovativité et sa valeur pratique en font une contribution importante dans ce domaine.