A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Zhou, Luo, Wang et al.
A graph with $n$ vertices is an $f(\cdot)$-dense graph if it has at least $f(n)$ edges, $f(\cdot)$ being a well-defined function. The notion $f(\cdot)$-dense graph encompasses various clique models like $γ$-quasi cliques, $k$-defective cliques, and dense cliques, arising in cohesive subgraph extraction applications. However, the $f(\cdot)$-dense graph may be disconnected or weakly connected. To conquer this, we study the problem of finding the largest $f(\cdot)$-dense subgraph with a diameter of at most two in the paper. Specifically, we present a decomposition-based branch-and-bound algorithm to optimally solve this problem. The key feature of the algorithm is a decomposition framework that breaks the graph into $n$ smaller subgraphs, allowing independent searches in each subgraph. We also introduce decomposition strategies including degeneracy and two-hop degeneracy orderings, alongside a branch-and-bound algorithm with a novel sorting-based upper bound to solve each subproblem. Worst-case complexity for each component is provided. Empirical results on 139 real-world graphs under two $f(\cdot)$ functions show our algorithm outperforms the MIP solver and pure branch-and-bound, solving nearly twice as many instances optimally within one hour.
academic
Une Approche par Séparation et Évaluation pour les Problèmes de Sous-Graphes Denses de Faible Diamètre Maximum
Titre : A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Auteurs : Yi Zhou (University of Electronic Science and Technology of China), Chunyu Luo (University of Electronic Science and Technology of China), Zhengren Wang (Peking University), Zhang-Hua Fu (Shenzhen Institute of Artificial Intelligence and Robotics for Society, CUHK Shenzhen)
Classification : cs.DS (Structures de Données et Algorithmes)
Cet article étudie le problème du sous-graphe f(·)-dense de faible diamètre maximum (MfDS). Un graphe f(·)-dense est un graphe possédant n sommets et au moins f(n) arêtes, où f(·) est une fonction bien définie. Ce concept englobe plusieurs modèles de relaxation de clique, notamment les quasi-cliques γ, les cliques défectueuses de degré k et les cliques denses. Cependant, les graphes f(·)-denses peuvent ne pas être connexes ou être faiblement connexes. Pour résoudre ce problème, cet article étudie la recherche du sous-graphe f(·)-dense maximum avec un diamètre ne dépassant pas 2. Spécifiquement, un algorithme de séparation et évaluation basé sur la décomposition est proposé pour résoudre optimalement ce problème. La caractéristique clé de l'algorithme est la décomposition du graphe en n sous-graphes plus petits, permettant une recherche indépendante dans chaque sous-graphe. L'article introduit également des stratégies de décomposition telles que l'ordonnancement par dégénérescence et l'ordonnancement par dégénérescence à deux sauts, ainsi qu'un algorithme de séparation et évaluation avec des bornes d'ordonnancement novatrices. Les résultats expérimentaux sur 139 graphes réels montrent que l'algorithme surpasse les solveurs MIP et les méthodes de séparation et évaluation pures, résolvant optimalement presque deux fois plus d'instances en une heure.
L'identification de sous-graphes densément connectés (cohesive subgraph) est une tâche centrale en analyse de réseaux, avec des applications en découverte de communautés, identification de complexes protéiques, analyse de réseaux financiers, etc. Le modèle classique de clique exige une arête entre toutes les paires de sommets, mais cette exigence est trop stricte, particulièrement dans les applications pratiques avec bruit et erreurs. Plusieurs modèles de relaxation de clique ont donc émergé :
Quasi-cliques γ : un sous-graphe induit de n sommets possédant au moins γ(n choose 2) arêtes
Cliques défectueuses s : possédant au moins (n choose 2) - s arêtes
s-plex moyen : possédant au moins n(n-s)/2 arêtes
Ces modèles peuvent être unifiés comme graphes f(·)-denses : un graphe de n sommets possédant au moins f(n) arêtes.
Les modèles existants de graphes f(·)-denses présentent un défaut grave : ils peuvent ne pas être connexes ou avoir une connectivité très faible. L'article illustre cela par deux exemples à la Figure 1 :
G1 : une clique de 200 sommets plus un chemin de 10 sommets, nécessitant 10 sauts de v1 à v210
G2 : une clique de 200 sommets plus 10 sommets isolés, sans chemin entre v1 et v210
Ces deux graphes satisfont l'exigence de densité f(n)=0.9(n choose 2), mais ne représentent clairement pas des communautés densément connectées.
Méthodes MIP : bien que des modèles de programmation linéaire en nombres entiers existent pour des fonctions f(·) spécifiques (comme GF3), ils sont inefficaces sur les graphes de grande taille et manquent de modèles MIP pour les contraintes de faible diamètre
Méthodes de séparation et évaluation : des algorithmes existent pour des problèmes spécifiques (comme la clique défectueuse maximale, la quasi-clique maximale γ), mais manquent d'un cadre de résolution générique pour les graphes f(·)-denses
Contraintes de connectivité : Santos et al. (2024) proposent des contraintes de connectivité basées sur les arbres couvrants, mais les contraintes de diamètre garantissent mieux la connectivité serrée
Cet article introduit le concept de graphes f(·)-denses de faible diamètre : exigeant que le graphe soit connexe, possède au moins f(n) arêtes, et ait un diamètre ne dépassant pas 2. La contrainte de diamètre 2 (appelée 2-club) garantit que le chemin le plus court entre deux sommets quelconques ne dépasse pas 2, assurant une forte connectivité. L'article vise à concevoir des algorithmes exacts efficaces pour résoudre ce problème NP-difficile.
Première définition systématique des graphes f(·)-denses et de leurs propriétés héréditaires
Formalisation du problème du sous-graphe f(·)-dense de faible diamètre maximum (MfDS)
Fourniture d'un modèle de programmation linéaire en nombres entiers MIP-fD
Cadre Algorithmique :
Proposition d'un cadre de prétraitement basé sur la décomposition de graphe, décomposant le graphe d'entrée en n sous-graphes plus petits
Introduction de deux stratégies de décomposition : l'ordonnancement par dégénérescence et l'ordonnancement par dégénérescence à deux sauts
Conception d'un algorithme de séparation et évaluation avec des bornes d'ordonnancement novatrices
Fourniture d'une analyse de complexité au pire cas pour chaque composant et l'algorithme global
Vérification Expérimentale :
Test sur 139 graphes réels avec deux fonctions f(·) (quasi-cliques γ et cliques défectueuses s)
Démonstration que le cadre de décomposition améliore significativement les performances, résolvant deux fois plus d'instances en une heure que la séparation et évaluation pure
Démonstration que la méthode de borne d'ordonnancement réduit considérablement la taille de l'arbre de recherche
Lemme Clé (Lemme 3) : Étant donné un ordonnancement arbitraire π=⟨v1,...,vn⟩ des sommets du graphe G, pour chaque sommet vi, définissons :
Vi = {vi} ∪ {N^(2)_G(vi) ∩ {vi+1,...,vn}}
Gi = GVi
Si S_i est le sous-graphe f(·)-dense de faible diamètre maximal contenant vi dans Gi, alors :
**ωf(G) = max(|S_1|,...,|S*_n|)**
Flux de l'Algorithme :
1. Obtenir une solution initiale S avec un algorithme heuristique (borne inférieure)
2. Déterminer l'ordre des sommets π avec un algorithme d'ordonnancement
3. Pour chaque vi dans π :
- Construire le sous-graphe Gi = G[Vi]
- Résoudre avec ExactSearch(Gi, f(·), {vi}, N^(2)_G(vi), lb)
4. Retourner la solution maximale de tous les sous-problèmes
Définition : un ordonnancement k-dégénéré est un ordonnancement de sommets ⟨v1,...,vn⟩ tel que chaque vi a un degré ≤ k dans le sous-graphe induit par {vi,...,vn}
Calcul : utiliser l'algorithme peel, O(|V|+|E|) temps, en supprimant répétitivement le sommet de degré minimal
Degré de dégénérescence dG : la valeur k minimale
Flux Heuristique :
1. Calculer l'ordonnancement par dégénérescence ⟨v1,...,vn⟩
2. Pour chaque vi :
- Si ← {vi} ∪ {NG(vi) ∩ {vi+1,...,vn}}
- Gi ← G[Si] (diamètre ≤ 2)
- Tant que |Ei| < f(|Si|) :
Supprimer le sommet de degré minimal dans Gi
- Mettre à jour la solution optimale S*
3. Retourner S*
Complexité Temporelle : O(|E| + |V|d²G)
Dans les graphes réels dG << |V| (par exemple ca-dblp-2010 : dG=74, |V|=226413)
BranchBound(G, S, C, lb):
Entrée : graphe G, solution courante S, ensemble candidat C, borne inférieure lb
1. Si G[S] est une solution réalisable et |S|>lb : mettre à jour lb et la solution optimale
2. Si f(·) est héréditaire et |E(S)|<f(|S|) : élaguer et retourner
3. UB ← SortBound(G, f(·), S, C) // Calculer la borne supérieure
4. Si UB ≤ lb : élaguer et retourner
5. Si f(·) est héréditaire : appliquer les règles de réduction (Lemme 5)
6. Sélectionner aléatoirement u∈C
7. Si les conditions du Lemme 4 sont satisfaites : récursion uniquement sur la branche S∪{u}
Sinon : récursion sur les deux branches S∪{u} et S
La borne simple ne considère pas la contrainte à deux sauts
Flux de l'Algorithme :
1. Partitionner C en χ ensembles indépendants Π1,...,Πχ avec un algorithme glouton
(minimiser χ ≈ problème de coloration de graphe, glouton en O(|C|³))
2. Pour chaque Πi :
a. Ordonner Πi par wS(v)
b. Partitionner davantage Πi en plusieurs Rσ, tel que la distance entre deux sommets quelconques dans Rσ > 2
c. Sélectionner le sommet avec le minimum wS(·) de chaque Rσ et l'ajouter à C'
d. Calculer w'S(uj) = wS(uj) + j - 1
3. Ordonner C' par w'S(·), trouver le maximum k tel que |E(S)| + w'S(Sk) ≤ gf(|S|+k)
4. Retourner |S|+k
Complexité Temporelle : O(|C|³ + |S||C|)
Correction (Théorème 3) :
Chaque ensemble indépendant Πi peut contribuer au maximum s'i sommets
Chaque Rσ peut contribuer au maximum 1 sommet en raison de la contrainte à deux sauts
Manque de guidance théorique sur quand utiliser dégénérescence vs dégénérescence à deux sauts
Le Tableau 1 montre que parfois Deg-BnB est plus rapide (par exemple scc_infect-dublin)
Suggestion : concevoir une stratégie adaptative ou fournir une heuristique de sélection
Complexité de l'Algorithme de Borne :
O(|C|³) peut devenir un goulot d'étranglement
La coloration gloutonne n'est pas optimale
Direction d'amélioration : utiliser des algorithmes de coloration plus rapides ou relâcher l'optimalité
Comparaison Expérimentale :
Pas de comparaison avec la méthode d'arbre couvrant de Santos et al. 2024
Manque de comparaison avec les algorithmes optimaux pour des problèmes spécifiques (par exemple l'algorithme de Chang 2023 pour les cliques défectueuses)
Le modèle MIP pourrait avoir de l'espace pour amélioration (par exemple ajouter des inégalités valides)
Analyse de Scalabilité :
Discussion insuffisante pour les cas où αG>10,000
Performance sur graphes denses insuffisamment testée
Analyse de consommation mémoire manquante
Vides Théoriques :
Pas d'analyse du ratio d'approximation
Complexité paramétrée (par exemple avec αG comme paramètre) non discutée
Veremyev et al. (2016) : "Exact MIP-based approaches for finding maximum quasi-cliques and dense subgraphs" - Propose le modèle MIP GF3
Luo et al. (2024) : "A faster branching algorithm for the maximum k-defective clique problem" - ECAI 2024, algorithme O(nc·1.2ⁿ)
Chang (2023) : "Efficient maximum k-defective clique computation with improved time complexity" - PACMMOD, séparation et évaluation améliorée
Santos et al. (2024) : "Ensuring connectedness for the maximum quasi-clique and densest k-subgraph problems" - Contraintes de connectivité par arbre couvrant
Wünsche (2021) : "Mind the gap when searching for relaxed cliques" - Première proposition d'ordonnancement par dégénérescence à deux sauts
Matula & Beck (1983) : "Smallest-last ordering and clustering and graph coloring algorithms" - Travail classique sur l'ordonnancement par dégénérescence
Asahiro et al. (2002) : "Complexity of finding dense subgraphs" - Résultats de complexité pour graphes f(·)-denses
Downey & Fellows (2012) : "Parameterized complexity" - Théorie de la W1-difficulté
Évaluation Globale : Ceci est un excellent article avec une rigueur théorique, une innovation algorithmique et une vérification expérimentale complètes. Le cadre de décomposition et la méthode de borne d'ordonnancement possèdent une généralité et une valeur pratique élevées. Les contributions principales résident dans l'unification de plusieurs modèles de relaxation de clique et la fourniture d'algorithmes de résolution efficaces. Recommandation : acceptation, avec des contributions importantes aux domaines des algorithmes de graphe et de l'analyse de réseaux.