A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Zhou, Luo, Wang et al.
A graph with $n$ vertices is an $f(\cdot)$-dense graph if it has at least $f(n)$ edges, $f(\cdot)$ being a well-defined function. The notion $f(\cdot)$-dense graph encompasses various clique models like $γ$-quasi cliques, $k$-defective cliques, and dense cliques, arising in cohesive subgraph extraction applications. However, the $f(\cdot)$-dense graph may be disconnected or weakly connected. To conquer this, we study the problem of finding the largest $f(\cdot)$-dense subgraph with a diameter of at most two in the paper. Specifically, we present a decomposition-based branch-and-bound algorithm to optimally solve this problem. The key feature of the algorithm is a decomposition framework that breaks the graph into $n$ smaller subgraphs, allowing independent searches in each subgraph. We also introduce decomposition strategies including degeneracy and two-hop degeneracy orderings, alongside a branch-and-bound algorithm with a novel sorting-based upper bound to solve each subproblem. Worst-case complexity for each component is provided. Empirical results on 139 real-world graphs under two $f(\cdot)$ functions show our algorithm outperforms the MIP solver and pure branch-and-bound, solving nearly twice as many instances optimally within one hour.
academic
Un Approccio Branch-and-Bound per Problemi di Sottografi Densi a Basso Diametro Massimale
Titolo: A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Autori: Yi Zhou (University of Electronic Science and Technology of China), Chunyu Luo (University of Electronic Science and Technology of China), Zhengren Wang (Peking University), Zhang-Hua Fu (Shenzhen Institute of Artificial Intelligence and Robotics for Society, CUHK Shenzhen)
Classificazione: cs.DS (Strutture Dati e Algoritmi)
Questo articolo affronta il problema del massimo sottografo f(·)-denso a basso diametro (MfDS). Un grafo f(·)-denso è un grafo con n vertici e almeno f(n) archi, dove f(·) è una funzione ben definita. Questo concetto comprende vari modelli di rilassamento della clique come quasi-clique γ, clique difettose k e clique dense. Tuttavia, i grafi f(·)-densi potrebbero non essere connessi o debolmente connessi. Per affrontare questo problema, l'articolo studia la ricerca del massimo sottografo f(·)-denso con diametro non superiore a 2. Nello specifico, viene proposto un algoritmo branch-and-bound basato sulla decomposizione per risolvere il problema in modo ottimale. La caratteristica chiave dell'algoritmo è la decomposizione del grafo in n sottografi più piccoli, consentendo la ricerca indipendente in ciascun sottografo. L'articolo introduce inoltre strategie di decomposizione come l'ordinamento per degenerazione e l'ordinamento per degenerazione a due salti, insieme a un algoritmo branch-and-bound con nuovi limiti superiori ordinati. I risultati sperimentali su 139 grafi reali dimostrano che l'algoritmo supera i risolutori MIP e i metodi branch-and-bound puri, risolvendo in modo ottimale quasi il doppio delle istanze entro un'ora.
Nell'analisi delle reti, l'identificazione di sottografi strettamente connessi (cohesive subgraph) è un compito centrale, con applicazioni nella scoperta di comunità, identificazione di complessi proteici, analisi di reti finanziarie e altri campi. Il modello classico di clique richiede archi tra tutte le coppie di vertici, ma questo requisito è troppo rigoroso, specialmente nelle applicazioni pratiche con rumore e errori. Di conseguenza, sono emersi vari modelli di rilassamento della clique, come:
Quasi-clique γ: sottografo indotto di n vertici con almeno γ(n choose 2) archi
Clique difettosa s: con almeno (n choose 2) - s archi
s-plex medio: con almeno n(n-s)/2 archi
Questi modelli possono essere unificati come grafi f(·)-densi: un grafo con n vertici ha almeno f(n) archi.
I modelli di grafo f(·)-denso esistenti presentano un difetto grave: potrebbero non essere connessi o avere connettività debole. L'articolo illustra questo attraverso due esempi nella Figura 1:
G1: una clique di 200 vertici più un percorso di 10 vertici, dove da v1 a v210 sono necessari 10 salti
G2: una clique di 200 vertici più 10 vertici isolati, dove non esiste percorso tra v1 e v210
Entrambi i grafi soddisfano il requisito di densità f(n)=0.9(n choose 2), ma chiaramente non rappresentano comunità strettamente connesse.
Metodo MIP: sebbene esistano modelli di programmazione lineare intera per funzioni f(·) specifiche (come GF3), sono inefficienti per grafi di grandi dimensioni e mancano modelli MIP per vincoli di basso diametro
Metodo Branch-and-Bound: esistono algoritmi per problemi specifici (come massima clique difettosa, massima quasi-clique γ), ma manca un framework generale per risolvere grafi f(·)-densi
Vincoli di Connettività: Santos et al. (2024) propongono vincoli di connettività basati su alberi di copertura, ma i vincoli di diametro garantiscono meglio la connettività stretta
Questo articolo introduce il concetto di grafo f(·)-denso a basso diametro: richiede che il grafo sia connesso, abbia almeno f(n) archi e diametro non superiore a 2. Il vincolo di diametro 2 (denominato 2-club) assicura che il percorso più breve tra due vertici qualsiasi non superi 2, garantendo forte connettività. L'articolo mira a progettare algoritmi esatti efficienti per risolvere questo problema NP-hard.
Prima definizione sistematica di grafi f(·)-densi e loro proprietà ereditarie
Formalizzazione del problema del massimo sottografo f(·)-denso a basso diametro (MfDS)
Fornitura di modello di programmazione lineare intera MIP-fD
Framework Algoritmico:
Proposta di framework di preprocessing basato sulla decomposizione del grafo che decompone il grafo di input in n sottografi più piccoli
Introduzione di due strategie di decomposizione: ordinamento per degenerazione e ordinamento per degenerazione a due salti
Progettazione di algoritmo branch-and-bound con nuovi limiti superiori ordinati
Fornitura di analisi della complessità nel caso peggiore per componenti e algoritmo complessivo
Verifica Sperimentale:
Test su 139 grafi reali con due funzioni f(·) (quasi-clique γ e clique difettosa s)
Dimostrazione che il framework di decomposizione migliora significativamente le prestazioni, risolvendo il doppio delle istanze rispetto al branch-and-bound puro in un'ora
Dimostrazione che il metodo dei limiti superiori ordinati riduce significativamente la dimensione dell'albero di ricerca
Lemma Chiave (Lemma 3): Dato un ordinamento arbitrario di vertici π=⟨v1,...,vn⟩ del grafo G, per ogni vertice vi, definiamo:
Vi = {vi} ∪ {N^(2)_G(vi) ∩ {vi+1,...,vn}}
Gi = GVi
Se S_i è il massimo sottografo f(·)-denso a basso diametro in Gi contenente vi, allora:
**ωf(G) = max(|S_1|,...,|S*_n|)**
Flusso dell'Algoritmo:
1. Ottenere soluzione iniziale S con algoritmo euristico (limite inferiore)
2. Determinare ordine dei vertici π con algoritmo di ordinamento
3. Per ogni vi in π:
- Costruire sottografo Gi = G[Vi]
- Risolvere con ExactSearch(Gi, f(·), {vi}, N^(2)_G(vi), lb)
4. Restituire massima soluzione tra tutti i sottoproblemi
Definizione: un ordinamento k-degenere è un ordinamento di vertici ⟨v1,...,vn⟩ dove ogni vi ha grado ≤ k nel sottografo indotto {vi,...,vn}
Calcolo: algoritmo peel, tempo O(|V|+|E|), eliminazione ripetuta del vertice di grado minimo
Grado di degenerazione dG: valore minimo di k
Flusso Euristico:
1. Calcolare ordinamento per degenerazione ⟨v1,...,vn⟩
2. Per ogni vi:
- Si ← {vi} ∪ {NG(vi) ∩ {vi+1,...,vn}}
- Gi ← G[Si] (diametro ≤ 2)
- While |Ei| < f(|Si|):
Eliminare vertice di grado minimo in Gi
- Aggiornare soluzione ottimale S*
3. Restituire S*
Complessità Temporale: O(|E| + |V|d²G)
Nei grafi reali dG << |V| (es. ca-dblp-2010: dG=74, |V|=226413)
BranchBound(G, S, C, lb):
Input: grafo G, soluzione corrente S, insieme candidato C, limite inferiore lb
1. Se G[S] è soluzione fattibile e |S|>lb: aggiornare lb e soluzione ottimale
2. Se f(·) è ereditaria e |E(S)|<f(|S|): potatura e ritorno
3. UB ← SortBound(G, f(·), S, C) // calcolare limite superiore
4. Se UB ≤ lb: potatura e ritorno
5. Se f(·) è ereditaria: applicare regole di riduzione (Lemma 5)
6. Selezionare casualmente u∈C
7. Se soddisfa condizioni di Lemma 4: ricorsione solo su ramo S∪{u}
Altrimenti: ricorsione su entrambi rami S∪{u} e S
Il limite semplice non considera il vincolo a due salti
Flusso dell'Algoritmo:
1. Partizionare C in χ insiemi indipendenti Π1,...,Πχ con algoritmo greedy
(minimizzare χ ≈ problema di colorazione grafo, greedy O(|C|³))
2. Per ogni Πi:
a. Ordinare Πi per wS(v)
b. Partizionare ulteriormente Πi in Rσ, dove vertici in Rσ hanno distanza >2
c. Da ogni Rσ selezionare vertice con wS(·) minimo aggiungere a C'
d. Calcolare w'S(uj) = wS(uj) + j - 1
3. Ordinare C' per w'S(·), trovare massimo k tale che |E(S)| + w'S(Sk) ≤ gf(|S|+k)
4. Restituire |S|+k
Complessità Temporale: O(|C|³ + |S||C|)
Correttezza (Teorema 3):
Ogni insieme indipendente Πi può contribuire al massimo s'i vertici
Ogni Rσ può contribuire al massimo 1 vertice per il vincolo a due salti
Veremyev et al. (2016): "Exact MIP-based approaches for finding maximum quasi-cliques and dense subgraphs" - Propone modello MIP GF3
Luo et al. (2024): "A faster branching algorithm for the maximum k-defective clique problem" - ECAI 2024, algoritmo O(nc·1.2ⁿ)
Chang (2023): "Efficient maximum k-defective clique computation with improved time complexity" - PACMMOD, branch-and-bound migliorato
Santos et al. (2024): "Ensuring connectedness for the maximum quasi-clique and densest k-subgraph problems" - Vincoli connettività basati su albero di copertura
Wünsche (2021): "Mind the gap when searching for relaxed cliques" - Primo ordinamento degenerazione due salti
Matula & Beck (1983): "Smallest-last ordering and clustering and graph coloring algorithms" - Lavoro classico ordinamento degenerazione
Asahiro et al. (2002): "Complexity of finding dense subgraphs" - Risultati complessità grafi f(·)-densi
Downey & Fellows (2012): "Parameterized complexity" - Teoria W1-hardness
Valutazione Complessiva: Questo è un articolo eccellente con rigore teorico, innovazione algoritmica e esperimenti completi. Il framework di decomposizione e il metodo di limite superiore ordinato hanno elevata generalità e valore pratico. Il principale contributo risiede nell'unificazione di vari modelli di rilassamento della clique e nella fornitura di algoritmi efficienti per la risoluzione. Consigliato per l'accettazione, con significativo contributo ai campi degli algoritmi su grafi e analisi di reti.