2025-11-18T02:13:13.860390

Planted clique recovery in random geometric graphs

Avrachenkov, Bobu, Litvak et al.
We investigate the problem of identifying planted cliques in random geometric graphs, focusing on two distinct algorithmic approaches: the first based on vertex degrees (VD) and the other on common neighbors (CN). We analyze the performance of these methods under varying regimes of key parameters, namely the average degree of the graph and the size of the planted clique. We demonstrate that exact recovery is achieved with high probability as the graph size increases, in a specific set of parameters. Notably, our results reveal that the CN-algorithm significantly outperforms the VD-algorithm. In particular, in the connectivity regime, tiny planted cliques (even edges) are correctly identified by the CN-algorithm, yielding a significant impact on anomaly detection. Finally, our results are confirmed by a series of numerical experiments, showing that the devised algorithms are effective in practice.
academic

यादृच्छिक ज्यामितीय ग्राफ़ में रोपित समूह की पुनः प्राप्ति

मूल जानकारी

  • पेपर ID: 2510.12365
  • शीर्षक: यादृच्छिक ज्यामितीय ग्राफ़ में रोपित समूह की पुनः प्राप्ति
  • लेखक: कॉन्स्टेंटिन एवराचेंकोव, एंड्रेई बोबु, नेली लिटवाक, रिकार्डो मिचिएलान
  • वर्गीकरण: math.PR (संभाव्यता सिद्धांत), cs.DS (डेटा संरचना और एल्गोरिदम)
  • प्रकाशन तिथि: 15 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.12365

सारांश

यह पेपर यादृच्छिक ज्यामितीय ग्राफ़ में रोपित समूह (planted clique) की पहचान की समस्या का अध्ययन करता है, जिसमें दो अलग-अलग एल्गोरिदमिक दृष्टिकोणों पर ध्यान केंद्रित किया गया है: शीर्ष डिग्री (VD) आधारित विधि और सामान्य पड़ोसी (CN) आधारित विधि। लेखकों ने इन विधियों के प्रदर्शन का विश्लेषण किया है जो महत्वपूर्ण पैरामीटर के विभिन्न अंतरालों में होता है, जिसमें ग्राफ़ की औसत डिग्री और रोपित समूह का आकार शामिल है। अनुसंधान से पता चलता है कि विशेष पैरामीटर सेट के तहत, ग्राफ़ के आकार में वृद्धि के साथ, उच्च संभावना के साथ सटीक पुनः प्राप्ति प्राप्त की जा सकती है। उल्लेखनीय रूप से, CN एल्गोरिदम VD एल्गोरिदम से काफी बेहतर है। विशेष रूप से कनेक्टिविटी अंतराल के भीतर, CN एल्गोरिदम सूक्ष्म रोपित समूहों (यहां तक कि किनारों) की सही पहचान कर सकता है, जिसका विसंगति पहचान के लिए महत्वपूर्ण प्रभाव है। अंत में, संख्यात्मक प्रयोग सैद्धांतिक परिणामों को सत्यापित करते हैं, जो दर्शाता है कि डिज़ाइन किए गए एल्गोरिदम व्यावहारिक रूप से प्रभावी हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

रोपित समूह समस्या ग्राफ सिद्धांत में एक शास्त्रीय समस्या है, जो मूल रूप से Erdős-Rényi यादृच्छिक ग्राफ़ के लिए प्रस्तावित की गई थी। इस समस्या को औपचारिक रूप से इस प्रकार परिभाषित किया जा सकता है: एक यादृच्छिक ग्राफ़ दिया गया है, इसमें से यादृच्छिक रूप से k शीर्षों को चुनें और उन्हें एक पूर्ण उप-ग्राफ़ (समूह) बनाने के लिए बाध्य करें, फिर इस रोपित समूह की पहचान करने के लिए बहुपद समय एल्गोरिदम डिज़ाइन करें।

अनुसंधान का महत्व

  1. व्यावहारिक अनुप्रयोग मूल्य: रोपित समूह पहचान के कई क्षेत्रों में महत्वपूर्ण अनुप्रयोग हैं:
    • सामाजिक नेटवर्क में समुदाय पहचान
    • जैविक नेटवर्क में कार्यात्मक मॉड्यूल पहचान
    • नेटवर्क विसंगति पहचान
    • स्टेगानोग्राफी में छिपी हुई जानकारी की पहचान
  2. सैद्धांतिक महत्व: यादृच्छिक ज्यामितीय ग्राफ़ Erdős-Rényi ग्राफ़ की तुलना में वास्तविक दुनिया के नेटवर्क को बेहतर तरीके से मॉडल करते हैं, क्योंकि उनमें क्लस्टरिंग प्रवृत्ति और स्थानिक संरचना विशेषताएं हैं।

मौजूदा विधियों की सीमाएं

  • शीर्ष डिग्री आधारित शास्त्रीय एल्गोरिदम (VD एल्गोरिदम) को Erdős-Rényi ग्राफ़ में सफल होने के लिए k = Ω(√n log n) आकार के रोपित समूह की आवश्यकता होती है
  • यादृच्छिक ज्यामितीय ग्राफ़ में रोपित समूह समस्या के लिए व्यवस्थित अनुसंधान की कमी है
  • मौजूदा विधियों को छोटे पैमाने की रोपित संरचनाओं का पता लगाना मुश्किल है

अनुसंधान प्रेरणा

लेखकों का मानना है कि यादृच्छिक ज्यामितीय ग्राफ़ की ज्यामितीय संरचना कृत्रिम संरचनाओं (जैसे रोपित समूह) की पहचान को Erdős-Rényi ग्राफ़ में अधिक प्रभावी बनाती है, और पारंपरिक एल्गोरिदम की सैद्धांतिक सीमाओं को तोड़ सकती है।

मुख्य योगदान

  1. VD एल्गोरिदम का सैद्धांतिक विश्लेषण: यादृच्छिक ज्यामितीय ग्राफ़ में शीर्ष डिग्री एल्गोरिदम का पहली बार व्यवस्थित विश्लेषण, इस एल्गोरिदम की सफलता के पैरामीटर अंतराल को निर्धारित करता है।
  2. CN एल्गोरिदम का प्रस्ताव और विश्लेषण: सामान्य पड़ोसी आधारित बहुपद समय एल्गोरिदम का परिचय, और यह साबित करना कि यह पैरामीटर के व्यापक अंतराल में प्रभावी है।
  3. सफलता की सैद्धांतिक परिणाम: CN एल्गोरिदम अत्यंत छोटे रोपित समूहों को पुनः प्राप्त कर सकता है, यहां तक कि रोपित किनारों (k=2 का मामला) को भी, जो Erdős-Rényi ग्राफ़ में असंभव है।
  4. प्रायोगिक सत्यापन: संख्यात्मक प्रयोगों के माध्यम से सैद्धांतिक परिणामों को सत्यापित करता है, एल्गोरिदम की व्यावहारिक प्रभावशीलता को साबित करता है।

विधि विवरण

कार्य परिभाषा

इनपुट: यादृच्छिक ज्यामितीय ग्राफ़ G_k(n,r_n), जिसमें आकार k का एक रोपित समूह शामिल है आउटपुट: रोपित समूह K के शीर्ष सेट की सटीक पहचान लक्ष्य: सटीक पुनः प्राप्ति प्राप्त करना, अर्थात् lim_{n→∞} P(K_n = K̂_n) = 1

यादृच्छिक ज्यामितीय ग्राफ़ मॉडल

यादृच्छिक ज्यामितीय ग्राफ़ G(n,r_n) का निर्माण:

  • शीर्ष स्थिति: X_i को d-आयामी इकाई टोरस 0,1^d पर समान रूप से वितरित किया जाता है
  • किनारे का नियम: शीर्ष i और j जुड़े हुए हैं यदि और केवल यदि d_T(X_i, X_j) ≤ r_n
  • औसत डिग्री: μ_n = nφ_d r_n^d, जहां φ_d d-आयामी इकाई गोले का आयतन है

VD एल्गोरिदम (शीर्ष डिग्री एल्गोरिदम)

एल्गोरिदम प्रवाह:

  1. सभी शीर्षों की डिग्री Z_i = |N(i)| की गणना करें
  2. रोपित समूह के अनुमान के रूप में डिग्री के सबसे बड़े k शीर्षों को चुनें

सैद्धांतिक परिणाम:

  • सकारात्मक परिणाम (प्रमेय 2): जब k > (1+ε)(T(n)-t(n)) हो, तो VD एल्गोरिदम उच्च संभावना के साथ रोपित समूह को सफलतापूर्वक पुनः प्राप्त करता है
  • नकारात्मक परिणाम (प्रमेय 3): कुछ पैरामीटर अंतरालों में, VD एल्गोरिदम आवश्यक रूप से विफल हो जाता है

CN एल्गोरिदम (सामान्य पड़ोसी एल्गोरिदम)

एल्गोरिदम प्रवाह:

  1. सभी किनारों (i,j) ∈ E को ट्रैवर्स करें
  2. जांचें कि क्या i और j के पास बिल्कुल k-2 सामान्य पड़ोसी हैं
  3. सत्यापित करें कि क्या ये k-2 सामान्य पड़ोसी एक समूह बनाते हैं
  4. यदि शर्तें पूरी हों, तो {i,j} और इसके सामान्य पड़ोसियों से बने k-समूह को लौटाएं

मुख्य विचार: यादृच्छिक ज्यामितीय ग्राफ़ की ज्यामितीय संरचना विशेषताओं का उपयोग करें। जैसा कि चित्र 1 में दिखाया गया है, प्राकृतिक रूप से बने किनारों के सामान्य पड़ोसी दो असंबंधित क्षेत्रों R₁ और R₂ में वितरित होते हैं, इन क्षेत्रों में शीर्ष एक दूसरे से जुड़ नहीं सकते, इसलिए समूह नहीं बना सकते। जबकि रोपित समूह में किनारे इस सीमा से प्रभावित नहीं होते हैं।

तकनीकी नवाचार बिंदु

  1. ज्यामितीय संरचना का उपयोग: CN एल्गोरिदम यादृच्छिक ज्यामितीय ग्राफ़ की स्थानिक बाधा विशेषताओं का चतुराई से उपयोग करता है
  2. सीमा सफलता: CN एल्गोरिदम प्राकृतिक समूह आकार से बहुत छोटे रोपित समूहों का पता लगा सकता है
  3. पैरामीटर अंतराल विस्तार: VD एल्गोरिदम की तुलना में, CN एल्गोरिदम μ-k पैरामीटर प्लेन के व्यापक क्षेत्र पर प्रभावी है

प्रायोगिक सेटअप

प्रायोगिक पैरामीटर

  • ग्राफ़ स्केल: n = 10⁴
  • औसत डिग्री: μ ∈ {1, 5, 20}
  • रोपित समूह आकार: k बड़े मान तक भिन्न होता है
  • पुनरावृत्ति संख्या: प्रत्येक पैरामीटर संयोजन के लिए 1000 स्वतंत्र प्रयोग

मूल्यांकन मेट्रिक्स

सफलता दर: एल्गोरिदम द्वारा रोपित समूह को सही तरीके से पुनः प्राप्त करने वाले प्रयोगों का अनुपात

तुलना विधियां

VD एल्गोरिदम बनाम CN एल्गोरिदम की सीधी तुलना

प्रायोगिक परिणाम

मुख्य परिणाम

प्रायोगिक परिणाम (चित्र 3) पूरी तरह से सैद्धांतिक भविष्यवाणियों को सत्यापित करते हैं:

  1. μ = 1 पर: दोनों एल्गोरिदम का प्रदर्शन समान है, दोनों बड़े k मान पर सफल हो सकते हैं
  2. μ = 5 पर: CN एल्गोरिदम लाभ दिखाना शुरू करता है, छोटे रोपित समूहों को पुनः प्राप्त कर सकता है
  3. μ = 20 पर: CN एल्गोरिदम VD एल्गोरिदम से काफी बेहतर है, लगभग सभी परीक्षित रोपित समूह आकारों को पुनः प्राप्त कर सकता है

मुख्य निष्कर्ष

  • CN एल्गोरिदम सभी परीक्षण परिदृश्यों में VD एल्गोरिदम से बेहतर है
  • औसत डिग्री μ बढ़ने के साथ, VD एल्गोरिदम का प्रदर्शन घटता है, जबकि CN एल्गोरिदम स्थिर रहता है
  • CN एल्गोरिदम रोपित किनारों (k=2) का सफलतापूर्वक पता लगा सकता है, जो सैद्धांतिक परिणामों का प्रायोगिक सत्यापन है

सैद्धांतिक विश्लेषण

VD एल्गोरिदम विश्लेषण

सफलता की शर्त: min_{i∈K} Z_i > max_{i∈V\K} Z_i

यादृच्छिक ज्यामितीय ग्राफ़ में अधिकतम डिग्री Δ_n और न्यूनतम डिग्री δ_n के स्पर्शोन्मुख व्यवहार का विश्लेषण करके:

  • जब α = μ_n/log(n) ∈ [0,∞) हो: k > (1+ε)(T(n)-t(n)) की आवश्यकता है
  • जब α = ∞ हो: k > εμ_n की आवश्यकता है

CN एल्गोरिदम विश्लेषण

विफलता की शर्त विश्लेषण: एल्गोरिदम विफल होता है यदि और केवल यदि निम्नलिखित घटनाओं में से एक घटित हो:

  • घटना A: रोपित समूह में सभी किनारे जोड़ों के पास समूह के बाहर सामान्य पड़ोसी हैं
  • घटना B₁∩B₂: समूह के बाहर एक किनारा मौजूद है जिसके पास बिल्कुल k-2 सामान्य पड़ोसी हैं और वे समूह बनाते हैं

सफलता अंतराल (प्रमेय 4):

  1. जब k_n ≤ αn और μ_n ne^{-c₁,d μ_n} = o(1) हो
  2. या अधिक जटिल शर्तें (8) को संतुष्ट करते हों

संबंधित कार्य

शास्त्रीय रोपित समूह समस्या

  • Kučera (1995): पहली बार VD एल्गोरिदम का प्रस्ताव, k = Ω(√n log n) के लिए उपयुक्त
  • Alon आदि (1998): साबित करते हैं कि बहुपद एल्गोरिदम मौजूद है जब k > c√n हो

यादृच्छिक ज्यामितीय ग्राफ़ अनुसंधान

  • समूह संख्या के स्पर्शोन्मुख व्यवहार अनुसंधान (McDiarmid, Penrose आदि)
  • अनुप्रयोग क्षेत्र: सामाजिक नेटवर्क, जैविक नेटवर्क, मशीन लर्निंग

इस पेपर का योगदान

पहली बार रोपित समूह समस्या को यादृच्छिक ज्यामितीय ग्राफ़ तक विस्तारित करता है, और ज्यामितीय संरचना द्वारा लाए गए लाभों की खोज करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. CN एल्गोरिदम यादृच्छिक ज्यामितीय ग्राफ़ में पारंपरिक VD एल्गोरिदम से काफी बेहतर है
  2. ज्यामितीय संरचना अत्यंत छोटे रोपित समूहों (यहां तक कि रोपित किनारों) की पहचान को संभव बनाती है
  3. सैद्धांतिक परिणाम प्रयोगों द्वारा पूरी तरह से सत्यापित हैं

सीमाएं

  1. विश्लेषण कठोर यादृच्छिक ज्यामितीय ग्राफ़ मॉडल तक सीमित है
  2. कुछ पैरामीटर अंतरालों के लिए सैद्धांतिक गारंटी अभी भी अधूरी है
  3. एल्गोरिदम जटिलता अधिक हो सकती है: CN एल्गोरिदम सबसे खराब स्थिति में O(μ_n n(n + k²)) है

भविष्य की दिशाएं

  1. नरम यादृच्छिक ज्यामितीय ग्राफ़ तक विस्तार (जैसे Waxman ग्राफ़)
  2. उच्च-आयामी स्थितियों में प्रदर्शन का अनुसंधान
  3. ज्यामितीय रूप से परिभाषित रोपित समूहों पर विचार (जैसे वृत्ताकार क्षेत्र के भीतर सभी शीर्ष)
  4. एल्गोरिदम जटिलता और व्यावहारिक कार्यान्वयन का अनुकूलन

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक नवाचार: यादृच्छिक ज्यामितीय ग्राफ़ में रोपित समूह समस्या का पहली बार व्यवस्थित अनुसंधान, महत्वपूर्ण सैद्धांतिक रिक्तता को भरता है
  2. विधि की श्रेष्ठता: CN एल्गोरिदम सफलता की कार्यक्षमता प्रदर्शित करता है, अत्यंत छोटी संरचनाओं का पता लगा सकता है
  3. विश्लेषण की गहराई: पूर्ण सैद्धांतिक विश्लेषण ढांचा प्रदान करता है, जिसमें सकारात्मक और नकारात्मक परिणाम शामिल हैं
  4. प्रायोगिक सत्यापन: सिद्धांत और प्रयोग उच्च स्तर पर सुसंगत हैं, परिणामों की विश्वसनीयता बढ़ाते हैं

कमियां

  1. मॉडल सीमा: केवल कठोर यादृच्छिक ज्यामितीय ग्राफ़ पर विचार करता है, वास्तविक नेटवर्क अधिक जटिल हो सकते हैं
  2. सैद्धांतिक अंतराल: कुछ पैरामीटर अंतरालों के लिए सैद्धांतिक गारंटी अधूरी है (चित्र 2 में बेज रंग का क्षेत्र)
  3. एल्गोरिदम जटिलता: CN एल्गोरिदम की जटिलता अधिक है, व्यावहारिक अनुप्रयोग को सीमित कर सकती है
  4. आयाम सीमा: मुख्य विश्लेषण निम्न-आयामी स्थितियों पर केंद्रित है

प्रभाव

  1. शैक्षणिक मूल्य: यादृच्छिक ग्राफ सिद्धांत और एल्गोरिदम डिज़ाइन के लिए नई सोच प्रदान करता है
  2. अनुप्रयोग संभावना: नेटवर्क विसंगति पहचान, समुदाय खोज आदि क्षेत्रों में संभावित अनुप्रयोग
  3. सैद्धांतिक महत्व: साबित करता है कि ग्राफ एल्गोरिदम में ज्यामितीय संरचना की महत्वपूर्ण भूमिका है

लागू परिदृश्य

  1. नेटवर्क सुरक्षा: नेटवर्क में असामान्य कनेक्शन पैटर्न की पहचान
  2. सामाजिक नेटवर्क विश्लेषण: कृत्रिम रूप से निर्मित नकली समुदायों की पहचान
  3. जैव सूचना विज्ञान: प्रोटीन परस्पर क्रिया नेटवर्क में कार्यात्मक मॉड्यूल की खोज
  4. डेटा खनन: स्थानिक संरचना वाले डेटा में विसंगति पैटर्न की पहचान

संदर्भ

पेपर में 24 महत्वपूर्ण संदर्भ उद्धृत किए गए हैं, जिनमें यादृच्छिक ग्राफ सिद्धांत, एल्गोरिदम डिज़ाइन, नेटवर्क विश्लेषण और अन्य कई क्षेत्रों के शास्त्रीय कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला पेपर है जिसका सैद्धांतिक और व्यावहारिक दोनों पहलुओं में महत्वपूर्ण योगदान है। शास्त्रीय रोपित समूह समस्या को यादृच्छिक ज्यामितीय ग्राफ़ तक विस्तारित करके, लेखकों ने न केवल सैद्धांतिक रिक्तता को भरा है, बल्कि ज्यामितीय संरचना द्वारा लाए गए महत्वपूर्ण लाभों की भी खोज की है। CN एल्गोरिदम की श्रेष्ठ कार्यक्षमता और सैद्धांतिक गारंटी इसे व्यावहारिक अनुप्रयोगों में बहुत अधिक संभावनाएं प्रदान करती हैं।