2025-11-12T07:37:09.358830

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification

Malialis, Li, Panayiotou et al.

Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.

academic

ग्राफ स्ट्रीम वर्गीकरण के लिए अवधारणा बहाव पहचान और प्रोटोटाइप-आधारित एम्बेडिंग के साथ वर्धनशील शिक्षा

मूल जानकारी

पेपर ID: 2404.02572
शीर्षक: ग्राफ स्ट्रीम वर्गीकरण के लिए अवधारणा बहाव पहचान और प्रोटोटाइप-आधारित एम्बेडिंग के साथ वर्धनशील शिक्षा
लेखक: Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou
वर्गीकरण: cs.LG
प्रकाशन समय: 12 अप्रैल 2024 (arXiv v2)
संबंधित संस्थान: साइप्रस विश्वविद्यालय में KIOS अनुसंधान और नवाचार उत्कृष्टता केंद्र, विद्युत और कंप्यूटर इंजीनियरिंग विभाग
पेपर लिंक: https://arxiv.org/abs/2404.02572

सारांश

डेटा स्ट्रीम माइनिंग का उद्देश्य निरंतर विकसित होने वाली डेटा स्ट्रीम से सार्थक ज्ञान निकालना है, जो गैर-स्थिर वातावरण द्वारा लाई गई चुनौतियों का समाधान करता है, विशेष रूप से अवधारणा बहाव (concept drift), अर्थात् अंतर्निहित डेटा वितरण में समय के साथ परिवर्तन। ग्राफ संरचना जटिल प्रणालियों (जैसे महत्वपूर्ण बुनियादी ढांचा प्रणाली और सामाजिक नेटवर्क) का प्रतिनिधित्व करने के लिए एक शक्तिशाली मॉडलिंग उपकरण प्रदान करती है। ग्राफ स्ट्रीम से सीखना ग्राफ संरचना की गतिशीलता को समझने और विवेकपूर्ण निर्णय लेने के लिए आवश्यक हो गया है। यह कार्य ग्राफ स्ट्रीम वर्गीकरण के लिए एक नई विधि प्रस्तावित करता है, जो सामान्य सेटिंग के लिए उपयुक्त है जहां डेटा जनन प्रक्रिया ऐसे ग्राफ उत्पन्न करती है जिनके नोड और किनारे समय के साथ बदलते हैं। यह विधि वर्धनशील शिक्षा का उपयोग करके निरंतर मॉडल अनुकूलन के लिए, प्रत्येक वर्ग के लिए प्रतिनिधि ग्राफ (प्रोटोटाइप) का चयन करके, और ग्राफ एम्बेडिंग बनाकर काम करती है। इसके अतिरिक्त, यह हानि-आधारित अवधारणा बहाव पहचान तंत्र को एकीकृत करता है, जो बहाव की पहचान होने पर ग्राफ प्रोटोटाइप की पुनः गणना करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

यह अनुसंधान गतिशील ग्राफ स्ट्रीम वातावरण में वर्गीकरण कार्य को संबोधित करता है, जहां ग्राफ के नोड और किनारों की संख्या समय के साथ बदलती है, और अवधारणा बहाव की घटना होती है।

2. समस्या की महत्ता

वास्तविक आवश्यकता: कई वास्तविक विश्व प्रणालियां (जैसे महत्वपूर्ण बुनियादी ढांचा, सामाजिक नेटवर्क, अनुशंसा प्रणाली) गतिशील ग्राफ संरचना द्वारा प्रतिनिधित्व की जा सकती हैं
डेटा विशेषताएं: ये प्रणालियां उच्च गति, बड़ी क्षमता और विविधता की विशेषताओं वाला डेटा उत्पन्न करती हैं
पर्यावरणीय चुनौतियां: गैर-स्थिर वातावरण में अवधारणा बहाव मॉडल के प्रदर्शन में गिरावट का कारण बन सकता है

3. मौजूदा विधियों की सीमाएं

पारंपरिक ग्राफ वर्गीकरण विधियां: मुख्य रूप से स्थिर ग्राफ के लिए, स्ट्रीमिंग गतिशील ग्राफ को संभाल नहीं सकते
मौजूदा ग्राफ स्ट्रीम विधियां: अधिकांश विसंगति पहचान पर केंद्रित हैं, बहु-वर्ग वर्गीकरण पर नहीं; अवधारणा बहाव को संभालने के लिए प्रभावी तंत्र की कमी है
विशेषता निष्कर्षण: मौजूदा विधियां सरल ग्राफ विशेषताओं (जैसे किनारे घनत्व, वर्णक्रमीय अंतराल) का उपयोग करती हैं, जिनकी अभिव्यक्ति क्षमता सीमित है

4. अनुसंधान प्रेरणा

ऐसी विधियों को विकसित करने की आवश्यकता है जो:

नोड और किनारों की संख्या में परिवर्तनशील गतिशील ग्राफ स्ट्रीम को संभाल सकें
बहु-वर्ग वर्गीकरण करें, केवल विसंगति पहचान तक सीमित न हों
अवधारणा बहाव को प्रभावी ढंग से पहचानें और अनुकूल करें
ग्राफ प्रतिनिधित्व के अधिक समृद्ध तरीकों का उपयोग करें

मूल योगदान

नई ग्राफ स्ट्रीम वर्गीकरण रूपरेखा प्रस्तावित की: नोड और किनारों की संख्या में परिवर्तनशील सामान्य ग्राफ स्ट्रीम सेटिंग के लिए उपयुक्त, बहु-वर्ग वर्गीकरण कार्यों का समर्थन करता है
प्रोटोटाइप-आधारित ग्राफ एम्बेडिंग विधि डिज़ाइन की: प्रत्येक वर्ग के प्रतिनिधि ग्राफ को प्रोटोटाइप के रूप में चुनकर, ग्राफ को निश्चित आयाम के वेक्टर प्रतिनिधित्व में परिवर्तित करता है
हाइब्रिड अवधारणा बहाव पहचान तंत्र एकीकृत किया: वर्धनशील शिक्षा और हानि-आधारित बहाव पहचान को जोड़कर, सक्रिय-निष्क्रिय हाइब्रिड अनुकूलन रणनीति को लागू करता है
संपूर्ण प्रायोगिक सत्यापन प्रदान किया: कई बेंचमार्क डेटासेट पर विधि की प्रभावशीलता को सत्यापित किया, और विस्तृत विलोपन अध्ययन किए

विधि विवरण

कार्य परिभाषा

ग्राफ स्ट्रीम $D = \{(g_t, y_t)\}_{t=1}^{\infty}$ दिया गया है, जहां:

$g_t = (V, E)$ समय चरण $t$ पर विशेषता ग्राफ है
$y_t \in \{1, ..., K\}$ ग्राफ का वर्ग लेबल है
ग्राफ में नोड और किनारों की परिवर्तनशील संख्या हो सकती है
डेटा संभवतः गैर-स्थिर संभाव्यता वितरण $p_t(g, y)$ से आता है

लक्ष्य वर्गीकारक $h: G \rightarrow Y$ सीखना है, जो:

नए आने वाले ग्राफ का सटीक वर्गीकरण कर सके
वर्धनशील शिक्षा के माध्यम से निरंतर अनुकूल हो सके
अवधारणा बहाव की पहचान करे और उसे संभाले

मॉडल आर्किटेक्चर

1. ग्राफ मेमोरी प्रबंधन

हाल के ग्राफ को संग्रहीत करने के लिए कई कतारें बनाए रखता है: $q = \{q_c\}_{c=1}^K$ $q_c = \{g_i\}_{i=1}^L$ जहां $L$ प्रत्येक वर्ग की कतार का आकार है।

2. ग्राफ प्रोटोटाइप चयन

प्रत्येक वर्ग के लिए $R$ प्रोटोटाइप ग्राफ चुनने के लिए Centers एल्गोरिदम का उपयोग करता है: $p_c = \arg\min_{g_1 \in q_c} \sum_{g_2 \in q_c} \delta(g_1, g_2)$ जहां $\delta(\cdot, \cdot)$ ग्राफ संपादन दूरी है।

3. ग्राफ एम्बेडिंग जनन

प्रोटोटाइप के आधार पर ग्राफ एम्बेडिंग की गणना करता है: $e_g = \{\delta(g, p_i)\}_{i=1}^{R \times K}$ ग्राफ को $R \times K$ आयामी वेक्टर में परिवर्तित करता है।

4. वर्धनशील शिक्षा

तंत्रिका नेटवर्क वर्गीकारक का उपयोग करता है, लागत फलन: $C = \frac{1}{L \times K} \sum_{i=1}^{L \times K} l(y_i, h(e_{g_i}))$ वर्गीकारक वर्धनशील प्रशिक्षण के माध्यम से अपडेट होता है: $h_t = h_{t-1}.train(\cdot)$

5. अवधारणा बहाव पहचान

दो भविष्यवाणी सटीकता कतारें बनाए रखता है:

संदर्भ कतार $q_{ref}$ : ऐतिहासिक भविष्यवाणी स्कोर संग्रहीत करता है
गतिशील कतार $q_{mov}$ : हाल की भविष्यवाणी स्कोर संग्रहीत करता है

द्विपद वितरण का उपयोग करके मॉडलिंग करता है, पहचान की स्थिति: $\mu_{mov} \leq \mu_{ref} - \beta\sigma_{ref}$ जहां $\beta$ संवेदनशीलता पैरामीटर है।

तकनीकी नवाचार बिंदु

प्रोटोटाइप चयन रणनीति: ग्राफ संपादन दूरी और माध्यिका विधि का उपयोग करके सबसे प्रतिनिधि ग्राफ को प्रोटोटाइप के रूप में चुनता है
हाइब्रिड बहाव अनुकूलन: निष्क्रिय वर्धनशील शिक्षा और सक्रिय बहाव पहचान को जोड़कर, बहाव की पहचान होने पर प्रोटोटाइप की पुनः गणना करता है
परिवर्तनशील ग्राफ प्रसंस्करण: दूरी-आधारित एम्बेडिंग विधि के माध्यम से नोड और किनारों की संख्या में परिवर्तनशील ग्राफ को संभालता है
हानि-संचालित पहचान: डेटा वितरण परिवर्तन के बजाय भविष्यवाणी प्रदर्शन का उपयोग करके अवधारणा बहाव की पहचान करता है

प्रायोगिक सेटअप

डेटासेट

Letter डेटासेट:
- अक्षर "A", "I", "Z" के ग्राफ प्रतिनिधित्व शामिल हैं
- दो वेरिएंट: Letter high (उच्च विकृति), Letter med high (मध्य-उच्च विकृति)
- अवधारणा बहाव अनुकूलन क्षमता परीक्षण के लिए
GREC डेटासेट:
- वास्तुकला और इलेक्ट्रॉनिक ड्राइंग प्रतीकों के ग्राफ प्रतिनिधित्व
- पांच विकृति स्तर
- तीन वर्ग, ग्राफ समान रूप से वितरित
Fingerprint डेटासेट:
- फिंगरप्रिंट छवियों के ग्राफ प्रतिनिधित्व
- दो वर्ग: "arch" और "left"
- NIST-4 फिंगरप्रिंट डेटाबेस से

मूल्यांकन मेट्रिक्स

ज्यामितीय माध्य (G-mean) का उपयोग करता है: $G\text{-mean} = \sqrt[K]{\prod_{c=1}^K r_c}$ जहां $r_c$ वर्ग $c$ की recall दर है।

क्षय कारक के साथ पूर्वानुमानित मूल्यांकन विधि (prequential evaluation) अपनाता है, क्षय कारक 0.99 पर सेट है।

तुलना विधियां

प्रस्तावित विधि: प्रोटोटाइप एम्बेडिंग के साथ संपूर्ण विधि
विशेषता विधि: किनारे घनत्व और वर्णक्रमीय अंतराल दो सरल विशेषताओं का उपयोग करके आधारभूत विधि

कार्यान्वयन विवरण

ग्राफ दूरी: ग्राफ संपादन दूरी
वर्गीकारक: पूर्ण कनेक्टेड तंत्रिका नेटवर्क
अनुकूलक: Adam
सीखने की दर: 0.001-0.01 (डेटासेट संबंधित)
मेमोरी आकार: $L = 10$
प्रोटोटाइप संख्या: $R = 1$ या $R = 3$

प्रायोगिक परिणाम

मुख्य परिणाम

ग्राफ मेमोरी की भूमिका: ग्राफ मेमोरी का उपयोग सीखने की गति और अंतिम प्रदर्शन में महत्वपूर्ण सुधार लाता है, विशेष रूप से सीखने के प्रारंभिक चरण में।
प्रोटोटाइप संख्या का प्रभाव:
- कोई बहाव या हल्के बहाव की स्थिति में, 3 प्रोटोटाइप 1 प्रोटोटाइप से बेहतर हैं
- गंभीर अवधारणा बहाव के बाद, कम प्रोटोटाइप संख्या बेहतर प्रदर्शन करती है
- GREC और Fingerprint डेटासेट पर, 3 प्रोटोटाइप लगातार बेहतर प्रदर्शन करते हैं
अवधारणा बहाव पहचान प्रभाव:
- अवधारणा बहाव होने से पहले, बहाव पहचान के साथ और बिना प्रदर्शन समान है
- बहाव के बाद, बहाव पहचान के साथ विधि का प्रदर्शन महत्वपूर्ण रूप से सुधरता है
- प्रोटोटाइप की पुनः गणना की प्रभावशीलता को सत्यापित करता है
विधि तुलना: प्रस्तावित एम्बेडिंग-आधारित विधि सभी डेटासेट पर सरल विशेषता-आधारित विधि से महत्वपूर्ण रूप से बेहतर है।

विलोपन प्रयोग

मेमोरी आकार: प्रदर्शन पर ग्राफ मेमोरी की महत्वपूर्ण भूमिका को सत्यापित करता है
प्रोटोटाइप संख्या: विभिन्न बहाव परिदृश्यों में विभिन्न प्रोटोटाइप संख्याओं के प्रदर्शन का विश्लेषण करता है
बहाव पहचान: बहाव पहचान तंत्र की आवश्यकता को प्रमाणित करता है

प्रायोगिक निष्कर्ष

सीखने के वक्र: सभी विधियां प्रारंभ में सीखने के चरण में होती हैं, लेकिन प्रस्तावित विधि तेजी से अभिसरित होती है
बहाव अनुकूलन: प्रोटोटाइप पुनः गणना पर आधारित बहाव अनुकूलन रणनीति प्रभावी है
प्रतिनिधित्व क्षमता: प्रोटोटाइप-आधारित एम्बेडिंग सरल ग्राफ विशेषताओं की तुलना में अधिक अभिव्यक्ति क्षमता रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: प्रस्तावित हाइब्रिड विधि ग्राफ स्ट्रीम वर्गीकरण कार्य पर उत्कृष्ट प्रदर्शन करती है, विशेष रूप से अवधारणा बहाव की स्थिति में
घटक महत्व: ग्राफ मेमोरी, प्रोटोटाइप चयन और बहाव पहचान तंत्र सभी अंतिम प्रदर्शन में महत्वपूर्ण योगदान देते हैं
अनुकूलनशीलता: विधि नोड और किनारों की संख्या में परिवर्तनशील गतिशील ग्राफ स्ट्रीम को प्रभावी ढंग से संभाल सकती है

सीमाएं

कम्प्यूटेशनल जटिलता: ग्राफ संपादन दूरी गणना की जटिलता अधिक है, जो बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है
पैरामीटर संवेदनशीलता: बहाव पहचान की संवेदनशीलता पैरामीटर को कार्य के अनुसार समायोजित करने की आवश्यकता है
लेबल उपलब्धता: मानता है कि प्रत्येक चरण पर सही लेबल प्राप्त किए जा सकते हैं, वास्तविक अनुप्रयोग में यह संभव नहीं हो सकता है

भविष्य की दिशाएं

पेपर स्पष्ट रूप से दो महत्वपूर्ण भविष्य अनुसंधान दिशाओं को प्रस्तावित करता है:

ग्राफ एम्बेडिंग सीखना: बड़े पैमाने पर ग्राफ स्ट्रीम समस्याओं के लिए अनुप्रयोग के लिए अंत-से-अंत ग्राफ एम्बेडिंग सीखने की विधि का अनुसंधान करना
सीमित लेबल शिक्षा: अनुपर्यवेक्षित, अर्ध-निरीक्षित, सक्रिय शिक्षा आदि प्रतिमान, साथ ही कम-नमूना शिक्षा और डेटा संवर्धन तकनीकों पर विचार करना

गहन मूल्यांकन

शक्तियां

समस्या महत्व: ग्राफ स्ट्रीम वर्गीकरण एक व्यावहारिक और महत्वपूर्ण समस्या है, जिसका व्यापक अनुप्रयोग मूल्य है
विधि नवाचार: प्रोटोटाइप चयन, वर्धनशील शिक्षा और अवधारणा बहाव पहचान को जैविक रूप से जोड़कर, एक संपूर्ण समाधान बनाता है
प्रायोगिक पूर्णता: व्यापक प्रायोगिक सत्यापन किया है, जिसमें विलोपन अध्ययन और पैरामीटर विश्लेषण शामिल हैं
लेखन स्पष्टता: पेपर संरचना स्पष्ट है, विधि विवरण विस्तृत है, समझने और पुनरुत्पादन में आसान है

कमियां

डेटासेट आकार: उपयोग किए गए डेटासेट अपेक्षाकृत छोटे हैं, बड़े पैमाने पर ग्राफ स्ट्रीम पर प्रभाव अज्ञात है
कम्प्यूटेशनल दक्षता: ग्राफ संपादन दूरी गणना की जटिलता अधिक है, जो वास्तविक अनुप्रयोग में बाधा बन सकती है
सैद्धांतिक विश्लेषण: सैद्धांतिक विश्लेषण और अभिसरण गारंटी की कमी है
बहाव प्रकार: मुख्य रूप से अचानक बहाव पर विचार किया है, क्रमिक बहाव के प्रति प्रभाव स्पष्ट नहीं है

प्रभाव

शैक्षणिक योगदान: ग्राफ स्ट्रीम वर्गीकरण के लिए नई समाधान सोच प्रदान करता है, इस क्षेत्र में रिक्तता को भरता है
व्यावहारिक मूल्य: विधि में व्यावहारिक अनुप्रयोग क्षमता है, विशेष रूप से बुनियादी ढांचा निगरानी आदि क्षेत्रों में
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और पैरामीटर सेटिंग प्रदान करता है, पुनरुत्पादन में सहायक है

लागू परिदृश्य

यह विधि विशेष रूप से निम्नलिखित के लिए उपयुक्त है:

महत्वपूर्ण बुनियादी ढांचा प्रणाली निगरानी
सामाजिक नेटवर्क गतिशील विश्लेषण
आणविक ग्राफ दवा खोज
अनुशंसा प्रणाली में उपयोगकर्ता व्यवहार विश्लेषण
कोई भी गतिशील ग्राफ संरचना को संभालने और अवधारणा बहाव की उपस्थिति में आवश्यक परिदृश्य

संदर्भ

पेपर 37 संबंधित संदर्भों का हवाला देता है, जो अवधारणा बहाव पहचान, ग्राफ तंत्रिका नेटवर्क, वर्धनशील शिक्षा आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह ग्राफ स्ट्रीम वर्गीकरण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च गुणवत्ता वाला पेपर है। विधि डिज़ाइन तर्कसंगत है, प्रायोगिक सत्यापन पूर्ण है, लेखन स्पष्ट है, इस क्षेत्र के विकास के लिए मूल्यवान अंतर्दृष्टि और समाधान प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवाचार और व्यावहारिकता इसे महत्वपूर्ण शैक्षणिक और अनुप्रयोग मूल्य देती है।