Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
Malialis, Li, Panayiotou et al.
Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
academic
ग्राफ स्ट्रीम वर्गीकरण के लिए अवधारणा बहाव पहचान और प्रोटोटाइप-आधारित एम्बेडिंग के साथ वर्धनशील शिक्षा
डेटा स्ट्रीम माइनिंग का उद्देश्य निरंतर विकसित होने वाली डेटा स्ट्रीम से सार्थक ज्ञान निकालना है, जो गैर-स्थिर वातावरण द्वारा लाई गई चुनौतियों का समाधान करता है, विशेष रूप से अवधारणा बहाव (concept drift), अर्थात् अंतर्निहित डेटा वितरण में समय के साथ परिवर्तन। ग्राफ संरचना जटिल प्रणालियों (जैसे महत्वपूर्ण बुनियादी ढांचा प्रणाली और सामाजिक नेटवर्क) का प्रतिनिधित्व करने के लिए एक शक्तिशाली मॉडलिंग उपकरण प्रदान करती है। ग्राफ स्ट्रीम से सीखना ग्राफ संरचना की गतिशीलता को समझने और विवेकपूर्ण निर्णय लेने के लिए आवश्यक हो गया है। यह कार्य ग्राफ स्ट्रीम वर्गीकरण के लिए एक नई विधि प्रस्तावित करता है, जो सामान्य सेटिंग के लिए उपयुक्त है जहां डेटा जनन प्रक्रिया ऐसे ग्राफ उत्पन्न करती है जिनके नोड और किनारे समय के साथ बदलते हैं। यह विधि वर्धनशील शिक्षा का उपयोग करके निरंतर मॉडल अनुकूलन के लिए, प्रत्येक वर्ग के लिए प्रतिनिधि ग्राफ (प्रोटोटाइप) का चयन करके, और ग्राफ एम्बेडिंग बनाकर काम करती है। इसके अतिरिक्त, यह हानि-आधारित अवधारणा बहाव पहचान तंत्र को एकीकृत करता है, जो बहाव की पहचान होने पर ग्राफ प्रोटोटाइप की पुनः गणना करता है।
यह अनुसंधान गतिशील ग्राफ स्ट्रीम वातावरण में वर्गीकरण कार्य को संबोधित करता है, जहां ग्राफ के नोड और किनारों की संख्या समय के साथ बदलती है, और अवधारणा बहाव की घटना होती है।
वास्तविक आवश्यकता: कई वास्तविक विश्व प्रणालियां (जैसे महत्वपूर्ण बुनियादी ढांचा, सामाजिक नेटवर्क, अनुशंसा प्रणाली) गतिशील ग्राफ संरचना द्वारा प्रतिनिधित्व की जा सकती हैं
डेटा विशेषताएं: ये प्रणालियां उच्च गति, बड़ी क्षमता और विविधता की विशेषताओं वाला डेटा उत्पन्न करती हैं
पर्यावरणीय चुनौतियां: गैर-स्थिर वातावरण में अवधारणा बहाव मॉडल के प्रदर्शन में गिरावट का कारण बन सकता है
नई ग्राफ स्ट्रीम वर्गीकरण रूपरेखा प्रस्तावित की: नोड और किनारों की संख्या में परिवर्तनशील सामान्य ग्राफ स्ट्रीम सेटिंग के लिए उपयुक्त, बहु-वर्ग वर्गीकरण कार्यों का समर्थन करता है
प्रोटोटाइप-आधारित ग्राफ एम्बेडिंग विधि डिज़ाइन की: प्रत्येक वर्ग के प्रतिनिधि ग्राफ को प्रोटोटाइप के रूप में चुनकर, ग्राफ को निश्चित आयाम के वेक्टर प्रतिनिधित्व में परिवर्तित करता है
हाइब्रिड अवधारणा बहाव पहचान तंत्र एकीकृत किया: वर्धनशील शिक्षा और हानि-आधारित बहाव पहचान को जोड़कर, सक्रिय-निष्क्रिय हाइब्रिड अनुकूलन रणनीति को लागू करता है
संपूर्ण प्रायोगिक सत्यापन प्रदान किया: कई बेंचमार्क डेटासेट पर विधि की प्रभावशीलता को सत्यापित किया, और विस्तृत विलोपन अध्ययन किए
प्रत्येक वर्ग के लिए R प्रोटोटाइप ग्राफ चुनने के लिए Centers एल्गोरिदम का उपयोग करता है:
pc=argming1∈qc∑g2∈qcδ(g1,g2)
जहां δ(⋅,⋅) ग्राफ संपादन दूरी है।
तंत्रिका नेटवर्क वर्गीकारक का उपयोग करता है, लागत फलन:
C=L×K1∑i=1L×Kl(yi,h(egi))
वर्गीकारक वर्धनशील प्रशिक्षण के माध्यम से अपडेट होता है: ht=ht−1.train(⋅)
पेपर 37 संबंधित संदर्भों का हवाला देता है, जो अवधारणा बहाव पहचान, ग्राफ तंत्रिका नेटवर्क, वर्धनशील शिक्षा आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह ग्राफ स्ट्रीम वर्गीकरण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च गुणवत्ता वाला पेपर है। विधि डिज़ाइन तर्कसंगत है, प्रायोगिक सत्यापन पूर्ण है, लेखन स्पष्ट है, इस क्षेत्र के विकास के लिए मूल्यवान अंतर्दृष्टि और समाधान प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवाचार और व्यावहारिकता इसे महत्वपूर्ण शैक्षणिक और अनुप्रयोग मूल्य देती है।