Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
अधूरे डेटा के लिए कर्नल प्रतिनिधित्व और समानता माप
यह पेपर अधूरे डेटा की समानता माप की मौलिक चुनौती के लिए निकटता कर्नल (proximity kernel) विधि प्रस्तावित करता है। परंपरागत विधियां या तो अधूरे डेटा को त्याग देती हैं या पहले प्रक्षेपण पूर्व-प्रसंस्करण करती हैं, जिससे सूचना हानि और समानता अनुमान में पूर्वाग्रह होता है। निकटता कर्नल सीधे कर्नल विशेषता स्थान में अधूरे डेटा के बीच समानता की गणना करता है, मूल स्थान में स्पष्ट प्रक्षेपण की आवश्यकता के बिना। यह विधि डेटा-निर्भर बिनिंग तंत्र को निकटता आवंटन के साथ जोड़ती है, जो डेटा को स्थानीय घनत्व परिवर्तन के अनुकूल उच्च-आयामी विरल प्रतिनिधित्व में प्रक्षेपित करती है। लापता मानों के प्रबंधन के लिए, लापता विशेषता वितरण का अनुमान लगाने के लिए एक कैस्केडिंग फॉलबैक रणनीति प्रस्तावित की गई है। 12 वास्तविक अधूरे डेटासेट पर क्लस्टरिंग प्रयोगों से पता चलता है कि यह विधि रैखिक समय जटिलता बनाए रखते हुए मौजूदा विधियों से बेहतर प्रदर्शन करती है।
अधूरे डेटा की समानता माप नेटवर्क खनन, अनुशंसा प्रणाली और उपयोगकर्ता व्यवहार विश्लेषण में एक मौलिक चुनौती है। वास्तविक दुनिया के डेटा उपयोगकर्ता गोपनीयता वरीयताओं, सर्वेक्षण गैर-प्रतिक्रिया, सूचना स्वैच्छिक गैर-प्रकटीकरण और अन्य कारकों के कारण अनिवार्य रूप से अधूरे होते हैं।
व्यापक उपस्थिति: अनुशंसा प्रणाली में उपयोगकर्ता आमतौर पर केवल कुछ वस्तुओं को रेट करते हैं, जिससे अत्यधिक विरल उपयोगकर्ता-वस्तु मैट्रिक्स बनता है
डेटा विषमता: लापता मान एक साथ संख्यात्मक, श्रेणीबद्ध या मिश्रित विशेषताओं को प्रभावित कर सकते हैं
डाउनस्ट्रीम कार्य प्रभाव: समानता माप क्लस्टरिंग, वर्गीकरण और विसंगति पहचान जैसे कार्यों की नींव है, अनुचित समानता अनुमान कार्य प्रदर्शन को महत्वपूर्ण रूप से कम कर सकता है
विलोपन विधि: लापता मानों को अनदेखा करता है या पूरी तरह से अधूरे नमूनों को हटाता है, जिससे गंभीर सूचना हानि और पूर्वाग्रह होता है
प्रक्षेपण विधि: सांख्यिकीय मात्रा या जटिल तकनीकों का उपयोग करके लापता मानों को भरता है, अक्सर अंतर्निहित डेटा वितरण को पकड़ने में विफल रहता है, और वास्तविक समानता संरचना को प्रतिबिंबित न करने वाले कृत्रिम पैटर्न पेश कर सकता है
गहन शिक्षण विधि: आशाजनक होने के बावजूद, आमतौर पर बड़े डेटासेट और महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, सैद्धांतिक गारंटी की कमी होती है और हाइपरपैरामीटर के प्रति संवेदनशील होते हैं
मौजूदा विधियां "दो-चरणीय" रणनीति अपनाती हैं (पहले प्रक्षेपण फिर समानता गणना), यह पेपर कर्नल प्रतिनिधित्व स्थान में प्रक्षेपण और समानता माप को संयुक्त रूप से संभालने का एक नया दृष्टिकोण प्रस्तावित करता है।
निकटता कर्नल विधि प्रस्तावित करना: समान-आवृत्ति बिनिंग और Voronoi-आधारित निकटता आवंटन के माध्यम से, डेटा को उच्च-आयामी विरल प्रतिनिधित्व में प्रक्षेपित करता है, स्पष्ट घनत्व अनुमान की आवश्यकता के बिना स्थानीय घनत्व के अनुकूल होता है
कैस्केडिंग फॉलबैक रणनीति: लापता मान प्रबंधन के लिए, प्रतिच्छेदन से संघ तक फिर वैश्विक पूर्व तक क्रमिक बाधा छूट मिलान रणनीति प्रस्तावित करता है
रैखिक समय जटिलता: रैखिक समय जटिलता को लागू करता है, जो विधि को बड़े पैमाने पर डेटासेट के लिए स्केलेबल बनाता है
प्रायोगिक सत्यापन: 12 डेटासेट पर क्लस्टरिंग कार्य में मौजूदा विधियों से बेहतर प्रदर्शन प्रदर्शित करता है
n नमूनों वाले डेटासेट D = {x₁, x₂, ..., xₙ} दिया गया है, जहां प्रत्येक नमूना xᵢ ∈ ℝᵈ एक d-आयामी विशेषता वेक्टर है, जिसमें लापता मान (NaN के रूप में दर्शाए गए) हो सकते हैं। लक्ष्य समानता फ़ंक्शन s : D × D → 0,1 की गणना करना है, जो किसी भी दो नमूनों के बीच समानता को मापता है, जिसका उपयोग डाउनस्ट्रीम क्लस्टरिंग जैसे कार्यों के लिए किया जाता है।
यह विशेषता स्थान का Voronoi आरेख बनाता है, जहां प्रत्येक केंद्र c_j,k एक Voronoi कक्ष को परिभाषित करता है।
घनत्व-अनुकूल विशेषता:
घने क्षेत्र में: क्रमागत केंद्रों के बीच की दूरी छोटी होती है, छोटे Voronoi कक्ष बनाते हैं, समान दूरी के दो बिंदु अलग-अलग कक्षों में गिरने की अधिक संभावना रखते हैं
विरल क्षेत्र में: क्रमागत केंद्रों के बीच की दूरी बड़ी होती है, बड़े Voronoi कक्ष बनाते हैं, समान दूरी के दो बिंदु एक ही कक्ष में गिरने की अधिक संभावना रखते हैं
यह कर्नल Mercer शर्त को संतुष्ट करता है (सममितता और सकारात्मक अर्ध-निश्चितता), संभाव्य व्याख्या है: सभी विशेषताओं पर दोनों नमूनों के एक ही बिन में गिरने की अपेक्षित संभावना की गणना करता है।
क्लस्टरिंग गुणवत्ता का मूल्यांकन करने के लिए सामान्यीकृत पारस्परिक सूचना (NMI) का उपयोग करें, K-means क्लस्टरिंग अपनाएं, क्लस्टर संख्या वास्तविक वर्ग संख्या पर सेट करें।
बिन संख्या 2 से 10 तक भिन्न होने पर, तीन डेटासेट पर NMI परिवर्तन बहुत कम होता है (जैसे Mammo डेटासेट 0.30-0.33 के बीच उतार-चढ़ाव करता है), विधि की हाइपरपैरामीटर के प्रति असंवेदनशीलता दिखाता है।
लापता तंत्र धारणा: वर्तमान मूल्यांकन मुख्य रूप से MCAR (पूरी तरह से यादृच्छिक लापता) तंत्र पर आधारित है, वास्तविक डेटा अक्सर अधिक जटिल MAR और MNAR पैटर्न प्रदर्शित करते हैं
बिनिंग रणनीति: समान-आवृत्ति बिनिंग सभी डेटा वितरण के लिए इष्टतम नहीं हो सकती
सैद्धांतिक गारंटी: कैस्केडिंग फॉलबैक तंत्र के सैद्धांतिक अभिसरण गारंटी की कमी
पेपर 21 संबंधित संदर्भों का हवाला देता है, जो लापता डेटा प्रबंधन, कर्नल विधि, गहन शिक्षण और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, यह अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तुलनात्मक बेंचमार्क प्रदान करता है।
सारांश: इस पेपर द्वारा प्रस्तावित निकटता कर्नल विधि अधूरे डेटा समानता माप क्षेत्र में महत्वपूर्ण योगदान देती है, कर्नल प्रतिनिधित्व डिजाइन और कैस्केडिंग फॉलबैक रणनीति के माध्यम से, प्रदर्शन और दक्षता का अच्छा संतुलन प्राप्त करता है। कुछ सीमाओं के बावजूद, इसकी नवाचार और व्यावहारिकता संबंधित अनुप्रयोग क्षेत्रों में महत्वपूर्ण मूल्य रखती है।