Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
تتناول هذه الورقة التحدي الأساسي لقياس التشابه في البيانات غير المكتملة، وتقترح طريقة النواة القريبة (proximity kernel). الطرق التقليدية إما تتجاهل البيانات غير المكتملة أو تجري معالجة استكمال مسبقة، مما يؤدي إلى فقدان المعلومات وانحياز في تقدير التشابه. تحسب النواة القريبة التشابه بين البيانات غير المكتملة مباشرة في فضاء الميزات النواة، دون الحاجة إلى استكمال صريح في الفضاء الأصلي. تقدم الطريقة آلية تصنيف تعتمد على البيانات مع التخصيص القريب، لتوقع البيانات إلى تمثيل متناثر عالي الأبعاد يتكيف مع التغيرات في الكثافة المحلية. بالنسبة لمعالجة القيم المفقودة، تقترح استراتيجية تراجع متسلسلة لتقدير توزيع الميزات المفقودة. تُظهر تجارب التجميع على 12 مجموعة بيانات حقيقية غير مكتملة أن الطريقة تتفوق على الطرق الموجودة مع الحفاظ على التعقيد الزمني الخطي.
قياس التشابه في البيانات غير المكتملة هو تحدٍ أساسي في تعدين الشبكات وأنظمة التوصية وتحليل سلوك المستخدم. البيانات الحقيقية غير مكتملة بطبيعتها بسبب تفضيلات خصوصية المستخدمين وعدم الاستجابة في الاستطلاعات والإفصاح الطوعي عن المعلومات.
طرق الحذف: تتجاهل القيم المفقودة أو تزيل العينات غير المكتملة بالكامل، مما يؤدي إلى فقدان معلومات خطير وانحياز
طرق الاستكمال: تستخدم إحصائيات أو تقنيات معقدة لملء القيم المفقودة، غالباً ما تفشل في التقاط التوزيع الكامن للبيانات، وقد تقدم أنماطاً اصطناعية لا تعكس هيكل التشابه الحقيقي
طرق التعلم العميق: على الرغم من أنها واعدة، عادة ما تتطلب مجموعات بيانات كبيرة وموارد حسابية ضخمة، وتفتقر إلى الضمانات النظرية وحساسة لفرط المعاملات
تعتمد الطرق الموجودة على استراتيجية "ثنائية المرحلة" (استكمال أولاً ثم حساب التشابه)، تقترح هذه الورقة نهجاً جديداً لمعالجة الاستكمال وقياس التشابه بشكل مشترك في فضاء التمثيل النواة.
اقتراح طريقة النواة القريبة: من خلال التصنيف متساوي التكرار والتخصيص القريب المستند إلى Voronoi، توقع البيانات إلى تمثيل متناثر عالي الأبعاد دون الحاجة إلى تقدير كثافة صريح
استراتيجية التراجع المتسلسلة: بالنسبة لمعالجة القيم المفقودة، تقترح استراتيجية مطابقة تدريجية تخفف القيود من التقاطع إلى الاتحاد إلى الأولويات العامة
التعقيد الزمني الخطي: تحقق التعقيد الزمني الخطي، مما يجعل الطريقة قابلة للتوسع إلى مجموعات البيانات الكبيرة
التحقق التجريبي: تُظهر أداءً متفوقاً على الطرق الموجودة في مهام التجميع على 12 مجموعة بيانات
بالنظر إلى مجموعة بيانات D = {x₁, x₂, ..., xₙ} تحتوي على n عينة، حيث كل عينة xᵢ ∈ ℝᵈ هي متجه ميزة d-بعدي قد يحتوي على قيم مفقودة (يُشار إليها بـ NaN). الهدف هو حساب دالة التشابه s : D × D → 0,1، التي تقيس التشابه بين أي عينتين، للاستخدام في المهام اللاحقة مثل التجميع.
تحقق هذه النواة شروط Mercer (التماثل والإيجابية شبه المحددة)، لها تفسير احتمالي: حساب الاحتمالية المتوقعة لسقوط عينتين في نفس التصنيف عبر جميع الميزات.
عند تغيير عدد التصنيفات من 2 إلى 10، التغيير في NMI عبر ثلاث مجموعات بيانات صغير جداً (على سبيل المثال، مجموعة بيانات Mammo تتراوح بين 0.30-0.33)، مما يُظهر عدم حساسية الطريقة لفرط المعاملات.
افتراضات آلية الفقدان: التقييم الحالي يعتمد بشكل أساسي على آلية MCAR (الفقدان العشوائي تماماً)، البيانات الحقيقية غالباً ما تُظهر أنماطاً MAR و MNAR أكثر تعقيداً
استراتيجية التصنيف: قد لا يكون التصنيف متساوي التكرار الخيار الأمثل لجميع توزيعات البيانات
الضمانات النظرية: تفتقر إلى ضمانات التقارب النظري لآلية التراجع المتسلسلة
تستشهد الورقة بـ 21 مرجعاً ذا صلة، تغطي معالجة البيانات المفقودة وطرق النواة والتعلم العميق وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة للبحث.
الملخص: تقدم الورقة طريقة النواة القريبة المقترحة مساهمة مهمة في مجال قياس التشابه للبيانات غير المكتملة، من خلال تصميم تمثيل نواة ماهر واستراتيجية تراجع متسلسلة، تحقق توازناً جيداً بين الأداء والكفاءة. على الرغم من وجود بعض القيود، فإن ابتكارها وجدواها العملية تجعلها ذات قيمة مهمة في مجالات التطبيق ذات الصلة.