Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
Représentation par Noyau et Mesure de Similarité pour Données Incomplètes
Cet article aborde le défi fondamental de la mesure de similarité pour les données incomplètes en proposant une méthode de noyau de proximité (proximity kernel). Les méthodes traditionnelles soit rejettent les données incomplètes, soit effectuent d'abord un prétraitement d'imputation, ce qui entraîne une perte d'information et des biais dans l'estimation de la similarité. Le noyau de proximité calcule directement la similarité entre les données incomplètes dans l'espace des caractéristiques du noyau, sans nécessiter d'imputation explicite dans l'espace original. La méthode introduit un mécanisme de binning dépendant des données combiné à une allocation de proximité, projetant les données dans une représentation creuse de haute dimension qui s'adapte aux variations de densité locale. Pour le traitement des valeurs manquantes, une stratégie de secours en cascade est proposée pour estimer la distribution des caractéristiques manquantes. Les expériences de clustering sur 12 ensembles de données incomplètes réelles montrent que la méthode surpasse les méthodes existantes tout en maintenant une complexité temporelle linéaire.
La mesure de similarité pour les données incomplètes est un défi fondamental dans l'exploration de réseaux, les systèmes de recommandation et l'analyse du comportement des utilisateurs. Les données du monde réel sont intrinsèquement incomplètes en raison des préférences de confidentialité des utilisateurs, des non-réponses aux enquêtes et de la divulgation volontaire d'informations.
Omniprésence: Dans les systèmes de recommandation, les utilisateurs évaluent généralement seulement un petit nombre d'articles, produisant une matrice utilisateur-article hautement creuse
Hétérogénéité des données: Les valeurs manquantes peuvent affecter simultanément les caractéristiques numériques, catégoriques ou mixtes
Impact sur les tâches en aval: La mesure de similarité est fondamentale pour le clustering, la classification et la détection d'anomalies; une estimation inexacte de la similarité réduit considérablement les performances des tâches
Méthodes de suppression: Ignorer les valeurs manquantes ou supprimer complètement les échantillons incomplets, entraînant une perte d'information grave et des biais
Méthodes d'imputation: Utiliser des statistiques ou des techniques complexes pour remplir les valeurs manquantes, souvent incapables de capturer la distribution de données sous-jacente, pouvant introduire des motifs artificiels qui ne reflètent pas la véritable structure de similarité
Méthodes d'apprentissage profond: Bien que prometteuses, elles nécessitent généralement de grands ensembles de données et des ressources informatiques importantes, manquent de garanties théoriques et sont sensibles aux hyperparamètres
Les méthodes existantes adoptent une stratégie « en deux étapes » (imputation d'abord, puis calcul de la similarité). Cet article propose une nouvelle approche pour traiter conjointement l'imputation et la mesure de similarité dans l'espace de représentation du noyau.
Proposition de la méthode du noyau de proximité: Projection des données dans une représentation creuse de haute dimension par binning équifréquent et allocation de proximité basée sur Voronoi, s'adaptant à la densité locale sans estimation de densité explicite
Stratégie de secours en cascade: Pour le traitement des valeurs manquantes, une stratégie d'appariement progressif relâchant les contraintes de l'intersection à l'union puis aux priors globaux
Complexité temporelle linéaire: Réalisation d'une complexité temporelle linéaire, rendant la méthode extensible aux grands ensembles de données
Validation expérimentale: Démonstration de performances supérieures aux méthodes existantes dans les tâches de clustering sur 12 ensembles de données
Étant donné un ensemble de données D = {x₁, x₂, ..., xₙ} contenant n échantillons, où chaque échantillon xᵢ ∈ ℝᵈ est un vecteur de caractéristiques d-dimensionnel pouvant contenir des valeurs manquantes (représentées par NaN). L'objectif est de calculer une fonction de similarité s : D × D → 0,1, quantifiant la similarité entre deux échantillons quelconques, pour une utilisation dans des tâches en aval telles que le clustering.
Ceci crée un diagramme de Voronoi de l'espace des caractéristiques, où chaque centre cⱼ,ₖ définit une cellule de Voronoi.
Caractéristique d'adaptation à la densité:
Dans les régions denses: L'espacement entre les centres consécutifs est petit, créant de petites cellules de Voronoi; deux points à la même distance sont plus susceptibles de tomber dans des cellules différentes
Dans les régions creuses: L'espacement entre les centres consécutifs est grand, créant de grandes cellules de Voronoi; deux points à la même distance sont plus susceptibles de tomber dans la même cellule
Adaptation à la densité sans estimation explicite: Grâce à la combinaison du binning équifréquent et de l'allocation de proximité, la segmentation adaptée à la densité est réalisée naturellement
Traitement conjoint dans l'espace du noyau: Traiter les valeurs manquantes dans l'espace de représentation plutôt que dans l'espace original, évitant l'introduction de motifs artificiels
Stratégie d'appariement progressive: Des critères d'appariement stricts aux critères relâchés, maximisant l'utilisation des informations disponibles
Ce noyau satisfait la condition de Mercer (symétrie et semi-défini positif), possédant une interprétation probabiliste: calcul de la probabilité attendue que deux échantillons tombent dans le même bin sur toutes les caractéristiques.
Utilisation de 12 ensembles de données réels de l'UCI, couvrant plusieurs domaines:
Diagnostic médical: Kidney, Hepatitis, Heart, Tumor, Cancer
Classification biologique: Soybean, Mushroom
Analyse financière: Credit
Prédiction démographique: Adult
Analyse politique: Voting
Autres: Mammography, Horse
Les ensembles de données contiennent entre 155 et 48 842 échantillons, avec des dimensions de 5 à 35 et des taux de valeurs manquantes de 0,15% à 19,39%.
Utilisation de l'information mutuelle normalisée (NMI) pour évaluer la qualité du clustering, avec clustering K-means où le nombre de clusters est défini comme le nombre de classes réelles.
Performance globale: Atteint les meilleures ou deuxièmes meilleures performances sur 10 des 12 ensembles de données, avec le plus haut NMI moyen (0,4245)
Signification statistique: Le test de Friedman-Nemenyi montre que le noyau de proximité est significativement supérieur à toutes les autres méthodes sauf HI-PMK
Stabilité: Les diagrammes en boîte montrent que le noyau de proximité non seulement obtient les meilleures performances moyennes, mais aussi les plus cohérentes sur différents ensembles de données
Avec le nombre de bins variant de 2 à 10, les variations de NMI sur trois ensembles de données sont minimes (par exemple, l'ensemble de données Mammo fluctue entre 0,30-0,33), montrant que la méthode est insensible aux hyperparamètres.
Le noyau de proximité réussit à calculer directement la similarité entre les données incomplètes dans l'espace des caractéristiques du noyau, évitant l'imputation explicite dans l'espace original
Le binning dépendant des données combiné à l'allocation de proximité crée une représentation qui s'adapte à la densité locale, sans nécessiter d'estimation de densité explicite
La stratégie de secours en cascade utilise efficacement les informations disponibles, progressant graduellement de l'appariement strict aux priors globaux
La méthode réalise des performances supérieures tout en maintenant une complexité temporelle linéaire
Hypothèses sur le mécanisme de valeurs manquantes: L'évaluation actuelle est principalement basée sur le mécanisme MCAR (Missing Completely At Random); les données réelles présentent souvent des motifs MAR et MNAR plus complexes
Stratégie de binning: Le binning équifréquent peut ne pas être optimal pour toutes les distributions de données
Garanties théoriques: Absence de garanties de convergence théoriques pour le mécanisme de secours en cascade
Innovativité de la méthode: Unification de l'imputation et du calcul de similarité dans l'espace de représentation du noyau, évitant les problèmes des méthodes traditionnelles en deux étapes
Fondation théorique: Fournit des preuves rigoureuses de l'efficacité du noyau, satisfaisant la condition de Mercer
Praticité: La complexité temporelle linéaire rend la méthode applicable aux applications à grande échelle
Expérimentation complète: Évaluation exhaustive sur plusieurs ensembles de données, incluant les tests de signification statistique
Robustesse: Insensibilité aux hyperparamètres, performances stables à différents taux de valeurs manquantes
Limitation du mécanisme de valeurs manquantes: Évaluation principalement sous l'hypothèse MCAR; l'adaptabilité aux motifs de valeurs manquantes plus complexes n'est pas suffisamment vérifiée
Estimation de densité: Bien que prétendant ne pas nécessiter d'estimation de densité explicite, le binning équifréquent est essentiellement une forme d'estimation de densité implicite
Indépendance des caractéristiques: La modélisation des dépendances entre caractéristiques dans la stratégie de secours peut être insuffisante
Équité de la comparaison: Les ressources informatiques et le degré d'optimisation dans les comparaisons avec les méthodes d'apprentissage profond peuvent présenter des différences
L'article cite 21 références connexes, couvrant plusieurs domaines tels que le traitement des données manquantes, les méthodes à noyau et l'apprentissage profond, fournissant une base théorique solide et des références de comparaison pour cette recherche.
Résumé: La méthode du noyau de proximité proposée dans cet article apporte une contribution importante au domaine de la mesure de similarité pour les données incomplètes. Grâce à une conception ingénieuse de la représentation du noyau et à une stratégie de secours en cascade, elle réalise un bon équilibre entre performance et efficacité. Malgré certaines limitations, son innovativité et sa praticité lui confèrent une valeur importante dans les domaines d'application connexes.