Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
Representación del Kernel y Medida de Similitud para Datos Incompletos
Este artículo aborda el desafío fundamental de la medida de similitud para datos incompletos mediante el método del kernel de proximidad (proximity kernel). Los métodos tradicionales descartan datos incompletos o realizan preprocesamiento de imputación, lo que resulta en pérdida de información y sesgo en la estimación de similitud. El kernel de proximidad calcula directamente la similitud entre datos incompletos en el espacio de características del kernel, sin necesidad de imputación explícita en el espacio original. El método introduce un mecanismo de binning dependiente de los datos combinado con asignación de proximidad, proyectando los datos en representaciones dispersas de alta dimensión que se adaptan a variaciones de densidad local. Para el manejo de valores faltantes, se propone una estrategia de retroceso en cascada para estimar la distribución de características faltantes. Los experimentos de agrupamiento en 12 conjuntos de datos reales incompletos demuestran que el método supera a los métodos existentes mientras mantiene complejidad temporal lineal.
La medida de similitud para datos incompletos es un desafío fundamental en minería de redes, sistemas de recomendación y análisis de comportamiento de usuarios. Los datos del mundo real son inherentemente incompletos debido a preferencias de privacidad de usuarios, falta de respuesta en encuestas e información voluntariamente no divulgada.
Prevalencia Generalizada: En sistemas de recomendación, los usuarios típicamente califican solo una pequeña cantidad de elementos, produciendo matrices usuario-elemento altamente dispersas
Heterogeneidad de Datos: La falta de datos puede afectar simultáneamente características numéricas, categóricas o mixtas
Impacto en Tareas Posteriores: La medida de similitud es fundamental para agrupamiento, clasificación y detección de anomalías; estimaciones de similitud inexactas reducen significativamente el rendimiento de tareas
Métodos de Eliminación: Ignoran valores faltantes o eliminan completamente muestras incompletas, causando pérdida grave de información y sesgo
Métodos de Imputación: Utilizan estadísticas o técnicas complejas para rellenar valores faltantes, frecuentemente incapaces de capturar distribuciones de datos subyacentes, potencialmente introduciendo patrones artificiales que no reflejan la verdadera estructura de similitud
Métodos de Aprendizaje Profundo: Aunque prometedores, típicamente requieren grandes conjuntos de datos y recursos computacionales sustanciales, carecen de garantías teóricas y son sensibles a hiperparámetros
Los métodos existentes adoptan una estrategia de "dos fases" (imputación primero, luego cálculo de similitud). Este artículo propone un nuevo enfoque para manejar conjuntamente la imputación y la medida de similitud en el espacio de representación del kernel.
Propone el Método del Kernel de Proximidad: Proyecta datos en representaciones dispersas de alta dimensión mediante binning de frecuencia igual y asignación de proximidad basada en Voronoi, adaptándose a densidad local sin necesidad de estimación de densidad explícita
Estrategia de Retroceso en Cascada: Para el manejo de valores faltantes, propone una estrategia de coincidencia con restricciones progresivamente relajadas, desde intersección hasta unión y luego a priors globales
Complejidad Temporal Lineal: Logra complejidad temporal lineal, haciendo el método escalable a conjuntos de datos grandes
Validación Experimental: Demuestra rendimiento superior a métodos existentes en tareas de agrupamiento en 12 conjuntos de datos
Dado un conjunto de datos D = {x₁, x₂, ..., xₙ} con n muestras, donde cada muestra xᵢ ∈ ℝᵈ es un vector de características d-dimensional que puede contener valores faltantes (representados como NaN). El objetivo es calcular una función de similitud s : D × D → 0,1 que cuantifique la similitud entre dos muestras cualesquiera, para ser utilizada en tareas posteriores como agrupamiento.
Esto crea un diagrama de Voronoi del espacio de características, donde cada centro cⱼ,ₖ define una celda de Voronoi.
Característica de Adaptación a Densidad:
En regiones densas: La distancia entre centros consecutivos es pequeña, creando celdas de Voronoi pequeñas, donde dos puntos a la misma distancia tienen mayor probabilidad de caer en diferentes celdas
En regiones dispersas: La distancia entre centros consecutivos es grande, creando celdas de Voronoi grandes, donde dos puntos a la misma distancia tienen mayor probabilidad de caer en la misma celda
Adaptación a Densidad sin Estimación Explícita: Mediante la combinación de binning de frecuencia igual y asignación de proximidad, se logra naturalmente la partición adaptada a densidad
Procesamiento Conjunto en Espacio del Kernel: Maneja valores faltantes en el espacio de representación en lugar del espacio original, evitando la introducción de patrones artificiales
Estrategia de Coincidencia Progresiva: Criterios de coincidencia que van de estrictos a relajados, maximizando la utilización de información disponible
Este kernel satisface la condición de Mercer (simetría y semi-definición positiva), con interpretación probabilística: calcula la probabilidad esperada de que dos muestras caigan en el mismo bin en todas las características.
Se utiliza Información Mutua Normalizada (NMI) para evaluar la calidad del agrupamiento, empleando agrupamiento K-means con número de clusters igual al número de clases verdaderas.
Rendimiento General: Logra el mejor o segundo mejor rendimiento en 10 de 12 conjuntos de datos, con NMI promedio más alto (0.4245)
Significancia Estadística: La prueba de Friedman-Nemenyi muestra que el kernel de proximidad es significativamente superior a todos los demás métodos excepto HI-PMK
Estabilidad: Los gráficos de caja muestran que el kernel de proximidad no solo tiene el mejor rendimiento promedio, sino también un desempeño más consistente en diferentes conjuntos de datos
Cuando el número de bins varía de 2 a 10, el cambio de NMI en tres conjuntos de datos es muy pequeño (por ejemplo, en el conjunto Mammo varía entre 0.30-0.33), demostrando que el método es insensible a hiperparámetros.
El kernel de proximidad logra exitosamente calcular directamente la similitud entre datos incompletos en el espacio de características del kernel, evitando imputación explícita en el espacio original
El binning dependiente de datos combinado con asignación de proximidad crea una representación que se adapta a densidad local, sin necesidad de estimación de densidad explícita
La estrategia de retroceso en cascada utiliza efectivamente la información disponible, relajando progresivamente desde coincidencia estricta a priors globales
El método logra rendimiento superior mientras mantiene complejidad temporal lineal
Supuestos sobre Mecanismo de Falta de Datos: La evaluación actual se basa principalmente en mecanismo MCAR (falta completamente aleatoria), mientras que datos reales frecuentemente exhiben patrones MAR y MNAR más complejos
Estrategia de Binning: El binning de frecuencia igual puede no ser óptimo para todas las distribuciones de datos
Garantías Teóricas: Carece de garantías teóricas de convergencia para el mecanismo de retroceso en cascada
Innovación del Método: Unifica imputación y cálculo de similitud en el espacio de representación del kernel, evitando problemas de métodos tradicionales de dos fases
Fundamento Teórico: Proporciona pruebas rigurosas de validez del kernel, satisfaciendo la condición de Mercer
Practicidad: La complejidad temporal lineal hace el método aplicable a aplicaciones a gran escala
Experimentación Exhaustiva: Evaluación completa en múltiples conjuntos de datos, incluyendo pruebas de significancia estadística
Robustez: Insensible a hiperparámetros, con desempeño estable bajo diferentes tasas de falta de datos
Limitación del Mecanismo de Falta de Datos: Evaluación principalmente bajo supuesto MCAR, adaptabilidad a patrones de falta más complejos no suficientemente verificada
Estimación de Densidad: Aunque afirma no necesitar estimación de densidad explícita, el binning de frecuencia igual es esencialmente una estimación de densidad implícita
Independencia de Características: El modelado de dependencias entre características en la estrategia en cascada puede ser insuficiente
Equidad de Comparación: En comparaciones con métodos de aprendizaje profundo, puede haber diferencias en recursos computacionales y grado de ajuste
El artículo cita 21 referencias relacionadas, abarcando múltiples campos incluyendo manejo de datos faltantes, métodos del kernel y aprendizaje profundo, proporcionando una base teórica sólida y puntos de referencia para comparación.
Resumen: El método del kernel de proximidad propuesto en este artículo realiza contribuciones importantes en el campo de la medida de similitud para datos incompletos. Mediante diseño ingenioso de representación del kernel y estrategia de retroceso en cascada, logra un buen equilibrio entre rendimiento y eficiencia. A pesar de algunas limitaciones, su innovación y practicidad le confieren valor importante en campos de aplicación relacionados.