Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
Rappresentazione del Kernel e Misura di Similarità per Dati Incompleti
Questo articolo affronta la sfida fondamentale della misurazione della similarità per dati incompleti, proponendo il metodo del kernel di prossimità (proximity kernel). I metodi tradizionali scartano i dati incompleti oppure eseguono prima un'imputazione di preprocessing, causando perdita di informazioni e distorsioni nella stima della similarità. Il kernel di prossimità calcola direttamente la similarità tra dati incompleti nello spazio delle caratteristiche del kernel, senza necessità di imputazione esplicita nello spazio originale. Il metodo introduce un meccanismo di binning dipendente dai dati combinato con assegnazione di prossimità, proiettando i dati in una rappresentazione sparsa ad alta dimensionalità che si adatta alle variazioni di densità locale. Per la gestione dei valori mancanti, viene proposta una strategia di fallback a cascata per stimare la distribuzione delle caratteristiche mancanti. Gli esperimenti di clustering su 12 dataset reali incompleti dimostrano che il metodo supera i metodi esistenti mantenendo una complessità temporale lineare.
La misurazione della similarità per dati incompleti è una sfida fondamentale nel data mining su reti, nei sistemi di raccomandazione e nell'analisi del comportamento degli utenti. I dati del mondo reale sono intrinsecamente incompleti a causa di preferenze di privacy degli utenti, mancate risposte nei sondaggi e divulgazione volontaria incompleta di informazioni.
Ubiquità: Nei sistemi di raccomandazione, gli utenti tipicamente valutano solo un piccolo numero di elementi, producendo matrici utente-elemento altamente sparse
Eterogeneità dei Dati: La mancanza di dati può interessare simultaneamente caratteristiche numeriche, categoriche o miste
Impatto su Compiti Successivi: La misurazione della similarità è fondamentale per clustering, classificazione e rilevamento di anomalie; stime imprecise della similarità riducono significativamente le prestazioni dei compiti
Metodi di Eliminazione: Ignorano i valori mancanti o rimuovono completamente i campioni incompleti, causando grave perdita di informazioni e distorsioni
Metodi di Imputazione: Utilizzano statistiche o tecniche complesse per riempire i valori mancanti, spesso non riuscendo a catturare la distribuzione di dati sottostante e potenzialmente introducendo pattern artificiali che non riflettono la vera struttura di similarità
Metodi di Deep Learning: Sebbene promettenti, richiedono tipicamente grandi dataset e risorse computazionali significative, mancano di garanzie teoriche e sono sensibili agli iperparametri
I metodi esistenti adottano una strategia "a due fasi" (imputazione prima, calcolo della similarità dopo). Questo articolo propone un nuovo approccio per gestire congiuntamente l'imputazione e la misurazione della similarità nello spazio di rappresentazione del kernel.
Propone il Metodo del Kernel di Prossimità: Proietta i dati in una rappresentazione sparsa ad alta dimensionalità attraverso binning a frequenza uguale e assegnazione di prossimità basata su Voronoi, adattandosi alla densità locale senza necessità di stima esplicita della densità
Strategia di Fallback a Cascata: Per la gestione dei valori mancanti, propone una strategia di matching con rilassamento progressivo dei vincoli dall'intersezione all'unione fino ai priori globali
Complessità Temporale Lineare: Realizza una complessità temporale lineare, rendendo il metodo scalabile a dataset di grandi dimensioni
Verifica Sperimentale: Dimostra prestazioni superiori ai metodi esistenti in compiti di clustering su 12 dataset
Dato un dataset D = {x₁, x₂, ..., xₙ} contenente n campioni, dove ogni campione xᵢ ∈ ℝᵈ è un vettore di caratteristiche d-dimensionale potenzialmente contenente valori mancanti (rappresentati come NaN). L'obiettivo è calcolare una funzione di similarità s : D × D → 0,1 che quantifichi la similarità tra due campioni arbitrari, da utilizzare in compiti successivi come il clustering.
Questo crea un diagramma di Voronoi dello spazio delle caratteristiche, dove ogni centro cⱼ,ₖ definisce una cella di Voronoi.
Caratteristica di Adattamento alla Densità:
In aree dense: la distanza tra centri consecutivi è piccola, creando piccole celle di Voronoi; due punti alla stessa distanza hanno maggiore probabilità di cadere in celle diverse
In aree sparse: la distanza tra centri consecutivi è grande, creando grandi celle di Voronoi; due punti alla stessa distanza hanno maggiore probabilità di cadere nella stessa cella
Adattamento alla Densità Senza Stima Esplicita: La combinazione di binning a frequenza uguale e assegnazione di prossimità realizza naturalmente la segmentazione adattata alla densità
Elaborazione Congiunta nello Spazio del Kernel: Gestisce i valori mancanti nello spazio di rappresentazione piuttosto che nello spazio originale, evitando l'introduzione di pattern artificiali
Strategia di Matching Progressivo: Criteri di matching da rigorosi a permissivi, massimizzando l'utilizzo delle informazioni disponibili
Questo kernel soddisfa la condizione di Mercer (simmetria e semi-definitezza positiva), con interpretazione probabilistica: calcola la probabilità attesa che due campioni cadano nello stesso bin su tutte le caratteristiche.
Utilizzare l'Informazione Mutua Normalizzata (NMI) per valutare la qualità del clustering, adottando il clustering K-means con il numero di cluster impostato al numero di classi reali.
Prestazioni Complessive: Raggiunge le migliori o seconde migliori prestazioni su 10 dei 12 dataset, con NMI medio più alto (0,4245)
Significatività Statistica: Il test di Friedman-Nemenyi mostra che il kernel di prossimità è significativamente superiore a tutti gli altri metodi eccetto HI-PMK
Stabilità: I grafici a scatola mostrano che il kernel di prossimità non solo ha le migliori prestazioni medie, ma anche prestazioni più coerenti su diversi dataset
Variando il numero di bin da 2 a 10, i cambiamenti di NMI su tre dataset sono minimi (ad esempio, il dataset Mammo varia tra 0,30-0,33), dimostrando l'insensibilità del metodo agli iperparametri.
Il kernel di prossimità realizza con successo il calcolo diretto della similarità per dati incompleti nello spazio delle caratteristiche del kernel, evitando l'imputazione esplicita nello spazio originale
Il binning dipendente dai dati combinato con l'assegnazione di prossimità crea una rappresentazione che si adatta alla densità locale, senza necessità di stima esplicita della densità
La strategia di fallback a cascata utilizza efficacemente le informazioni disponibili, rilassando progressivamente il matching da rigoroso a priore globale
Il metodo realizza prestazioni superiori mantenendo una complessità temporale lineare
Assunzioni sul Meccanismo di Mancanza: La valutazione attuale si basa principalmente sul meccanismo MCAR (Missing Completely At Random), mentre i dati reali spesso mostrano pattern MAR e MNAR più complessi
Strategia di Binning: Il binning a frequenza uguale potrebbe non essere la scelta ottimale per tutte le distribuzioni di dati
Garanzie Teoriche: Mancano garanzie teoriche di convergenza per il meccanismo di fallback a cascata
Innovazione del Metodo: Unifica l'imputazione e il calcolo della similarità nello spazio di rappresentazione del kernel, evitando i problemi dei metodi tradizionali a due fasi
Fondamento Teorico: Fornisce prove rigorose dell'efficacia del kernel, soddisfacendo la condizione di Mercer
Praticità: La complessità temporale lineare rende il metodo applicabile a applicazioni su larga scala
Valutazione Completa: Valutazione comprensiva su molteplici dataset, inclusi test di significatività statistica
Robustezza: Insensibile agli iperparametri, prestazioni stabili con diversi tassi di mancanza
Limitazioni del Meccanismo di Mancanza: Valutazione principalmente sotto l'assunzione MCAR; l'adattabilità a pattern di mancanza più complessi non è sufficientemente verificata
Stima della Densità: Sebbene affermi di non richiedere stima esplicita della densità, il binning a frequenza uguale è essenzialmente una forma di stima implicita della densità
Indipendenza delle Caratteristiche: La modellazione della dipendenza tra caratteristiche nella strategia di fallback potrebbe essere insufficiente
Equità del Confronto: Nel confronto con metodi di deep learning, potrebbero esistere differenze nelle risorse computazionali e nel grado di ottimizzazione
L'articolo cita 21 lavori correlati, coprendo molteplici domini come la gestione di dati mancanti, metodi del kernel e deep learning, fornendo una solida base teorica e benchmark di confronto per questa ricerca.
Sintesi: Il metodo del kernel di prossimità proposto in questo articolo fornisce un contributo importante nel campo della misurazione della similarità per dati incompleti. Attraverso un design intelligente della rappresentazione del kernel e una strategia di fallback a cascata, realizza un buon equilibrio tra prestazioni ed efficienza. Nonostante alcune limitazioni, la sua innovatività e praticità lo rendono di importante valore nelle applicazioni correlate.