2025-11-24T15:01:18.137860

Kernel Representation and Similarity Measure for Incomplete Data

Cao, Yang, He et al.

Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.

academic

Rappresentazione del Kernel e Misura di Similarità per Dati Incompleti

Informazioni Fondamentali

ID Articolo: 2510.13352
Titolo: Kernel Representation and Similarity Measure for Incomplete Data
Autori: Yang Cao, Sikun Yang, Kai He, Wenjun Ma, Ming Liu, Yujiu Yang, Jian Weng
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 15 ottobre 2024 (Sottomissione arXiv)
Link Articolo: https://arxiv.org/abs/2510.13352v1

Riassunto

Questo articolo affronta la sfida fondamentale della misurazione della similarità per dati incompleti, proponendo il metodo del kernel di prossimità (proximity kernel). I metodi tradizionali scartano i dati incompleti oppure eseguono prima un'imputazione di preprocessing, causando perdita di informazioni e distorsioni nella stima della similarità. Il kernel di prossimità calcola direttamente la similarità tra dati incompleti nello spazio delle caratteristiche del kernel, senza necessità di imputazione esplicita nello spazio originale. Il metodo introduce un meccanismo di binning dipendente dai dati combinato con assegnazione di prossimità, proiettando i dati in una rappresentazione sparsa ad alta dimensionalità che si adatta alle variazioni di densità locale. Per la gestione dei valori mancanti, viene proposta una strategia di fallback a cascata per stimare la distribuzione delle caratteristiche mancanti. Gli esperimenti di clustering su 12 dataset reali incompleti dimostrano che il metodo supera i metodi esistenti mantenendo una complessità temporale lineare.

Contesto di Ricerca e Motivazione

Problema Centrale

La misurazione della similarità per dati incompleti è una sfida fondamentale nel data mining su reti, nei sistemi di raccomandazione e nell'analisi del comportamento degli utenti. I dati del mondo reale sono intrinsecamente incompleti a causa di preferenze di privacy degli utenti, mancate risposte nei sondaggi e divulgazione volontaria incompleta di informazioni.

Importanza del Problema

Ubiquità: Nei sistemi di raccomandazione, gli utenti tipicamente valutano solo un piccolo numero di elementi, producendo matrici utente-elemento altamente sparse
Eterogeneità dei Dati: La mancanza di dati può interessare simultaneamente caratteristiche numeriche, categoriche o miste
Impatto su Compiti Successivi: La misurazione della similarità è fondamentale per clustering, classificazione e rilevamento di anomalie; stime imprecise della similarità riducono significativamente le prestazioni dei compiti

Limitazioni dei Metodi Esistenti

Metodi di Eliminazione: Ignorano i valori mancanti o rimuovono completamente i campioni incompleti, causando grave perdita di informazioni e distorsioni
Metodi di Imputazione: Utilizzano statistiche o tecniche complesse per riempire i valori mancanti, spesso non riuscendo a catturare la distribuzione di dati sottostante e potenzialmente introducendo pattern artificiali che non riflettono la vera struttura di similarità
Metodi di Deep Learning: Sebbene promettenti, richiedono tipicamente grandi dataset e risorse computazionali significative, mancano di garanzie teoriche e sono sensibili agli iperparametri

Motivazione della Ricerca

I metodi esistenti adottano una strategia "a due fasi" (imputazione prima, calcolo della similarità dopo). Questo articolo propone un nuovo approccio per gestire congiuntamente l'imputazione e la misurazione della similarità nello spazio di rappresentazione del kernel.

Contributi Principali

Propone il Metodo del Kernel di Prossimità: Proietta i dati in una rappresentazione sparsa ad alta dimensionalità attraverso binning a frequenza uguale e assegnazione di prossimità basata su Voronoi, adattandosi alla densità locale senza necessità di stima esplicita della densità
Strategia di Fallback a Cascata: Per la gestione dei valori mancanti, propone una strategia di matching con rilassamento progressivo dei vincoli dall'intersezione all'unione fino ai priori globali
Complessità Temporale Lineare: Realizza una complessità temporale lineare, rendendo il metodo scalabile a dataset di grandi dimensioni
Verifica Sperimentale: Dimostra prestazioni superiori ai metodi esistenti in compiti di clustering su 12 dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un dataset D = {x₁, x₂, ..., xₙ} contenente n campioni, dove ogni campione xᵢ ∈ ℝᵈ è un vettore di caratteristiche d-dimensionale potenzialmente contenente valori mancanti (rappresentati come NaN). L'obiettivo è calcolare una funzione di similarità s : D × D → 0,1 che quantifichi la similarità tra due campioni arbitrari, da utilizzare in compiti successivi come il clustering.

Architettura del Modello

1. Binning Dipendente dai Dati e Assegnazione di Prossimità

Selezione dei Centri di Binning: Per ogni caratteristica j, utilizzare il binning a frequenza uguale per selezionare nᵦᵢₙₛ centri di binning:

c_{j,k} = percentile(X_{obs,j}, (k-1)×100/(n_{bins}-1))

dove k ∈ {1,2,...,nᵦᵢₙₛ} e Xₒᵦₛ,ⱼ rappresenta tutti i valori osservati della caratteristica j.

Meccanismo di Assegnazione di Prossimità: Utilizza l'assegnazione di prossimità piuttosto che l'appartenenza a intervalli tradizionali:

b_{i,j} = argmin_{k∈{1,...,n_{bins}}} |x_{i,j} - c_{j,k}|

Questo crea un diagramma di Voronoi dello spazio delle caratteristiche, dove ogni centro cⱼ,ₖ definisce una cella di Voronoi.

Caratteristica di Adattamento alla Densità:

In aree dense: la distanza tra centri consecutivi è piccola, creando piccole celle di Voronoi; due punti alla stessa distanza hanno maggiore probabilità di cadere in celle diverse
In aree sparse: la distanza tra centri consecutivi è grande, creando grandi celle di Voronoi; due punti alla stessa distanza hanno maggiore probabilità di cadere nella stessa cella

2. Costruzione della Codifica One-Hot

Per ogni caratteristica j e campione i, costruire un vettore binario hᵢ,ⱼ ∈ {0,1}^{n_}:

h_{i,j,k} = {1 if b_{i,j} = k; 0 otherwise}

La codifica completa è la concatenazione di tutte le caratteristiche: zᵢ = hᵢ,₁, hᵢ,₂, ..., hᵢ,ₐ

3. Strategia di Fallback a Cascata per la Gestione dei Valori Mancanti

Livello 1 - Matching per Intersezione: Trovare campioni che corrispondono su tutte le caratteristiche osservate:

S₁(i) = ∩_{j∈O_i} C_{i,j}

dove C_{i,j} = {m : m≠i, b_{m,j} = b_{i,j}}

Livello 2 - Matching per Unione: Se S₁(i) = ∅, rilassare a qualsiasi caratteristica osservata corrispondente:

S₂(i) = ∪_{j∈O_i} C_{i,j}

Livello 3 - Priore Globale: Se S₂(i) = ∅, utilizzare la distribuzione globale:

p_{j,k} = count of samples in bin k for feature j / count of samples with observed feature j

Per ogni livello, utilizzare l'embedding della media del kernel (KME) per stimare la codifica mancante:

h_{i,j,k} = 1/|S(i)| ∑_{m∈S(i)} h_{m,j,k}

Punti di Innovazione Tecnica

Adattamento alla Densità Senza Stima Esplicita: La combinazione di binning a frequenza uguale e assegnazione di prossimità realizza naturalmente la segmentazione adattata alla densità
Elaborazione Congiunta nello Spazio del Kernel: Gestisce i valori mancanti nello spazio di rappresentazione piuttosto che nello spazio originale, evitando l'introduzione di pattern artificiali
Strategia di Matching Progressivo: Criteri di matching da rigorosi a permissivi, massimizzando l'utilizzo delle informazioni disponibili

Definizione del Kernel di Prossimità

K(x_m, x_n) = 1/d · z_m^T z_n = <z_m, z_n>

Questo kernel soddisfa la condizione di Mercer (simmetria e semi-definitezza positiva), con interpretazione probabilistica: calcola la probabilità attesa che due campioni cadano nello stesso bin su tutte le caratteristiche.

Configurazione Sperimentale

Dataset

Utilizzare 12 dataset reali provenienti dall'UCI, coprendo molteplici domini:

Diagnostica medica: Kidney, Hepatitis, Heart, Tumor, Cancer
Classificazione biologica: Soybean, Mushroom
Analisi finanziaria: Credit
Previsione demografica: Adult
Analisi politica: Voting
Altro: Mammography, Horse

I dataset contengono da 155 a 48.842 campioni, dimensioni da 5 a 35, tassi di mancanza da 0,15% a 19,39%.

Metriche di Valutazione

Utilizzare l'Informazione Mutua Normalizzata (NMI) per valutare la qualità del clustering, adottando il clustering K-means con il numero di cluster impostato al numero di classi reali.

Metodi di Confronto

9 metodi rappresentativi:

Imputazione semplice: imputazione della media
Metodi statistici: MissForest, MICE, KNN, EM
Deep Learning: GAIN, MIRACLE, MIWAE
Metodi del Kernel: HI-PMK

Dettagli di Implementazione

Ogni esperimento ripetuto 10 volte con media dei risultati
Ottimizzazione degli iperparametri per tutti i metodi baseline
Numero di bin del kernel di prossimità ricercato in {2,3,4,6,8}

Risultati Sperimentali

Risultati Principali

Prestazioni Complessive: Raggiunge le migliori o seconde migliori prestazioni su 10 dei 12 dataset, con NMI medio più alto (0,4245)
Significatività Statistica: Il test di Friedman-Nemenyi mostra che il kernel di prossimità è significativamente superiore a tutti gli altri metodi eccetto HI-PMK
Stabilità: I grafici a scatola mostrano che il kernel di prossimità non solo ha le migliori prestazioni medie, ma anche prestazioni più coerenti su diversi dataset

Esperimenti di Robustezza al Tasso di Mancanza

Test su dataset 3L e Messidor con tassi di mancanza dal 10% al 50%:

Mantiene prestazioni superiori stabili con tassi di mancanza da bassi a medi (10%-40%)
Mantiene prestazioni ragionevoli anche con tassi di mancanza estremi (50%)
In confronto, KNN e MissForest hanno prestazioni quasi nulle con tassi di mancanza del 30%

Analisi di Scalabilità

Complessità Temporale: O(nd + d·n log n), lineare nel numero di campioni per dimensione fissa
Complessità Spaziale: O(nd), lineare nel numero di campioni e caratteristiche
Tempo di Esecuzione Effettivo: Significativamente più veloce di HI-PMK e MIWAE

Analisi di Sensibilità

Variando il numero di bin da 2 a 10, i cambiamenti di NMI su tre dataset sono minimi (ad esempio, il dataset Mammo varia tra 0,30-0,33), dimostrando l'insensibilità del metodo agli iperparametri.

Lavori Correlati

Metodi di Imputazione Tradizionali

Imputazione Semplice: Imputazione della media/moda, computazionalmente efficiente ma non preserva la variabilità naturale dei dati
Imputazione KNN: Basata su k campioni più simili, ma prestazioni scarse su dati ad alta dimensionalità sparsi
Algoritmo EM: Basato sulla stima della densità di massima verosimiglianza, richiede forti assunzioni distributive
MICE: Crea molteplici dataset imputati, computazionalmente costoso e richiede specifica attenta del modello
MissForest: Utilizza foreste casuali per imputazione iterativa, può overfittare e manca di garanzie di convergenza

Metodi di Deep Learning

GAIN: Utilizza reti generative avversariali per apprendere la distribuzione dei dati mancanti
MIWAE: Utilizza modelli a variabili latenti profonde per massimizzare il limite inferiore della verosimiglianza dei dati osservati
MIRACLE: Combina inferenza causale con deep learning per migliorare la qualità dell'imputazione

Metodi del Kernel

Distanze Tradizionali: La distanza euclidea non si applica direttamente ai dati incompleti
HI-PMK: Metodo del kernel dipendente dai dati, ma con complessità computazionale elevata e sensibilità agli iperparametri

Conclusioni e Discussione

Conclusioni Principali

Il kernel di prossimità realizza con successo il calcolo diretto della similarità per dati incompleti nello spazio delle caratteristiche del kernel, evitando l'imputazione esplicita nello spazio originale
Il binning dipendente dai dati combinato con l'assegnazione di prossimità crea una rappresentazione che si adatta alla densità locale, senza necessità di stima esplicita della densità
La strategia di fallback a cascata utilizza efficacemente le informazioni disponibili, rilassando progressivamente il matching da rigoroso a priore globale
Il metodo realizza prestazioni superiori mantenendo una complessità temporale lineare

Limitazioni

Assunzioni sul Meccanismo di Mancanza: La valutazione attuale si basa principalmente sul meccanismo MCAR (Missing Completely At Random), mentre i dati reali spesso mostrano pattern MAR e MNAR più complessi
Strategia di Binning: Il binning a frequenza uguale potrebbe non essere la scelta ottimale per tutte le distribuzioni di dati
Garanzie Teoriche: Mancano garanzie teoriche di convergenza per il meccanismo di fallback a cascata

Direzioni Future

Investigare il comportamento del metodo sotto meccanismi di mancanza MAR e MNAR
Esplorare strategie di selezione del binning adattivo
Stabilire garanzie teoriche di convergenza per il meccanismo di fallback a cascata
Estendere a tipi di dati e strutture più complesse

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: Unifica l'imputazione e il calcolo della similarità nello spazio di rappresentazione del kernel, evitando i problemi dei metodi tradizionali a due fasi
Fondamento Teorico: Fornisce prove rigorose dell'efficacia del kernel, soddisfacendo la condizione di Mercer
Praticità: La complessità temporale lineare rende il metodo applicabile a applicazioni su larga scala
Valutazione Completa: Valutazione comprensiva su molteplici dataset, inclusi test di significatività statistica
Robustezza: Insensibile agli iperparametri, prestazioni stabili con diversi tassi di mancanza

Insufficienze

Limitazioni del Meccanismo di Mancanza: Valutazione principalmente sotto l'assunzione MCAR; l'adattabilità a pattern di mancanza più complessi non è sufficientemente verificata
Stima della Densità: Sebbene affermi di non richiedere stima esplicita della densità, il binning a frequenza uguale è essenzialmente una forma di stima implicita della densità
Indipendenza delle Caratteristiche: La modellazione della dipendenza tra caratteristiche nella strategia di fallback potrebbe essere insufficiente
Equità del Confronto: Nel confronto con metodi di deep learning, potrebbero esistere differenze nelle risorse computazionali e nel grado di ottimizzazione

Impatto

Contributo Accademico: Fornisce un nuovo quadro teorico per la misurazione della similarità in dati incompleti
Valore Pratico: Ha valore diretto in applicazioni come sistemi di raccomandazione e data mining su reti
Riproducibilità: Fornisce link al codice, facilitando la verifica e la diffusione del metodo

Scenari Applicabili

Sistemi di Raccomandazione: Gestire la sparsità delle matrici di valutazione utente-elemento
Data Mining su Reti: Gestire l'incompletezza dei dati sul comportamento degli utenti
Analisi di Dati Medici: Gestire i valori mancanti nei dati clinici
Elaborazione di Dati su Larga Scala: La complessità lineare è adatta per applicazioni su larga scala

Bibliografia

L'articolo cita 21 lavori correlati, coprendo molteplici domini come la gestione di dati mancanti, metodi del kernel e deep learning, fornendo una solida base teorica e benchmark di confronto per questa ricerca.

Sintesi: Il metodo del kernel di prossimità proposto in questo articolo fornisce un contributo importante nel campo della misurazione della similarità per dati incompleti. Attraverso un design intelligente della rappresentazione del kernel e una strategia di fallback a cascata, realizza un buon equilibrio tra prestazioni ed efficienza. Nonostante alcune limitazioni, la sua innovatività e praticità lo rendono di importante valore nelle applicazioni correlate.