2025-11-24T15:01:18.137860

Kernel Representation and Similarity Measure for Incomplete Data

Cao, Yang, He et al.

Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.

academic

Kernel-Darstellung und Ähnlichkeitsmessung für unvollständige Daten

Grundlegende Informationen

Papier-ID: 2510.13352
Titel: Kernel Representation and Similarity Measure for Incomplete Data
Autoren: Yang Cao, Sikun Yang, Kai He, Wenjun Ma, Ming Liu, Yujiu Yang, Jian Weng
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 15. Oktober 2024 (arXiv-Einreichung)
Papier-Link: https://arxiv.org/abs/2510.13352v1

Zusammenfassung

Dieses Papier schlägt eine Proximity-Kernel-Methode vor, um die grundlegende Herausforderung der Ähnlichkeitsmessung bei unvollständigen Daten zu bewältigen. Herkömmliche Methoden verwerfen entweder unvollständige Daten oder führen zunächst eine Imputationsvorverarbeitung durch, was zu Informationsverlust und Verzerrungen bei der Ähnlichkeitsschätzung führt. Der Proximity-Kernel berechnet die Ähnlichkeit zwischen unvollständigen Daten direkt im Kernel-Merkmalsraum, ohne explizite Imputation im ursprünglichen Raum zu erfordern. Die Methode führt einen datenabhängigen Binning-Mechanismus in Kombination mit Proximity-Zuweisung ein, um Daten in hochdimensionale spärliche Darstellungen zu projizieren, die sich an lokale Dichteschwankungen anpassen. Zur Behandlung fehlender Werte wird eine kaskadierende Fallback-Strategie zur Schätzung der Verteilung fehlender Merkmale vorgeschlagen. Clustering-Experimente auf 12 echten unvollständigen Datensätzen zeigen, dass die Methode bei Beibehaltung linearer Zeitkomplexität bestehende Methoden übertrifft.

Forschungshintergrund und Motivation

Kernproblem

Die Ähnlichkeitsmessung bei unvollständigen Daten ist eine grundlegende Herausforderung beim Netzwerk-Mining, in Empfehlungssystemen und bei der Analyse von Benutzerverhalten. Daten aus der realen Welt sind aufgrund von Benutzervertraulichkeitspräferenzen, fehlenden Umfrageantworten und freiwilliger Nichtoffenlegung von Informationen von Natur aus unvollständig.

Bedeutung des Problems

Weit verbreitet: In Empfehlungssystemen bewerten Benutzer typischerweise nur eine kleine Anzahl von Elementen, was zu hochgradig spärlichen Benutzer-Element-Matrizen führt
Datenheterogenität: Fehlende Werte können gleichzeitig numerische, kategorische oder gemischte Merkmale beeinflussen
Auswirkungen auf nachgelagerte Aufgaben: Die Ähnlichkeitsmessung ist die Grundlage für Clustering-, Klassifizierungs- und Anomalieerkennung, und ungenaue Ähnlichkeitsschätzungen können die Aufgabenleistung erheblich beeinträchtigen

Einschränkungen bestehender Methoden

Löschmethoden: Ignorieren fehlende Werte oder entfernen unvollständige Stichproben vollständig, was zu erheblichem Informationsverlust und Verzerrungen führt
Imputationsmethoden: Verwenden statistische Größen oder komplexe Techniken zum Ausfüllen fehlender Werte, können jedoch häufig die zugrunde liegende Datenverteilung nicht erfassen und können künstliche Muster einführen, die nicht die wahre Ähnlichkeitsstruktur widerspiegeln
Deep-Learning-Methoden: Obwohl vielversprechend, erfordern sie normalerweise große Datensätze und erhebliche Rechenressourcen, bieten keine theoretischen Garantien und sind empfindlich gegenüber Hyperparametern

Forschungsmotivation

Bestehende Methoden verwenden eine „zweistufige" Strategie (zuerst Imputation, dann Ähnlichkeitsberechnung). Dieses Papier schlägt einen neuen Ansatz vor, der Imputation und Ähnlichkeitsmessung gemeinsam im Kernel-Darstellungsraum behandelt.

Kernbeiträge

Proximity-Kernel-Methode: Projiziert Daten durch gleichfrequente Binning und Voronoi-basierte Proximity-Zuweisung in hochdimensionale spärliche Darstellungen, ohne explizite Dichteschätzung und mit Anpassung an lokale Dichte
Kaskadierende Fallback-Strategie: Schlägt eine progressive Lockerung der Matching-Strategie von Schnittmenge über Vereinigung bis zu globalen Priors für die Behandlung fehlender Werte vor
Lineare Zeitkomplexität: Erreicht lineare Zeitkomplexität, was die Methode auf große Datensätze skalierbar macht
Experimentelle Validierung: Demonstriert überlegene Leistung gegenüber bestehenden Methoden bei Clustering-Aufgaben auf 12 Datensätzen

Methodische Details

Aufgabendefinition

Gegeben ein Datensatz D = {x₁, x₂, ..., xₙ} mit n Stichproben, wobei jede Stichprobe xᵢ ∈ ℝᵈ ein d-dimensionaler Merkmalsvektor ist, der fehlende Werte enthalten kann (dargestellt als NaN). Das Ziel ist die Berechnung einer Ähnlichkeitsfunktion s : D × D → 0,1, die die Ähnlichkeit zwischen zwei beliebigen Stichproben quantifiziert und für nachgelagerte Aufgaben wie Clustering verwendet wird.

Modellarchitektur

1. Datenabhängiges Binning und Proximity-Zuweisung

Auswahl der Bin-Zentren: Für jedes Merkmal j werden nᵦᵢₙₛ Bin-Zentren mit gleichfrequentem Binning ausgewählt:

c_{j,k} = percentile(X_{obs,j}, (k-1)×100/(n_{bins}-1))

wobei k ∈ {1,2,...,nᵦᵢₙₛ} und Xₒᵦₛ,ⱼ alle beobachteten Werte des Merkmals j darstellt.

Proximity-Zuweisungsmechanismus: Verwendet Proximity-Zuweisung anstelle traditioneller Intervall-Mitgliedschaft:

b_{i,j} = argmin_{k∈{1,...,n_{bins}}} |x_{i,j} - c_{j,k}|

Dies erzeugt ein Voronoi-Diagramm des Merkmalsraums, wobei jedes Zentrum cⱼ,ₖ eine Voronoi-Zelle definiert.

Dichteadaptive Eigenschaften:

In dichten Regionen: Der Abstand zwischen aufeinanderfolgenden Zentren ist klein, was kleine Voronoi-Zellen erzeugt; zwei Punkte mit gleichem Abstand fallen wahrscheinlicher in verschiedene Zellen
In spärlichen Regionen: Der Abstand zwischen aufeinanderfolgenden Zentren ist groß, was große Voronoi-Zellen erzeugt; zwei Punkte mit gleichem Abstand fallen wahrscheinlicher in die gleiche Zelle

2. One-Hot-Kodierung-Konstruktion

Für jedes Merkmal j und jede Stichprobe i wird ein binärer Vektor hᵢ,ⱼ ∈ {0,1}^{n_} konstruiert:

h_{i,j,k} = {1 if b_{i,j} = k; 0 otherwise}

Die vollständige Kodierung ist die Verkettung aller Merkmale: zᵢ = hᵢ,₁, hᵢ,₂, ..., hᵢ,ₐ

3. Kaskadierende Fallback-Strategie zur Behandlung fehlender Werte

Stufe 1 - Schnittmengen-Matching: Sucht Stichproben, die bei allen beobachteten Merkmalen übereinstimmen:

S₁(i) = ∩_{j∈O_i} C_{i,j}

wobei C_{i,j} = {m : m≠i, b_{m,j} = b_{i,j}}

Stufe 2 - Vereinigungs-Matching: Falls S₁(i) = ∅, wird auf beliebiges beobachtetes Merkmal-Matching gelockert:

S₂(i) = ∪_{j∈O_i} C_{i,j}

Stufe 3 - Globales Prior: Falls S₂(i) = ∅, wird die globale Verteilung verwendet:

p_{j,k} = count of samples in bin k for feature j / count of samples with observed feature j

Für jede Stufe wird Kernel-Mittelwert-Einbettung (KME) zur Schätzung der fehlenden Kodierung verwendet:

h_{i,j,k} = 1/|S(i)| ∑_{m∈S(i)} h_{m,j,k}

Technische Innovationen

Dichteadaptation ohne explizite Schätzung: Die Kombination von gleichfrequentem Binning und Proximity-Zuweisung ermöglicht natürlicherweise dichteadaptive Segmentierung
Gemeinsame Verarbeitung im Kernel-Raum: Behandelt fehlende Werte im Darstellungsraum statt im ursprünglichen Raum und vermeidet künstliche Muster
Progressive Matching-Strategie: Von striktem zu lockerem Matching-Kriterium, um die Nutzung verfügbarer Informationen zu maximieren

Proximity-Kernel-Definition

K(x_m, x_n) = 1/d · z_m^T z_n = <z_m, z_n>

Dieser Kernel erfüllt die Mercer-Bedingung (Symmetrie und positive Semidefinitheit) und hat eine probabilistische Interpretation: berechnet die erwartete Wahrscheinlichkeit, dass zwei Stichproben bei allen Merkmalen in den gleichen Bins fallen.

Experimentelle Einrichtung

Datensätze

Es werden 12 echte Datensätze aus dem UCI-Repository verwendet, die mehrere Bereiche abdecken:

Medizinische Diagnose: Kidney, Hepatitis, Heart, Tumor, Cancer
Biologische Klassifizierung: Soybean, Mushroom
Finanzanalyse: Credit
Bevölkerungsprognose: Adult
Politische Analyse: Voting
Sonstige: Mammography, Horse

Die Datensätze umfassen 155 bis 48.842 Stichproben, 5 bis 35 Dimensionen und Fehlquoten von 0,15% bis 19,39%.

Bewertungsmetriken

Verwendet normalisierte gegenseitige Information (NMI) zur Bewertung der Clustering-Qualität, mit K-Means-Clustering und Clusterzahl gleich der Anzahl echter Klassen.

Vergleichsmethoden

9 repräsentative Methoden:

Einfache Imputation: Mittelwert-Imputation
Statistische Methoden: MissForest, MICE, KNN, EM
Deep Learning: GAIN, MIRACLE, MIWAE
Kernel-Methoden: HI-PMK

Implementierungsdetails

Jedes Experiment wird 10-mal wiederholt und gemittelt
Hyperparameter-Tuning für alle Baseline-Methoden
Bin-Anzahl für Proximity-Kernel wird aus {2,3,4,6,8} durchsucht

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung: Erreicht beste oder zweitbeste Leistung auf 10 von 12 Datensätzen mit höchstem durchschnittlichem NMI (0,4245)
Statistische Signifikanz: Friedman-Nemenyi-Test zeigt, dass Proximity-Kernel, außer gegenüber HI-PMK, signifikant besser als alle anderen Methoden ist
Stabilität: Box-Plots zeigen, dass Proximity-Kernel nicht nur beste durchschnittliche Leistung hat, sondern auch konsistentere Leistung über verschiedene Datensätze

Robustheit-Experimente bei Fehlquoten

Tests bei 10%-50% Fehlquoten auf 3L- und Messidor-Datensätzen:

Behält stabile überlegene Leistung bei niedriger bis mittlerer Fehlquote (10%-40%)
Behält angemessene Leistung auch bei extremer Fehlquote (50%)
Im Vergleich dazu sinkt die Leistung von KNN und MissForest bei 30% Fehlquote fast auf Null

Skalierbarkeitsanalyse

Zeitkomplexität: O(nd + d·n log n), linear in Stichprobenzahl für feste Dimensionalität
Raumkomplexität: O(nd), linear in Stichprobenzahl und Merkmalszahl
Tatsächliche Laufzeit: Signifikant schneller als HI-PMK und MIWAE

Sensitivitätsanalyse

Bei Variation der Bin-Anzahl von 2 bis 10 zeigen sich kleine NMI-Änderungen über drei Datensätze (z.B. Mammo-Datensatz schwankt zwischen 0,30-0,33), was die Unempfindlichkeit der Methode gegenüber Hyperparametern zeigt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Der Proximity-Kernel berechnet erfolgreich die Ähnlichkeit zwischen unvollständigen Daten direkt im Kernel-Merkmalsraum und vermeidet explizite Imputation im ursprünglichen Raum
Datenabhängiges Binning in Kombination mit Proximity-Zuweisung erzeugt Darstellungen, die sich an lokale Dichte anpassen, ohne explizite Dichteschätzung
Die kaskadierende Fallback-Strategie nutzt verfügbare Informationen effektiv und lockert schrittweise von striktem Matching zu globalen Priors
Die Methode erreicht überlegene Leistung bei Beibehaltung linearer Zeitkomplexität

Einschränkungen

Annahmen zum Fehlmechanismus: Aktuelle Bewertung basiert hauptsächlich auf MCAR-Mechanismus (vollständig zufällige Fehlbarkeit), echte Daten zeigen häufig komplexere MAR- und MNAR-Muster
Binning-Strategie: Gleichfrequentes Binning ist möglicherweise nicht optimal für alle Datenverteilungen
Theoretische Garantien: Fehlende theoretische Konvergenzgarantien für kaskadierende Fallback-Mechanismus

Zukünftige Richtungen

Untersuchung des Methodenverhaltens unter MAR- und MNAR-Fehlmechanismen
Erkundung adaptiver Bin-Auswahlstrategien
Etablierung theoretischer Konvergenzgarantien für kaskadierende Fallback-Mechanismus
Erweiterung auf komplexere Datentypen und Strukturen

Tiefgreifende Bewertung

Stärken

Methodische Innovation: Vereinigt Imputation und Ähnlichkeitsberechnung im Kernel-Darstellungsraum und vermeidet Probleme traditioneller zweistufiger Methoden
Theoretische Grundlage: Bietet strenge Beweise für Kernel-Gültigkeit, erfüllt Mercer-Bedingung
Praktikabilität: Lineare Zeitkomplexität macht die Methode für großskalige Anwendungen geeignet
Umfassende Experimente: Gründliche Bewertung über mehrere Datensätze, einschließlich statistischer Signifikanztests
Robustheit: Unempfindlich gegenüber Hyperparametern, stabile Leistung bei verschiedenen Fehlquoten

Mängel

Fehlmechanismus-Einschränkung: Hauptsächlich unter MCAR-Annahme bewertet, Anpassungsfähigkeit an komplexere Fehlmuster nicht vollständig verifiziert
Dichteschätzung: Obwohl behauptet wird, keine explizite Dichteschätzung zu benötigen, ist gleichfrequentes Binning im Wesentlichen eine implizite Dichteschätzung
Merkmals-Unabhängigkeit: Modellierung von Merkmals-Abhängigkeiten in kaskadierten Strategien möglicherweise nicht ausreichend
Vergleichsfairness: Bei Vergleich mit Deep-Learning-Methoden könnten Unterschiede in Rechenressourcen und Tuning-Grad bestehen

Auswirkungen

Akademischer Beitrag: Bietet neuen theoretischen Rahmen für Ähnlichkeitsmessung bei unvollständigen Daten
Praktischer Wert: Hat direkten Wert in Empfehlungssystemen, Netzwerk-Mining und anderen Anwendungen
Reproduzierbarkeit: Stellt Code-Links bereit, unterstützt Methodenvalidierung und Verbreitung

Anwendungsszenarien

Empfehlungssysteme: Behandlung von Spärlichkeit in Benutzer-Element-Bewertungsmatrizen
Netzwerk-Mining: Behandlung von Unvollständigkeit in Benutzerverhaltensdaten
Medizinische Datenanalyse: Behandlung fehlender Werte in klinischen Daten
Großskalige Datenverarbeitung: Lineare Komplexität geeignet für großskalige Anwendungen

Literaturverzeichnis

Das Papier zitiert 21 verwandte Arbeiten, die mehrere Bereiche abdecken, darunter Behandlung fehlender Daten, Kernel-Methoden und Deep Learning, und bietet eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Forschung.

Zusammenfassung: Die in diesem Papier vorgeschlagene Proximity-Kernel-Methode leistet wichtige Beiträge im Bereich der Ähnlichkeitsmessung bei unvollständigen Daten. Durch geschicktes Kernel-Darstellungsdesign und kaskadierende Fallback-Strategie erreicht sie ein gutes Gleichgewicht zwischen Leistung und Effizienz. Trotz einiger Einschränkungen machen ihre Innovation und Praktikabilität sie wertvoll für verwandte Anwendungsbereiche.