Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
Kernel-Darstellung und Ähnlichkeitsmessung für unvollständige Daten
Dieses Papier schlägt eine Proximity-Kernel-Methode vor, um die grundlegende Herausforderung der Ähnlichkeitsmessung bei unvollständigen Daten zu bewältigen. Herkömmliche Methoden verwerfen entweder unvollständige Daten oder führen zunächst eine Imputationsvorverarbeitung durch, was zu Informationsverlust und Verzerrungen bei der Ähnlichkeitsschätzung führt. Der Proximity-Kernel berechnet die Ähnlichkeit zwischen unvollständigen Daten direkt im Kernel-Merkmalsraum, ohne explizite Imputation im ursprünglichen Raum zu erfordern. Die Methode führt einen datenabhängigen Binning-Mechanismus in Kombination mit Proximity-Zuweisung ein, um Daten in hochdimensionale spärliche Darstellungen zu projizieren, die sich an lokale Dichteschwankungen anpassen. Zur Behandlung fehlender Werte wird eine kaskadierende Fallback-Strategie zur Schätzung der Verteilung fehlender Merkmale vorgeschlagen. Clustering-Experimente auf 12 echten unvollständigen Datensätzen zeigen, dass die Methode bei Beibehaltung linearer Zeitkomplexität bestehende Methoden übertrifft.
Die Ähnlichkeitsmessung bei unvollständigen Daten ist eine grundlegende Herausforderung beim Netzwerk-Mining, in Empfehlungssystemen und bei der Analyse von Benutzerverhalten. Daten aus der realen Welt sind aufgrund von Benutzervertraulichkeitspräferenzen, fehlenden Umfrageantworten und freiwilliger Nichtoffenlegung von Informationen von Natur aus unvollständig.
Weit verbreitet: In Empfehlungssystemen bewerten Benutzer typischerweise nur eine kleine Anzahl von Elementen, was zu hochgradig spärlichen Benutzer-Element-Matrizen führt
Datenheterogenität: Fehlende Werte können gleichzeitig numerische, kategorische oder gemischte Merkmale beeinflussen
Auswirkungen auf nachgelagerte Aufgaben: Die Ähnlichkeitsmessung ist die Grundlage für Clustering-, Klassifizierungs- und Anomalieerkennung, und ungenaue Ähnlichkeitsschätzungen können die Aufgabenleistung erheblich beeinträchtigen
Löschmethoden: Ignorieren fehlende Werte oder entfernen unvollständige Stichproben vollständig, was zu erheblichem Informationsverlust und Verzerrungen führt
Imputationsmethoden: Verwenden statistische Größen oder komplexe Techniken zum Ausfüllen fehlender Werte, können jedoch häufig die zugrunde liegende Datenverteilung nicht erfassen und können künstliche Muster einführen, die nicht die wahre Ähnlichkeitsstruktur widerspiegeln
Deep-Learning-Methoden: Obwohl vielversprechend, erfordern sie normalerweise große Datensätze und erhebliche Rechenressourcen, bieten keine theoretischen Garantien und sind empfindlich gegenüber Hyperparametern
Bestehende Methoden verwenden eine „zweistufige" Strategie (zuerst Imputation, dann Ähnlichkeitsberechnung). Dieses Papier schlägt einen neuen Ansatz vor, der Imputation und Ähnlichkeitsmessung gemeinsam im Kernel-Darstellungsraum behandelt.
Proximity-Kernel-Methode: Projiziert Daten durch gleichfrequente Binning und Voronoi-basierte Proximity-Zuweisung in hochdimensionale spärliche Darstellungen, ohne explizite Dichteschätzung und mit Anpassung an lokale Dichte
Kaskadierende Fallback-Strategie: Schlägt eine progressive Lockerung der Matching-Strategie von Schnittmenge über Vereinigung bis zu globalen Priors für die Behandlung fehlender Werte vor
Lineare Zeitkomplexität: Erreicht lineare Zeitkomplexität, was die Methode auf große Datensätze skalierbar macht
Experimentelle Validierung: Demonstriert überlegene Leistung gegenüber bestehenden Methoden bei Clustering-Aufgaben auf 12 Datensätzen
Gegeben ein Datensatz D = {x₁, x₂, ..., xₙ} mit n Stichproben, wobei jede Stichprobe xᵢ ∈ ℝᵈ ein d-dimensionaler Merkmalsvektor ist, der fehlende Werte enthalten kann (dargestellt als NaN). Das Ziel ist die Berechnung einer Ähnlichkeitsfunktion s : D × D → 0,1, die die Ähnlichkeit zwischen zwei beliebigen Stichproben quantifiziert und für nachgelagerte Aufgaben wie Clustering verwendet wird.
Dies erzeugt ein Voronoi-Diagramm des Merkmalsraums, wobei jedes Zentrum cⱼ,ₖ eine Voronoi-Zelle definiert.
Dichteadaptive Eigenschaften:
In dichten Regionen: Der Abstand zwischen aufeinanderfolgenden Zentren ist klein, was kleine Voronoi-Zellen erzeugt; zwei Punkte mit gleichem Abstand fallen wahrscheinlicher in verschiedene Zellen
In spärlichen Regionen: Der Abstand zwischen aufeinanderfolgenden Zentren ist groß, was große Voronoi-Zellen erzeugt; zwei Punkte mit gleichem Abstand fallen wahrscheinlicher in die gleiche Zelle
Dichteadaptation ohne explizite Schätzung: Die Kombination von gleichfrequentem Binning und Proximity-Zuweisung ermöglicht natürlicherweise dichteadaptive Segmentierung
Gemeinsame Verarbeitung im Kernel-Raum: Behandelt fehlende Werte im Darstellungsraum statt im ursprünglichen Raum und vermeidet künstliche Muster
Progressive Matching-Strategie: Von striktem zu lockerem Matching-Kriterium, um die Nutzung verfügbarer Informationen zu maximieren
Dieser Kernel erfüllt die Mercer-Bedingung (Symmetrie und positive Semidefinitheit) und hat eine probabilistische Interpretation: berechnet die erwartete Wahrscheinlichkeit, dass zwei Stichproben bei allen Merkmalen in den gleichen Bins fallen.
Verwendet normalisierte gegenseitige Information (NMI) zur Bewertung der Clustering-Qualität, mit K-Means-Clustering und Clusterzahl gleich der Anzahl echter Klassen.
Gesamtleistung: Erreicht beste oder zweitbeste Leistung auf 10 von 12 Datensätzen mit höchstem durchschnittlichem NMI (0,4245)
Statistische Signifikanz: Friedman-Nemenyi-Test zeigt, dass Proximity-Kernel, außer gegenüber HI-PMK, signifikant besser als alle anderen Methoden ist
Stabilität: Box-Plots zeigen, dass Proximity-Kernel nicht nur beste durchschnittliche Leistung hat, sondern auch konsistentere Leistung über verschiedene Datensätze
Bei Variation der Bin-Anzahl von 2 bis 10 zeigen sich kleine NMI-Änderungen über drei Datensätze (z.B. Mammo-Datensatz schwankt zwischen 0,30-0,33), was die Unempfindlichkeit der Methode gegenüber Hyperparametern zeigt.
Der Proximity-Kernel berechnet erfolgreich die Ähnlichkeit zwischen unvollständigen Daten direkt im Kernel-Merkmalsraum und vermeidet explizite Imputation im ursprünglichen Raum
Datenabhängiges Binning in Kombination mit Proximity-Zuweisung erzeugt Darstellungen, die sich an lokale Dichte anpassen, ohne explizite Dichteschätzung
Die kaskadierende Fallback-Strategie nutzt verfügbare Informationen effektiv und lockert schrittweise von striktem Matching zu globalen Priors
Die Methode erreicht überlegene Leistung bei Beibehaltung linearer Zeitkomplexität
Annahmen zum Fehlmechanismus: Aktuelle Bewertung basiert hauptsächlich auf MCAR-Mechanismus (vollständig zufällige Fehlbarkeit), echte Daten zeigen häufig komplexere MAR- und MNAR-Muster
Binning-Strategie: Gleichfrequentes Binning ist möglicherweise nicht optimal für alle Datenverteilungen
Theoretische Garantien: Fehlende theoretische Konvergenzgarantien für kaskadierende Fallback-Mechanismus
Methodische Innovation: Vereinigt Imputation und Ähnlichkeitsberechnung im Kernel-Darstellungsraum und vermeidet Probleme traditioneller zweistufiger Methoden
Theoretische Grundlage: Bietet strenge Beweise für Kernel-Gültigkeit, erfüllt Mercer-Bedingung
Praktikabilität: Lineare Zeitkomplexität macht die Methode für großskalige Anwendungen geeignet
Umfassende Experimente: Gründliche Bewertung über mehrere Datensätze, einschließlich statistischer Signifikanztests
Robustheit: Unempfindlich gegenüber Hyperparametern, stabile Leistung bei verschiedenen Fehlquoten
Fehlmechanismus-Einschränkung: Hauptsächlich unter MCAR-Annahme bewertet, Anpassungsfähigkeit an komplexere Fehlmuster nicht vollständig verifiziert
Dichteschätzung: Obwohl behauptet wird, keine explizite Dichteschätzung zu benötigen, ist gleichfrequentes Binning im Wesentlichen eine implizite Dichteschätzung
Merkmals-Unabhängigkeit: Modellierung von Merkmals-Abhängigkeiten in kaskadierten Strategien möglicherweise nicht ausreichend
Vergleichsfairness: Bei Vergleich mit Deep-Learning-Methoden könnten Unterschiede in Rechenressourcen und Tuning-Grad bestehen
Das Papier zitiert 21 verwandte Arbeiten, die mehrere Bereiche abdecken, darunter Behandlung fehlender Daten, Kernel-Methoden und Deep Learning, und bietet eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Forschung.
Zusammenfassung: Die in diesem Papier vorgeschlagene Proximity-Kernel-Methode leistet wichtige Beiträge im Bereich der Ähnlichkeitsmessung bei unvollständigen Daten. Durch geschicktes Kernel-Darstellungsdesign und kaskadierende Fallback-Strategie erreicht sie ein gutes Gleichgewicht zwischen Leistung und Effizienz. Trotz einiger Einschränkungen machen ihre Innovation und Praktikabilität sie wertvoll für verwandte Anwendungsbereiche.