Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
본 논문은 불완전 데이터의 유사성 측정이라는 기초적 과제를 다루기 위해 근접 커널(proximity kernel) 방법을 제안합니다. 기존 방법들은 불완전 데이터를 버리거나 사전에 대체(imputation) 전처리를 수행하여 정보 손실과 유사성 추정 편향을 초래합니다. 근접 커널은 원본 공간에서의 명시적 대체 없이 커널 특성 공간에서 직접 불완전 데이터 간의 유사성을 계산합니다. 본 방법은 데이터 의존적 분할(binning) 메커니즘과 근접 할당(proximity assignment)을 도입하여 데이터를 국소 밀도 변화에 적응하는 고차원 희소 표현으로 투영합니다. 결측값 처리를 위해 계단식 폴백(cascading fallback) 전략을 제안하여 결측 특성 분포를 추정합니다. 12개의 실제 불완전 데이터셋에 대한 군집화 실험은 선형 시간 복잡도를 유지하면서 기존 방법을 능가하는 성능을 보여줍니다.
n개의 샘플을 포함하는 데이터셋 D = {x₁, x₂, ..., xₙ}이 주어지면, 각 샘플 xᵢ ∈ ℝᵈ는 d차원 특성 벡터이며 결측값(NaN으로 표시)을 포함할 수 있습니다. 목표는 유사성 함수 s : D × D → 0,1을 계산하여 임의의 두 샘플 간의 유사성을 정량화하고 이를 하위 군집화 등의 작업에 사용하는 것입니다.
논문은 결측 데이터 처리, 커널 방법, 심층학습 등 다양한 분야의 중요 연구를 포함한 21개의 관련 문헌을 인용하며, 본 연구에 견고한 이론적 기초와 비교 기준을 제공합니다.
요약: 본 논문이 제안한 근접 커널 방법은 불완전 데이터 유사성 측정 분야에서 중요한 기여를 하며, 정교한 커널 표현 설계와 계단식 폴백 전략을 통해 성능과 효율의 양호한 균형을 실현합니다. 일부 한계가 있음에도 불구하고, 그 혁신성과 실용성은 관련 응용 분야에서 중요한 가치를 가집니다.