Kernel Representation and Similarity Measure for Incomplete Data
Cao, Yang, He et al.
Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
academic
Ядерное представление и мера сходства для неполных данных
В данной работе предлагается метод ядра близости (proximity kernel) для решения фундаментальной задачи измерения сходства неполных данных. Традиционные подходы либо отбрасывают неполные данные, либо применяют предварительное заполнение пропусков, что приводит к потере информации и смещению оценок сходства. Ядро близости вычисляет сходство между неполными данными непосредственно в пространстве ядерных признаков без явного заполнения в исходном пространстве. Метод вводит механизм зависящего от данных разбиения на интервалы в сочетании с назначением близости, проецируя данные в высокомерное разреженное представление, адаптирующееся к локальным изменениям плотности. Для обработки пропущенных значений предлагается каскадная стратегия отката для оценки распределения пропущенных признаков. Эксперименты кластеризации на 12 реальных неполных наборах данных показывают, что метод превосходит существующие подходы, сохраняя линейную временную сложность.
Измерение сходства неполных данных является фундаментальной задачей в интеллектуальном анализе сетей, системах рекомендаций и анализе поведения пользователей. Данные реального мира по своей природе неполны из-за предпочтений конфиденциальности пользователей, отсутствия ответов на опросы и добровольного неразглашения информации.
Повсеместное распространение: В системах рекомендаций пользователи обычно оценивают только небольшое количество товаров, создавая высокоразреженные матрицы пользователь-товар
Гетерогенность данных: Пропуски могут одновременно влиять на числовые, категориальные или смешанные признаки
Влияние на нижестоящие задачи: Измерение сходства является основой для кластеризации, классификации и обнаружения аномалий; неточные оценки сходства значительно снижают производительность задач
Методы удаления: Игнорируют пропущенные значения или полностью удаляют неполные образцы, что приводит к серьезной потере информации и смещению
Методы заполнения: Используют статистические величины или сложные методы для заполнения пропусков, часто не могут захватить базовое распределение данных и могут вводить искусственные закономерности, не отражающие истинную структуру сходства
Методы глубокого обучения: Хотя и перспективны, обычно требуют больших наборов данных и значительных вычислительных ресурсов, не имеют теоретических гарантий и чувствительны к гиперпараметрам
Существующие методы используют "двухэтапную" стратегию (сначала заполнение, затем вычисление сходства). В данной работе предлагается новый подход к совместной обработке заполнения пропусков и измерения сходства в пространстве ядерного представления.
Предложение метода ядра близости: Проецирование данных в высокомерное разреженное представление через равночастотное разбиение на интервалы и назначение близости на основе диаграмм Вороного, адаптирующееся к локальной плотности без явной оценки плотности
Каскадная стратегия отката: Предложение прогрессивной стратегии ослабления ограничений от пересечения к объединению и глобальному априору для обработки пропущенных значений
Линейная временная сложность: Достижение линейной временной сложности, позволяющей масштабировать метод на большие наборы данных
Экспериментальная проверка: Демонстрация превосходящей производительности на задачах кластеризации на 12 наборах данных
Дан набор данных D = {x₁, x₂, ..., xₙ} с n образцами, где каждый образец xᵢ ∈ ℝᵈ является d-мерным вектором признаков, который может содержать пропущенные значения (обозначаемые как NaN). Цель состоит в вычислении функции сходства s : D × D → 0,1, количественно определяющей сходство между любыми двумя образцами для использования в нижестоящих задачах, таких как кластеризация.
Это создает диаграмму Вороного пространства признаков, где каждый центр cⱼ,ₖ определяет ячейку Вороного.
Свойство адаптации к плотности:
В плотных областях: расстояния между последовательными центрами малы, создавая маленькие ячейки Вороного; две точки на одинаковом расстоянии более вероятно попадают в разные ячейки
В разреженных областях: расстояния между последовательными центрами велики, создавая большие ячейки Вороного; две точки на одинаковом расстоянии более вероятно попадают в одну ячейку
Адаптация к плотности без явной оценки: Комбинация равночастотного разбиения и назначения близости естественным образом реализует адаптивное разбиение, чувствительное к плотности
Совместная обработка в пространстве ядра: Обработка пропущенных значений в пространстве представления, а не в исходном пространстве, избегая введения искусственных закономерностей
Прогрессивная стратегия совпадения: Критерии совпадения от строгих к мягким максимизируют использование доступной информации
Это ядро удовлетворяет условию Мерсера (симметричность и положительная полуопределенность) и имеет вероятностную интерпретацию: вычисляет ожидаемую вероятность того, что два образца попадают в один и тот же интервал по всем признакам.
Используется нормализованная взаимная информация (NMI) для оценки качества кластеризации; применяется кластеризация K-means с числом кластеров, равным числу истинных классов.
Общая производительность: Достигает лучшей или второй лучшей производительности на 10 из 12 наборов данных, с наивысшим средним NMI (0,4245)
Статистическая значимость: Тест Фридмана-Немени показывает, что ядро близости значительно превосходит все другие методы, кроме HI-PMK
Стабильность: Диаграммы размаха показывают, что ядро близости не только имеет лучшую среднюю производительность, но и более согласованные результаты на различных наборах данных
При изменении числа интервалов от 2 до 10 на трех наборах данных изменение NMI минимально (например, на наборе Mammo колеблется между 0,30-0,33), что демонстрирует нечувствительность метода к гиперпараметрам.
Ядро близости успешно реализует прямое вычисление сходства неполных данных в пространстве ядерных признаков, избегая явного заполнения в исходном пространстве
Зависящее от данных разбиение на интервалы в сочетании с назначением близости создает представление, адаптирующееся к локальной плотности, без явной оценки плотности
Каскадная стратегия отката эффективно использует доступную информацию, постепенно ослабляя критерии от строгого совпадения к глобальному априору
Метод достигает превосходящей производительности, сохраняя линейную временную сложность
Предположение о механизме пропусков: Текущая оценка в основном основана на механизме MCAR (полностью случайные пропуски); реальные данные часто демонстрируют более сложные паттерны MAR и MNAR
Стратегия разбиения: Равночастотное разбиение может быть не оптимальным для всех распределений данных
Инновационность метода: Объединение заполнения и вычисления сходства в пространстве ядерного представления, избегая проблем традиционных двухэтапных методов
Статья цитирует 21 связанную работу, охватывающую обработку пропущенных данных, методы ядра, глубокое обучение и другие области, обеспечивая прочную теоретическую основу и базы для сравнения.
Резюме: Предложенный в статье метод ядра близости вносит значительный вклад в область измерения сходства неполных данных. Благодаря тщательному проектированию ядерного представления и каскадной стратегии отката метод достигает хорошего баланса между производительностью и эффективностью. Несмотря на некоторые ограничения, его инновационность и практичность делают его ценным для применения в соответствующих областях.