2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD: Обнаружение выбросов на основе случайного леса для табличных данных

Основная информация

  • ID статьи: 2510.08747
  • Название: RFOD: Random Forest-based Outlier Detection for Tabular Data
  • Авторы: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • Классификация: cs.LG (Машинное обучение), cs.DB (Базы данных)
  • Дата публикации: 9 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.08747

Аннотация

Обнаружение выбросов в табличных данных имеет решающее значение для обеспечения целостности данных в высокорисковых областях, таких как кибербезопасность, обнаружение финансового мошенничества и здравоохранение. Несмотря на постоянный прогресс в методах интеллектуального анализа данных и глубокого обучения, существующие подходы сталкиваются с трудностями при работе со смешанными типами табличных данных, часто полагаясь на схемы кодирования, которые теряют важную семантическую информацию, и им не хватает интерпретируемости. Для решения этих проблем в данной работе предлагается RFOD — фреймворк обнаружения выбросов на основе случайного леса, специально разработанный для табличных данных. RFOD переопределяет обнаружение выбросов как задачу условной реконструкции на уровне признаков, обучая специализированные случайные леса для каждого признака, что обеспечивает надежную обработку гетерогенных типов данных. Метод сочетает адаптированное расстояние Гауэра (AGD) для оценки на уровне ячеек и взвешенное усреднение с учетом неопределенности (UWA) для агрегирования оценок выбросов на уровне строк. Обширные эксперименты на 15 реальных наборах данных демонстрируют, что RFOD постоянно превосходит передовые методы по точности обнаружения, обеспечивая при этом превосходную надежность, масштабируемость и интерпретируемость.

Исследовательский контекст и мотивация

Определение проблемы

Обнаружение выбросов направлено на выявление экземпляров в данных, которые значительно отклоняются от доминирующего распределения. Это критически важно в высокорисковых областях, таких как кибербезопасность, обнаружение финансового мошенничества и здравоохранение. Необнаруженные выбросы могут привести к искажению анализа, скрыванию ключевых закономерностей и нарушению операций.

Ограничения существующих методов

  1. Традиционные методы интеллектуального анализа данных:
    • Методы LOF, Isolation Forest, OCSVM обычно полагаются на глобальную близость или статистические эвристики
    • Часто обрабатывают признаки независимо, не могут захватить контекстные выбросы в многомерных отношениях
    • Недостаточная встроенная поддержка смешанных типов данных
  2. Методы глубокого обучения:
    • Методы Deep SVDD, DevNet, ICL в основном предполагают чисто числовые входные данные
    • Полагаются на предварительную обработку (например, горячее кодирование), которая может потерять семантические детали
    • Черный ящик затрудняет интерпретируемость

Исследовательская мотивация

Существующие методы показывают непоследовательные результаты на смешанных табличных данных и не предоставляют единое решение, которое обеспечивало бы как высокую точность обнаружения, так и интерпретируемость. Данная работа направлена на разработку фреймворка обнаружения выбросов, который:

  • Нативно обрабатывает смешанные типы данных
  • Обеспечивает детальную интерпретируемость
  • Сохраняет высокую точность обнаружения и вычислительную эффективность

Основные вклады

  1. Парадигма условной реконструкции на уровне признаков: Предложена новая парадигма переопределения обнаружения выбросов как задачи условной реконструкции на уровне признаков, избегая ограничений моделирования глобального совместного распределения
  2. Фреймворк RFOD: Разработан фреймворк обнаружения выбросов на основе случайного леса, содержащий четыре основных модуля:
    • Специализированные случайные леса для каждого признака
    • Механизм обрезки лесов
    • Адаптированное расстояние Гауэра (AGD)
    • Взвешенное усреднение с учетом неопределенности (UWA)
  3. Метрика расстояния AGD: Предложена улучшенная метрика расстояния, адаптирующаяся к асимметричным числовым распределениям и уверенности категориальных признаков
  4. Превосходная экспериментальная производительность: Достигнута лучшая средняя производительность на 15 реальных наборах данных с улучшением AUC-ROC до 9,1% по сравнению с лучшим конкурирующим методом и среднее сокращение времени тестирования на 91,2%

Подробное описание метода

Определение задачи

Дано обучающее множество XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} и тестовое множество XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}. Цель состоит в вычислении:

  • Матрицы оценок выбросов на уровне ячеек: Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • Вектора оценок выбросов на уровне строк: srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

Архитектура модели

1. Специализированные случайные леса для каждого признака

Используется стратегия декомпозиции "оставить один признак" (leave-one-feature-out), обучая специализированный случайный лес RFj\mathbf{RF}_j для каждого признака xj\mathbf{x}_j: RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

где Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}, ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j.

2. Обрезка лесов

Сохранение оптимальных деревьев на основе валидации вне мешка (OOB): Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

где β(0,1]\beta \in (0,1] — коэффициент сохранения, UU — индексы, отсортированные по убыванию оценок OOB.

3. Адаптированное расстояние Гауэра (AGD)

Числовые признаки: AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

Категориальные признаки: AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

где pxi,jp_{x_{i,j}} — предсказанная вероятность истинного класса.

4. Взвешенное усреднение с учетом неопределенности (UWA)

Вычисление матрицы неопределенности U=[ui,j]\mathbf{U} = [u_{i,j}], где ui,ju_{i,j} — стандартное отклонение предсказаний деревьев. Веса уверенности: W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} Финальная оценка на уровне строк: srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

Технические инновации

  1. Условная реконструкция vs глобальное моделирование: Избегает проблемы проклятия размерности при моделировании глобального совместного распределения в высокомерном пространстве
  2. Встроенная поддержка смешанных типов данных: Обработка смешанных числовых и категориальных признаков без сложного кодирования
  3. Адаптивная метрика расстояния: AGD адаптируется к асимметричным распределениям через нормализацию квантилей и обрабатывает неопределенность категорий через осведомленное о уверенности сопоставление
  4. Агрегирование с учетом неопределенности: UWA использует дисперсию предсказаний ансамбля для динамической регулировки весов признаков

Экспериментальная установка

Наборы данных

Использованы 15 открытых табличных наборов данных, охватывающих области кибербезопасности, финансов и здравоохранения:

ОбластьНабор данныхКоличество образцовРазмерность признаковДоля выбросов
КибербезопасностьBackdoor95,329422.44%
КибербезопасностьDoS109,3534214.95%
КибербезопасностьKDD4,898,4304119.86%
ФинансыBank45,2111611.70%
ЗдравоохранениеArrhythmia45227945.80%

Метрики оценки

  • AUC-ROC: Измеряет качество ранжирования оценок выбросов
  • AUC-PR: Подчеркивает точность и полноту, особенно подходит для несбалансированных классов
  • F1-Score и Точность: Показатели производительности классификации на основе порога
  • Log-Loss: Оценивает калибровку вероятностей выбросов
  • Время обучения и время тестирования: Оценивают эффективность и масштабируемость

Методы сравнения

Базовые методы интеллектуального анализа данных: ECOD, LOF, IF, OCSVM, OT Базовые методы глубокого обучения: Deep SVDD, SLAD, DevNet, DIF, ICL

Детали реализации

  • Эпохи обучения глубоких моделей: 50
  • Окружение: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, NVIDIA H200 GPU
  • Параметры RFOD: α[0.01,0.02]\alpha \in [0.01, 0.02] (чувствительность AGD), β\beta выбирается адаптивно через валидацию OOB

Результаты экспериментов

Основные результаты

RFOD показывает отличную производительность по всем метрикам оценки:

  • Средний рейтинг: Занимает место в топ-2 по 5 метрикам, первое место по AUC-ROC и F1
  • Улучшение производительности: Среднее улучшение AUC-PR на 46,7% по сравнению с методами интеллектуального анализа данных, среднее улучшение AUC-ROC на 24,8% по сравнению с методами глубокого обучения
  • Консистентность: Превосходит каждый базовый метод на 80-100% наборов данных

Абляционные исследования

Проверена важность каждого модуля:

  1. Обрезка лесов: Значительное улучшение производительности на наборах данных Bank, Ethereum и др., снижение переобучения
  2. AGD: Критически важный компонент; удаление приводит к снижению AUC-ROC с 0,96 до 0,41 на наборе DoS
  3. UWA: Обеспечивает стабильное улучшение производительности на больших наборах данных, таких как Backdoor и DoS

Анализ конкретных случаев

На примере медицинского набора данных Pima:

  • Интерпретируемость на уровне ячеек: Тепловые карты показывают, что RFOD точно определяет аномальные комбинации признаков
  • Интерпретируемость на уровне строк: Предсказанные значения находятся в области высокой плотности нормального распределения, тогда как фактические выбросы находятся в хвосте распределения
  • Сравнительный анализ: OCSVM и DIF производят равномерно высокие активации, что затрудняет изоляцию истинных источников аномалий

Анализ эффективности

  • Время обучения: На несколько порядков быстрее методов глубокого обучения, поддерживает параллелизацию
  • Время тестирования: Среднее сокращение задержки тестирования на 91,2%
  • Масштабируемость: Тестирование на наборе данных KDD от 1% до 100% размера данных демонстрирует линейную масштабируемость

Связанные работы

Методы интеллектуального анализа данных

Традиционные методы, такие как LOF, IF, OCSVM, в основном полагаются на статистические или основанные на близости критерии, но обычно предполагают независимость признаков и с трудом захватывают многомерные взаимодействия.

Методы глубокого обучения

Методы Deep SVDD, DevNet, ICL могут изучать сложные представления, но в основном разработаны для числовых входных данных. При работе со смешанными типами данных требуется предварительная обработка, и им не хватает интерпретируемости.

Преимущества данной работы

RFOD сочетает интерпретируемость методов на основе деревьев с надежностью ансамблевого обучения, избегая ограничений глобального моделирования посредством условного моделирования на уровне признаков, одновременно обеспечивая встроенную поддержку смешанных типов данных.

Заключение и обсуждение

Основные выводы

  1. RFOD успешно решает проблему обнаружения выбросов в смешанных табличных данных посредством условной реконструкции на уровне признаков
  2. Разработка AGD и UWA значительно повышает точность обнаружения и надежность
  3. Метод обеспечивает превосходную интерпретируемость и вычислительную эффективность при сохранении высокой точности

Ограничения

  1. Чувствительность параметров: Хотя параметр α\alpha относительно стабилен, требуется определенная настройка
  2. Накладные расходы на память: Обучение независимых лесов для каждого признака может создать нагрузку на память при работе с данными очень высокой размерности
  3. Обработка категориальных признаков: Обработка категориальных признаков с высокой кардинальностью может потребовать дальнейшей оптимизации

Направления будущих исследований

  1. Изучение более эффективных методов выбора признаков и снижения размерности
  2. Исследование приложений в потоковых данных и сценариях онлайн-обучения
  3. Расширение на временные ряды и данные графовой структуры

Глубокая оценка

Преимущества

  1. Методологическая инновативность: Парадигма условной реконструкции на уровне признаков — это новый и эффективный подход
  2. Полнота экспериментов: Комплексное сравнение на 15 наборах данных с 10 базовыми методами
  3. Интерпретируемость: Обеспечивает двойную интерпретируемость на уровне ячеек и строк
  4. Практическая ценность: Достигает хорошего баланса между эффективностью и точностью

Недостатки

  1. Теоретический анализ: Отсутствует глубокий теоретический анализ сходимости и сложности метода
  2. Экстремальные сценарии: Производительность на данных очень высокой размерности или с экстремальным дисбалансом требует дальнейшей проверки
  3. Руководство по параметрам: Отсутствуют более систематические принципы выбора параметров

Влияние

  1. Научный вклад: Предоставляет новое направление исследований для обнаружения выбросов в табличных данных
  2. Практическая ценность: Имеет прямой потенциал применения в критических областях, таких как финансы и здравоохранение
  3. Воспроизводимость: Четкое описание алгоритма облегчает реализацию и воспроизведение

Применимые сценарии

  • Обнаружение выбросов в смешанных табличных данных
  • Высокорисковые сценарии принятия решений, требующие интерпретируемости
  • Мониторинг аномалий в реальном времени для данных среднего размера
  • Анализ важности признаков и анализ первопричин

Библиография

Статья ссылается на важные работы в области обнаружения выбросов, включая:

  • Классические методы: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
  • Методы глубокого обучения: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
  • Метрики расстояния: Gower's Distance (Gower, 1971)
  • Эталоны оценки: ADBench (Han et al., 2022)

Общая оценка: Это высококачественная исследовательская работа по обнаружению выбросов, предлагающая инновационный методологический фреймворк с полной экспериментальной проверкой и хорошим потенциалом для практического применения. Преимущества метода в интерпретируемости и эффективности делают его конкурентоспособным при развертывании в реальных приложениях.