2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD: Detección de Valores Atípicos Basada en Bosques Aleatorios para Datos Tabulares

Información Básica

  • ID del Artículo: 2510.08747
  • Título: RFOD: Random Forest-based Outlier Detection for Tabular Data
  • Autores: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • Clasificación: cs.LG (Aprendizaje Automático), cs.DB (Bases de Datos)
  • Fecha de Publicación: 9 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08747

Resumen

La detección de valores atípicos en datos tabulares es crucial para garantizar la integridad de los datos en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. A pesar de los avances continuos en técnicas de minería de datos y aprendizaje profundo, los métodos existentes enfrentan desafíos al procesar datos tabulares de tipos mixtos, a menudo dependiendo de esquemas de codificación que pierden información semántica importante y carecen de interpretabilidad. Para abordar estos problemas, este artículo propone RFOD, un marco de detección de valores atípicos basado en bosques aleatorios diseñado específicamente para datos tabulares. RFOD redefinió la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, entrenando bosques aleatorios dedicados para cada característica, logrando un procesamiento robusto de tipos de datos heterogéneos. El método combina la distancia de Gower ajustada (AGD) para puntuación a nivel de celda y el promedio ponderado por incertidumbre (UWA) para la agregación de puntuaciones de anomalías a nivel de fila. Los experimentos extensos en 15 conjuntos de datos reales demuestran que RFOD supera consistentemente a los métodos de referencia de última generación en precisión de detección, mientras proporciona robustez, escalabilidad e interpretabilidad superiores.

Antecedentes y Motivación de la Investigación

Definición del Problema

La detección de valores atípicos tiene como objetivo identificar instancias en los datos que se desvían significativamente de la distribución dominante, lo cual es crítico en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. Los valores atípicos no detectados pueden distorsionar análisis, ocultar información crítica e interrumpir operaciones.

Limitaciones de los Métodos Existentes

  1. Métodos Tradicionales de Minería de Datos:
    • Métodos como LOF, Isolation Forest y OCSVM típicamente dependen de proximidad global o heurísticas estadísticas
    • A menudo procesan características de forma independiente, sin capturar anomalías contextuales en relaciones multivariadas
    • Soporte nativo insuficiente para datos de tipos mixtos
  2. Métodos de Aprendizaje Profundo:
    • Métodos como Deep SVDD, DevNet e ICL asumen principalmente entradas puramente numéricas
    • Dependen de preprocesamiento (como codificación one-hot) que puede perder detalles semánticos
    • La naturaleza de caja negra obstaculiza la interpretabilidad

Motivación de la Investigación

Los métodos existentes muestran rendimiento inconsistente en datos tabulares de tipos mixtos, careciendo de una solución unificada que proporcione tanto alta precisión de detección como interpretabilidad. Este artículo tiene como objetivo desarrollar un marco de detección de valores atípicos que pueda:

  • Procesar nativamente datos de tipos mixtos
  • Proporcionar interpretabilidad de grano fino
  • Mantener alta precisión de detección y eficiencia computacional

Contribuciones Principales

  1. Paradigma de Reconstrucción Condicional a Nivel de Características: Propone un nuevo paradigma que redefine la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, evitando las limitaciones del modelado de distribución conjunta global
  2. Marco RFOD: Diseña un marco de detección de valores atípicos basado en bosques aleatorios que contiene cuatro módulos principales:
    • Bosques aleatorios dedicados a características
    • Mecanismo de poda de bosques
    • Distancia de Gower Ajustada (AGD)
    • Promedio Ponderado por Incertidumbre (UWA)
  3. Métrica de Distancia AGD: Propone una métrica de distancia mejorada que se adapta a distribuciones numéricas sesgadas y confianza de características categóricas
  4. Rendimiento Experimental Sobresaliente: Logra el mejor rendimiento promedio en 15 conjuntos de datos reales, con mejoras en AUC-ROC de hasta 9.1% en comparación con el mejor método competidor y reducción promedio de latencia de tiempo de prueba de 91.2%

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de entrenamiento XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} y un conjunto de prueba XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}, el objetivo es calcular:

  • Matriz de puntuación de anomalía a nivel de celda: Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • Vector de puntuación de anomalía a nivel de fila: srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

Arquitectura del Modelo

1. Bosques Aleatorios Dedicados a Características

Adopta una estrategia de descomposición de dejar-una-característica-fuera, entrenando un bosque aleatorio dedicado RFj\mathbf{RF}_j para cada característica xj\mathbf{x}_j: RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

donde Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}, ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j.

2. Poda de Bosques

Retiene árboles óptimos basados en validación fuera de bolsa (OOB): Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

donde β(0,1]\beta \in (0,1] es la proporción de retención, y UU es el índice ordenado en orden descendente por puntuación OOB.

3. Distancia de Gower Ajustada (AGD)

Características Numéricas: AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

Características Categóricas: AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

donde pxi,jp_{x_{i,j}} es la probabilidad predicha de la categoría verdadera.

4. Promedio Ponderado por Incertidumbre (UWA)

Calcula la matriz de incertidumbre U=[ui,j]\mathbf{U} = [u_{i,j}], donde ui,ju_{i,j} es la desviación estándar de las predicciones del árbol. Pesos de confianza: W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} Puntuación final a nivel de fila: srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

Puntos de Innovación Técnica

  1. Reconstrucción Condicional vs Modelado Global: Evita la maldición de la dimensionalidad en el modelado de distribución conjunta global en espacios de alta dimensión
  2. Soporte Nativo para Datos de Tipos Mixtos: Procesa características numéricas y categóricas sin necesidad de codificación compleja
  3. Métrica de Distancia Adaptativa: AGD se adapta a distribuciones sesgadas mediante normalización de cuantiles y maneja incertidumbre categórica mediante coincidencia consciente de confianza
  4. Agregación Consciente de Incertidumbre: UWA aprovecha la varianza de predicción de la estructura de conjunto para ajustar dinámicamente pesos de características

Configuración Experimental

Conjuntos de Datos

Utiliza 15 conjuntos de datos tabulares públicos que abarcan ciberseguridad, finanzas y atención médica:

DominioConjunto de DatosMuestrasDimensión de CaracterísticasProporción de Anomalías
CiberseguridadBackdoor95,329422.44%
CiberseguridadDoS109,3534214.95%
CiberseguridadKDD4,898,4304119.86%
FinanzasBank45,2111611.70%
MédicoArrhythmia45227945.80%

Métricas de Evaluación

  • AUC-ROC: Mide la calidad de clasificación de puntuaciones de anomalía
  • AUC-PR: Enfatiza precisión y recuperación, particularmente adecuado para datos desequilibrados
  • F1-Score y Precisión: Métricas de rendimiento de clasificación basadas en umbral
  • Log-Loss: Evalúa la calibración de probabilidades de anomalía
  • Tiempo de Entrenamiento y Tiempo de Prueba: Evalúan eficiencia y escalabilidad

Métodos de Comparación

Líneas Base de Minería de Datos: ECOD, LOF, IF, OCSVM, OT Líneas Base de Aprendizaje Profundo: Deep SVDD, SLAD, DevNet, DIF, ICL

Detalles de Implementación

  • Épocas de entrenamiento de modelos profundos: 50
  • Entorno: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, GPU NVIDIA H200
  • Parámetros RFOD: α[0.01,0.02]\alpha \in [0.01, 0.02] (sensibilidad AGD), β\beta seleccionado adaptativamente mediante validación OOB

Resultados Experimentales

Resultados Principales

RFOD demuestra rendimiento excepcional en todas las métricas de evaluación:

  • Clasificación Promedio: Clasificado en los 2 primeros en 5 métricas, siendo primero en AUC-ROC y F1
  • Mejora de Rendimiento: Mejora promedio de AUC-PR de 46.7% en comparación con métodos de minería de datos, mejora promedio de AUC-ROC de 24.8% en comparación con métodos de aprendizaje profundo
  • Consistencia: Supera a cada método de referencia en 80-100% de los conjuntos de datos

Experimentos de Ablación

Verifica la importancia de cada módulo:

  1. Poda de Bosques: Mejora significativa del rendimiento en conjuntos de datos Bank y Ethereum, reduciendo sobreajuste
  2. AGD: Componente más crítico, con AUC-ROC cayendo de 0.96 a 0.41 en el conjunto de datos DoS cuando se elimina
  3. UWA: Proporciona mejora de rendimiento estable en conjuntos de datos grandes como Backdoor y DoS

Análisis de Casos

Usando el conjunto de datos médico Pima como ejemplo:

  • Interpretabilidad a Nivel de Celda: Los mapas de calor muestran que RFOD puede localizar con precisión combinaciones de características anómalas
  • Interpretabilidad a Nivel de Fila: Los valores predichos caen en regiones de alta densidad de distribuciones normales, mientras que los valores anómalos reales se encuentran en las colas de la distribución
  • Análisis Comparativo: OCSVM y DIF producen activaciones uniformes altas, dificultando el aislamiento de fuentes de anomalías verdaderas

Análisis de Eficiencia

  • Tiempo de Entrenamiento: Varios órdenes de magnitud más rápido que métodos de aprendizaje profundo, con soporte para paralelización
  • Tiempo de Prueba: Reducción promedio de latencia de tiempo de prueba de 91.2%
  • Escalabilidad: Pruebas en el conjunto de datos KDD desde 1% a 100% de escala de datos, demostrando escalabilidad lineal

Trabajo Relacionado

Métodos de Minería de Datos

Los métodos tradicionales como LOF, IF y OCSVM dependen principalmente de criterios estadísticos o basados en proximidad, pero típicamente asumen independencia de características, dificultando la captura de interacciones multivariadas.

Métodos de Aprendizaje Profundo

Métodos como Deep SVDD, DevNet e ICL pueden aprender representaciones complejas, pero están diseñados principalmente para entradas numéricas, requiriendo preprocesamiento para datos de tipos mixtos y careciendo de interpretabilidad.

Ventajas de Este Artículo

RFOD combina la interpretabilidad de métodos basados en árboles con la robustez del aprendizaje de conjunto, evitando limitaciones del modelado global mediante modelado condicional a nivel de características, mientras proporciona soporte nativo para datos de tipos mixtos.

Conclusiones y Discusión

Conclusiones Principales

  1. RFOD resuelve exitosamente el problema de detección de valores atípicos en datos tabulares de tipos mixtos mediante reconstrucción condicional a nivel de características
  2. El diseño de AGD y UWA mejora significativamente la precisión de detección y robustez
  3. El método proporciona interpretabilidad y eficiencia computacional superiores mientras mantiene alta precisión

Limitaciones

  1. Sensibilidad de Parámetros: Aunque el parámetro α\alpha es relativamente estable, aún requiere cierto ajuste
  2. Sobrecarga de Memoria: Entrenar bosques independientes para cada característica puede producir presión de memoria en datos de muy alta dimensión
  3. Procesamiento de Características Categóricas: El manejo de características categóricas de cardinalidad alta puede requerir optimización adicional

Direcciones Futuras

  1. Explorar técnicas de selección de características y reducción de dimensionalidad más eficientes
  2. Investigar aplicaciones en escenarios de datos en flujo y aprendizaje en línea
  3. Extender a datos de series temporales y datos estructurados en grafos

Evaluación Profunda

Fortalezas

  1. Innovación del Método: El paradigma de reconstrucción condicional a nivel de características es un enfoque novedoso y efectivo
  2. Completitud Experimental: Comparación exhaustiva con 15 conjuntos de datos y 10 métodos de referencia
  3. Interpretabilidad: Proporciona interpretabilidad dual a nivel de celda y fila
  4. Valor Práctico: Logra buen equilibrio entre eficiencia y precisión

Deficiencias

  1. Análisis Teórico: Carece de análisis teórico profundo sobre convergencia y complejidad del método
  2. Casos Extremos: El rendimiento en datos de muy alta dimensión o extremadamente desequilibrados requiere verificación adicional
  3. Guía de Parámetros: Carece de principios de selección de parámetros más sistemáticos

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para detección de valores atípicos en datos tabulares
  2. Valor Práctico: Tiene potencial de aplicación directa en dominios críticos como finanzas y atención médica
  3. Reproducibilidad: La descripción del algoritmo es clara y fácil de implementar y reproducir

Escenarios Aplicables

  • Detección de valores atípicos en datos tabulares de tipos mixtos
  • Escenarios de decisión de alto riesgo que requieren interpretabilidad
  • Monitoreo de anomalías en tiempo real para datos de escala media
  • Análisis de importancia de características y análisis de causa raíz

Referencias

El artículo cita trabajos importantes en el campo de detección de valores atípicos, incluyendo:

  • Métodos Clásicos: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
  • Métodos de Aprendizaje Profundo: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
  • Métricas de Distancia: Distancia de Gower (Gower, 1971)
  • Puntos de Referencia de Evaluación: ADBench (Han et al., 2022)

Evaluación General: Este es un artículo de investigación de alta calidad sobre detección de valores atípicos que propone un marco de método innovador, con verificación experimental exhaustiva y excelente potencial para aplicación práctica. Las ventajas de interpretabilidad y eficiencia del método lo hacen competitivo en implementación práctica.