2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.

Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.

academic

RFOD: Detección de Valores Atípicos Basada en Bosques Aleatorios para Datos Tabulares

Información Básica

ID del Artículo: 2510.08747
Título: RFOD: Random Forest-based Outlier Detection for Tabular Data
Autores: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
Clasificación: cs.LG (Aprendizaje Automático), cs.DB (Bases de Datos)
Fecha de Publicación: 9 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08747

Resumen

La detección de valores atípicos en datos tabulares es crucial para garantizar la integridad de los datos en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. A pesar de los avances continuos en técnicas de minería de datos y aprendizaje profundo, los métodos existentes enfrentan desafíos al procesar datos tabulares de tipos mixtos, a menudo dependiendo de esquemas de codificación que pierden información semántica importante y carecen de interpretabilidad. Para abordar estos problemas, este artículo propone RFOD, un marco de detección de valores atípicos basado en bosques aleatorios diseñado específicamente para datos tabulares. RFOD redefinió la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, entrenando bosques aleatorios dedicados para cada característica, logrando un procesamiento robusto de tipos de datos heterogéneos. El método combina la distancia de Gower ajustada (AGD) para puntuación a nivel de celda y el promedio ponderado por incertidumbre (UWA) para la agregación de puntuaciones de anomalías a nivel de fila. Los experimentos extensos en 15 conjuntos de datos reales demuestran que RFOD supera consistentemente a los métodos de referencia de última generación en precisión de detección, mientras proporciona robustez, escalabilidad e interpretabilidad superiores.

Antecedentes y Motivación de la Investigación

Definición del Problema

La detección de valores atípicos tiene como objetivo identificar instancias en los datos que se desvían significativamente de la distribución dominante, lo cual es crítico en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. Los valores atípicos no detectados pueden distorsionar análisis, ocultar información crítica e interrumpir operaciones.

Limitaciones de los Métodos Existentes

Métodos Tradicionales de Minería de Datos:
- Métodos como LOF, Isolation Forest y OCSVM típicamente dependen de proximidad global o heurísticas estadísticas
- A menudo procesan características de forma independiente, sin capturar anomalías contextuales en relaciones multivariadas
- Soporte nativo insuficiente para datos de tipos mixtos
Métodos de Aprendizaje Profundo:
- Métodos como Deep SVDD, DevNet e ICL asumen principalmente entradas puramente numéricas
- Dependen de preprocesamiento (como codificación one-hot) que puede perder detalles semánticos
- La naturaleza de caja negra obstaculiza la interpretabilidad

Motivación de la Investigación

Los métodos existentes muestran rendimiento inconsistente en datos tabulares de tipos mixtos, careciendo de una solución unificada que proporcione tanto alta precisión de detección como interpretabilidad. Este artículo tiene como objetivo desarrollar un marco de detección de valores atípicos que pueda:

Procesar nativamente datos de tipos mixtos
Proporcionar interpretabilidad de grano fino
Mantener alta precisión de detección y eficiencia computacional

Contribuciones Principales

Paradigma de Reconstrucción Condicional a Nivel de Características: Propone un nuevo paradigma que redefine la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, evitando las limitaciones del modelado de distribución conjunta global
Marco RFOD: Diseña un marco de detección de valores atípicos basado en bosques aleatorios que contiene cuatro módulos principales:
- Bosques aleatorios dedicados a características
- Mecanismo de poda de bosques
- Distancia de Gower Ajustada (AGD)
- Promedio Ponderado por Incertidumbre (UWA)
Métrica de Distancia AGD: Propone una métrica de distancia mejorada que se adapta a distribuciones numéricas sesgadas y confianza de características categóricas
Rendimiento Experimental Sobresaliente: Logra el mejor rendimiento promedio en 15 conjuntos de datos reales, con mejoras en AUC-ROC de hasta 9.1% en comparación con el mejor método competidor y reducción promedio de latencia de tiempo de prueba de 91.2%

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de entrenamiento $\mathbf{X}_{train} \in \mathbb{R}^{n \times d}$ y un conjunto de prueba $\mathbf{X}_{test} \in \mathbb{R}^{m \times d}$ , el objetivo es calcular:

Matriz de puntuación de anomalía a nivel de celda: $\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}$
Vector de puntuación de anomalía a nivel de fila: $\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m$

Arquitectura del Modelo

1. Bosques Aleatorios Dedicados a Características

Adopta una estrategia de descomposición de dejar-una-característica-fuera, entrenando un bosque aleatorio dedicado $\mathbf{RF}_j$ para cada característica $\mathbf{x}_j$ : $\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n$

donde $\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}$ , $\mathbf{y}^j_{train} = \mathbf{x}_j$ .

2. Poda de Bosques

Retiene árboles óptimos basados en validación fuera de bolsa (OOB): $\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}$

donde $\beta \in (0,1]$ es la proporción de retención, y $U$ es el índice ordenado en orden descendente por puntuación OOB.

3. Distancia de Gower Ajustada (AGD)

Características Numéricas: $AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}$

Características Categóricas: $AGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}$

donde $p_{x_{i,j}}$ es la probabilidad predicha de la categoría verdadera.

4. Promedio Ponderado por Incertidumbre (UWA)

Calcula la matriz de incertidumbre $\mathbf{U} = [u_{i,j}]$ , donde $u_{i,j}$ es la desviación estándar de las predicciones del árbol. Pesos de confianza: $\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}}$ Puntuación final a nivel de fila: $s_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}$

Puntos de Innovación Técnica

Reconstrucción Condicional vs Modelado Global: Evita la maldición de la dimensionalidad en el modelado de distribución conjunta global en espacios de alta dimensión
Soporte Nativo para Datos de Tipos Mixtos: Procesa características numéricas y categóricas sin necesidad de codificación compleja
Métrica de Distancia Adaptativa: AGD se adapta a distribuciones sesgadas mediante normalización de cuantiles y maneja incertidumbre categórica mediante coincidencia consciente de confianza
Agregación Consciente de Incertidumbre: UWA aprovecha la varianza de predicción de la estructura de conjunto para ajustar dinámicamente pesos de características

Configuración Experimental

Conjuntos de Datos

Utiliza 15 conjuntos de datos tabulares públicos que abarcan ciberseguridad, finanzas y atención médica:

Dominio	Conjunto de Datos	Muestras	Dimensión de Características	Proporción de Anomalías
Ciberseguridad	Backdoor	95,329	42	2.44%
Ciberseguridad	DoS	109,353	42	14.95%
Ciberseguridad	KDD	4,898,430	41	19.86%
Finanzas	Bank	45,211	16	11.70%
Médico	Arrhythmia	452	279	45.80%

Métricas de Evaluación

AUC-ROC: Mide la calidad de clasificación de puntuaciones de anomalía
AUC-PR: Enfatiza precisión y recuperación, particularmente adecuado para datos desequilibrados
F1-Score y Precisión: Métricas de rendimiento de clasificación basadas en umbral
Log-Loss: Evalúa la calibración de probabilidades de anomalía
Tiempo de Entrenamiento y Tiempo de Prueba: Evalúan eficiencia y escalabilidad

Métodos de Comparación

Líneas Base de Minería de Datos: ECOD, LOF, IF, OCSVM, OT Líneas Base de Aprendizaje Profundo: Deep SVDD, SLAD, DevNet, DIF, ICL

Detalles de Implementación

Épocas de entrenamiento de modelos profundos: 50
Entorno: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, GPU NVIDIA H200
Parámetros RFOD: $\alpha \in [0.01, 0.02]$ (sensibilidad AGD), $\beta$ seleccionado adaptativamente mediante validación OOB

Resultados Experimentales

Resultados Principales

RFOD demuestra rendimiento excepcional en todas las métricas de evaluación:

Clasificación Promedio: Clasificado en los 2 primeros en 5 métricas, siendo primero en AUC-ROC y F1
Mejora de Rendimiento: Mejora promedio de AUC-PR de 46.7% en comparación con métodos de minería de datos, mejora promedio de AUC-ROC de 24.8% en comparación con métodos de aprendizaje profundo
Consistencia: Supera a cada método de referencia en 80-100% de los conjuntos de datos

Experimentos de Ablación

Verifica la importancia de cada módulo:

Poda de Bosques: Mejora significativa del rendimiento en conjuntos de datos Bank y Ethereum, reduciendo sobreajuste
AGD: Componente más crítico, con AUC-ROC cayendo de 0.96 a 0.41 en el conjunto de datos DoS cuando se elimina
UWA: Proporciona mejora de rendimiento estable en conjuntos de datos grandes como Backdoor y DoS

Análisis de Casos

Usando el conjunto de datos médico Pima como ejemplo:

Interpretabilidad a Nivel de Celda: Los mapas de calor muestran que RFOD puede localizar con precisión combinaciones de características anómalas
Interpretabilidad a Nivel de Fila: Los valores predichos caen en regiones de alta densidad de distribuciones normales, mientras que los valores anómalos reales se encuentran en las colas de la distribución
Análisis Comparativo: OCSVM y DIF producen activaciones uniformes altas, dificultando el aislamiento de fuentes de anomalías verdaderas

Análisis de Eficiencia

Tiempo de Entrenamiento: Varios órdenes de magnitud más rápido que métodos de aprendizaje profundo, con soporte para paralelización
Tiempo de Prueba: Reducción promedio de latencia de tiempo de prueba de 91.2%
Escalabilidad: Pruebas en el conjunto de datos KDD desde 1% a 100% de escala de datos, demostrando escalabilidad lineal

Trabajo Relacionado

Métodos de Minería de Datos

Los métodos tradicionales como LOF, IF y OCSVM dependen principalmente de criterios estadísticos o basados en proximidad, pero típicamente asumen independencia de características, dificultando la captura de interacciones multivariadas.

Métodos de Aprendizaje Profundo

Métodos como Deep SVDD, DevNet e ICL pueden aprender representaciones complejas, pero están diseñados principalmente para entradas numéricas, requiriendo preprocesamiento para datos de tipos mixtos y careciendo de interpretabilidad.

Ventajas de Este Artículo

RFOD combina la interpretabilidad de métodos basados en árboles con la robustez del aprendizaje de conjunto, evitando limitaciones del modelado global mediante modelado condicional a nivel de características, mientras proporciona soporte nativo para datos de tipos mixtos.

Conclusiones y Discusión

Conclusiones Principales

RFOD resuelve exitosamente el problema de detección de valores atípicos en datos tabulares de tipos mixtos mediante reconstrucción condicional a nivel de características
El diseño de AGD y UWA mejora significativamente la precisión de detección y robustez
El método proporciona interpretabilidad y eficiencia computacional superiores mientras mantiene alta precisión

Limitaciones

Sensibilidad de Parámetros: Aunque el parámetro $\alpha$ es relativamente estable, aún requiere cierto ajuste
Sobrecarga de Memoria: Entrenar bosques independientes para cada característica puede producir presión de memoria en datos de muy alta dimensión
Procesamiento de Características Categóricas: El manejo de características categóricas de cardinalidad alta puede requerir optimización adicional

Direcciones Futuras

Explorar técnicas de selección de características y reducción de dimensionalidad más eficientes
Investigar aplicaciones en escenarios de datos en flujo y aprendizaje en línea
Extender a datos de series temporales y datos estructurados en grafos

Evaluación Profunda

Fortalezas

Innovación del Método: El paradigma de reconstrucción condicional a nivel de características es un enfoque novedoso y efectivo
Completitud Experimental: Comparación exhaustiva con 15 conjuntos de datos y 10 métodos de referencia
Interpretabilidad: Proporciona interpretabilidad dual a nivel de celda y fila
Valor Práctico: Logra buen equilibrio entre eficiencia y precisión

Deficiencias

Análisis Teórico: Carece de análisis teórico profundo sobre convergencia y complejidad del método
Casos Extremos: El rendimiento en datos de muy alta dimensión o extremadamente desequilibrados requiere verificación adicional
Guía de Parámetros: Carece de principios de selección de parámetros más sistemáticos

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para detección de valores atípicos en datos tabulares
Valor Práctico: Tiene potencial de aplicación directa en dominios críticos como finanzas y atención médica
Reproducibilidad: La descripción del algoritmo es clara y fácil de implementar y reproducir

Escenarios Aplicables

Detección de valores atípicos en datos tabulares de tipos mixtos
Escenarios de decisión de alto riesgo que requieren interpretabilidad
Monitoreo de anomalías en tiempo real para datos de escala media
Análisis de importancia de características y análisis de causa raíz

Referencias

El artículo cita trabajos importantes en el campo de detección de valores atípicos, incluyendo:

Métodos Clásicos: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
Métodos de Aprendizaje Profundo: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
Métricas de Distancia: Distancia de Gower (Gower, 1971)
Puntos de Referencia de Evaluación: ADBench (Han et al., 2022)

Evaluación General: Este es un artículo de investigación de alta calidad sobre detección de valores atípicos que propone un marco de método innovador, con verificación experimental exhaustiva y excelente potencial para aplicación práctica. Las ventajas de interpretabilidad y eficiencia del método lo hacen competitivo en implementación práctica.