Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
- ID del Artículo: 2510.08747
- Título: RFOD: Random Forest-based Outlier Detection for Tabular Data
- Autores: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
- Clasificación: cs.LG (Aprendizaje Automático), cs.DB (Bases de Datos)
- Fecha de Publicación: 9 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.08747
La detección de valores atípicos en datos tabulares es crucial para garantizar la integridad de los datos en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. A pesar de los avances continuos en técnicas de minería de datos y aprendizaje profundo, los métodos existentes enfrentan desafíos al procesar datos tabulares de tipos mixtos, a menudo dependiendo de esquemas de codificación que pierden información semántica importante y carecen de interpretabilidad. Para abordar estos problemas, este artículo propone RFOD, un marco de detección de valores atípicos basado en bosques aleatorios diseñado específicamente para datos tabulares. RFOD redefinió la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, entrenando bosques aleatorios dedicados para cada característica, logrando un procesamiento robusto de tipos de datos heterogéneos. El método combina la distancia de Gower ajustada (AGD) para puntuación a nivel de celda y el promedio ponderado por incertidumbre (UWA) para la agregación de puntuaciones de anomalías a nivel de fila. Los experimentos extensos en 15 conjuntos de datos reales demuestran que RFOD supera consistentemente a los métodos de referencia de última generación en precisión de detección, mientras proporciona robustez, escalabilidad e interpretabilidad superiores.
La detección de valores atípicos tiene como objetivo identificar instancias en los datos que se desvían significativamente de la distribución dominante, lo cual es crítico en dominios de alto riesgo como ciberseguridad, detección de fraude financiero y atención médica. Los valores atípicos no detectados pueden distorsionar análisis, ocultar información crítica e interrumpir operaciones.
- Métodos Tradicionales de Minería de Datos:
- Métodos como LOF, Isolation Forest y OCSVM típicamente dependen de proximidad global o heurísticas estadísticas
- A menudo procesan características de forma independiente, sin capturar anomalías contextuales en relaciones multivariadas
- Soporte nativo insuficiente para datos de tipos mixtos
- Métodos de Aprendizaje Profundo:
- Métodos como Deep SVDD, DevNet e ICL asumen principalmente entradas puramente numéricas
- Dependen de preprocesamiento (como codificación one-hot) que puede perder detalles semánticos
- La naturaleza de caja negra obstaculiza la interpretabilidad
Los métodos existentes muestran rendimiento inconsistente en datos tabulares de tipos mixtos, careciendo de una solución unificada que proporcione tanto alta precisión de detección como interpretabilidad. Este artículo tiene como objetivo desarrollar un marco de detección de valores atípicos que pueda:
- Procesar nativamente datos de tipos mixtos
- Proporcionar interpretabilidad de grano fino
- Mantener alta precisión de detección y eficiencia computacional
- Paradigma de Reconstrucción Condicional a Nivel de Características: Propone un nuevo paradigma que redefine la detección de valores atípicos como un problema de reconstrucción condicional a nivel de características, evitando las limitaciones del modelado de distribución conjunta global
- Marco RFOD: Diseña un marco de detección de valores atípicos basado en bosques aleatorios que contiene cuatro módulos principales:
- Bosques aleatorios dedicados a características
- Mecanismo de poda de bosques
- Distancia de Gower Ajustada (AGD)
- Promedio Ponderado por Incertidumbre (UWA)
- Métrica de Distancia AGD: Propone una métrica de distancia mejorada que se adapta a distribuciones numéricas sesgadas y confianza de características categóricas
- Rendimiento Experimental Sobresaliente: Logra el mejor rendimiento promedio en 15 conjuntos de datos reales, con mejoras en AUC-ROC de hasta 9.1% en comparación con el mejor método competidor y reducción promedio de latencia de tiempo de prueba de 91.2%
Dado un conjunto de entrenamiento Xtrain∈Rn×d y un conjunto de prueba Xtest∈Rm×d, el objetivo es calcular:
- Matriz de puntuación de anomalía a nivel de celda: Scell=[si,j]∈Rm×d
- Vector de puntuación de anomalía a nivel de fila: srow=[srow,1,…,srow,m]∈Rm
Adopta una estrategia de descomposición de dejar-una-característica-fuera, entrenando un bosque aleatorio dedicado RFj para cada característica xj:
RFj:Xtrainj∈Rn×(d−1)→ytrainj∈Rn
donde Xtrainj=Xtrain∖{xj}, ytrainj=xj.
Retiene árboles óptimos basados en validación fuera de bolsa (OOB):
Prune(RF)={TU(i)∣1≤i≤⌊β⋅t⌋}
donde β∈(0,1] es la proporción de retención, y U es el índice ordenado en orden descendente por puntuación OOB.
Características Numéricas:
AGD(num)(xi,j,x^i,j)=Q1−α(xj)−Qα(xj)∣xi,j−x^i,j∣
Características Categóricas:
AGD(cat)(xi,j,x^i,j)=1−pxi,j
donde pxi,j es la probabilidad predicha de la categoría verdadera.
Calcula la matriz de incertidumbre U=[ui,j], donde ui,j es la desviación estándar de las predicciones del árbol.
Pesos de confianza: W=1m×d−U~
Puntuación final a nivel de fila:
srow,i=d1∑j=1dwi,j⋅si,j
- Reconstrucción Condicional vs Modelado Global: Evita la maldición de la dimensionalidad en el modelado de distribución conjunta global en espacios de alta dimensión
- Soporte Nativo para Datos de Tipos Mixtos: Procesa características numéricas y categóricas sin necesidad de codificación compleja
- Métrica de Distancia Adaptativa: AGD se adapta a distribuciones sesgadas mediante normalización de cuantiles y maneja incertidumbre categórica mediante coincidencia consciente de confianza
- Agregación Consciente de Incertidumbre: UWA aprovecha la varianza de predicción de la estructura de conjunto para ajustar dinámicamente pesos de características
Utiliza 15 conjuntos de datos tabulares públicos que abarcan ciberseguridad, finanzas y atención médica:
| Dominio | Conjunto de Datos | Muestras | Dimensión de Características | Proporción de Anomalías |
|---|
| Ciberseguridad | Backdoor | 95,329 | 42 | 2.44% |
| Ciberseguridad | DoS | 109,353 | 42 | 14.95% |
| Ciberseguridad | KDD | 4,898,430 | 41 | 19.86% |
| Finanzas | Bank | 45,211 | 16 | 11.70% |
| Médico | Arrhythmia | 452 | 279 | 45.80% |
- AUC-ROC: Mide la calidad de clasificación de puntuaciones de anomalía
- AUC-PR: Enfatiza precisión y recuperación, particularmente adecuado para datos desequilibrados
- F1-Score y Precisión: Métricas de rendimiento de clasificación basadas en umbral
- Log-Loss: Evalúa la calibración de probabilidades de anomalía
- Tiempo de Entrenamiento y Tiempo de Prueba: Evalúan eficiencia y escalabilidad
Líneas Base de Minería de Datos: ECOD, LOF, IF, OCSVM, OT
Líneas Base de Aprendizaje Profundo: Deep SVDD, SLAD, DevNet, DIF, ICL
- Épocas de entrenamiento de modelos profundos: 50
- Entorno: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, GPU NVIDIA H200
- Parámetros RFOD: α∈[0.01,0.02] (sensibilidad AGD), β seleccionado adaptativamente mediante validación OOB
RFOD demuestra rendimiento excepcional en todas las métricas de evaluación:
- Clasificación Promedio: Clasificado en los 2 primeros en 5 métricas, siendo primero en AUC-ROC y F1
- Mejora de Rendimiento: Mejora promedio de AUC-PR de 46.7% en comparación con métodos de minería de datos, mejora promedio de AUC-ROC de 24.8% en comparación con métodos de aprendizaje profundo
- Consistencia: Supera a cada método de referencia en 80-100% de los conjuntos de datos
Verifica la importancia de cada módulo:
- Poda de Bosques: Mejora significativa del rendimiento en conjuntos de datos Bank y Ethereum, reduciendo sobreajuste
- AGD: Componente más crítico, con AUC-ROC cayendo de 0.96 a 0.41 en el conjunto de datos DoS cuando se elimina
- UWA: Proporciona mejora de rendimiento estable en conjuntos de datos grandes como Backdoor y DoS
Usando el conjunto de datos médico Pima como ejemplo:
- Interpretabilidad a Nivel de Celda: Los mapas de calor muestran que RFOD puede localizar con precisión combinaciones de características anómalas
- Interpretabilidad a Nivel de Fila: Los valores predichos caen en regiones de alta densidad de distribuciones normales, mientras que los valores anómalos reales se encuentran en las colas de la distribución
- Análisis Comparativo: OCSVM y DIF producen activaciones uniformes altas, dificultando el aislamiento de fuentes de anomalías verdaderas
- Tiempo de Entrenamiento: Varios órdenes de magnitud más rápido que métodos de aprendizaje profundo, con soporte para paralelización
- Tiempo de Prueba: Reducción promedio de latencia de tiempo de prueba de 91.2%
- Escalabilidad: Pruebas en el conjunto de datos KDD desde 1% a 100% de escala de datos, demostrando escalabilidad lineal
Los métodos tradicionales como LOF, IF y OCSVM dependen principalmente de criterios estadísticos o basados en proximidad, pero típicamente asumen independencia de características, dificultando la captura de interacciones multivariadas.
Métodos como Deep SVDD, DevNet e ICL pueden aprender representaciones complejas, pero están diseñados principalmente para entradas numéricas, requiriendo preprocesamiento para datos de tipos mixtos y careciendo de interpretabilidad.
RFOD combina la interpretabilidad de métodos basados en árboles con la robustez del aprendizaje de conjunto, evitando limitaciones del modelado global mediante modelado condicional a nivel de características, mientras proporciona soporte nativo para datos de tipos mixtos.
- RFOD resuelve exitosamente el problema de detección de valores atípicos en datos tabulares de tipos mixtos mediante reconstrucción condicional a nivel de características
- El diseño de AGD y UWA mejora significativamente la precisión de detección y robustez
- El método proporciona interpretabilidad y eficiencia computacional superiores mientras mantiene alta precisión
- Sensibilidad de Parámetros: Aunque el parámetro α es relativamente estable, aún requiere cierto ajuste
- Sobrecarga de Memoria: Entrenar bosques independientes para cada característica puede producir presión de memoria en datos de muy alta dimensión
- Procesamiento de Características Categóricas: El manejo de características categóricas de cardinalidad alta puede requerir optimización adicional
- Explorar técnicas de selección de características y reducción de dimensionalidad más eficientes
- Investigar aplicaciones en escenarios de datos en flujo y aprendizaje en línea
- Extender a datos de series temporales y datos estructurados en grafos
- Innovación del Método: El paradigma de reconstrucción condicional a nivel de características es un enfoque novedoso y efectivo
- Completitud Experimental: Comparación exhaustiva con 15 conjuntos de datos y 10 métodos de referencia
- Interpretabilidad: Proporciona interpretabilidad dual a nivel de celda y fila
- Valor Práctico: Logra buen equilibrio entre eficiencia y precisión
- Análisis Teórico: Carece de análisis teórico profundo sobre convergencia y complejidad del método
- Casos Extremos: El rendimiento en datos de muy alta dimensión o extremadamente desequilibrados requiere verificación adicional
- Guía de Parámetros: Carece de principios de selección de parámetros más sistemáticos
- Contribución Académica: Proporciona una nueva dirección de investigación para detección de valores atípicos en datos tabulares
- Valor Práctico: Tiene potencial de aplicación directa en dominios críticos como finanzas y atención médica
- Reproducibilidad: La descripción del algoritmo es clara y fácil de implementar y reproducir
- Detección de valores atípicos en datos tabulares de tipos mixtos
- Escenarios de decisión de alto riesgo que requieren interpretabilidad
- Monitoreo de anomalías en tiempo real para datos de escala media
- Análisis de importancia de características y análisis de causa raíz
El artículo cita trabajos importantes en el campo de detección de valores atípicos, incluyendo:
- Métodos Clásicos: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
- Métodos de Aprendizaje Profundo: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
- Métricas de Distancia: Distancia de Gower (Gower, 1971)
- Puntos de Referencia de Evaluación: ADBench (Han et al., 2022)
Evaluación General: Este es un artículo de investigación de alta calidad sobre detección de valores atípicos que propone un marco de método innovador, con verificación experimental exhaustiva y excelente potencial para aplicación práctica. Las ventajas de interpretabilidad y eficiencia del método lo hacen competitivo en implementación práctica.