2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD: Rilevamento di Anomalie Basato su Random Forest per Dati Tabulari

Informazioni Fondamentali

  • ID Articolo: 2510.08747
  • Titolo: RFOD: Random Forest-based Outlier Detection for Tabular Data
  • Autori: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • Classificazione: cs.LG (Machine Learning), cs.DB (Database)
  • Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08747

Riassunto

Il rilevamento di anomalie nei dati tabulari è essenziale per garantire l'integrità dei dati in settori ad alto rischio come la sicurezza informatica, il rilevamento delle frodi finanziarie e l'assistenza sanitaria. Nonostante i progressi continui nelle tecniche di data mining e deep learning, i metodi esistenti affrontano ancora sfide nel trattamento di dati tabulari di tipo misto, spesso dipendendo da schemi di codifica che perdono informazioni semantiche importanti e mancano di interpretabilità. Per affrontare questi problemi, questo articolo propone RFOD, un framework di rilevamento di anomalie basato su Random Forest specificamente progettato per dati tabulari. RFOD ridefinisce il rilevamento di anomalie come un problema di ricostruzione condizionata a livello di caratteristica, addestrando Random Forest dedicati per ogni caratteristica, realizzando un trattamento robusto dei tipi di dati eterogenei. Il metodo combina la distanza di Gower adattata (AGD) per il punteggio a livello di cella e la media ponderata per l'incertezza (UWA) per l'aggregazione dei punteggi di anomalia a livello di riga. Esperimenti estensivi su 15 dataset reali dimostrano che RFOD supera costantemente i metodi di base all'avanguardia in termini di accuratezza di rilevamento, fornendo al contempo robustezza, scalabilità e interpretabilità superiori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento di anomalie mira a identificare istanze nei dati che si discostano significativamente dalla distribuzione dominante, il che è cruciale in settori ad alto rischio come la sicurezza informatica, il rilevamento delle frodi finanziarie e l'assistenza sanitaria. Le anomalie non rilevate possono portare a distorsioni nell'analisi, nascondere intuizioni critiche e compromettere le operazioni.

Limitazioni dei Metodi Esistenti

  1. Metodi Tradizionali di Data Mining:
    • Metodi come LOF, Isolation Forest, OCSVM tipicamente si basano su prossimità globale o euristiche statistiche
    • Spesso elaborano le caratteristiche indipendentemente, incapaci di catturare anomalie contestuali nelle relazioni multivariate
    • Supporto nativo insufficiente per dati di tipo misto
  2. Metodi di Deep Learning:
    • Metodi come Deep SVDD, DevNet, ICL principalmente assumono input puramente numerici
    • Dipendono dalla pre-elaborazione (come one-hot encoding) che può perdere dettagli semantici
    • La natura black-box ostacola l'interpretabilità

Motivazione della Ricerca

I metodi esistenti mostrano prestazioni incoerenti su dati tabulari di tipo misto, mancando di una soluzione unificata che fornisca sia alta precisione di rilevamento che interpretabilità. Questo articolo mira a sviluppare un framework di rilevamento di anomalie che possa:

  • Elaborare nativamente dati di tipo misto
  • Fornire interpretabilità a grana fine
  • Mantenere alta precisione di rilevamento ed efficienza computazionale

Contributi Fondamentali

  1. Paradigma di Ricostruzione Condizionata a Livello di Caratteristica: Propone un nuovo paradigma che ridefinisce il rilevamento di anomalie come un problema di ricostruzione condizionata a livello di caratteristica, evitando i limiti della modellazione della distribuzione congiunta globale
  2. Framework RFOD: Progetta un framework di rilevamento di anomalie basato su Random Forest contenente quattro moduli fondamentali:
    • Random Forest dedicati per caratteristica
    • Meccanismo di potatura della foresta
    • Distanza di Gower Adattata (AGD)
    • Media Ponderata per l'Incertezza (UWA)
  3. Metrica di Distanza AGD: Propone un metodo di misurazione della distanza migliorato che si adatta alle distribuzioni numeriche asimmetriche e alla confidenza delle caratteristiche categoriche
  4. Prestazioni Sperimentali Superiori: Realizza prestazioni medie ottimali su 15 dataset reali, con miglioramenti AUC-ROC fino al 9,1% rispetto al miglior metodo concorrente e riduzione media della latenza di test del 91,2%

Dettagli del Metodo

Definizione del Compito

Dato l'insieme di addestramento XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} e l'insieme di test XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}, l'obiettivo è calcolare:

  • Matrice dei punteggi di anomalia a livello di cella: Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • Vettore dei punteggi di anomalia a livello di riga: srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

Architettura del Modello

1. Random Forest Dedicati per Caratteristica

Adotta una strategia di decomposizione leave-one-feature-out, addestrando Random Forest dedicati RFj\mathbf{RF}_j per ogni caratteristica xj\mathbf{x}_j: RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

dove Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}, ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j.

2. Potatura della Foresta

Conserva gli alberi ottimali basati sulla validazione out-of-bag (OOB): Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

dove β(0,1]\beta \in (0,1] è il rapporto di conservazione, UU è l'indice ordinato in ordine decrescente per punteggio OOB.

3. Distanza di Gower Adattata (AGD)

Caratteristiche Numeriche: AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

Caratteristiche Categoriche: AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

dove pxi,jp_{x_{i,j}} è la probabilità predetta della categoria reale.

4. Media Ponderata per l'Incertezza (UWA)

Calcola la matrice di incertezza U=[ui,j]\mathbf{U} = [u_{i,j}], dove ui,ju_{i,j} è la deviazione standard delle predizioni degli alberi. Pesi di confidenza: W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} Punteggio finale a livello di riga: srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

Punti di Innovazione Tecnica

  1. Ricostruzione Condizionata vs Modellazione Globale: Evita il problema della maledizione della dimensionalità nella modellazione della distribuzione congiunta globale nello spazio ad alta dimensione
  2. Supporto Nativo per Dati di Tipo Misto: Elabora caratteristiche numeriche e categoriche miste senza complessa codifica
  3. Metrica di Distanza Adattiva: AGD si adatta alle distribuzioni asimmetriche attraverso la normalizzazione dei quantili e gestisce l'incertezza categorica attraverso l'abbinamento consapevole della confidenza
  4. Aggregazione Consapevole dell'Incertezza: UWA sfrutta la varianza predittiva della struttura d'insieme per regolare dinamicamente i pesi delle caratteristiche

Configurazione Sperimentale

Dataset

Utilizza 15 dataset tabulari pubblici, coprendo settori come la sicurezza informatica, la finanza e l'assistenza sanitaria:

SettoreDatasetCampioniDimensione CaratteristicheRapporto Anomalie
Sicurezza InformaticaBackdoor95,329422.44%
Sicurezza InformaticaDoS109,3534214.95%
Sicurezza InformaticaKDD4,898,4304119.86%
FinanzaBank45,2111611.70%
Assistenza SanitariaArrhythmia45227945.80%

Metriche di Valutazione

  • AUC-ROC: Misura la qualità del ranking dei punteggi di anomalia
  • AUC-PR: Enfatizza precisione e recall, particolarmente adatto per classi sbilanciate
  • F1-Score e Accuratezza: Metriche di prestazione di classificazione basate su soglia
  • Log-Loss: Valuta la calibrazione della probabilità di anomalia
  • Tempo di Addestramento e Tempo di Test: Valuta efficienza e scalabilità

Metodi di Confronto

Baseline di Data Mining: ECOD, LOF, IF, OCSVM, OT Baseline di Deep Learning: Deep SVDD, SLAD, DevNet, DIF, ICL

Dettagli di Implementazione

  • Epoche di addestramento per modelli profondi: 50
  • Ambiente: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, NVIDIA H200 GPU
  • Parametri RFOD: α[0.01,0.02]\alpha \in [0.01, 0.02] (sensibilità AGD), β\beta selezionato adattivamente tramite validazione OOB

Risultati Sperimentali

Risultati Principali

RFOD mostra prestazioni eccellenti su tutte le metriche di valutazione:

  • Ranking Medio: Tra i primi 2 su 5 metriche, con ranking 1 per AUC-ROC e F1
  • Miglioramento Prestazioni: Miglioramento medio AUC-PR del 46,7% rispetto ai metodi di data mining, miglioramento medio AUC-ROC del 24,8% rispetto ai metodi di deep learning
  • Coerenza: Supera ogni metodo di base su 80-100% dei dataset

Esperimenti di Ablazione

Verifica l'importanza di ogni modulo:

  1. Potatura della Foresta: Migliora significativamente le prestazioni su dataset Bank, Ethereum, riducendo l'overfitting
  2. AGD: Componente più critica, la rimozione riduce AUC-ROC da 0,96 a 0,41 sul dataset DoS
  3. UWA: Fornisce miglioramenti stabili delle prestazioni su dataset di grandi dimensioni come Backdoor e DoS

Analisi di Caso

Utilizzando il dataset medico Pima come esempio:

  • Interpretabilità a Livello di Cella: Le mappe di calore mostrano che RFOD può localizzare con precisione combinazioni di caratteristiche anomale
  • Interpretabilità a Livello di Riga: I valori predetti rientrano in regioni ad alta densità della distribuzione normale, mentre i valori anomali effettivi si trovano nella coda della distribuzione
  • Analisi Comparativa: OCSVM e DIF producono attivazioni uniformemente elevate, difficili da isolare dalle vere fonti di anomalia

Analisi di Efficienza

  • Tempo di Addestramento: Ordini di grandezza più veloce dei metodi di deep learning, supporta parallelizzazione
  • Tempo di Test: Riduzione media della latenza di test del 91,2%
  • Scalabilità: Test su scala di dati dal 1% al 100% sul dataset KDD, dimostra scalabilità lineare

Lavori Correlati

Metodi di Data Mining

Metodi tradizionali come LOF, IF, OCSVM si basano principalmente su criteri statistici o basati sulla prossimità, ma tipicamente assumono l'indipendenza delle caratteristiche, difficili da catturare le interazioni multivariate.

Metodi di Deep Learning

Metodi come Deep SVDD, DevNet, ICL possono apprendere rappresentazioni complesse, ma sono principalmente progettati per input numerici, richiedono pre-elaborazione quando si trattano dati di tipo misto, e mancano di interpretabilità.

Vantaggi di Questo Articolo

RFOD combina l'interpretabilità dei metodi basati su alberi e la robustezza dell'ensemble learning, evitando i limiti della modellazione globale attraverso la modellazione condizionata a livello di caratteristica, fornendo al contempo supporto nativo per dati di tipo misto.

Conclusioni e Discussione

Conclusioni Principali

  1. RFOD risolve con successo il problema del rilevamento di anomalie nei dati tabulari di tipo misto attraverso la ricostruzione condizionata a livello di caratteristica
  2. La progettazione di AGD e UWA migliora significativamente la precisione di rilevamento e la robustezza
  3. Il metodo fornisce interpretabilità e efficienza computazionale superiori mantenendo alta precisione

Limitazioni

  1. Sensibilità ai Parametri: Sebbene il parametro α\alpha sia relativamente stabile, richiede comunque una certa ottimizzazione
  2. Overhead di Memoria: L'addestramento di foreste indipendenti per ogni caratteristica potrebbe causare pressione sulla memoria su dati a dimensionalità estremamente elevata
  3. Elaborazione di Caratteristiche Categoriche: L'elaborazione di caratteristiche categoriche ad alta cardinalità potrebbe richiedere ulteriore ottimizzazione

Direzioni Future

  1. Esplorare tecniche di selezione delle caratteristiche e riduzione della dimensionalità più efficienti
  2. Investigare applicazioni in scenari di flussi di dati e apprendimento online
  3. Estendere a dati di serie temporali e dati strutturati a grafo

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Metodo: Il paradigma di ricostruzione condizionata a livello di caratteristica è un approccio nuovo ed efficace
  2. Completezza Sperimentale: Confronto completo su 15 dataset e 10 metodi di base
  3. Interpretabilità: Fornisce doppia interpretabilità a livello di cella e di riga
  4. Valore Pratico: Raggiunge un buon equilibrio tra efficienza e precisione

Insufficienze

  1. Analisi Teorica: Manca analisi teorica approfondita sulla convergenza e complessità del metodo
  2. Scenari Estremi: Le prestazioni su dati a dimensionalità estremamente elevata o estremamente sbilanciate richiedono ulteriore verifica
  3. Guida ai Parametri: Mancano principi di selezione dei parametri più sistematici

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per il rilevamento di anomalie nei dati tabulari
  2. Valore Pratico: Ha potenziale di applicazione diretta in settori critici come finanza e assistenza sanitaria
  3. Riproducibilità: La descrizione dell'algoritmo è chiara e facile da implementare e riprodurre

Scenari Applicabili

  • Rilevamento di anomalie in dati tabulari di tipo misto
  • Scenari di decisione ad alto rischio che richiedono interpretabilità
  • Monitoraggio di anomalie in tempo reale su dati di scala media
  • Analisi dell'importanza delle caratteristiche e analisi delle cause radice

Bibliografia

L'articolo cita lavori importanti nel campo del rilevamento di anomalie, inclusi:

  • Metodi Classici: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
  • Metodi di Deep Learning: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
  • Metriche di Distanza: Distanza di Gower (Gower, 1971)
  • Benchmark di Valutazione: ADBench (Han et al., 2022)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel rilevamento di anomalie, che propone un framework metodologico innovativo con verifica sperimentale completa e buon potenziale per l'applicazione pratica. I vantaggi di interpretabilità e efficienza del metodo lo rendono competitivo nella distribuzione pratica.