2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

Oltre l'XAI a singolo modello: aggregazione di spiegazioni multi-modello per una fiducia accresciuta

Informazioni Fondamentali

  • ID Articolo: 2510.11164
  • Titolo: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • Autori: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione/Conferenza: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • Link Articolo: https://arxiv.org/abs/2510.11164

Riassunto

Con l'ampio utilizzo di modelli di intelligenza artificiale in applicazioni ad alto rischio nel mondo reale, le questioni relative alla loro affidabilità e all'uso etico hanno ricevuto crescente attenzione sia dal punto di vista tecnico che legislativo. Il campo dell'Intelligenza Artificiale Esplicabile (XAI) affronta questa sfida fornendo spiegazioni che rivelano il processo decisionale di modelli complessi e opachi. Sebbene la robustezza sia un attributo importante, viene spesso trascurata durante lo sviluppo: solo i metodi di spiegazione robusti possono aumentare la fiducia nell'intero sistema. Questo articolo esamina il ruolo della robustezza utilizzando l'importanza delle caratteristiche aggregata da più modelli (k-nearest neighbors, random forest e reti neurali). I risultati preliminari dimostrano il potenziale di migliorare l'affidabilità delle applicazioni sfruttando contemporaneamente la capacità predittiva di più modelli.

Contesto di Ricerca e Motivazione

Definizione del Problema

I problemi fondamentali affrontati da questa ricerca sono due difetti critici dei metodi XAI esistenti:

  1. Insufficiente robustezza delle spiegazioni: metodi di spiegazione popolari come LIME e SHAP sono stati dimostrati privi di robustezza in numerosi studi, eppure continuano ad essere ampiamente applicati in scenari ad alto rischio
  2. Problema di discordanza nelle spiegazioni: quando più metodi di spiegazione vengono applicati alla stessa istanza, producono spiegazioni contraddittorie; in assenza di uno standard di verità per le spiegazioni, è impossibile selezionare il metodo ottimale

Importanza

Con requisiti legislativi come il GDPR e l'AI Act che richiedono trasparenza dei modelli, l'affidabilità delle spiegazioni diventa cruciale. Solo attraverso la fiducia nelle spiegazioni è possibile costruire fiducia nel modello stesso, il che è particolarmente importante nelle applicazioni ad alto rischio.

Limitazioni dei Metodi Esistenti

  • Metodi mainstream come LIME e SHAP presentano problemi di robustezza, producendo spiegazioni incoerenti per input simili
  • I metodi di spiegazione basati su singoli modelli non sfruttano pienamente la capacità predittiva di più modelli
  • Mancano strategie efficaci di aggregazione delle spiegazioni per gestire le discordanze tra diversi modelli

Motivazione della Ricerca

Basandosi su lavori precedenti nell'ambito delle spiegazioni di ensemble di reti neurali, questo articolo propone di estendere il metodo a modelli di diverse categorie, mirando a migliorare l'affidabilità complessiva del sistema aggregando spiegazioni di processi decisionali diversi.

Contributi Principali

  1. Propone due nuovi metodi di attribuzione delle caratteristiche:
    • Metodo di importanza delle caratteristiche basato sulla distanza per modelli k-nearest neighbors
    • Metodo di attribuzione delle caratteristiche basato sull'impurità dei nodi per random forest
  2. Sviluppa un framework di aggregazione delle spiegazioni multi-modello:
    • Integra spiegazioni da k-NN, random forest e reti neurali
    • Aggrega l'importanza delle caratteristiche attraverso media aritmetica
  3. Introduce un meccanismo di valutazione della robustezza:
    • Utilizza il metodo di generazione del vicinato basato su punti centrali
    • Quantifica la robustezza delle spiegazioni mediante il coefficiente di correlazione di Spearman
  4. Verifica la relazione tra coerenza del modello e robustezza delle spiegazioni:
    • Dimostra che la coerenza predittiva multi-modello può servire come indicatore dell'affidabilità delle spiegazioni

Dettagli del Metodo

Definizione del Compito

Questo articolo si concentra su compiti di classificazione binaria su dati tabulari, con l'obiettivo di generare spiegazioni di importanza delle caratteristiche affidabili per ogni istanza predetta. L'input è un'istanza di dati tabulari, l'output è un vettore di attribuzione delle caratteristiche normalizzato.

Architettura del Modello

Metodo di Spiegazione k-Nearest Neighbors

L'algoritmo si basa sul meccanismo di ragionamento sulla distanza di k-NN:

  1. Per il punto predetto x, selezionare rispettivamente k' vicini più prossimi dalla classe predetta c e dalla classe opposta ¬c
  2. Calcolare la distanza media delle caratteristiche verso ogni gruppo di vicini D_c e D_¬c
  3. L'importanza della caratteristica è definita come: e = D_¬c - D_c
  4. Normalizzare come vettore unitario per garantire comparabilità

Metodo di Spiegazione Random Forest

Basato sull'impurità dei nodi nel percorso decisionale:

  1. Per ogni albero nella foresta, tracciare il percorso decisionale del punto dati
  2. A seconda che la predizione del singolo albero sia coerente con la predizione della foresta, accumulare rispettivamente l'impurità dei nodi in e_c o e_¬c
  3. La spiegazione finale è: e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. Dove p_c e p_¬c sono le probabilità predette, ε=0.01 per evitare valori zero

Strategia di Aggregazione

Utilizza la media aritmetica a livello di caratteristica:

a_agg = (1/L) × Σ(l=1 to L) a_l

Dove L=3 è il numero di modelli. Quando le predizioni dei modelli sono incoerenti, le spiegazioni dei modelli discordanti vengono invertite per garantire che le spiegazioni puntino alla stessa classe.

Valutazione della Robustezza

Generazione del Vicinato

Utilizza il metodo basato su punti centrali:

  1. Eseguire il clustering k-medoid sul set di validazione
  2. Per ogni punto dati, trovare il centro del cluster corrispondente e i suoi k_M centri cluster più vicini
  3. Generare perturbazioni conformi al manifold dei dati attraverso distribuzione Beta e sostituzione probabilistica

Calcolo della Robustezza

Utilizza il coefficiente di correlazione di rango di Spearman:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Dove N è l'insieme di punti del vicinato che mantengono la coerenza predittiva.

Configurazione Sperimentale

Dataset

Utilizza 5 dataset tabulari pubblici per compiti di classificazione binaria:

  • Adult: 36.177/8.045/1.000 (addestramento/validazione/test), 5 caratteristiche numeriche, 7 caratteristiche categoriche
  • Bank: 36.168/8.043/1.000, 5 caratteristiche numeriche, 9 caratteristiche categoriche
  • HELOC: 8.367/1.592/500, 14 caratteristiche numeriche, 2 caratteristiche categoriche
  • Cancer: 397/121/50, 15 caratteristiche numeriche, 0 caratteristiche categoriche
  • White Wine: 3.918/780/200, 9 caratteristiche numeriche, 0 caratteristiche categoriche

Metriche di Valutazione

  • Punteggio di robustezza: valore medio basato sul coefficiente di correlazione di Spearman
  • Dimensione del vicinato: proporzione di punti perturbati conservati dopo il filtraggio
  • Valore AUC: area sotto la curva ROC basata sulla coerenza del modello

Metodi di Confronto

  • Metodo di spiegazione personalizzato k-NN
  • Metodo di spiegazione personalizzato random forest
  • Metodo DeepLIFT per reti neurali
  • Risultati aggregati dei tre metodi
  • Confronto con LIME e SHAP nell'appendice

Dettagli di Implementazione

  • k-NN: k=15 (adult, bank), k=5 (altri)
  • Random forest: 25 learner di base
  • Rete neurale: perceptron multistrato standard
  • Generazione del vicinato: k_M=5, α=0.05, α_cat=0.05
  • Tasso di conservazione del vicinato target: ≥95%

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello

Tutti i modelli raggiungono un'accuratezza superiore all'80% su tutti i dataset (ad eccezione di k-NN su HELOC con 75,51%). La rete neurale mostra le migliori prestazioni su dataset complessi, mentre random forest mostra le migliori prestazioni su dataset semplici.

Confronto della Robustezza

Punteggi medi di robustezza (%):

Datasetk-NNRFNNAggregato
Adult61,1288,6785,0374,58
Bank52,2773,5278,7465,75
HELOC71,0180,5684,2377,92
Cancer83,3181,0798,4084,93
Wine69,5566,6092,9666,74

I risultati mostrano:

  • Il metodo k-NN ha la robustezza più bassa, coerente con la sua dipendenza da vicini distanti
  • Il metodo della rete neurale ha la robustezza più alta
  • La robustezza del metodo aggregato si situa tra i metodi componenti, come previsto dalla teoria

Analisi della Coerenza del Modello

La relazione tra la coerenza predittiva del modello e la dimensione del vicinato verifica l'ipotesi: quando i tre modelli predicono coerentemente, generalmente si ottiene una dimensione del vicinato più grande, indicando che questa regione ha una migliore robustezza delle spiegazioni.

Valutazione di Verifica

La relazione tra coerenza del modello e robustezza delle spiegazioni è verificata attraverso l'analisi ROC:

Confronto dei valori AUC:

Datasetk-NNRFNNAggregato
Adult0,44800,54170,69700,5901
Bank0,41280,62570,38610,6097
HELOC0,65730,60490,67480,6095
Cancer0,83970,92120,71200,9212
Wine0,50880,46980,04690,4951

Il metodo aggregato mostra buone prestazioni nella maggior parte dei casi, sebbene il metodo k-NN mostri prestazioni scadenti in alcuni scenari.

Confronto con LIME/SHAP

I risultati nell'appendice mostrano che i punteggi di robustezza di LIME e SHAP sono ben al di sotto della soglia di 0,5, verificando i risultati della letteratura sulla instabilità di questi metodi e supportando la decisione di escluderli.

Lavori Correlati

Sviluppo del Campo XAI

  • Metodi di spiegazione locale: metodi model-agnostic come LIME e SHAP
  • Metodi specifici per reti neurali: DeepLIFT, Integrated Gradients, LRP e altri
  • Ricerca sulla robustezza: valutazione e miglioramento della stabilità dei metodi di spiegazione

Ricerca sull'Aggregazione delle Spiegazioni

  • I lavori precedenti si sono concentrati principalmente su più istanze di un singolo tipo di modello
  • Questo articolo estende l'aggregazione delle spiegazioni a tipi di modelli diversi

Esigenze Guidate dalla Legislazione

  • Requisito del "diritto di spiegazione" del GDPR
  • Requisiti di trasparenza dell'AI Act dell'UE per applicazioni ad alto rischio

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità dell'aggregazione multi-modello: dimostra che le spiegazioni di tipi di modelli diversi possono essere aggregate efficacemente
  2. Relazione tra robustezza e coerenza: verifica che la coerenza predittiva multi-modello può servire come indicatore dell'affidabilità delle spiegazioni
  3. Strategia di spiegazione conservativa: il metodo aggregato fornisce una strategia di spiegazione conservativa ma affidabile

Limitazioni

  1. Metodo di aggregazione semplice: attualmente utilizza la media aritmetica, incapace di gestire modelli di discordanza complessi
  2. Dipendenza del metodo k-NN: sensibile all'iperparametro k', con elevata variabilità
  3. Completezza della valutazione: richiede una validazione più completa in scenari di applicazione reale
  4. Limitazione dei tipi di modello: testato solo su tre tipi di modelli

Direzioni Future

Gli autori identificano chiaramente quattro direzioni di miglioramento:

  1. Sviluppare strategie di aggregazione più complesse per gestire casi di discordanza estrema
  2. Migliorare il metodo di spiegazione k-NN per ridurre la dipendenza dagli iperparametri
  3. Condurre valutazioni di verifica più complete in casi d'uso reali
  4. Estendere ad altri tipi di modelli e metodi XAI

Valutazione Approfondita

Punti di Forza

  1. Importanza del problema: affronta la questione critica nel campo XAI—robustezza e affidabilità delle spiegazioni
  2. Innovazione del metodo:
    • Prima aggregazione di spiegazioni tra tipi di modelli diversi
    • Nuovi metodi di attribuzione delle caratteristiche per k-NN e RF
    • Framework sistematico di valutazione della robustezza
  3. Completezza sperimentale:
    • Validazione su più dataset
    • Analisi di ablazione completa
    • Confronto con metodi mainstream
  4. Fondamento teorico: stabilisce il collegamento teorico tra coerenza del modello e robustezza delle spiegazioni

Insufficienze

  1. Limitazioni del metodo:
    • La strategia di aggregazione è troppo semplice, potrebbe perdere informazioni importanti
    • Il fondamento teorico del metodo k-NN è relativamente debole
    • Applicabile solo a compiti di classificazione binaria
  2. Configurazione sperimentale:
    • La dimensione dei dataset è relativamente piccola
    • Manca la validazione in scenari reali di applicazioni ad alto rischio
    • Analisi insufficiente dei costi computazionali
  3. Profondità dell'analisi:
    • L'analisi dei casi di fallimento del metodo aggregato non è sufficientemente approfondita
    • Manca l'analisi quantitativa del contributo di diversi tipi di modelli

Impatto

  1. Contributo accademico: fornisce nuove prospettive per la ricerca sulla robustezza dell'XAI, in particolare nella direzione dell'aggregazione multi-modello
  2. Valore pratico: fornisce un framework pratico per l'IA affidabile in applicazioni ad alto rischio
  3. Riproducibilità: la descrizione del metodo è chiara, l'implementazione dell'algoritmo è relativamente semplice

Scenari Applicabili

  • Scenari decisionali ad alto rischio: settori finanziari, medici e altri che richiedono IA esplicabile e affidabile
  • Conformità normativa: applicazioni che devono soddisfare requisiti come il GDPR
  • Audit del modello: scenari che richiedono la valutazione dell'affidabilità dei sistemi di IA
  • Piattaforme di ricerca: fornisce un framework di base per la ricerca sulla robustezza dell'XAI

Bibliografia

L'articolo cita letteratura importante nel campo dell'XAI, incluso:

  • Articoli originali di LIME e SHAP e critiche sulla loro robustezza
  • Metodi di spiegazione per reti neurali come DeepLIFT e Integrated Gradients
  • Ricerca correlata su valutazione della robustezza e aggregazione delle spiegazioni
  • Documenti legislativi come GDPR e AI Act dell'UE

Valutazione Complessiva: Questo è un articolo con importanti contributi nella direzione della ricerca sulla robustezza dell'XAI. Sebbene il metodo sia relativamente semplice, affronta problemi praticamente importanti e fornisce strumenti preziosi per lo sviluppo dell'IA affidabile. Il valore principale dell'articolo risiede nell'apertura della direzione di ricerca dell'aggregazione delle spiegazioni tra tipi di modelli diversi e nella fornitura di un framework di valutazione sistematico. Le direzioni dei lavori futuri sono chiare, gettando le basi per l'ulteriore sviluppo di questo campo.