2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

Oltre l'XAI a singolo modello: aggregazione di spiegazioni multi-modello per una fiducia accresciuta

Informazioni Fondamentali

ID Articolo: 2510.11164
Titolo: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Autori: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione/Conferenza: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
Link Articolo: https://arxiv.org/abs/2510.11164

Riassunto

Con l'ampio utilizzo di modelli di intelligenza artificiale in applicazioni ad alto rischio nel mondo reale, le questioni relative alla loro affidabilità e all'uso etico hanno ricevuto crescente attenzione sia dal punto di vista tecnico che legislativo. Il campo dell'Intelligenza Artificiale Esplicabile (XAI) affronta questa sfida fornendo spiegazioni che rivelano il processo decisionale di modelli complessi e opachi. Sebbene la robustezza sia un attributo importante, viene spesso trascurata durante lo sviluppo: solo i metodi di spiegazione robusti possono aumentare la fiducia nell'intero sistema. Questo articolo esamina il ruolo della robustezza utilizzando l'importanza delle caratteristiche aggregata da più modelli (k-nearest neighbors, random forest e reti neurali). I risultati preliminari dimostrano il potenziale di migliorare l'affidabilità delle applicazioni sfruttando contemporaneamente la capacità predittiva di più modelli.

Contesto di Ricerca e Motivazione

Definizione del Problema

I problemi fondamentali affrontati da questa ricerca sono due difetti critici dei metodi XAI esistenti:

Insufficiente robustezza delle spiegazioni: metodi di spiegazione popolari come LIME e SHAP sono stati dimostrati privi di robustezza in numerosi studi, eppure continuano ad essere ampiamente applicati in scenari ad alto rischio
Problema di discordanza nelle spiegazioni: quando più metodi di spiegazione vengono applicati alla stessa istanza, producono spiegazioni contraddittorie; in assenza di uno standard di verità per le spiegazioni, è impossibile selezionare il metodo ottimale

Importanza

Con requisiti legislativi come il GDPR e l'AI Act che richiedono trasparenza dei modelli, l'affidabilità delle spiegazioni diventa cruciale. Solo attraverso la fiducia nelle spiegazioni è possibile costruire fiducia nel modello stesso, il che è particolarmente importante nelle applicazioni ad alto rischio.

Limitazioni dei Metodi Esistenti

Metodi mainstream come LIME e SHAP presentano problemi di robustezza, producendo spiegazioni incoerenti per input simili
I metodi di spiegazione basati su singoli modelli non sfruttano pienamente la capacità predittiva di più modelli
Mancano strategie efficaci di aggregazione delle spiegazioni per gestire le discordanze tra diversi modelli

Motivazione della Ricerca

Basandosi su lavori precedenti nell'ambito delle spiegazioni di ensemble di reti neurali, questo articolo propone di estendere il metodo a modelli di diverse categorie, mirando a migliorare l'affidabilità complessiva del sistema aggregando spiegazioni di processi decisionali diversi.

Contributi Principali

Propone due nuovi metodi di attribuzione delle caratteristiche:
- Metodo di importanza delle caratteristiche basato sulla distanza per modelli k-nearest neighbors
- Metodo di attribuzione delle caratteristiche basato sull'impurità dei nodi per random forest
Sviluppa un framework di aggregazione delle spiegazioni multi-modello:
- Integra spiegazioni da k-NN, random forest e reti neurali
- Aggrega l'importanza delle caratteristiche attraverso media aritmetica
Introduce un meccanismo di valutazione della robustezza:
- Utilizza il metodo di generazione del vicinato basato su punti centrali
- Quantifica la robustezza delle spiegazioni mediante il coefficiente di correlazione di Spearman
Verifica la relazione tra coerenza del modello e robustezza delle spiegazioni:
- Dimostra che la coerenza predittiva multi-modello può servire come indicatore dell'affidabilità delle spiegazioni

Dettagli del Metodo

Definizione del Compito

Questo articolo si concentra su compiti di classificazione binaria su dati tabulari, con l'obiettivo di generare spiegazioni di importanza delle caratteristiche affidabili per ogni istanza predetta. L'input è un'istanza di dati tabulari, l'output è un vettore di attribuzione delle caratteristiche normalizzato.

Architettura del Modello

Metodo di Spiegazione k-Nearest Neighbors

L'algoritmo si basa sul meccanismo di ragionamento sulla distanza di k-NN:

Per il punto predetto x, selezionare rispettivamente k' vicini più prossimi dalla classe predetta c e dalla classe opposta ¬c
Calcolare la distanza media delle caratteristiche verso ogni gruppo di vicini D_c e D_¬c
L'importanza della caratteristica è definita come: e = D_¬c - D_c
Normalizzare come vettore unitario per garantire comparabilità

Metodo di Spiegazione Random Forest

Basato sull'impurità dei nodi nel percorso decisionale:

Per ogni albero nella foresta, tracciare il percorso decisionale del punto dati
A seconda che la predizione del singolo albero sia coerente con la predizione della foresta, accumulare rispettivamente l'impurità dei nodi in e_c o e_¬c
La spiegazione finale è: e = (p_¬c + ε) × e_c - p_c × e_¬c
Dove p_c e p_¬c sono le probabilità predette, ε=0.01 per evitare valori zero

Strategia di Aggregazione

Utilizza la media aritmetica a livello di caratteristica:

a_agg = (1/L) × Σ(l=1 to L) a_l

Dove L=3 è il numero di modelli. Quando le predizioni dei modelli sono incoerenti, le spiegazioni dei modelli discordanti vengono invertite per garantire che le spiegazioni puntino alla stessa classe.

Valutazione della Robustezza

Generazione del Vicinato

Utilizza il metodo basato su punti centrali:

Eseguire il clustering k-medoid sul set di validazione
Per ogni punto dati, trovare il centro del cluster corrispondente e i suoi k_M centri cluster più vicini
Generare perturbazioni conformi al manifold dei dati attraverso distribuzione Beta e sostituzione probabilistica

Calcolo della Robustezza

Utilizza il coefficiente di correlazione di rango di Spearman:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Dove N è l'insieme di punti del vicinato che mantengono la coerenza predittiva.

Configurazione Sperimentale

Dataset

Utilizza 5 dataset tabulari pubblici per compiti di classificazione binaria:

Adult: 36.177/8.045/1.000 (addestramento/validazione/test), 5 caratteristiche numeriche, 7 caratteristiche categoriche
Bank: 36.168/8.043/1.000, 5 caratteristiche numeriche, 9 caratteristiche categoriche
HELOC: 8.367/1.592/500, 14 caratteristiche numeriche, 2 caratteristiche categoriche
Cancer: 397/121/50, 15 caratteristiche numeriche, 0 caratteristiche categoriche
White Wine: 3.918/780/200, 9 caratteristiche numeriche, 0 caratteristiche categoriche

Metriche di Valutazione

Punteggio di robustezza: valore medio basato sul coefficiente di correlazione di Spearman
Dimensione del vicinato: proporzione di punti perturbati conservati dopo il filtraggio
Valore AUC: area sotto la curva ROC basata sulla coerenza del modello

Metodi di Confronto

Metodo di spiegazione personalizzato k-NN
Metodo di spiegazione personalizzato random forest
Metodo DeepLIFT per reti neurali
Risultati aggregati dei tre metodi
Confronto con LIME e SHAP nell'appendice

Dettagli di Implementazione

k-NN: k=15 (adult, bank), k=5 (altri)
Random forest: 25 learner di base
Rete neurale: perceptron multistrato standard
Generazione del vicinato: k_M=5, α=0.05, α_cat=0.05
Tasso di conservazione del vicinato target: ≥95%

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello

Tutti i modelli raggiungono un'accuratezza superiore all'80% su tutti i dataset (ad eccezione di k-NN su HELOC con 75,51%). La rete neurale mostra le migliori prestazioni su dataset complessi, mentre random forest mostra le migliori prestazioni su dataset semplici.

Confronto della Robustezza

Punteggi medi di robustezza (%):

Dataset	k-NN	RF	NN	Aggregato
Adult	61,12	88,67	85,03	74,58
Bank	52,27	73,52	78,74	65,75
HELOC	71,01	80,56	84,23	77,92
Cancer	83,31	81,07	98,40	84,93
Wine	69,55	66,60	92,96	66,74

I risultati mostrano:

Il metodo k-NN ha la robustezza più bassa, coerente con la sua dipendenza da vicini distanti
Il metodo della rete neurale ha la robustezza più alta
La robustezza del metodo aggregato si situa tra i metodi componenti, come previsto dalla teoria

Analisi della Coerenza del Modello

La relazione tra la coerenza predittiva del modello e la dimensione del vicinato verifica l'ipotesi: quando i tre modelli predicono coerentemente, generalmente si ottiene una dimensione del vicinato più grande, indicando che questa regione ha una migliore robustezza delle spiegazioni.

Valutazione di Verifica

La relazione tra coerenza del modello e robustezza delle spiegazioni è verificata attraverso l'analisi ROC:

Confronto dei valori AUC:

Dataset	k-NN	RF	NN	Aggregato
Adult	0,4480	0,5417	0,6970	0,5901
Bank	0,4128	0,6257	0,3861	0,6097
HELOC	0,6573	0,6049	0,6748	0,6095
Cancer	0,8397	0,9212	0,7120	0,9212
Wine	0,5088	0,4698	0,0469	0,4951

Il metodo aggregato mostra buone prestazioni nella maggior parte dei casi, sebbene il metodo k-NN mostri prestazioni scadenti in alcuni scenari.

Confronto con LIME/SHAP

I risultati nell'appendice mostrano che i punteggi di robustezza di LIME e SHAP sono ben al di sotto della soglia di 0,5, verificando i risultati della letteratura sulla instabilità di questi metodi e supportando la decisione di escluderli.

Lavori Correlati

Sviluppo del Campo XAI

Metodi di spiegazione locale: metodi model-agnostic come LIME e SHAP
Metodi specifici per reti neurali: DeepLIFT, Integrated Gradients, LRP e altri
Ricerca sulla robustezza: valutazione e miglioramento della stabilità dei metodi di spiegazione

Ricerca sull'Aggregazione delle Spiegazioni

I lavori precedenti si sono concentrati principalmente su più istanze di un singolo tipo di modello
Questo articolo estende l'aggregazione delle spiegazioni a tipi di modelli diversi

Esigenze Guidate dalla Legislazione

Requisito del "diritto di spiegazione" del GDPR
Requisiti di trasparenza dell'AI Act dell'UE per applicazioni ad alto rischio

Conclusioni e Discussione

Conclusioni Principali

Fattibilità dell'aggregazione multi-modello: dimostra che le spiegazioni di tipi di modelli diversi possono essere aggregate efficacemente
Relazione tra robustezza e coerenza: verifica che la coerenza predittiva multi-modello può servire come indicatore dell'affidabilità delle spiegazioni
Strategia di spiegazione conservativa: il metodo aggregato fornisce una strategia di spiegazione conservativa ma affidabile

Limitazioni

Metodo di aggregazione semplice: attualmente utilizza la media aritmetica, incapace di gestire modelli di discordanza complessi
Dipendenza del metodo k-NN: sensibile all'iperparametro k', con elevata variabilità
Completezza della valutazione: richiede una validazione più completa in scenari di applicazione reale
Limitazione dei tipi di modello: testato solo su tre tipi di modelli

Direzioni Future

Gli autori identificano chiaramente quattro direzioni di miglioramento:

Sviluppare strategie di aggregazione più complesse per gestire casi di discordanza estrema
Migliorare il metodo di spiegazione k-NN per ridurre la dipendenza dagli iperparametri
Condurre valutazioni di verifica più complete in casi d'uso reali
Estendere ad altri tipi di modelli e metodi XAI

Valutazione Approfondita

Punti di Forza

Importanza del problema: affronta la questione critica nel campo XAI—robustezza e affidabilità delle spiegazioni
Innovazione del metodo:
- Prima aggregazione di spiegazioni tra tipi di modelli diversi
- Nuovi metodi di attribuzione delle caratteristiche per k-NN e RF
- Framework sistematico di valutazione della robustezza
Completezza sperimentale:
- Validazione su più dataset
- Analisi di ablazione completa
- Confronto con metodi mainstream
Fondamento teorico: stabilisce il collegamento teorico tra coerenza del modello e robustezza delle spiegazioni

Insufficienze

Limitazioni del metodo:
- La strategia di aggregazione è troppo semplice, potrebbe perdere informazioni importanti
- Il fondamento teorico del metodo k-NN è relativamente debole
- Applicabile solo a compiti di classificazione binaria
Configurazione sperimentale:
- La dimensione dei dataset è relativamente piccola
- Manca la validazione in scenari reali di applicazioni ad alto rischio
- Analisi insufficiente dei costi computazionali
Profondità dell'analisi:
- L'analisi dei casi di fallimento del metodo aggregato non è sufficientemente approfondita
- Manca l'analisi quantitativa del contributo di diversi tipi di modelli

Impatto

Contributo accademico: fornisce nuove prospettive per la ricerca sulla robustezza dell'XAI, in particolare nella direzione dell'aggregazione multi-modello
Valore pratico: fornisce un framework pratico per l'IA affidabile in applicazioni ad alto rischio
Riproducibilità: la descrizione del metodo è chiara, l'implementazione dell'algoritmo è relativamente semplice

Scenari Applicabili

Scenari decisionali ad alto rischio: settori finanziari, medici e altri che richiedono IA esplicabile e affidabile
Conformità normativa: applicazioni che devono soddisfare requisiti come il GDPR
Audit del modello: scenari che richiedono la valutazione dell'affidabilità dei sistemi di IA
Piattaforme di ricerca: fornisce un framework di base per la ricerca sulla robustezza dell'XAI

Bibliografia

L'articolo cita letteratura importante nel campo dell'XAI, incluso:

Articoli originali di LIME e SHAP e critiche sulla loro robustezza
Metodi di spiegazione per reti neurali come DeepLIFT e Integrated Gradients
Ricerca correlata su valutazione della robustezza e aggregazione delle spiegazioni
Documenti legislativi come GDPR e AI Act dell'UE

Valutazione Complessiva: Questo è un articolo con importanti contributi nella direzione della ricerca sulla robustezza dell'XAI. Sebbene il metodo sia relativamente semplice, affronta problemi praticamente importanti e fornisce strumenti preziosi per lo sviluppo dell'IA affidabile. Il valore principale dell'articolo risiede nell'apertura della direzione di ricerca dell'aggregazione delle spiegazioni tra tipi di modelli diversi e nella fornitura di un framework di valutazione sistematico. Le direzioni dei lavori futuri sono chiare, gettando le basi per l'ulteriore sviluppo di questo campo.