Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic
Oltre l'XAI a singolo modello: aggregazione di spiegazioni multi-modello per una fiducia accresciuta
Con l'ampio utilizzo di modelli di intelligenza artificiale in applicazioni ad alto rischio nel mondo reale, le questioni relative alla loro affidabilità e all'uso etico hanno ricevuto crescente attenzione sia dal punto di vista tecnico che legislativo. Il campo dell'Intelligenza Artificiale Esplicabile (XAI) affronta questa sfida fornendo spiegazioni che rivelano il processo decisionale di modelli complessi e opachi. Sebbene la robustezza sia un attributo importante, viene spesso trascurata durante lo sviluppo: solo i metodi di spiegazione robusti possono aumentare la fiducia nell'intero sistema. Questo articolo esamina il ruolo della robustezza utilizzando l'importanza delle caratteristiche aggregata da più modelli (k-nearest neighbors, random forest e reti neurali). I risultati preliminari dimostrano il potenziale di migliorare l'affidabilità delle applicazioni sfruttando contemporaneamente la capacità predittiva di più modelli.
I problemi fondamentali affrontati da questa ricerca sono due difetti critici dei metodi XAI esistenti:
Insufficiente robustezza delle spiegazioni: metodi di spiegazione popolari come LIME e SHAP sono stati dimostrati privi di robustezza in numerosi studi, eppure continuano ad essere ampiamente applicati in scenari ad alto rischio
Problema di discordanza nelle spiegazioni: quando più metodi di spiegazione vengono applicati alla stessa istanza, producono spiegazioni contraddittorie; in assenza di uno standard di verità per le spiegazioni, è impossibile selezionare il metodo ottimale
Con requisiti legislativi come il GDPR e l'AI Act che richiedono trasparenza dei modelli, l'affidabilità delle spiegazioni diventa cruciale. Solo attraverso la fiducia nelle spiegazioni è possibile costruire fiducia nel modello stesso, il che è particolarmente importante nelle applicazioni ad alto rischio.
Basandosi su lavori precedenti nell'ambito delle spiegazioni di ensemble di reti neurali, questo articolo propone di estendere il metodo a modelli di diverse categorie, mirando a migliorare l'affidabilità complessiva del sistema aggregando spiegazioni di processi decisionali diversi.
Questo articolo si concentra su compiti di classificazione binaria su dati tabulari, con l'obiettivo di generare spiegazioni di importanza delle caratteristiche affidabili per ogni istanza predetta. L'input è un'istanza di dati tabulari, l'output è un vettore di attribuzione delle caratteristiche normalizzato.
Basato sull'impurità dei nodi nel percorso decisionale:
Per ogni albero nella foresta, tracciare il percorso decisionale del punto dati
A seconda che la predizione del singolo albero sia coerente con la predizione della foresta, accumulare rispettivamente l'impurità dei nodi in e_c o e_¬c
La spiegazione finale è: e = (p_¬c + ε) × e_c - p_c × e_¬c
Dove p_c e p_¬c sono le probabilità predette, ε=0.01 per evitare valori zero
Utilizza la media aritmetica a livello di caratteristica:
a_agg = (1/L) × Σ(l=1 to L) a_l
Dove L=3 è il numero di modelli. Quando le predizioni dei modelli sono incoerenti, le spiegazioni dei modelli discordanti vengono invertite per garantire che le spiegazioni puntino alla stessa classe.
Tutti i modelli raggiungono un'accuratezza superiore all'80% su tutti i dataset (ad eccezione di k-NN su HELOC con 75,51%). La rete neurale mostra le migliori prestazioni su dataset complessi, mentre random forest mostra le migliori prestazioni su dataset semplici.
La relazione tra la coerenza predittiva del modello e la dimensione del vicinato verifica l'ipotesi: quando i tre modelli predicono coerentemente, generalmente si ottiene una dimensione del vicinato più grande, indicando che questa regione ha una migliore robustezza delle spiegazioni.
I risultati nell'appendice mostrano che i punteggi di robustezza di LIME e SHAP sono ben al di sotto della soglia di 0,5, verificando i risultati della letteratura sulla instabilità di questi metodi e supportando la decisione di escluderli.
Contributo accademico: fornisce nuove prospettive per la ricerca sulla robustezza dell'XAI, in particolare nella direzione dell'aggregazione multi-modello
Valore pratico: fornisce un framework pratico per l'IA affidabile in applicazioni ad alto rischio
Riproducibilità: la descrizione del metodo è chiara, l'implementazione dell'algoritmo è relativamente semplice
L'articolo cita letteratura importante nel campo dell'XAI, incluso:
Articoli originali di LIME e SHAP e critiche sulla loro robustezza
Metodi di spiegazione per reti neurali come DeepLIFT e Integrated Gradients
Ricerca correlata su valutazione della robustezza e aggregazione delle spiegazioni
Documenti legislativi come GDPR e AI Act dell'UE
Valutazione Complessiva: Questo è un articolo con importanti contributi nella direzione della ricerca sulla robustezza dell'XAI. Sebbene il metodo sia relativamente semplice, affronta problemi praticamente importanti e fornisce strumenti preziosi per lo sviluppo dell'IA affidabile. Il valore principale dell'articolo risiede nell'apertura della direzione di ricerca dell'aggregazione delle spiegazioni tra tipi di modelli diversi e nella fornitura di un framework di valutazione sistematico. Le direzioni dei lavori futuri sono chiare, gettando le basi per l'ulteriore sviluppo di questo campo.