Formal XAI is an emerging field that focuses on providing explanations with mathematical guarantees for the decisions made by machine learning models. A significant amount of work in this area is centered on the computation of "sufficient reasons". Given a model $M$ and an input instance $\vec{x}$, a sufficient reason for the decision $M(\vec{x})$ is a subset $S$ of the features of $\vec{x}$ such that for any instance $\vec{z}$ that has the same values as $\vec{x}$ for every feature in $S$, it holds that $M(\vec{x}) = M(\vec{z})$. Intuitively, this means that the features in $S$ are sufficient to fully justify the classification of $\vec{x}$ by $M$. For sufficient reasons to be useful in practice, they should be as small as possible, and a natural way to reduce the size of sufficient reasons is to consider a probabilistic relaxation; the probability of $M(\vec{x}) = M(\vec{z})$ must be at least some value $δ\in (0,1]$, for a random instance $\vec{z}$ that coincides with $\vec{x}$ on the features in $S$. Computing small $δ$-sufficient reasons ($δ$-SRs) is known to be a theoretically hard problem; even over decision trees--traditionally deemed simple and interpretable models--strong inapproximability results make the efficient computation of small $δ$-SRs unlikely. We propose the notion of $(δ, ε)$-SR, a simple relaxation of $δ$-SRs, and show that this kind of explanation can be computed efficiently over linear models.
academic
Explicaciones Probabilísticas para Modelos Lineales
Título: Probabilistic Explanations for Linear Models
Autores: Bernardo Subercaseaux (Carnegie Mellon University), Marcelo Arenas (PUC Chile, IMFD Chile, RelationalAI), Kuldeep S. Meel (Georgia Institute of Technology, University of Toronto)
Este artículo investiga el problema computacional de calcular "razones suficientes" en la IA Interpretable Formal (Formal XAI). Dado un modelo M y una instancia de entrada x, una razón suficiente es un subconjunto de características S de x tal que cualquier instancia z que coincida con x en S satisface M(x)=M(z). Para reducir el tamaño de las razones suficientes, los autores consideran una relajación probabilística: se requiere que cuando una instancia aleatoria z coincida con x en el conjunto de características, la probabilidad de que M(x)=M(z) sea al menos δ∈(0,1]. El cálculo de δ-razones suficientes (δ-SRs) pequeñas es teóricamente difícil, con resultados fuertes de inaproximabilidad incluso para modelos "interpretables" como árboles de decisión. Este artículo propone el concepto de (δ,ε)-SR, una relajación simple de δ-SRs, y demuestra que tales explicaciones pueden calcularse eficientemente en modelos lineales.
Problema Central: Cómo proporcionar explicaciones de tamaño pequeño con garantías matemáticas para las decisiones de modelos de aprendizaje automático. Las razones suficientes tradicionales requieren certeza del 100%, pero esto a menudo resulta en explicaciones demasiado grandes para la comprensión humana.
Importancia del Problema:
Miller (1956) señaló que las explicaciones con más de 9 características pueden ser demasiado grandes para los humanos
Investigaciones empíricas demuestran que las explicaciones deben ser concisas (Narayanan et al., 2018; Lage et al., 2019)
En aplicaciones prácticas, los usuarios se preocupan más por el tamaño de la explicación que por pequeñas diferencias en las garantías probabilísticas
Limitaciones de Métodos Existentes:
El cálculo de δ-SRs mínimas es NP-hard incluso para árboles de decisión
Para modelos lineales, el cálculo exacto de probabilidades es #P-hard
Existen resultados fuertes de inaproximabilidad: no se pueden obtener buenos ratios de aproximación en tiempo polinomial
Motivación de la Investigación:
Los usuarios son más sensibles al tamaño de la explicación que a cambios menores en las garantías probabilísticas
Se necesita encontrar un equilibrio entre la tratabilidad teórica y la practicidad
La estructura especial de los modelos lineales puede permitir algoritmos eficientes
Propuesta del Concepto de (δ,ε)-Razón Suficiente Mínima: Una versión relajada que permite que las garantías probabilísticas varíen dentro del rango δ-ε, δ+ε
Demostración de Tratabilidad en Modelos Lineales: Proporciona un algoritmo de tiempo polinomial para calcular (δ,ε)-min-SR con tiempo de ejecución Õ(n/ε²δ²)
Establecimiento de Resultados de Separación Teórica: Demuestra que el problema sigue siendo difícil en árboles de decisión, destacando la naturaleza especial de los modelos lineales
Demostración de Equivalencia de Minimalidad Local: Para modelos lineales, cada δ-SR localmente mínimo es un δ-SR mínimo en subconjuntos
Análisis de Brechas de Aproximación: Demuestra que pequeños cambios en parámetros probabilísticos pueden resultar en diferencias exponenciales en el tamaño de la explicación
Para un modelo lineal L=(w,θ) e instancia x, se define la puntuación de la característica i como:
si=wi⋅(2xi−1)⋅(2L(x)−1)
El signo de la puntuación indica si la característica "ayuda" (+1) o "daña" (-1) la clasificación, con la magnitud proporcional al peso de la característica.
Entrada: Modelo lineal L, instancia x, parámetros δ, ε, β
1. δ* ← Muestrear uniformemente de [δ-ε, δ+ε]
2. Calcular todas las puntuaciones de características s_i
3. Construir secuencia de instancias parciales y^(0), ..., y^(n)
4. Establecer número de muestras m = (log 2n)/(2ε²δ²) log(2log n/β)
5. Usar búsqueda binaria para encontrar k mínimo tal que probabilidad estimada ≥ δ*
6. Retornar (δ*, y^(k*))
Darwiche, A. and Hirth, A. (2020). On the Reasons Behind Decisions. ECAI 2020.
Barceló, P., Monet, M., Pérez, J., and Subercaseaux, B. (2020). Model interpretability through the lens of computational complexity. NeurIPS 2020.
Wäldchen, S., MacDonald, J., Hauch, S., and Kutyniok, G. (2021). The computational complexity of understanding binary classifier decisions. JAIR.
Arenas, M., Barceló, P., Romero Orth, M., and Subercaseaux, B. (2022). On computing probabilistic explanations for decision trees. NeurIPS 2022.
Kozachinskiy, A. (2023). Inapproximability of sufficient reasons for decision trees. arXiv:2304.02781.
Este artículo realiza contribuciones teóricas importantes en el campo de la IA Interpretable Formal, demostrando por primera vez la tratabilidad de explicaciones probabilísticas en modelos lineales, proporcionando un resultado positivo poco común en este campo. Aunque hay espacio para mejora en aspectos de practicidad, su valor teórico e innovación metodológica lo convierten en un trabajo importante en el área.