Efficient & Correct Predictive Equivalence for Decision Trees
Marques-Silva, Ignatiev
The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. The approach of McTavish et al. consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that the QM method may incorrectly decide predictive equivalence, if two key constraints are not respected, and one may be difficult to formally guarantee. Third, the paper shows that any of the problems to which the smallest DNF representation has been applied to can be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.
academic
Equivalencia Predictiva Eficiente y Correcta para Árboles de Decisión
Los conjuntos de Rashomon de árboles de decisión tienen un valor aplicativo significativo. Investigaciones recientes demuestran que los árboles de decisión que calculan la misma función de clasificación (es decir, árboles de decisión predictivamente equivalentes) pueden constituir una gran proporción del conjunto de Rashomon. Esta redundancia es indeseable; por ejemplo, la importancia de características basada en conjuntos de Rashomon se vuelve inexacta debido a la existencia de árboles de decisión predictivamente equivalentes. McTavish et al. propusieron recientemente una solución para problemas computacionales relacionados con árboles de decisión, incluyendo la determinación de equivalencia predictiva. Su método utiliza el famoso método de Quine-McCluskey (QM) para obtener una representación DNF mínima del árbol de decisión, que luego se utiliza para comparar la equivalencia predictiva de árboles de decisión. Sin embargo, el problema de minimización de fórmulas es difícil para la segunda capa de la jerarquía polinomial, y el método QM puede exhibir complejidad de tiempo y espacio exponencial en el peor caso. Este artículo primero demuestra que existen árboles de decisión que desencadenan la complejidad exponencial del peor caso del método QM; segundo, muestra que el método QM puede juzgar incorrectamente la equivalencia predictiva si no se cumplen dos restricciones clave; y finalmente, demuestra que todos los problemas que aplican representaciones DNF mínimas pueden resolverse en tiempo polinomial respecto al tamaño del árbol de decisión.
El problema central que aborda este artículo es la eficiencia y corrección en la determinación de equivalencia predictiva de árboles de decisión. Los árboles de decisión predictivamente equivalentes son árboles diferentes que producen los mismos resultados de predicción para cualquier entrada.
Optimización del Conjunto de Rashomon: En aprendizaje automático, el conjunto de Rashomon contiene múltiples modelos con rendimiento similar. Los árboles de decisión predictivamente equivalentes causan redundancia en este conjunto, afectando la precisión de la evaluación de importancia de características.
Requisitos de Interpretabilidad: Los árboles de decisión se reconocen ampliamente como modelos interpretables, pero incluso los árboles óptimos requieren explicación formalizada, particularmente en aplicaciones de alto riesgo.
Eficiencia Computacional: Los métodos existentes enfrentan cuellos de botella computacionales graves al procesar árboles de decisión a gran escala.
Análisis Teórico: Demuestra la existencia de árboles de decisión que desencadenan la complejidad exponencial del peor caso del método QM
Análisis de Corrección: Revela problemas potenciales de incorrección en el método QM para la determinación de equivalencia predictiva
Algoritmo Eficiente: Propone un algoritmo de tiempo polinomial para resolver problemas de completitud, concisión y determinación de equivalencia predictiva
Verificación Experimental: En árboles de decisión que desencadenan el peor caso de QM, el nuevo algoritmo es varios órdenes de magnitud más rápido que los métodos existentes
Conexiones Teóricas: Establece conexiones teóricas entre equivalencia predictiva, explicaciones lógicas y medidas de importancia
El artículo propone un algoritmo de tiempo polinomial basado en WAXp:
Algoritmo 1: Verificación de Consistencia de Ruta
def ConsistentPath(A, P, T):
# Verifica la consistencia de la asignación parcial A con la ruta P del árbol
for each feature i:
combine literals from A and P for feature i
if inconsistent: return False
return True
Algoritmo 2: Determinación de WAXp
def IsWAXp(A, c, T):
# Determina si la asignación parcial A es un WAXp para la clase c
for each path P in T:
if Class(P) != c and ConsistentPath(A, P, T):
return False # A es consistente con ruta de otra clase
return True
Algoritmo 5: Determinación de Equivalencia Predictiva
def PredictivelyEquivalent(T1, T2):
for P1 in Paths(T1):
c1 = Class(P1)
A1 = Literals(P1) # Crea asignación parcial
for P2 in Paths(T2):
c2 = Class(P2)
if c1 != c2 and ConsistentPath(A1, P2, T2):
return False # Encuentra evidencia de no equivalencia
return True # No puede probar no equivalencia, por lo tanto equivalente
Evitar Complejidad Exponencial: Opera directamente en la estructura del árbol de decisión, evitando generar representaciones BCF potencialmente exponenciales
Garantía de Tiempo Polinomial: Todos los algoritmos tienen complejidad de tiempo polinomial respecto al tamaño del árbol de decisión
Corrección Formalizada: Proporciona pruebas matemáticas rigurosas que garantizan la corrección del algoritmo
Paralelizable: El algoritmo de equivalencia predictiva puede paralelizarse para mejorar aún más la eficiencia
Confirmación de Crecimiento Exponencial: El tamaño de BCF₁(T) crece exponencialmente con r, verificando el análisis teórico
Brecha de Rendimiento Masiva: Para r=200, el nuevo algoritmo procesa un árbol de decisión de 1203 nodos en segundos, mientras que el método QM agota el tiempo de espera con solo 57 nodos
Verificación de Practicidad: El nuevo algoritmo puede procesar árboles de decisión a gran escala que pueden aparecer en aplicaciones reales
Optimización de Árboles de Decisión: Bertsimas & Dunn (2017), Hu et al. (2019), Demirovic et al. (2022)
Evaluación General: Este es un artículo de alta calidad que combina teoría y práctica, no solo revelando defectos fundamentales de métodos existentes sino también proporcionando soluciones prácticas. El análisis teórico del artículo es riguroso, la verificación experimental es suficiente, y realiza contribuciones importantes a los campos de árboles de decisión e IA explicable.