Efficient & Correct Predictive Equivalence for Decision Trees
Marques-Silva, Ignatiev
The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. The approach of McTavish et al. consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that the QM method may incorrectly decide predictive equivalence, if two key constraints are not respected, and one may be difficult to formally guarantee. Third, the paper shows that any of the problems to which the smallest DNF representation has been applied to can be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.
academic
Équivalence Prédictive Efficace et Correcte pour les Arbres de Décision
L'ensemble de Rashomon des arbres de décision présente une valeur applicative importante. Des recherches récentes montrent que le calcul d'arbres de décision produisant la même fonction de classification (c'est-à-dire des arbres de décision prédictivement équivalents) peut constituer une part considérable de l'ensemble de Rashomon. Cette redondance est indésirable, par exemple l'importance des caractéristiques basée sur l'ensemble de Rashomon devient inexacte en raison de l'existence d'arbres de décision prédictivement équivalents. McTavish et al. ont récemment proposé une solution aux problèmes de calcul liés aux arbres de décision, y compris la détermination des arbres de décision prédictivement équivalents. Leur méthode utilise la célèbre méthode de Quine-McCluskey (QM) pour obtenir une représentation DNF minimale de l'arbre de décision, puis l'utilise pour comparer l'équivalence prédictive des arbres de décision. Cependant, le problème de minimisation de formule est difficile pour la deuxième couche de la hiérarchie polynomiale, et la méthode QM peut présenter une complexité de temps et d'espace exponentielle dans le pire cas. Cet article prouve d'abord qu'il existe des arbres de décision qui déclenchent la complexité exponentielle du pire cas de la méthode QM, montre ensuite que la méthode QM peut mal juger l'équivalence prédictive si deux contraintes clés ne sont pas satisfaites, et prouve enfin que tous les problèmes appliquant la représentation DNF minimale peuvent être résolus en temps polynomial par rapport à la taille de l'arbre de décision.
Le problème fondamental abordé dans cet article est l'efficacité et la correction du jugement d'équivalence prédictive des arbres de décision. Les arbres de décision prédictivement équivalents sont des arbres de décision distincts qui produisent les mêmes résultats de prédiction pour toute entrée.
Optimisation de l'ensemble de Rashomon : En apprentissage automatique, l'ensemble de Rashomon contient plusieurs modèles aux performances similaires. Les arbres de décision prédictivement équivalents créent une redondance dans cet ensemble, affectant la précision de l'évaluation de l'importance des caractéristiques.
Besoins d'interprétabilité : Les arbres de décision sont largement reconnus comme des modèles interprétables, mais même les arbres optimaux nécessitent une explication formalisée, particulièrement dans les applications à haut risque.
Efficacité computationnelle : Les méthodes existantes font face à des goulots d'étranglement computationnels graves lors du traitement d'arbres de décision à grande échelle.
Analyse théorique : Preuve de l'existence d'arbres de décision déclenchant la complexité exponentielle du pire cas de la méthode QM
Analyse de correction : Révélation des problèmes potentiels de correction de la méthode QM dans le jugement d'équivalence prédictive
Algorithme efficace : Proposition d'un algorithme en temps polynomial résolvant les problèmes de complétude, concision et jugement d'équivalence prédictive
Validation expérimentale : Sur les arbres de décision déclenchant le pire cas QM, le nouvel algorithme est plusieurs ordres de grandeur plus rapide que les méthodes existantes
Connexions théoriques : Établissement de liens théoriques entre l'équivalence prédictive et les explications logiques, les mesures d'importance
L'article propose un algorithme en temps polynomial basé sur WAXp :
Algorithme 1 : Vérification de Cohérence de Chemin
def ConsistentPath(A, P, T):
# Vérifier la cohérence d'une affectation partielle A avec le chemin P de l'arbre
for each feature i:
combine literals from A and P for feature i
if inconsistent: return False
return True
Algorithme 2 : Jugement WAXp
def IsWAXp(A, c, T):
# Déterminer si une affectation partielle A est un WAXp pour la classe c
for each path P in T:
if Class(P) != c and ConsistentPath(A, P, T):
return False # A est cohérente avec un chemin d'une autre classe
return True
def PredictivelyEquivalent(T1, T2):
for P1 in Paths(T1):
c1 = Class(P1)
A1 = Literals(P1) # Créer une affectation partielle
for P2 in Paths(T2):
c2 = Class(P2)
if c1 != c2 and ConsistentPath(A1, P2, T2):
return False # Preuve de non-équivalence trouvée
return True # Aucune preuve de non-équivalence, donc équivalent
Éviter la complexité exponentielle : Opération directe sur la structure de l'arbre de décision, évitant la génération de représentations BCF potentiellement exponentielles
Garantie de temps polynomial : Tous les algorithmes ont une complexité temporelle polynomiale par rapport à la taille de l'arbre de décision
Correction formalisée : Preuve mathématique rigoureuse garantissant la correction de l'algorithme
Parallélisabilité : L'algorithme d'équivalence prédictive peut être parallélisé pour une efficacité accrue
Confirmation de la croissance exponentielle : La taille de BCF₁(T) croît exponentiellement avec r, validant l'analyse théorique
Écart de performance massif : Pour r=200, le nouvel algorithme traite un arbre de décision de 1203 nœuds en quelques secondes, tandis que la méthode QM dépasse le délai d'attente avec 57 nœuds
Validation de praticabilité : Le nouvel algorithme peut traiter les arbres de décision à grande échelle qui peuvent apparaître dans les applications réelles
Optimisation d'Arbres de Décision : Bertsimas & Dunn (2017), Hu et al. (2019), Demirovic et al. (2022)
Évaluation Globale : Ceci est un article de haute qualité combinant théorie et pratique, qui non seulement révèle les défauts fondamentaux des méthodes existantes, mais fournit également des solutions pratiques. L'analyse théorique de l'article est rigoureuse, la validation expérimentale est suffisante, et il apporte des contributions importantes aux domaines des arbres de décision et de l'IA explicable.