Efficient & Correct Predictive Equivalence for Decision Trees
Marques-Silva, Ignatiev
The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. The approach of McTavish et al. consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that the QM method may incorrectly decide predictive equivalence, if two key constraints are not respected, and one may be difficult to formally guarantee. Third, the paper shows that any of the problems to which the smallest DNF representation has been applied to can be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.
의사결정 트리의 Rashomon 집합은 중요한 응용 가치를 가지고 있습니다. 최근 연구에 따르면, 동일한 분류 함수를 계산하는 의사결정 트리(즉, 예측 동등 의사결정 트리)가 Rashomon 집합의 상당 부분을 차지할 수 있습니다. 이러한 중복성은 바람직하지 않으며, 예를 들어 Rashomon 집합 기반의 특성 중요도는 예측 동등 의사결정 트리의 존재로 인해 부정확해질 수 있습니다. McTavish 등이 최근 의사결정 트리 관련 계산 문제 해결을 위한 방안을 제시했으며, 여기에는 예측 동등 의사결정 트리 판정이 포함됩니다. 그들의 방법은 유명한 Quine-McCluskey(QM) 방법을 사용하여 의사결정 트리의 최소 DNF 표현을 얻은 후 의사결정 트리의 예측 동등성을 비교하는 데 사용합니다. 그러나 공식 최소화 문제는 다항식 계층 구조의 두 번째 계층에서 어렵고, QM 방법은 최악의 경우 지수 실행 시간과 공간 복잡도를 나타낼 수 있습니다. 본 논문은 첫째, QM 방법의 최악의 경우 지수 복잡도를 유발하는 의사결정 트리가 존재함을 증명하고, 둘째, 두 가지 핵심 제약 조건이 충족되지 않으면 QM 방법이 예측 동등성을 잘못 판정할 수 있음을 보이며, 셋째, 최소 DNF 표현을 적용하는 모든 문제가 의사결정 트리 크기의 다항식 시간 내에 해결될 수 있음을 증명합니다.
def ConsistentPath(A, P, T):
# 부분 할당 A와 트리 경로 P의 일관성 검사
for each feature i:
combine literals from A and P for feature i
if inconsistent: return False
return True
알고리즘 2: WAXp 판정
def IsWAXp(A, c, T):
# 부분 할당 A가 클래스 c의 WAXp인지 판정
for each path P in T:
if Class(P) != c and ConsistentPath(A, P, T):
return False # A가 다른 클래스 경로와 일관성 있음
return True
def PredictivelyEquivalent(T1, T2):
for P1 in Paths(T1):
c1 = Class(P1)
A1 = Literals(P1) # 부분 할당 생성
for P2 in Paths(T2):
c2 = Class(P2)
if c1 != c2 and ConsistentPath(A1, P2, T2):
return False # 비동등성 증거 발견
return True # 비동등성 증거 없음, 따라서 동등