2025-11-12T13:34:14.831387

Efficient & Correct Predictive Equivalence for Decision Trees

Marques-Silva, Ignatiev
The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. The approach of McTavish et al. consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that the QM method may incorrectly decide predictive equivalence, if two key constraints are not respected, and one may be difficult to formally guarantee. Third, the paper shows that any of the problems to which the smallest DNF representation has been applied to can be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.
academic

Efficient & Correct Predictive Equivalence for Decision Trees

基本信息

  • 论文ID: 2509.17774
  • 标题: Efficient & Correct Predictive Equivalence for Decision Trees
  • 作者: João Marques-Silva (ICREA & University of Lleida), Alexey Ignatiev (Monash University)
  • 分类: cs.AI cs.LG cs.LO
  • 发表时间/会议: Journal of Machine Learning Research 23 (2025) 1-35
  • 论文链接: https://arxiv.org/abs/2509.17774

摘要

决策树的Rashomon集合具有重要应用价值。最近研究表明,计算相同分类函数的决策树(即预测等价决策树)可能占Rashomon集合的很大一部分。这种冗余是不理想的,例如基于Rashomon集合的特征重要性会因预测等价决策树的存在而变得不准确。McTavish等人最近提出了解决决策树相关计算问题的方案,包括判断预测等价决策树。他们的方法使用著名的Quine-McCluskey(QM)方法获得决策树的最小DNF表示,然后用于比较决策树的预测等价性。然而,公式最小化问题对多项式层次结构的第二层是困难的,QM方法可能表现出最坏情况下的指数运行时间和空间复杂度。本文首先证明存在触发QM方法最坏情况指数复杂度的决策树,其次表明如果不满足两个关键约束,QM方法可能错误判断预测等价性,最后证明所有应用最小DNF表示的问题都可以在决策树大小的多项式时间内解决。

研究背景与动机

问题定义

本文要解决的核心问题是决策树预测等价性判断的效率和正确性问题。预测等价的决策树是指对于任意输入都产生相同预测结果的不同决策树。

问题重要性

  1. Rashomon集合优化:在机器学习中,Rashomon集合包含多个性能相近的模型。预测等价的决策树在该集合中造成冗余,影响特征重要性评估的准确性。
  2. 可解释性需求:决策树被广泛认为是可解释的模型,但即使是最优决策树也需要形式化解释,特别是在高风险应用场景中。
  3. 计算效率:现有方法在处理大规模决策树时面临严重的计算瓶颈。

现有方法局限性

McTavish等人提出的方法基于Quine-McCluskey(QM)算法,存在以下问题:

  1. 计算复杂度:QM方法求解Σₚ²-hard问题,在最坏情况下需要指数时间和空间
  2. 正确性问题:在不满足特定约束时可能产生错误结果
  3. 实际可行性:对于具有数十个变量的问题,QM方法已知扩展性很差

核心贡献

  1. 理论分析:证明了存在决策树能够触发QM方法的最坏情况指数复杂度
  2. 正确性分析:揭示了QM方法在预测等价性判断中的潜在不正确性问题
  3. 高效算法:提出了多项式时间算法解决完整性、简洁性和预测等价性判断问题
  4. 实验验证:在触发QM最坏情况的决策树上,新算法比现有方法快几个数量级
  5. 理论联系:建立了预测等价性与逻辑解释、重要性度量之间的理论联系

方法详解

任务定义

给定两个决策树T₁和T₂,判断它们是否预测等价,即:

∀(x ∈ F). (κₜ₁(x) = κₜ₂(x))

其中F是特征空间,κ是分类函数。

核心技术框架

1. 弱归纳解释(WAXp)方法

论文提出基于WAXp的多项式时间算法:

算法1:路径一致性检查

def ConsistentPath(A, P, T):
    # 检查部分赋值A与树路径P的一致性
    for each feature i:
        combine literals from A and P for feature i
        if inconsistent: return False
    return True

算法2:WAXp判断

def IsWAXp(A, c, T):
    # 判断部分赋值A是否为类别c的WAXp
    for each path P in T:
        if Class(P) != c and ConsistentPath(A, P, T):
            return False  # A与其他类别路径一致
    return True

2. 预测等价性判断算法

算法5:预测等价性判断

def PredictivelyEquivalent(T1, T2):
    for P1 in Paths(T1):
        c1 = Class(P1)
        A1 = Literals(P1)  # 创建部分赋值
        for P2 in Paths(T2):
            c2 = Class(P2)
            if c1 != c2 and ConsistentPath(A1, P2, T2):
                return False  # 发现不等价证据
    return True  # 无法证明不等价,因此等价

技术创新点

  1. 避免指数复杂度:直接在决策树结构上操作,避免生成可能指数大小的BCF表示
  2. 多项式时间保证:所有算法的时间复杂度都是决策树大小的多项式
  3. 形式化正确性:提供严格的数学证明保证算法正确性
  4. 可并行化:预测等价性算法可以并行化,进一步提高效率

实验设置

构造的测试用例

论文使用了基于定理1证明的特殊决策树构造:

  • 参数r:控制树的复杂度
  • 节点数:6r + 3个节点
  • 特征数:2r + 1个特征
  • BCF大小:对于类别1,下界为2^r个主蕴含项

评价指标

  1. 运行时间:算法执行时间(秒)
  2. BCF大小:Blake标准形式中主蕴含项的数量
  3. 可扩展性:处理不同规模决策树的能力

对比方法

  • SymPy的QM实现:McTavish等人使用的基准方法
  • 独立BCF生成:作者实现的标准QM主蕴含项生成步骤

实现细节

  • 平台:Macbook M3 Pro处理器
  • 编程语言:Python
  • 超时设置:QM方法设置150000秒超时限制

实验结果

主要结果

QM方法的指数复杂度验证

rSymPy时间(s)|BCF₀(T)||BCF₁(T)|BCF时间(s)
30.134220.01
40.575460.07
539.606940.84
62789.45719011.28
7>150000.008382161.25

新算法的扩展性能

rDT节点数特征数|BCF₁(T)|一个AXpisWAXp?PE?
20012034012²⁰⁰1.71s0.005s3.7s
500300310012⁵⁰⁰26.98s0.032s57.1s
1000600320012¹⁰⁰⁰224.62s0.126s469.0s

关键发现

  1. 指数增长确认:BCF₁(T)的大小随r指数增长,验证了理论分析
  2. 巨大性能差距:对于r=200的情况,新算法处理1203个节点的决策树只需几秒,而QM方法在57个节点时就超时
  3. 实用性验证:新算法能够处理实际应用中可能出现的大规模决策树

相关工作

Rashomon集合研究

  • 基础概念:Breiman (2001)首次提出Rashomon集合概念
  • recent发展:Fisher等人、Semenova等人在特征重要性方面的工作
  • 预测等价性:McTavish等人首次系统研究决策树的预测等价性

逻辑基础解释性AI

  • 形式化解释:Marques-Silva等人在AXp和CXp方面的工作
  • 计算复杂度:多个研究证明了解释计算的复杂性
  • 可解释性度量:Shapley值和Banzhaf值在机器学习中的应用

布尔公式最小化

  • 经典方法:Quine-McCluskey算法的历史发展
  • 复杂度理论:Σₚ²-hard复杂度的确立
  • 实际限制:已知QM方法在变量数超过8个时效率急剧下降

结论与讨论

主要结论

  1. 理论贡献:证明了QM方法在决策树上确实会遇到指数复杂度
  2. 算法贡献:提供了多项式时间的替代算法
  3. 实用价值:新算法在实际应用中具有显著优势
  4. 理论联系:建立了预测等价性与多个XAI概念的联系

局限性

  1. Python实现:实验使用Python可能影响性能评估的绝对值
  2. 特殊构造:实验主要针对特殊构造的决策树
  3. 并行化:预测等价性算法的并行化潜力未在大规模集群上验证
  4. 一般性:需要更多实际数据集上的验证

未来方向

  1. 渐近最优算法:寻找理论上最优的算法
  2. 其他模型类型:将方法扩展到其他可解释模型
  3. 实际应用:在真实Rashomon集合优化中的应用
  4. 并行实现:大规模并行化实现的开发

深度评价

优点

  1. 理论严谨性:提供了完整的数学证明和复杂度分析
  2. 实用价值高:解决了现有方法的根本性能问题
  3. 创新性强:首次系统分析了QM方法在决策树上的问题
  4. 实验充分:既有理论构造的验证,也有实际规模的测试
  5. 写作清晰:论文结构良好,技术细节描述清楚

不足

  1. 实验范围:主要在构造的测试用例上验证,缺乏真实数据集结果
  2. 实现语言:使用Python可能不是最佳选择,影响性能比较的说服力
  3. 应用验证:缺乏在实际Rashomon集合优化任务中的验证
  4. QM约束分析:对QM方法正确性约束的实际可达性分析不够深入

影响力

  1. 学术价值:为决策树研究提供了新的理论工具
  2. 实用意义:可能改变Rashomon集合分析的实践方法
  3. 可复现性:算法描述清晰,易于复现
  4. 扩展性:方法可能适用于其他可解释模型

适用场景

  1. 高风险应用:需要可解释AI的医疗、金融等领域
  2. 模型选择:需要从多个等效模型中选择的场景
  3. 特征重要性分析:需要准确评估特征重要性的应用
  4. 大规模决策树:处理复杂决策树的工业应用

参考文献

本文引用了广泛的相关工作,主要包括:

  1. Rashomon集合:Breiman (2001), Xin et al. (2022), Fisher et al. (2019)
  2. 逻辑解释性AI:Marques-Silva (2022), Darwiche (2023), Ignatiev et al. (2019)
  3. 布尔函数最小化:Quine (1952, 1955), McCluskey (1956), Umans (1998)
  4. 决策树优化:Bertsimas & Dunn (2017), Hu et al. (2019), Demirovic et al. (2022)

总体评价:这是一篇高质量的理论与实践相结合的论文,不仅揭示了现有方法的根本缺陷,还提供了实用的解决方案。论文的理论分析严谨,实验验证充分,对决策树和可解释AI领域具有重要贡献。