We study monoidal transducers, transition systems arising as deterministic automata whose transitions also produce outputs in an arbitrary monoid, for instance allowing outputs to commute or to cancel out. We use the categorical framework for minimization and learning of Colcombet, PetriÅan and Stabile to recover the notion of minimal transducer recognizing a language, and give necessary and sufficient conditions on the output monoid for this minimal transducer to exist and be unique (up to isomorphism). The categorical framework then provides an abstract algorithm for learning it using membership and equivalence queries, and we discuss practical aspects of this algorithm's implementation.
论文ID : 2410.01590标题 : Active Learning of Deterministic Transducers with Outputs in Arbitrary Monoids作者 : Quentin Aristote (Université Paris Cité, CNRS, Inria, IRIF)分类 : cs.FL (Formal Languages and Automata Theory)发表时间/会议 : Logical Methods in Computer Science, Volume 21, Issue 4, 2025 (已被接收,2024年10月提交)论文链接 : https://arxiv.org/abs/2410.01590 本文研究单子转换器(monoidal transducers),这是一类确定性自动机的转换系统,其转换过程会在任意单子中产生输出,例如允许输出交换或相互抵消。作者使用Colcombet, Petrişan和Stabile的分类框架来恢复识别语言的最小转换器概念,并给出输出单子上的必要充分条件,使得这种最小转换器存在且唯一(同构意义下)。该分类框架进而提供了使用成员查询和等价查询来学习最小转换器的抽象算法,并讨论了该算法实现的实际方面。
传统的转换器(transducers)通常在自由单子(如字符串)上产生输出,但在某些应用场景中,输出可能需要满足交换律或抵消律等代数性质。例如:
并发理论中的trace单子 :用于建模独立作业的执行序列,某些作业可以异步运行程序调度 :转换器可用于程序化地调度作业自然语言处理 :某些输出符号可能具有交换性质现有的转换器学习算法(如Vilar算法)主要针对自由单子设计,直接应用于非自由单子会遇到以下问题:
非终止性 :如Lemma 1.1所示,在某些单子上Vilar算法可能永不终止效率问题 :先学习自由单子上的转换器再最小化的方法会引入不必要的状态理论缺失 :缺乏针对任意单子的系统性理论框架Gerdjikov的工作提供了最小化条件但未涉及学习问题 现有学习算法假设输出在自由单子中 缺乏统一的理论框架处理任意单子 理论框架扩展 :将Colcombet-Petrişan-Stabile的分类学习框架扩展到单子转换器存在性条件 :给出输出单子的必要充分条件,确保最小单子转换器存在且唯一条件优化 :扩展了Gerdjikov的最小化条件类别,虽然复杂度界限可能更差实用算法 :提供抽象单子转换器学习算法的具体实现细节分解系统 :通过四元分解系统解释学习算法中不同类型的一致性问题输入 :
输入字母表A (可数) 输出单子M = (M, ε, ⊗) 目标函数L: A* → M + 1 (部分函数) 输出 :识别L的最小单子转换器
查询类型 :
成员查询EvalL:给定输入词w,返回L(w) 等价查询EquivL:给定假设转换器,判断是否正确或返回反例 单子转换器被建模为函子A: I → Kl(TM),其中:
I是输入范畴,表示转换器的基本结构 Kl(TM)是单子TM的Kleisli范畴 TM X = M × X + 1 = (M × X) ⊔ {⊥} 左最大公因数(left-gcd) :对于族w = (wi)i∈I,其左gcd是被所有其他左因数整除的左因数。
约化函数 :当Kl(TM)具有所有可数1的幂时,存在函数:
lgcd: (M + 1)^N* → M (计算左gcd) red: (M + 1)^N* → (M + 1)^N* (约化函数) 满足条件:
Λ = lgcd(Λ) ⊗ red(Λ) 唯一性:若υ ⊗ red(Γ) = ν ⊗ red(Λ),则υ = ν且red(Γ) = red(Λ) 定理 :Kl(TM)具有所有可数1的幂当且仅当M满足:
左可约性 :左可约到左可逆元右互质可约性 :对左互质族的右互质可约性唯一左gcd :所有非空可数族具有唯一的左gcd(右可逆意义下)论文定义了三个分解系统:
(E₁,M₁) = (Surj ∩ Inj ∩ Inv, Tot) (E₂,M₂) = (Surj ∩ Inj, Inv ∩ Tot) (E₃,M₃) = (Surj, Inj ∩ Inv ∩ Tot) 主要使用(E₃,M₃)定义最小转换器,它推广了自由单子情况下的分解系统。
输入: EvalL, EquivL
输出: 最小转换器MinL
1. 初始化Q = T = {ε}
2. 循环直到收敛:
- 检查闭包条件:是否存在qa ∈ QA使得R(q,a,·)不能表示为已有状态的可逆倍数
- 检查一致性条件:检查三种一致性问题
- 构建假设转换器H(Q,T)
- 提交等价查询,处理反例
算法检查三种一致性问题:
完全性 :R(q,a,t) ≠ ⊥但R(q,e,T) = ⊥T可整除性 :Λ(q,e)不能左整除Λ(q,a)R(q,a,t)相容性 :状态合并时转换输出不一致论文主要进行理论分析,通过以下方式验证:
复杂度分析 :证明算法的更新次数有界终止性证明 :在右Noetherian单子上算法终止正确性证明 :算法输出确实是最小转换器论文通过具体示例展示:
自由单子{α,β}*上的学习过程 自由交换单子{α,β}⊛上的差异 trace单子上的应用潜力 定理4.3 :算法正确且在MinL具有有限状态集且M右Noetherian时终止。更新次数界限:
Q的更新:至多3|MinL|st + rk(MinL)次 T的更新:至多rk(MinL) + |MinL|st次 其中rk(v)是v在M中的秩。
扩展性 :本文条件涵盖更多单子类别复杂度 :Gerdjikov的GCLF条件提供更好的复杂度界限适用性 :本文方法适用于某些Gerdjikov方法不适用的单子通过图1和图2的具体转换器展示了:
学习过程的详细步骤 不同单子结构对结果的影响 四步最小化过程(Reach→Total→Prefix→Obs) Choffrut (2003) :经典转换器最小化Vilar (1996) :转换器的主动学习算法Gerdjikov (2018) :单子转换器最小化条件Colcombet-Petrişan-Stabile (2020) :自动机学习的分类方法Angluin (1987) :L*算法加权自动机学习 :Bergadano-Varricchio等trace单子 :并发理论中的应用热带单子 :(ℝ₊, 0, +)等非标准单子群 :所有元素可逆的单子成功将分类学习框架扩展到单子转换器 给出了最小转换器存在的充要条件 提供了实用的学习算法及其复杂度分析 四元分解系统提供了对算法步骤的深刻理解 实用性验证不足 :缺乏实际应用场景的验证复杂度界限 :相比Gerdjikov方法可能有更差的复杂度计算要求 :需要单子运算、左gcd计算等可计算有限性假设 :算法终止需要MinL有限且M右Noetherian实际应用 :探索trace单子在作业调度中的应用n元分解系统 :推广到更一般的分解系统有限子类 :研究良好转换器的子范畴复杂度优化 :寻找更好的复杂度界限理论深度 :提供了严格的数学基础和完整的理论框架方法创新 :成功扩展了重要的分类学习框架条件优化 :扩展了已知的最小化条件类别算法实用性 :给出了具体可实现的算法描述结构洞察 :四元分解系统提供了深刻的算法理解实验验证缺失 :主要是理论工作,缺乏充分的实验验证应用场景模糊 :虽然提到了潜在应用,但缺乏具体的实用案例复杂度权衡 :在扩展适用范围的同时可能牺牲了复杂度计算假设强 :对单子运算的可计算性要求较高理论贡献 :为形式语言理论提供了重要的理论扩展方法论价值 :分类方法的成功应用可能启发其他领域实用潜力 :为并发系统、程序调度等领域提供了理论基础可扩展性 :框架具有进一步扩展的潜力并发系统 :trace单子在并发程序分析中的应用程序调度 :作业调度系统的自动化设计符号计算 :需要代数性质的符号处理系统理论研究 :形式语言和自动机理论的进一步发展论文引用了形式语言理论、分类论、单子理论等多个领域的重要文献,包括:
Angluin (1987): Learning regular sets from queries and counterexamples Colcombet, Petrişan, Stabile (2020-2021): 分类学习框架的原始论文 Gerdjikov (2018): 单子转换器最小化的重要工作 Mac Lane (1978): Categories for the Working Mathematician 总体评价 :这是一篇高质量的理论论文,成功地将重要的分类学习框架扩展到了更一般的单子转换器设置。虽然缺乏实验验证,但理论贡献显著,为相关领域的进一步发展奠定了坚实基础。论文的数学严谨性和方法创新性都值得称赞。