2025-11-15T04:52:11.684179

Dyck Words, Pattern Avoidance, and Automatic Sequences

Mol, Rampersad, Shallit
We study various aspects of Dyck words appearing in binary sequences, where $0$ is treated as a left parenthesis and $1$ as a right parenthesis. We show that binary words that are $7/3$-power-free have bounded nesting level, but this no longer holds for larger repetition exponents. We give an explicit characterization of the factors of the Thue-Morse word that are Dyck, and show how to count them. We also prove tight upper and lower bounds on $f(n)$, the number of Dyck factors of Thue-Morse of length $2n$.
academic

Dyck Words, Pattern Avoidance, and Automatic Sequences

基本信息

  • 论文ID: 2301.06145
  • 标题: Dyck Words, Pattern Avoidance, and Automatic Sequences
  • 作者: Lucas Mol (Thompson Rivers University), Narad Rampersad (University of Winnipeg), Jeffrey Shallit (University of Waterloo)
  • 分类: cs.DM (Discrete Mathematics), cs.FL (Formal Languages), math.CO (Combinatorics)
  • 发表期刊: Communications in Mathematics 33 (2025), no. 2, Paper no. 5
  • 论文链接: https://arxiv.org/abs/2301.06145

摘要

本文研究二进制序列中Dyck词的各种性质,其中0被视为左括号,1被视为右括号。研究表明,7/3-无幂二进制词具有有界的嵌套层次,但对于更大的重复指数,这一性质不再成立。论文给出了Thue-Morse词中Dyck因子的显式刻画,并展示了如何计算它们的数量。此外,还证明了长度为2n的Thue-Morse Dyck因子数量f(n)的紧上界和下界。

研究背景与动机

问题定义

本研究探讨的核心问题是理解无限二进制词中Dyck词因子的结构和性质。Dyck词是形式语言理论中的基本概念,代表平衡括号串,在计算机科学和数学中具有重要应用。

研究重要性

  1. 理论意义: Dyck语言是上下文无关语言的典型例子,研究其在自动序列中的分布有助于理解形式语言与自动机理论的深层联系
  2. 组合数学价值: 模式避免和幂避免是组合词汇学的核心研究方向,本研究将这些概念与Dyck词结合
  3. 计算应用: 自动序列在算法和计算复杂性理论中有广泛应用,理解其Dyck因子的性质具有实际意义

现有研究局限性

  • 缺乏对特定自动序列中Dyck因子的系统性刻画
  • 幂避免与嵌套层次关系的定量分析不足
  • 自动序列Dyck因子计数的有效算法缺失

核心贡献

  1. 幂避免与嵌套层次的关系: 证明了7/3-无幂Dyck词的嵌套层次至多为3,但存在任意大嵌套层次的7/3+-无幂Dyck词
  2. Thue-Morse词的Dyck因子刻画: 给出了Thue-Morse序列中所有Dyck因子的完整刻画:h(x)形式,其中x是某个三元序列s的因子
  3. 自动序列的一般理论: 建立了运行和同步自动序列Dyck因子的可判定性理论框架
  4. 精确的计数结果: 证明了Thue-Morse序列中长度2n的Dyck因子数量d(n)的紧上下界:d(n) ≤ n且d(n) ≥ n/2

方法详解

任务定义

给定二进制词w = w1..n,若将0视为左括号、1视为右括号时w表示平衡括号串,则称w为Dyck词。形式化地,w是Dyck词当且仅当:

  • B(w) = |w|₀ - |w|₁ = 0(平衡条件)
  • 对所有前缀w',B(w') ≥ 0(非负性条件)

嵌套层次N(w)定义为所有前缀中B(w')的最大值。

核心方法

1. 幂避免分析方法

使用归纳法和构造性证明:

  • 定理2.1: 通过分析7/3-无幂Dyck词的结构,证明其嵌套层次≤3
  • 定理2.9: 构造特殊态射f和g,使得f(gᵗ(2))产生任意大嵌套层次的7/3⁺-无幂Dyck词

2. 自动机理论方法

利用Walnut定理证明器进行计算验证:

morphism f "0->00100110100110010110010011001011001101
           1->00101100110100110110011010010110011011
           2->00101101001101001011001101001011010011"
morphism g "0->022012 1->022112 2->202101"

3. 线性表示理论

对于运行和同步的k-自动序列,构造一阶逻辑公式:

  • 平衡函数:Bal(i,n,x) ≡ ∃y,z N₀(i,n,y) ∧ N₁(i,n,z) ∧ ((y<z ∧ x=0) | (y≥z ∧ y=x+z))
  • Dyck判定:Dyck(i,n) ≡ 平衡性 ∧ 非负性条件

技术创新点

  1. 态射构造技术: 设计了特殊的6-一致态射g和38-一致态射f,实现了嵌套层次的精确控制
  2. 同步序列理论: 将运行和同步概念扩展到Dyck语言分析,建立了可判定性框架
  3. 线性表示最小化: 使用Schützenberger算法将Thue-Morse Dyck因子计数的线性表示从秩29降至秩7

实验设置

计算工具

  • Walnut定理证明器: 用于自动序列的一阶逻辑验证
  • 线性代数系统: 进行矩阵运算和线性表示计算
  • 符号计算: 验证递推关系和渐近行为

验证方法

  1. 小规模验证: 对n < 29的情况进行直接计算验证
  2. 归纳证明: 使用数学归纳法证明一般性结果
  3. 计算机辅助: 利用Walnut进行大规模计算验证(如130GB内存,20321秒CPU时间)

实验结果

主要定量结果

1. 嵌套层次界限

  • 上界: 7/3-无幂Dyck词嵌套层次≤3
  • 下界: 存在任意大嵌套层次的7/3⁺-无幂Dyck词

2. Thue-Morse Dyck因子计数

精确的递推关系:

  • d(2n) = 2d(n)
  • d(4n+3) = 2d(n) + d(2n+1) + q(n)
  • d(8n+1) = 2d(2n+1) + d(4n+1) - q(n)
  • d(8n+5) = 2d(n) + d(2n+1) + 2d(2n+2)

其中q(n)是2-自动序列,1 ≤ q(n) ≤ 2。

3. 紧界限定理

  • 上界: d(n) ≤ n,当n = 3·2ⁱ时等号成立
  • 下界: d(n) ≥ n/2,当n = 2ⁱ时等号成立
  • 奇数情况: n为奇数时,d(n) ≥ (n+3)/2

4. 渐近平均值

∑₀≤ᵢ<₂ₙ d(i) = 19·4ⁿ/48 - 2ⁿ/4 + 5/3,平均值为(19/24)n

具体数值结果

前21项的d(n)值:

n01234567891011121314151617181920
d(n)1123246648881291213814161416

其他序列的结果

  • Fibonacci序列: 仅有Dyck因子01和0101
  • 周期倍增序列: 仅有Dyck因子01, 0101, 010101
  • Rudin-Shapiro序列: 存在任意大嵌套层次的Dyck因子

相关工作

形式语言理论

本研究建立在Chomsky和Schützenberger的上下文无关语言理论基础上,特别是Dyck语言的代数理论。

组合词汇学

  • 幂避免理论: 继承了Thue关于无重叠词的开创性工作
  • 自动序列: 基于Cobham的k-自动序列理论和最近的同步序列概念

计算方法

  • Walnut系统: 利用Mousavi和Shallit开发的自动定理证明工具
  • 线性表示: 应用Berstel和Reutenauer的非交换有理级数理论

结论与讨论

主要结论

  1. 临界指数现象: 7/3是Dyck词嵌套层次有界性的临界指数,体现了幂避免与结构复杂性的深刻联系
  2. 自动序列的普遍性: 运行和同步性质为研究自动序列中的Dyck因子提供了统一框架
  3. 精确计数理论: Thue-Morse序列的Dyck因子计数展现了k-正则序列的丰富结构

局限性

  1. 计算复杂性: 大规模Walnut计算需要巨大资源(130GB内存)
  2. 特殊序列依赖: 某些结果(如运行和同步性)依赖于序列的特殊性质
  3. 一般化程度: 部分结果仅适用于特定的自动序列类别

未来方向

  1. 更高维推广: 研究高维Dyck语言在自动序列中的分布
  2. 其他模式: 扩展到其他上下文无关模式的避免问题
  3. 算法优化: 开发更高效的Dyck因子计数算法

深度评价

优点

  1. 理论深度: 将幂避免、自动序列和形式语言理论有机结合,展现了深厚的理论功底
  2. 方法创新: 态射构造和线性表示技术的巧妙应用,特别是嵌套层次的精确控制
  3. 计算严谨: 大量使用计算机辅助验证,增强了结果的可靠性
  4. 结果完整: 提供了从存在性到计数的完整理论图景

不足

  1. 计算资源: 某些证明依赖于大规模计算,可能限制了结果的可验证性
  2. 推广性: 部分技术方法可能难以推广到更一般的序列类别
  3. 应用导向: 理论结果的实际应用价值需要进一步探索

影响力

  1. 学科交叉: 促进了组合数学、形式语言理论和自动机理论的交叉发展
  2. 方法论贡献: 为研究自动序列中的结构模式提供了新的分析框架
  3. 计算工具: 展示了现代定理证明工具在组合问题中的强大应用潜力

适用场景

  1. 理论研究: 适用于组合词汇学和形式语言理论的深入研究
  2. 算法设计: 为设计处理结构化序列的算法提供理论基础
  3. 教学应用: 可作为展示现代数学计算方法的优秀案例

参考文献

本文引用了形式语言理论、组合数学和自动机理论的重要文献,包括:

  • Chomsky & Schützenberger的上下文无关语言理论
  • Thue的无重叠词开创性工作
  • Allouche & Shallit的k-正则序列理论
  • Berstel & Reutenauer的非交换有理级数
  • 现代计算工具Walnut的相关文献

总评: 这是一篇在理论深度和技术创新方面都表现优秀的论文,成功地将多个数学分支的概念和方法有机结合,为理解自动序列中的结构模式提供了重要贡献。虽然在计算复杂性和推广性方面存在一定局限,但其理论价值和方法论意义显著。