2025-11-15T04:52:11.684179

Dyck Words, Pattern Avoidance, and Automatic Sequences

Mol, Rampersad, Shallit
We study various aspects of Dyck words appearing in binary sequences, where $0$ is treated as a left parenthesis and $1$ as a right parenthesis. We show that binary words that are $7/3$-power-free have bounded nesting level, but this no longer holds for larger repetition exponents. We give an explicit characterization of the factors of the Thue-Morse word that are Dyck, and show how to count them. We also prove tight upper and lower bounds on $f(n)$, the number of Dyck factors of Thue-Morse of length $2n$.
academic

Mots de Dyck, Évitement de Motifs et Séquences Automatiques

Informations Fondamentales

  • ID de l'article: 2301.06145
  • Titre: Dyck Words, Pattern Avoidance, and Automatic Sequences
  • Auteurs: Lucas Mol (Thompson Rivers University), Narad Rampersad (University of Winnipeg), Jeffrey Shallit (University of Waterloo)
  • Classification: cs.DM (Mathématiques Discrètes), cs.FL (Langages Formels), math.CO (Combinatoire)
  • Journal de publication: Communications in Mathematics 33 (2025), no. 2, Paper no. 5
  • Lien de l'article: https://arxiv.org/abs/2301.06145

Résumé

Cet article étudie diverses propriétés des mots de Dyck dans les séquences binaires, où 0 est considéré comme une parenthèse ouvrante et 1 comme une parenthèse fermante. L'étude montre que les mots binaires sans puissance 7/3 possèdent une profondeur d'imbrication bornée, mais cette propriété ne subsiste pas pour des exposants de répétition plus grands. L'article fournit une caractérisation explicite des facteurs de Dyck dans le mot de Thue-Morse et démontre comment calculer leur nombre. De plus, il établit des bornes supérieures et inférieures strictes pour le nombre f(n) de facteurs de Dyck de Thue-Morse de longueur 2n.

Contexte de Recherche et Motivation

Définition du Problème

La question centrale de cette recherche consiste à comprendre la structure et les propriétés des facteurs de mots de Dyck dans les mots binaires infinis. Les mots de Dyck constituent un concept fondamental de la théorie des langages formels, représentant des chaînes de parenthèses équilibrées, avec des applications importantes en informatique et en mathématiques.

Importance de la Recherche

  1. Signification théorique: Le langage de Dyck est un exemple paradigmatique de langage hors-contexte. L'étude de sa distribution dans les séquences automatiques contribue à la compréhension des liens profonds entre la théorie des langages formels et la théorie des automates.
  2. Valeur en combinatoire: L'évitement de motifs et l'évitement de puissances constituent des directions de recherche centrales en combinatoire des mots. Cet article combine ces concepts avec les mots de Dyck.
  3. Applications informatiques: Les séquences automatiques ont des applications étendues en algorithmique et en théorie de la complexité computationnelle. La compréhension des propriétés des facteurs de Dyck possède une signification pratique.

Limitations de la Recherche Existante

  • Absence de caractérisation systématique des facteurs de Dyck dans les séquences automatiques spécifiques
  • Analyse quantitative insuffisante de la relation entre l'évitement de puissances et la profondeur d'imbrication
  • Manque d'algorithmes efficaces pour le comptage des facteurs de Dyck dans les séquences automatiques

Contributions Fondamentales

  1. Relation entre évitement de puissances et profondeur d'imbrication: Démonstration que les mots de Dyck sans puissance 7/3 ont une profondeur d'imbrication au plus 3, mais qu'il existe des mots de Dyck sans puissance 7/3⁺ avec une profondeur d'imbrication arbitrairement grande.
  2. Caractérisation des facteurs de Dyck du mot de Thue-Morse: Fourniture d'une caractérisation complète de tous les facteurs de Dyck dans la séquence de Thue-Morse : forme h(x), où x est un facteur d'une certaine séquence ternaire s.
  3. Théorie générale des séquences automatiques: Établissement d'un cadre théorique de décidabilité pour les facteurs de Dyck des séquences automatiques synchrones et à exécution.
  4. Résultats de comptage exacts: Démonstration des bornes strictes supérieures et inférieures pour le nombre d(n) de facteurs de Dyck de longueur 2n dans la séquence de Thue-Morse : d(n) ≤ n et d(n) ≥ n/2.

Explication Détaillée des Méthodes

Définition de la Tâche

Soit un mot binaire w = w1..n. Si, en considérant 0 comme une parenthèse ouvrante et 1 comme une parenthèse fermante, w représente une chaîne de parenthèses équilibrée, alors w est appelé mot de Dyck. Formellement, w est un mot de Dyck si et seulement si :

  • B(w) = |w|₀ - |w|₁ = 0 (condition d'équilibre)
  • Pour tous les préfixes w', B(w') ≥ 0 (condition de non-négativité)

La profondeur d'imbrication N(w) est définie comme la valeur maximale de B(w') parmi tous les préfixes.

Méthodes Fondamentales

1. Méthode d'Analyse de l'Évitement de Puissances

Utilisation de la preuve par induction et construction :

  • Théorème 2.1: Par analyse de la structure des mots de Dyck sans puissance 7/3, démonstration que leur profondeur d'imbrication ≤ 3.
  • Théorème 2.9: Construction de morphismes spéciaux f et g tels que f(gᵗ(2)) produit des mots de Dyck sans puissance 7/3⁺ avec une profondeur d'imbrication arbitrairement grande.

2. Méthode de Théorie des Automates

Utilisation du vérificateur de théorèmes Walnut pour la vérification computationnelle :

morphism f "0->00100110100110010110010011001011001101
           1->00101100110100110110011010010110011011
           2->00101101001101001011001101001011010011"
morphism g "0->022012 1->022112 2->202101"

3. Théorie de la Représentation Linéaire

Pour les séquences k-automatiques synchrones et à exécution, construction de formules logiques du premier ordre :

  • Fonction d'équilibre : Bal(i,n,x) ≡ ∃y,z N₀(i,n,y) ∧ N₁(i,n,z) ∧ ((y<z ∧ x=0) | (y≥z ∧ y=x+z))
  • Décision de Dyck : Dyck(i,n) ≡ équilibre ∧ conditions de non-négativité

Points d'Innovation Technique

  1. Technique de Construction de Morphismes: Conception de morphismes 6-uniformes spéciaux g et morphismes 38-uniformes f, réalisant un contrôle précis de la profondeur d'imbrication.
  2. Théorie des Séquences Synchrones: Extension des concepts de synchronie et d'exécution à l'analyse du langage de Dyck, établissant un cadre de décidabilité.
  3. Minimisation de la Représentation Linéaire: Utilisation de l'algorithme de Schützenberger pour réduire la représentation linéaire du comptage des facteurs de Dyck de Thue-Morse de rang 29 à rang 7.

Configuration Expérimentale

Outils Informatiques

  • Vérificateur de théorèmes Walnut: Utilisé pour la vérification logique du premier ordre des séquences automatiques.
  • Système d'algèbre linéaire: Effectuant des calculs matriciels et des calculs de représentation linéaire.
  • Calcul symbolique: Vérification des relations de récurrence et du comportement asymptotique.

Méthodes de Vérification

  1. Vérification à petite échelle: Calcul direct et vérification pour n < 29.
  2. Preuve par induction: Utilisation de l'induction mathématique pour prouver les résultats généraux.
  3. Assistance informatique: Utilisation de Walnut pour la vérification computationnelle à grande échelle (par exemple, 130 Go de mémoire, 20321 secondes de temps CPU).

Résultats Expérimentaux

Résultats Quantitatifs Principaux

1. Bornes de Profondeur d'Imbrication

  • Borne supérieure: Profondeur d'imbrication ≤ 3 pour les mots de Dyck sans puissance 7/3.
  • Borne inférieure: Existence de mots de Dyck sans puissance 7/3⁺ avec une profondeur d'imbrication arbitrairement grande.

2. Comptage des Facteurs de Dyck de Thue-Morse

Relations de récurrence exactes :

  • d(2n) = 2d(n)
  • d(4n+3) = 2d(n) + d(2n+1) + q(n)
  • d(8n+1) = 2d(2n+1) + d(4n+1) - q(n)
  • d(8n+5) = 2d(n) + d(2n+1) + 2d(2n+2)

où q(n) est une séquence 2-automatique, 1 ≤ q(n) ≤ 2.

3. Théorème de Bornes Strictes

  • Borne supérieure: d(n) ≤ n, avec égalité quand n = 3·2ⁱ.
  • Borne inférieure: d(n) ≥ n/2, avec égalité quand n = 2ⁱ.
  • Cas impairs: Quand n est impair, d(n) ≥ (n+3)/2.

4. Valeur Moyenne Asymptotique

∑₀≤ᵢ<₂ₙ d(i) = 19·4ⁿ/48 - 2ⁿ/4 + 5/3, valeur moyenne = (19/24)n

Résultats Numériques Spécifiques

Valeurs de d(n) pour les 21 premiers termes :

n01234567891011121314151617181920
d(n)1123246648881291213814161416

Résultats pour Autres Séquences

  • Séquence de Fibonacci: Seuls les facteurs de Dyck 01 et 0101.
  • Séquence de doublement de période: Seuls les facteurs de Dyck 01, 0101, 010101.
  • Séquence de Rudin-Shapiro: Existence de facteurs de Dyck avec une profondeur d'imbrication arbitrairement grande.

Travaux Connexes

Théorie des Langages Formels

Cette recherche s'appuie sur la théorie des langages hors-contexte de Chomsky et Schützenberger, en particulier la théorie algébrique du langage de Dyck.

Combinatoire des Mots

  • Théorie de l'évitement de puissances: Héritage du travail fondateur de Thue sur les mots sans chevauchement.
  • Séquences automatiques: Basée sur la théorie des séquences k-automatiques de Cobham et les concepts récents de séquences synchrones.

Méthodes Informatiques

  • Système Walnut: Utilisation de l'outil de preuve de théorèmes automatique développé par Mousavi et Shallit.
  • Représentation linéaire: Application de la théorie des séries rationnelles non-commutatives de Berstel et Reutenauer.

Conclusions et Discussion

Conclusions Principales

  1. Phénomène d'indice critique: 7/3 est l'indice critique pour la bornitude de la profondeur d'imbrication des mots de Dyck, reflétant le lien profond entre l'évitement de puissances et la complexité structurelle.
  2. Universalité des séquences automatiques: Les propriétés de synchronie et d'exécution fournissent un cadre unifié pour l'étude des facteurs de Dyck dans les séquences automatiques.
  3. Théorie de comptage exact: Le comptage des facteurs de Dyck de Thue-Morse révèle la structure riche des séquences k-régulières.

Limitations

  1. Complexité computationnelle: Les calculs Walnut à grande échelle nécessitent des ressources massives (130 Go de mémoire).
  2. Dépendance aux séquences spéciales: Certains résultats (comme la synchronie et l'exécution) dépendent des propriétés spéciales de la séquence.
  3. Degré de généralisation: Certains résultats s'appliquent uniquement à des catégories spécifiques de séquences automatiques.

Directions Futures

  1. Généralisation en dimensions supérieures: Étude de la distribution des langages de Dyck en dimensions supérieures dans les séquences automatiques.
  2. Autres motifs: Extension aux problèmes d'évitement d'autres motifs hors-contexte.
  3. Optimisation algorithmique: Développement d'algorithmes plus efficaces pour le comptage des facteurs de Dyck.

Évaluation Approfondie

Avantages

  1. Profondeur théorique: Combinaison organique de l'évitement de puissances, des séquences automatiques et de la théorie des langages formels, démontrant une profonde maîtrise théorique.
  2. Innovation méthodologique: Application ingénieuse des techniques de construction de morphismes et de théorie de la représentation linéaire, en particulier le contrôle précis de la profondeur d'imbrication.
  3. Rigueur computationnelle: Utilisation extensive de la vérification assistée par ordinateur, renforçant la fiabilité des résultats.
  4. Complétude des résultats: Fourniture d'un tableau théorique complet allant de l'existence au comptage.

Insuffisances

  1. Ressources informatiques: Certaines preuves dépendent de calculs à grande échelle, ce qui peut limiter la vérifiabilité des résultats.
  2. Généralisation: Certaines techniques méthodologiques peuvent être difficiles à généraliser à des catégories de séquences plus générales.
  3. Orientation appliquée: La valeur pratique des résultats théoriques nécessite une exploration supplémentaire.

Impact

  1. Interdisciplinarité: Promotion du développement interdisciplinaire de la combinatoire, de la théorie des langages formels et de la théorie des automates.
  2. Contribution méthodologique: Fourniture d'un nouveau cadre analytique pour l'étude des motifs structurels dans les séquences automatiques.
  3. Outils informatiques: Démonstration du potentiel puissant des outils de preuve de théorèmes modernes dans les problèmes combinatoires.

Scénarios Applicables

  1. Recherche théorique: Applicable à l'étude approfondie de la combinatoire des mots et de la théorie des langages formels.
  2. Conception d'algorithmes: Fourniture de fondations théoriques pour la conception d'algorithmes traitant les séquences structurées.
  3. Applications pédagogiques: Peut servir d'excellent cas d'étude pour la démonstration des méthodes informatiques mathématiques modernes.

Références Bibliographiques

Cet article cite des références importantes de la théorie des langages formels, de la combinatoire et de la théorie des automates, notamment :

  • Théorie des langages hors-contexte de Chomsky et Schützenberger
  • Travail fondateur de Thue sur les mots sans chevauchement
  • Théorie des séquences k-régulières d'Allouche et Shallit
  • Séries rationnelles non-commutatives de Berstel et Reutenauer
  • Littérature connexe sur l'outil informatique Walnut

Évaluation Générale: Cet article est un travail d'excellence tant en profondeur théorique qu'en innovation technique, combinant avec succès les concepts et méthodes de plusieurs branches des mathématiques, fournissant une contribution importante à la compréhension des motifs structurels dans les séquences automatiques. Bien qu'il présente certaines limitations en termes de complexité computationnelle et de généralisation, sa valeur théorique et sa signification méthodologique sont considérables.