2025-11-25T19:49:18.778457

Active Learning of Deterministic Transducers with Outputs in Arbitrary Monoids

Aristote

We study monoidal transducers, transition systems arising as deterministic automata whose transitions also produce outputs in an arbitrary monoid, for instance allowing outputs to commute or to cancel out. We use the categorical framework for minimization and learning of Colcombet, PetriÅan and Stabile to recover the notion of minimal transducer recognizing a language, and give necessary and sufficient conditions on the output monoid for this minimal transducer to exist and be unique (up to isomorphism). The categorical framework then provides an abstract algorithm for learning it using membership and equivalence queries, and we discuss practical aspects of this algorithm's implementation.

academic

Apprentissage Actif des Transducteurs Déterministes avec Sorties dans des Monoïdes Arbitraires

Informations Fondamentales

ID de l'article: 2410.01590
Titre: Active Learning of Deterministic Transducers with Outputs in Arbitrary Monoids
Auteur: Quentin Aristote (Université Paris Cité, CNRS, Inria, IRIF)
Classification: cs.FL (Langages Formels et Théorie des Automates)
Date de publication/Conférence: Logical Methods in Computer Science, Volume 21, Issue 4, 2025 (accepté, soumis en octobre 2024)
Lien de l'article: https://arxiv.org/abs/2410.01590

Résumé

Cet article étudie les transducteurs monoïdaux (monoidal transducers), une classe de systèmes de transduction d'automates déterministes qui produisent des sorties dans des monoïdes arbitraires, par exemple permettant aux sorties d'être commutatives ou de s'annuler mutuellement. L'auteur utilise le cadre catégorique de Colcombet, Petrişan et Stabile pour récupérer la notion de transducteur minimal reconnaissant un langage, et fournit des conditions nécessaires et suffisantes sur le monoïde de sortie garantissant l'existence et l'unicité (à isomorphisme près) de ce transducteur minimal. Le cadre catégorique fournit ensuite un algorithme abstrait pour apprendre le transducteur minimal en utilisant des requêtes d'appartenance et des requêtes d'équivalence, et discute des aspects pratiques de l'implémentation de cet algorithme.

Contexte et Motivation de la Recherche

Définition du Problème

Les transducteurs traditionnels produisent généralement des sorties sur des monoïdes libres (comme les chaînes de caractères), mais dans certains scénarios d'application, les sorties peuvent nécessiter de satisfaire des propriétés algébriques telles que la commutativité ou l'annulation. Par exemple:

Monoïde de traces en théorie de la concurrence: utilisé pour modéliser les séquences d'exécution de tâches indépendantes, certaines tâches pouvant s'exécuter de manière asynchrone
Ordonnancement de programmes: les transducteurs peuvent être utilisés pour ordonnancer programmatiquement des tâches
Traitement du langage naturel: certains symboles de sortie peuvent posséder des propriétés commutatives

Motivation de la Recherche

Les algorithmes d'apprentissage de transducteurs existants (comme l'algorithme de Vilar) sont principalement conçus pour les monoïdes libres, et leur application directe aux monoïdes non libres rencontre les problèmes suivants:

Non-terminaison: comme le montre le Lemme 1.1, l'algorithme de Vilar peut ne jamais se terminer sur certains monoïdes
Problèmes d'efficacité: la méthode consistant à d'abord apprendre un transducteur sur le monoïde libre puis à le minimiser introduit des états inutiles
Absence de théorie: manque d'un cadre théorique systématique pour les monoïdes arbitraires

Limitations des Approches Existantes

Le travail de Gerdjikov fournit des conditions de minimisation mais n'aborde pas le problème d'apprentissage
Les algorithmes d'apprentissage existants supposent que les sorties se trouvent dans un monoïde libre
Absence d'un cadre théorique unifié pour traiter les monoïdes arbitraires

Contributions Principales

Extension du cadre théorique: extension du cadre d'apprentissage catégorique de Colcombet-Petrişan-Stabile aux transducteurs monoïdaux
Conditions d'existence: fournit des conditions nécessaires et suffisantes sur le monoïde de sortie garantissant l'existence et l'unicité du transducteur monoïdal minimal
Optimisation des conditions: extension de la catégorie des conditions de minimisation de Gerdjikov, bien que les bornes de complexité puissent être pires
Algorithme pratique: fournit des détails d'implémentation concrets pour l'algorithme abstrait d'apprentissage de transducteurs monoïdaux
Systèmes de décomposition: explication des différents types de problèmes de cohérence dans l'algorithme d'apprentissage via des systèmes de décomposition quaternaires

Détails de la Méthode

Définition de la Tâche

Entrées:

Alphabet d'entrée A (dénombrable)
Monoïde de sortie M = (M, ε, ⊗)
Fonction cible L: A* → M + 1 (fonction partielle)

Sorties: transducteur monoïdal minimal reconnaissant L

Types de requêtes:

Requête d'appartenance EvalL: étant donné un mot d'entrée w, retourne L(w)
Requête d'équivalence EquivL: étant donné un transducteur hypothétique, détermine s'il est correct ou retourne un contre-exemple

Fondements Théoriques

Modélisation des Transducteurs Monoïdaux

Les transducteurs monoïdaux sont modélisés comme des foncteurs A: I → Kl(TM), où:

I est la catégorie d'entrée, représentant la structure fondamentale du transducteur
Kl(TM) est la catégorie de Kleisli du monoïde TM
TM X = M × X + 1 = (M × X) ⊔ {⊥}

Structures Mathématiques Clés

Plus grand commun diviseur gauche (left-gcd): pour une famille w = (wi)i∈I, son left-gcd est le diviseur gauche qui est divisible par tous les autres diviseurs gauches.

Fonction de réduction: lorsque Kl(TM) possède toutes les puissances dénombrables de 1, il existe une fonction:

lgcd: (M + 1)^N* → M (calcule le left-gcd)
red: (M + 1)^N* → (M + 1)^N* (fonction de réduction)

satisfaisant les conditions:

Λ = lgcd(Λ) ⊗ red(Λ)
Unicité: si υ ⊗ red(Γ) = ν ⊗ red(Λ), alors υ = ν et red(Γ) = red(Λ)

Conditions d'Existence

Théorème: Kl(TM) possède toutes les puissances dénombrables de 1 si et seulement si M satisfait:

Réductibilité gauche: réductible à gauche vers les éléments inversibles à gauche
Réductibilité coprime droite: réductibilité coprime droite pour les familles coprime gauches
Left-gcd unique: toutes les familles dénombrables non vides possèdent un left-gcd unique (au sens des inversibles droits)

Systèmes de Décomposition

L'article définit trois systèmes de décomposition:

(E₁,M₁) = (Surj ∩ Inj ∩ Inv, Tot)
(E₂,M₂) = (Surj ∩ Inj, Inv ∩ Tot)
(E₃,M₃) = (Surj, Inj ∩ Inv ∩ Tot)

Le système (E₃,M₃) est principalement utilisé pour définir le transducteur minimal, généralisant le système de décomposition du cas du monoïde libre.

Algorithme d'Apprentissage

Cadre Algorithmique (Algorithme 2)

Entrée: EvalL, EquivL
Sortie: Transducteur minimal MinL

1. Initialiser Q = T = {ε}
2. Boucler jusqu'à convergence:
   - Vérifier la condition de fermeture: existe-t-il qa ∈ QA tel que R(q,a,·) 
     ne peut pas être exprimé comme un multiple inversible d'états existants
   - Vérifier les conditions de cohérence: vérifier trois problèmes de cohérence
   - Construire le transducteur hypothétique H(Q,T)
   - Soumettre une requête d'équivalence, traiter les contre-exemples

Conditions de Cohérence

L'algorithme vérifie trois problèmes de cohérence:

Complétude: R(q,a,t) ≠ ⊥ mais R(q,e,T) = ⊥T
Divisibilité: Λ(q,e) ne peut pas diviser à gauche Λ(q,a)R(q,a,t)
Compatibilité: incohérence des sorties de transduction lors de la fusion d'états

Configuration Expérimentale

Vérification Théorique

L'article procède principalement à une analyse théorique, vérifiée par:

Analyse de complexité: preuve que le nombre de mises à jour de l'algorithme est borné
Preuve de terminaison: l'algorithme se termine sur les monoïdes droits Noethériens
Preuve de correction: l'algorithme produit effectivement le transducteur minimal

Analyse d'Exemples

L'article illustre par des exemples concrets:

Le processus d'apprentissage sur le monoïde libre {α,β}*
Les différences sur le monoïde libre commutatif {α,β}⊛
Les applications potentielles sur le monoïde de traces

Résultats Expérimentaux

Bornes de Complexité

Théorème 4.3: L'algorithme est correct et se termine lorsque MinL possède un ensemble d'états fini et M est droit Noethérien. La borne sur le nombre de mises à jour est:

Mises à jour de Q: au plus 3|MinL|st + rk(MinL)
Mises à jour de T: au plus rk(MinL) + |MinL|st

où rk(v) est le rang de v dans M.

Comparaison avec les Conditions de Gerdjikov

Extensibilité: les conditions de cet article couvrent une plus large catégorie de monoïdes
Complexité: la condition GCLF de Gerdjikov fournit de meilleures bornes de complexité
Applicabilité: la méthode de cet article s'applique à certains monoïdes où la méthode de Gerdjikov ne s'applique pas

Vérification par Exemples

Les figures 1 et 2 illustrent des transducteurs concrets montrant:

Les étapes détaillées du processus d'apprentissage
L'impact de différentes structures monoïdales sur les résultats
Le processus de minimisation en quatre étapes (Reach→Total→Prefix→Obs)

Travaux Connexes

Théorie des Transducteurs

Choffrut (2003): minimisation classique des transducteurs
Vilar (1996): algorithme d'apprentissage actif des transducteurs
Gerdjikov (2018): conditions de minimisation des transducteurs monoïdaux

Cadre d'Apprentissage Catégorique

Colcombet-Petrişan-Stabile (2020): approche catégorique pour l'apprentissage d'automates
Angluin (1987): algorithme L*
Apprentissage d'automates pondérés: Bergadano-Varricchio et autres

Théorie des Monoïdes

Monoïde de traces: applications en théorie de la concurrence
Monoïde tropical: (ℝ₊, 0, +) et autres monoïdes non standards
Groupes: monoïdes où tous les éléments sont inversibles

Conclusions et Discussion

Conclusions Principales

Extension réussie du cadre d'apprentissage catégorique aux transducteurs monoïdaux
Fournit les conditions nécessaires et suffisantes pour l'existence du transducteur minimal
Fournit un algorithme d'apprentissage pratique et son analyse de complexité
Le système de décomposition quaternaire fournit une compréhension approfondie des étapes de l'algorithme

Limitations

Vérification pratique insuffisante: manque de vérification dans des scénarios d'application réels
Bornes de complexité: peut avoir une complexité pire comparée à la méthode de Gerdjikov
Exigences de calcul: nécessite la calculabilité des opérations monoïdales, du calcul du left-gcd, etc.
Hypothèse de finitude: la terminaison de l'algorithme nécessite que MinL soit fini et M soit droit Noethérien

Directions Futures

Applications pratiques: exploration des applications du monoïde de traces dans l'ordonnancement de tâches
Systèmes de décomposition n-aires: généralisation à des systèmes de décomposition plus généraux
Sous-classes finies: étude de sous-catégories de transducteurs bien comportés
Optimisation de complexité: recherche de meilleures bornes de complexité

Évaluation Approfondie

Points Forts

Profondeur théorique: fournit une base mathématique rigoureuse et un cadre théorique complet
Innovation méthodologique: extension réussie d'un important cadre d'apprentissage catégorique
Optimisation des conditions: extension de la catégorie des conditions de minimisation connues
Praticité de l'algorithme: fournit une description d'algorithme concrète et implémentable
Perspicacité structurelle: le système de décomposition quaternaire fournit une compréhension approfondie de l'algorithme

Insuffisances

Absence de vérification expérimentale: principalement un travail théorique, manque de vérification expérimentale suffisante
Scénarios d'application flous: bien que des applications potentielles soient mentionnées, manque de cas d'usage pratiques concrets
Compromis de complexité: l'extension de la portée d'applicabilité peut sacrifier la complexité
Hypothèses de calcul fortes: exigences élevées concernant la calculabilité des opérations monoïdales

Impact

Contribution théorique: extension théorique importante pour la théorie des langages formels
Valeur méthodologique: l'application réussie de la méthode catégorique peut inspirer d'autres domaines
Potentiel pratique: fournit une base théorique pour les systèmes concurrents, l'ordonnancement de programmes, etc.
Extensibilité: le cadre possède un potentiel d'extension ultérieure

Scénarios d'Application

Systèmes concurrents: applications du monoïde de traces dans l'analyse de programmes concurrents
Ordonnancement de programmes: conception automatisée de systèmes d'ordonnancement de tâches
Calcul symbolique: systèmes de traitement symbolique nécessitant des propriétés algébriques
Recherche théorique: développement ultérieur de la théorie des langages formels et des automates

Références

L'article cite des travaux importants de plusieurs domaines incluant la théorie des langages formels, la théorie des catégories, la théorie des monoïdes, notamment:

Angluin (1987): Learning regular sets from queries and counterexamples
Colcombet, Petrişan, Stabile (2020-2021): articles originaux du cadre d'apprentissage catégorique
Gerdjikov (2018): travail important sur la minimisation des transducteurs monoïdaux
Mac Lane (1978): Categories for the Working Mathematician

Évaluation Globale: Ceci est un article théorique de haute qualité qui étend avec succès un important cadre d'apprentissage catégorique au contexte plus général des transducteurs monoïdaux. Bien que manquant de vérification expérimentale, les contributions théoriques sont significatives et jettent une base solide pour le développement ultérieur du domaine. La rigueur mathématique et l'innovation méthodologique de l'article sont dignes d'éloges.