Autoformalization serves a crucial role in connecting natural language and formal reasoning. This paper presents MASA, a novel framework for building multi-agent systems for autoformalization driven by Large Language Models (LLMs). MASA leverages collaborative agents to convert natural language statements into their formal representations. The architecture of MASA is designed with a strong emphasis on modularity, flexibility, and extensibility, allowing seamless integration of new agents and tools to adapt to a fast-evolving field. We showcase the effectiveness of MASA through use cases on real-world mathematical definitions and experiments on formal mathematics datasets. This work highlights the potential of multi-agent systems powered by the interaction of LLMs and theorem provers in enhancing the efficiency and reliability of autoformalization, providing valuable insights and support for researchers and practitioners in the field.
- ID de l'article : 2510.08988
- Titre : MASA: LLM-Driven Multi-Agent Systems for Autoformalization
- Auteurs : Lan Zhang (University of Manchester), Marco Valentino (University of Sheffield), André Freitas (University of Manchester, Idiap Research Institute, National Biomarker Centre)
- Classification : cs.CL (Linguistique Computationnelle), cs.FL (Langages Formels)
- Date de publication : 10 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.08988
L'autoformalisation joue un rôle crucial dans la connexion entre le langage naturel et le raisonnement formel. Cet article propose MASA, un cadre de construction de systèmes multi-agents pilotés par des modèles de langage de grande taille (LLMs) pour les tâches d'autoformalisation. MASA exploite des agents collaboratifs pour convertir les énoncés en langage naturel en leurs représentations formelles. L'architecture de MASA met l'accent sur la modularité, la flexibilité et l'extensibilité, permettant l'intégration transparente de nouveaux agents et outils pour s'adapter à l'évolution rapide du domaine. Les auteurs démontrent l'efficacité de MASA par des cas d'usage impliquant des définitions mathématiques du monde réel et des expériences sur des ensembles de données de mathématiques formelles. Ce travail souligne le potentiel des systèmes multi-agents pilotés par les LLMs et l'interaction avec les prouveurs de théorèmes pour améliorer l'efficacité et la fiabilité de l'autoformalisation.
L'autoformalisation est la tâche de convertir automatiquement des énoncés mathématiques en langage naturel en formules logiques formelles vérifiables par machine. Les défis fondamentaux de ce problème sont :
- Fossé sémantique : Écart considérable entre l'ambiguïté du langage naturel et la rigueur du langage formel
- Complexité : Les énoncés mathématiques du monde réel impliquent souvent des concepts complexes et des chaînes de raisonnement élaborées
- Exigences de précision : Les résultats formalisés doivent être corrects tant sur le plan syntaxique que sémantique
L'autoformalisation revêt une importance significative :
- Vérification mathématique : Fournit une base pour la preuve de théorèmes et la vérification mathématique
- Transparence du raisonnement : Le raisonnement formel est plus systématique, transparent et rigoureux que le raisonnement en langage naturel
- Besoin d'automatisation : La formalisation manuelle nécessite des connaissances spécialisées considérables et des investissements temporels
Les systèmes d'autoformalisation basés sur les LLMs existants présentent les problèmes suivants :
- Limitations architecturales monolithiques : Un seul LLM a du mal à traiter les problèmes d'autoformalisation complexes du monde réel
- Manque de modularité : Les implémentations existantes manquent de modularité, de flexibilité et d'extensibilité
- Interaction insuffisante des composants : Incapacité à intégrer efficacement plusieurs composants interactifs
Les auteurs proposent le cadre MASA motivés par :
- La construction de systèmes multi-agents modulaires pour résoudre la complexité de l'autoformalisation
- La fourniture d'un cadre flexible et extensible permettant aux chercheurs de développer et d'étendre rapidement les systèmes
- L'amélioration de l'efficacité et de la fiabilité de l'autoformalisation par la collaboration entre agents
- Proposition d'un cadre multi-agents modulaire : MASA fournit un cadre modulaire pour la construction de systèmes multi-agents d'autoformalisation, offrant une bonne flexibilité et extensibilité
- Démonstration d'applications du monde réel : Par la formalisation d'agents de définitions mathématiques du monde réel, le cadre met en évidence son potentiel pratique
- Évaluation systématique : Évaluation du cadre dans trois configurations multi-agents, démontrant son efficacité et fournissant des perspectives précieuses. Le système d'amélioration itérative finale atteint des taux de formalisation syntaxiquement corrects et sémantiquement alignés de 35,25 % et 61,89 % respectivement sur Qwen2.5-7B et GPT-4.1-mini
- Implémentation open-source : Fourniture de code et de données complets, réduisant les obstacles à la recherche
L'autoformalisation peut être définie comme une fonction de transformation A qui mappe un énoncé en langage naturel s à sa représentation formelle φ = A(s). Les approches traditionnelles l'implémentent via des invites LLM : A = LLM(prompt). MASA étend cette définition en implémentant un processus de transformation plus complexe via un système multi-agents.
Le cadre MASA comprend cinq composants fondamentaux :
Les agents sont des éléments fondamentaux exécutant des fonctions spécifiques, incluant :
- AutoformalizationAgent : Exécute l'autoformalisation avec peu d'exemples
- HardCritiqueAgent : Fournit des critiques au niveau syntaxique basées sur le prouveur de théorèmes
- SoftCritiqueAgent : Fournit des critiques au niveau sémantique basées sur le LLM
- FormalRefinementAgent : Affine le code formel basé sur les critiques dures
- InformalRefinementAgent : Affine le code formel basé sur les critiques douces
- DenoisingAgent : Agent outil de débruitage
- ImportRetrievalAgent : Agent outil de récupération d'importations
Le LLM fournit aux agents des capacités de raisonnement et de langage, supportant :
- Les modèles OpenAI (comme GPT-4.1-mini)
- Les modèles locaux HuggingFace (comme Qwen2.5-7B, DeepSeek-Math)
Stocke les informations des bibliothèques de langages formels, supportant la récupération de connaissances pertinentes. L'implémentation actuelle comprend une base de connaissances des énoncés et preuves formels Isabelle/HOL.
Classe les points de données dans les bibliothèques mathématiques par pertinence, l'implémentation actuelle étant basée sur la méthode BM25.
Vérifie la correction syntaxique et logique de la formalisation, fournissant des messages d'erreur. Supporte :
- Isabelle (via serveur dédié)
- Lean4 (via REPL)
- Conception modulaire : Utilise une conception de classe de base abstraite, facilitant l'extension de nouveaux agents et outils
- Mécanisme de critique multi-niveaux : Combine les critiques dures (syntaxe) et douces (sémantique)
- Processus d'amélioration itérative : Supporte la collaboration multi-agents d'auto-amélioration
- Intégration d'agents outils : Intègre des outils pratiques tels que le débruitage et la récupération d'importations
- miniF2F : Fournit des formalisations réelles en Isabelle/HOL et Lean4, utilisées pour l'évaluation comparative
- ProofNet : Fournit des formalisations réelles de code Lean4
- Pass Rate : Pourcentage de formalisations syntaxiquement correctes
- BLEU-4 : Chevauchement d'n-grammes avec la formalisation réelle
- ChrF : F-score au niveau des caractères
- RUBY : Métrique d'évaluation de migration de code
- Alignment Faithfulness (AF) : Si le code formel s'aligne précisément avec la sémantique du langage naturel
- Formalization Correctness (FC) : Si le code formel lui-même est valide, naturel et bien formaté
- Invites zéro-shot (ZS) : Utilisation directe du LLM pour la formalisation
- Invites few-shot (FS) : Formalisation utilisant 3 exemples
- Différentes combinaisons de LLM : GPT-4.1-mini, DeepSeek-Math-7B, Qwen2.5-7B
- Utilisation de GPT-4.1-mini comme LLM backend pour l'agent de critique douce
- Support des deux langages formels Isabelle/HOL et Lean4
- Implémentation Python complète et exemples de Jupyter Notebook
miniF2F-Test (Isabelle/HOL) :
- GPT-4.1-mini zéro-shot : Pass Rate 65,57 % → 77,05 % (+11,48 %)
- GPT-4.1-mini few-shot : Pass Rate 76,23 % → 86,48 % (+10,25 %)
- DeepSeek-Math few-shot : Pass Rate 29,10 % → 36,48 % (+7,38 %)
ProofNet-Test (Lean4) :
- GPT-4.1-mini zéro-shot : Pass Rate 3,30 % → 3,85 % (+0,55 %)
- GPT-4.1-mini few-shot : Pass Rate 12,09 % → 14,84 % (+2,75 %)
miniF2F (Lean4) :
- DeepSeek-Math + GPT-4.1-mini amélioration : AF 38,52 % → 90,57 %, FC 47,54 % → 79,92 %
- Qwen2.5-7B + GPT-4.1-mini amélioration : AF 54,51 % → 93,44 %, FC 62,70 % → 85,25 %
Les résultats de la Figure 2 montrent :
- Qwen2.5-7B : Après 4 itérations, la proportion syntaxiquement correcte et sémantiquement alignée atteint 35,25 %
- GPT-4.1-mini : Après 4 itérations, la proportion syntaxiquement correcte et sémantiquement alignée atteint 61,89 %
- Few-shot surpasse zéro-shot : L'apprentissage few-shot améliore significativement les performances dans tous les contextes
- Impact de la capacité du modèle : Les modèles forts (GPT-4.1-mini) performent mieux dans l'amélioration formelle
- Efficacité de l'amélioration itérative : Les itérations multiples améliorent continuellement la qualité de la formalisation
- Amélioration inter-modèles : Les modèles forts peuvent améliorer les résultats des modèles faibles
- Méthodes d'invites : Wu et al. (2022) et autres utilisent les invites LLM pour l'autoformalisation
- Génération de données : Jiang et al. (2024) et Liu et al. (2025b) développent des corpus parallèles à grande échelle
- Implémentations système : Les systèmes existants manquent de modularité et d'extensibilité
- Domaines d'application : Systèmes d'exploitation, éducation médicale, vérification de réponses, etc.
- Tâches de raisonnement : Raisonnement arithmétique et raisonnement général
- Applications d'autoformalisation : La recherche sur les systèmes multi-agents dans le domaine de l'autoformalisation est limitée
- Efficacité du cadre : MASA a construit avec succès un système multi-agents d'autoformalisation modulaire
- Amélioration des performances : La collaboration multi-agents améliore significativement la précision de l'autoformalisation
- Valeur pratique : Le cadre fournit aux chercheurs une plateforme de développement flexible
- Absence de contrôle central : Le système manque d'un agent central pour allouer et contrôler différents agents
- Limitations de l'évaluation sémantique : L'évaluation sémantique se limite aux jugements de haut niveau, nécessitant des critères d'évaluation plus granulaires
- Dépendance au modèle : Les performances du système dépendent largement des capacités du LLM sous-jacent
- Amélioration du contrôle central : Développer des mécanismes de contrôle de systèmes multi-agents plus avancés
- Affinement de l'évaluation : Établir des critères d'évaluation sémantique plus précis
- Extension des applications : Appliquer le cadre à un éventail plus large de tâches de formalisation
- Innovation forte : Premier cadre systématique d'autoformalisation multi-agents
- Conception judicieuse : L'architecture modulaire est élégante et facilement extensible
- Expériences complètes : Couvre plusieurs configurations et métriques d'évaluation
- Valeur pratique élevée : L'implémentation open-source réduit les obstacles à la recherche
- Résultats convaincants : Validation de l'efficacité de la méthode sur plusieurs ensembles de données
- Analyse théorique insuffisante : Manque d'analyse théorique des mécanismes de collaboration multi-agents
- Coût computationnel : L'analyse des frais généraux de calcul du système multi-agents est insuffisante
- Propagation d'erreurs : Analyse insuffisante du problème de propagation d'erreurs entre agents
- Limitations d'évaluation : L'évaluation sémantique dépend toujours du jugement du LLM, pouvant présenter des biais
- Contribution académique : Fournit un nouveau paradigme pour la recherche en autoformalisation
- Valeur pratique : Le cadre peut être directement utilisé pour le développement d'applications
- Reproductibilité : L'implémentation open-source complète garantit la reproductibilité
- Promotion du développement : Susceptible de promouvoir l'application des systèmes multi-agents dans le domaine de la formalisation
- Formalisation mathématique : Appropriée pour l'autoformalisation de théorèmes et définitions mathématiques complexes
- Applications éducatives : Peut être utilisée pour la formation à la formalisation dans l'enseignement mathématique
- Outil de recherche : Fournit une plateforme de base pour la recherche en autoformalisation
- Applications industrielles : Peut être intégrée dans les systèmes logiciels nécessitant une vérification formelle
Les références clés incluent :
- Wu et al. (2022): Autoformalization with large language models
- Zheng et al. (2022): miniF2F: a cross-system benchmark for formal olympiad-level mathematics
- Azerbayev et al. (2023): ProofNet: Autoformalizing and formally proving undergraduate-level mathematics
- Jiang et al. (2023): Draft, sketch, and prove: Guiding formal theorem provers with informal proofs
Résumé : MASA est un cadre d'autoformalisation multi-agents innovant qui améliore significativement l'efficacité de l'autoformalisation grâce à une conception modulaire et à la collaboration entre agents. Ce travail excelle en innovation technique, validation expérimentale et valeur pratique, ouvrant de nouvelles directions pour la recherche en autoformalisation. Malgré certaines limitations, son implémentation open-source et sa bonne extensibilité en font une contribution importante au domaine.