Autoformalization serves a crucial role in connecting natural language and formal reasoning. This paper presents MASA, a novel framework for building multi-agent systems for autoformalization driven by Large Language Models (LLMs). MASA leverages collaborative agents to convert natural language statements into their formal representations. The architecture of MASA is designed with a strong emphasis on modularity, flexibility, and extensibility, allowing seamless integration of new agents and tools to adapt to a fast-evolving field. We showcase the effectiveness of MASA through use cases on real-world mathematical definitions and experiments on formal mathematics datasets. This work highlights the potential of multi-agent systems powered by the interaction of LLMs and theorem provers in enhancing the efficiency and reliability of autoformalization, providing valuable insights and support for researchers and practitioners in the field.
- ID Articolo: 2510.08988
- Titolo: MASA: LLM-Driven Multi-Agent Systems for Autoformalization
- Autori: Lan Zhang (University of Manchester), Marco Valentino (University of Sheffield), André Freitas (University of Manchester, Idiap Research Institute, National Biomarker Centre)
- Classificazione: cs.CL (Linguistica Computazionale), cs.FL (Linguaggi Formali)
- Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.08988
L'autoformalizzazione svolge un ruolo cruciale nel collegare il linguaggio naturale e il ragionamento formale. Questo articolo presenta MASA, un framework per sistemi multi-agente guidati da modelli di linguaggio di grandi dimensioni (LLM) per compiti di autoformalizzazione. MASA sfrutta agenti collaborativi per convertire enunciati in linguaggio naturale nelle loro rappresentazioni formali. L'architettura di MASA enfatizza modularità, flessibilità e scalabilità, consentendo l'integrazione senza soluzione di continuità di nuovi agenti e strumenti per adattarsi al rapido sviluppo del campo. Gli autori dimostrano l'efficacia di MASA attraverso casi d'uso di definizioni matematiche nel mondo reale e esperimenti su dataset di matematica formale. Questo lavoro evidenzia il potenziale dei sistemi multi-agente guidati dall'interazione tra LLM e provatori di teoremi nel migliorare l'efficienza e l'affidabilità dell'autoformalizzazione.
L'autoformalizzazione è il compito di convertire automaticamente enunciati matematici in linguaggio naturale in formule logiche formali verificabili da macchina. Le sfide fondamentali di questo problema sono:
- Divario Semantico: Esiste una differenza sostanziale tra l'ambiguità del linguaggio naturale e la rigidità del linguaggio formale
- Complessità: Gli enunciati matematici nel mondo reale spesso coinvolgono concetti complessi e catene di ragionamento articolate
- Requisiti di Accuratezza: I risultati della formalizzazione devono essere corretti sia sintatticamente che semanticamente
L'autoformalizzazione ha un'importanza significativa:
- Verifica Matematica: Fornisce le basi per la dimostrazione di teoremi e la verifica matematica
- Trasparenza del Ragionamento: Il ragionamento formale è più sistematico, trasparente e rigoroso rispetto al ragionamento in linguaggio naturale
- Necessità di Automazione: La formalizzazione manuale richiede notevoli competenze specializzate e investimenti di tempo
I sistemi di autoformalizzazione basati su LLM esistenti presentano i seguenti problemi:
- Limitazioni dell'Architettura Monolitica: Un singolo LLM ha difficoltà nel gestire problemi complessi di autoformalizzazione nel mondo reale
- Mancanza di Modularità: Le implementazioni esistenti mancano di modularità, flessibilità e scalabilità
- Interazione Insufficiente tra Componenti: Incapacità di integrare efficacemente più componenti interattivi
La motivazione degli autori nel proporre il framework MASA è:
- Costruire sistemi multi-agente modulari per affrontare la complessità dell'autoformalizzazione
- Fornire un framework flessibile e scalabile che supporti i ricercatori nello sviluppo e nell'estensione rapida del sistema
- Migliorare l'efficienza e l'affidabilità dell'autoformalizzazione attraverso la collaborazione tra agenti
- Propone un Framework Multi-Agente Modulare: MASA fornisce un framework modulare per la costruzione di sistemi multi-agente per l'autoformalizzazione, con eccellente flessibilità e scalabilità
- Dimostra Applicazioni nel Mondo Reale: Attraverso la formalizzazione di definizioni matematiche nel mondo reale da parte degli agenti, evidenzia il potenziale pratico del framework
- Valutazione Sistematica: Valuta il framework in tre diverse configurazioni multi-agente, provando la sua efficacia e fornendo intuizioni preziose. Il sistema finale di auto-miglioramento iterativo raggiunge tassi di formalizzazione sintatticamente corretti e semanticamente allineati del 35,25% su Qwen2.5-7B e del 61,89% su GPT-4.1-mini
- Implementazione Open-Source: Fornisce codice e dati completi, riducendo le barriere di ricerca
L'autoformalizzazione può essere definita come una funzione di trasformazione A che mappa un enunciato in linguaggio naturale s alla sua rappresentazione formale φ = A(s). Gli approcci tradizionali implementano questo attraverso prompt LLM: A = LLM(prompt). MASA estende questa definizione implementando un processo di trasformazione più complesso attraverso un sistema multi-agente.
Il framework MASA contiene cinque componenti fondamentali:
Gli agenti sono elementi fondamentali che eseguono funzioni specifiche, includendo:
- AutoformalizationAgent: Esegue l'autoformalizzazione con pochi esempi
- HardCritiqueAgent: Fornisce critiche a livello sintattico basate su provatori di teoremi
- SoftCritiqueAgent: Fornisce critiche a livello semantico basate su LLM
- FormalRefinementAgent: Migliora il codice formalizzato basato su critiche hard
- InformalRefinementAgent: Migliora il codice formalizzato basato su critiche soft
- DenoisingAgent: Agente strumento per la riduzione del rumore
- ImportRetrievalAgent: Agente strumento per il recupero di importazioni
L'LLM fornisce capacità di ragionamento e linguaggio agli agenti, supportando:
- Modelli OpenAI (come GPT-4.1-mini)
- Modelli locali HuggingFace (come Qwen2.5-7B, DeepSeek-Math)
Memorizza informazioni sulla libreria di linguaggi formali, supportando il recupero di conoscenze rilevanti. L'implementazione attuale include una base di conoscenza di enunciati e prove formali Isabelle/HOL.
Classifica i punti dati nella libreria matematica per rilevanza, con implementazione attuale basata sul metodo BM25.
Verifica la correttezza sintattica e logica della formalizzazione, fornendo messaggi di errore. Supporta:
- Isabelle (tramite server dedicato)
- Lean4 (tramite REPL)
- Progettazione Modulare: Utilizza il design della classe base astratta, facilitando l'estensione di nuovi agenti e strumenti
- Meccanismo di Critica Multi-Livello: Combina critiche hard (sintassi) e soft (semantica)
- Processo di Miglioramento Iterativo: Supporta la collaborazione multi-agente con auto-miglioramento iterativo
- Integrazione di Agenti Strumento: Integra strumenti pratici come riduzione del rumore e recupero di importazioni
- miniF2F: Fornisce formalizzazioni reali in Isabelle/HOL e Lean4, utilizzate per il benchmarking
- ProofNet: Fornisce formalizzazioni reali di codice Lean4
- Pass Rate: Percentuale di formalizzazioni sintatticamente corrette
- BLEU-4: Sovrapposizione n-gram con formalizzazioni reali
- ChrF: F-score a livello di carattere
- RUBY: Metrica di valutazione della migrazione del codice
- Alignment Faithfulness (AF): Se il codice formalizzato si allinea accuratamente alla semantica del linguaggio naturale
- Formalization Correctness (FC): Se il codice formalizzato stesso è valido, naturale e ben formattato
- Prompt Zero-Shot (ZS): Utilizzo diretto di LLM per la formalizzazione
- Prompt Few-Shot (FS): Formalizzazione utilizzando 3 esempi
- Diverse Combinazioni di LLM: GPT-4.1-mini, DeepSeek-Math-7B, Qwen2.5-7B
- Utilizzo di GPT-4.1-mini come LLM backend per l'agente di critica soft
- Supporto per due linguaggi formali: Isabelle/HOL e Lean4
- Implementazione Python completa e esempi di Jupyter Notebook
miniF2F-Test (Isabelle/HOL):
- GPT-4.1-mini zero-shot: Pass Rate 65,57% → 77,05% (+11,48%)
- GPT-4.1-mini few-shot: Pass Rate 76,23% → 86,48% (+10,25%)
- DeepSeek-Math few-shot: Pass Rate 29,10% → 36,48% (+7,38%)
ProofNet-Test (Lean4):
- GPT-4.1-mini zero-shot: Pass Rate 3,30% → 3,85% (+0,55%)
- GPT-4.1-mini few-shot: Pass Rate 12,09% → 14,84% (+2,75%)
miniF2F (Lean4):
- DeepSeek-Math + GPT-4.1-mini migliorato: AF 38,52% → 90,57%, FC 47,54% → 79,92%
- Qwen2.5-7B + GPT-4.1-mini migliorato: AF 54,51% → 93,44%, FC 62,70% → 85,25%
I risultati della Figura 2 mostrano:
- Qwen2.5-7B: Dopo 4 iterazioni, la proporzione di formalizzazioni sintatticamente corrette e semanticamente allineate raggiunge il 35,25%
- GPT-4.1-mini: Dopo 4 iterazioni, la proporzione di formalizzazioni sintatticamente corrette e semanticamente allineate raggiunge il 61,89%
- Few-Shot Superiore a Zero-Shot: In tutte le configurazioni, l'apprendimento few-shot migliora significativamente le prestazioni
- Impatto della Capacità del Modello: I modelli più forti (GPT-4.1-mini) mostrano prestazioni migliori nel miglioramento formale
- Efficacia del Miglioramento Iterativo: Le iterazioni multiple migliorano continuamente la qualità della formalizzazione
- Miglioramento Cross-Modello: I modelli più forti possono migliorare gli output dei modelli più deboli
- Metodi di Prompt: Wu et al. (2022) e altri utilizzano prompt LLM per l'autoformalizzazione
- Generazione di Dati: Jiang et al. (2024) e Liu et al. (2025b) sviluppano corpora paralleli su larga scala
- Implementazioni di Sistemi: I sistemi esistenti mancano di modularità e scalabilità
- Campi di Applicazione: Sistemi operativi, educazione medica, verifica di risposte
- Compiti di Ragionamento: Ragionamento aritmetico e ragionamento generale
- Applicazioni all'Autoformalizzazione: La ricerca su sistemi multi-agente nel campo dell'autoformalizzazione è limitata
- Efficacia del Framework: MASA costruisce con successo un sistema multi-agente modulare per l'autoformalizzazione
- Miglioramento delle Prestazioni: La collaborazione multi-agente migliora significativamente l'accuratezza dell'autoformalizzazione
- Valore Pratico: Il framework fornisce ai ricercatori una piattaforma di sviluppo flessibile
- Mancanza di Controllo Centrale: Il sistema manca di un agente centrale per assegnare e controllare diversi agenti
- Limitazioni della Valutazione Semantica: La valutazione semantica è limitata a giudizi di alto livello, richiedendo standard di valutazione più granulari
- Dipendenza dal Modello: Le prestazioni del sistema dipendono in larga misura dalle capacità dell'LLM sottostante
- Controllo Centrale Migliorato: Sviluppare meccanismi di controllo di sistemi multi-agente più avanzati
- Valutazione Affinata: Stabilire standard di valutazione semantica più precisi
- Estensione delle Applicazioni: Applicare il framework a compiti di formalizzazione più ampi
- Forte Innovatività: Primo framework sistematico multi-agente per l'autoformalizzazione
- Progettazione Razionale: L'architettura modulare è elegante e facile da estendere
- Esperimenti Completi: Copre diverse configurazioni e metriche di valutazione
- Alto Valore Pratico: L'implementazione open-source riduce le barriere di ricerca
- Risultati Convincenti: Valida l'efficacia del metodo su più dataset
- Analisi Teorica Limitata: Manca l'analisi teorica dei meccanismi di collaborazione multi-agente
- Costi Computazionali: L'analisi dei costi computazionali del sistema multi-agente è insufficiente
- Propagazione degli Errori: Manca un'analisi approfondita della propagazione degli errori tra agenti
- Limitazioni della Valutazione: La valutazione semantica dipende ancora dal giudizio dell'LLM, con possibili distorsioni
- Contributo Accademico: Fornisce un nuovo paradigma per la ricerca sull'autoformalizzazione
- Valore Pratico: Il framework può essere utilizzato direttamente nello sviluppo di applicazioni pratiche
- Riproducibilità: L'implementazione open-source completa garantisce la riproducibilità
- Promozione dello Sviluppo: Potrebbe promuovere l'applicazione di sistemi multi-agente nel campo della formalizzazione
- Formalizzazione Matematica: Adatto alla formalizzazione automatica di teoremi e definizioni matematiche complesse
- Applicazioni Educative: Può essere utilizzato per l'addestramento alla formalizzazione nell'insegnamento della matematica
- Strumento di Ricerca: Fornisce una piattaforma di base per la ricerca sull'autoformalizzazione
- Applicazioni Industriali: Può essere integrato in sistemi software che richiedono verifica formale
La bibliografia chiave include:
- Wu et al. (2022): Autoformalization with large language models
- Zheng et al. (2022): miniF2F: a cross-system benchmark for formal olympiad-level mathematics
- Azerbayev et al. (2023): ProofNet: Autoformalizing and formally proving undergraduate-level mathematics
- Jiang et al. (2023): Draft, sketch, and prove: Guiding formal theorem provers with informal proofs
Sintesi: MASA è un framework innovativo multi-agente per l'autoformalizzazione che migliora significativamente gli effetti dell'autoformalizzazione attraverso la progettazione modulare e la collaborazione tra agenti. Questo lavoro dimostra eccellenza in innovazione tecnica, verifica sperimentale e valore pratico, aprendo nuove direzioni per la ricerca sull'autoformalizzazione. Nonostante alcune limitazioni, la sua implementazione open-source e la buona scalabilità lo rendono un contributo importante nel campo.