Towards Autoformalization of LLM-generated Outputs for Requirement Verification
Gupte, S
Autoformalization, the process of translating informal statements into formal logic, has gained renewed interest with the emergence of powerful Large Language Models (LLMs). While LLMs show promise in generating structured outputs from natural language (NL), such as Gherkin Scenarios from NL feature requirements, there's currently no formal method to verify if these outputs are accurate. This paper takes a preliminary step toward addressing this gap by exploring the use of a simple LLM-based autoformalizer to verify LLM-generated outputs against a small set of natural language requirements. We conducted two distinct experiments. In the first one, the autoformalizer successfully identified that two differently-worded NL requirements were logically equivalent, demonstrating the pipeline's potential for consistency checks. In the second, the autoformalizer was used to identify a logical inconsistency between a given NL requirement and an LLM-generated output, highlighting its utility as a formal verification tool. Our findings, while limited, suggest that autoformalization holds significant potential for ensuring the fidelity and logical consistency of LLM-generated outputs, laying a crucial foundation for future, more extensive studies into this novel application.
academic
Verso l'Autoformalizzazione degli Output Generati da LLM per la Verifica dei Requisiti
Questo articolo esplora la fattibilità dell'utilizzo di tecniche di autoformalizzazione per verificare l'accuratezza degli output generati da modelli di linguaggio di grandi dimensioni (LLM). Poiché gli LLM hanno dimostrato potenziale nel convertire requisiti in linguaggio naturale in output strutturati (come scenari Gherkin), la verifica formale dell'accuratezza di questi output diventa una questione critica. Il team di ricerca ha condotto due serie di esperimenti: la prima ha identificato con successo l'equivalenza logica tra due requisiti in linguaggio naturale con formulazioni diverse; la seconda ha identificato incoerenze logiche tra gli output generati da LLM e i requisiti originali. Sebbene l'ambito della ricerca sia limitato, i risultati indicano che l'autoformalizzazione ha un potenziale significativo nel garantire la fedeltà e la coerenza logica degli output generati da LLM.
Con la diffusione delle applicazioni LLM, in particolare nella generazione automatica di scenari di test e altri compiti ingegneristici, esiste una sfida critica: la mancanza di metodi formali per verificare se gli output generati da LLM riflettono accuratamente i requisiti originali in linguaggio naturale. Ad esempio, dopo aver generato uno scenario Gherkin da un requisito come "Quando la velocità del veicolo ≥ 10 e la cintura di sicurezza non è allacciata, attivare il promemoria della cintura di sicurezza", non è possibile garantire la correttezza logica del contenuto generato.
Nei settori critici per la sicurezza come l'ingegneria automobilistica, la verifica dei requisiti è fondamentale. Una conversione errata dei requisiti può portare a:
Casi di test incompleti o errati
Comportamento del sistema non conforme alle aspettative
Metodi di formalizzazione tradizionali: principalmente applicati alla dimostrazione di teoremi matematici, con scarsa applicazione alla verifica dei requisiti ingegneristici
Metodi di valutazione degli LLM: dipendono da controlli manuali o metodi euristici, mancano di verifica logica rigorosa
Ricerca sull'autoformalizzazione: principalmente focalizzata sulla costruzione di dataset e l'addestramento di modelli, con scarsa attenzione alle applicazioni ingegneristiche pratiche
Questo articolo propone l'applicazione di tecniche di autoformalizzazione a un nuovo scenario: la verifica degli output generati da LLM. Convertendo sia i requisiti in linguaggio naturale che gli output generati da LLM in rappresentazioni di logica formale (Lean 4), si utilizza un dimostratore di teoremi per verificare l'equivalenza logica.
Propone la prima pipeline di autoformalizzazione specificamente progettata per la verifica degli output generati da LLM: converte i requisiti in linguaggio naturale e gli output degli LLM in rappresentazioni formalizzate in Lean 4, verificando la coerenza logica attraverso la dimostrazione di equivalenza bicondizioanale
Valida due scenari di applicazione concreti:
Identifica l'equivalenza logica di requisiti in linguaggio naturale con formulazioni diverse
Rileva incoerenze logiche tra gli output generati da LLM e i requisiti originali
Identifica sfide tecniche critiche:
La necessità e la difficoltà di automazione del grounding delle variabili
L'impatto della non-determinismo degli LLM sulla formalizzazione
La gestione dell'ambiguità del linguaggio naturale
Propone direzioni di ricerca future: pone le basi per la costruzione di un framework affidabile per la verifica degli output degli LLM
Innovazione nell'Applicazione Interdisciplinare: Prima applicazione di tecniche di autoformalizzazione dal campo della dimostrazione di teoremi matematici alla verifica dei requisiti dell'ingegneria del software
Utilizzo Doppio di LLM:
Primo livello: traduzione di formalizzazione (NL → Lean)
Secondo livello: dimostrazione di teoremi (verifica di equivalenza)
Meccanismo di Verifica Basato sul Fallimento: Utilizza il fallimento del dimostratore di teoremi come indicatore di incoerenza logica, un metodo di verifica negativa innovativo
Identificazione del Grounding delle Variabili: Identifica esplicitamente il grounding delle variabili come passaggio indispensabile nella pipeline di autoformalizzazione, aspetto non sufficientemente enfatizzato nella ricerca precedente
R1 e R2 sono stati convertiti con successo in proposizioni Lean (Figure 3, 4)
La mappatura delle variabili è stata stabilita manualmente:
vehicle_speed_avg ≡ mean_vehicle_speed
seatbelt_active ≡ seatbelt_plugged_in
Risultati di Verifica (Figura 5):
✅ Compilazione Lean riuscita
✅ Dimostrazione del teorema req1_eq_req2 riuscita
Conclusione: R1 e R2 sono logicamente equivalenti
Significato: Dimostra che la pipeline può identificare requisiti semanticamente identici ma con formulazioni diverse, utile per il controllo della coerenza dei requisiti.
La struttura logica è più complessa (contiene 4 scenari di esempio)
Risultati di Verifica (Figura 8):
❌ Compilazione del codice Lean fallita o dimostrazione fallita
Conclusione: G3 è logicamente incoerente con R3
Significato: Rileva con successo il problema della "sovra-generazione" negli output degli LLM — l'aggiunta di condizioni vincolanti non presenti nei requisiti originali.
La Formalizzazione Dipende dall'Interpretabilità: La non-determinismo degli LLM porta a possibili diverse formalizzazioni dello stesso requisito, tutte potenzialmente "ragionevoli"
Il Grounding delle Variabili è un Collo di Bottiglia:
Passaggio più dispendioso in termini di tempo
Richiede conoscenza del dominio del sistema
Attualmente realizzabile solo manualmente
Il Contesto del Sistema è Critico: L'assenza di definizioni esplicite del sistema (come dizionari di dati) porta a incoerenze nella formalizzazione
La Verifica Negativa è Efficace: Il fallimento della dimostrazione può indicare efficacemente l'incoerenza logica
Risoluzione di Problemi Matematici: Matematica da scuola superiore a università
Verifica del Codice: Verifica della correttezza dei programmi
Biomedica: Verifica dei fatti
Contributo di questo Articolo: Prima applicazione dell'autoformalizzazione alla verifica dei requisiti ingegneristici e alla verifica degli output degli LLM, aprendo una nuova direzione di ricerca.
Verifica della Fattibilità: La pipeline di autoformalizzazione può verificare efficacemente la coerenza logica tra gli output generati da LLM e i requisiti originali
Valore Doppio dell'Applicazione:
Controllo della coerenza dei requisiti (identificazione di requisiti equivalenti)
Controllo della qualità degli output degli LLM (rilevamento di errori logici)
Prova di Concetto: Sebbene il campione sia limitato, dimostra con successo il potenziale dell'applicazione di tecniche di dimostrazione di teoremi all'ingegneria del software
Weng et al. (2025): Autoformalization in the era of large language models: A survey - Letteratura di rassegna
Wu et al. (2022): Autoformalization with large language models - Lavoro fondamentale sull'autoformalizzazione
Ren et al. (2025): DeepSeek-Prover-v2 - Modello principale utilizzato in questo articolo
Jiang et al. (2022): Draft, sketch, and prove - Metodo di decomposizione dei sotto-obiettivi
de Moura & Ullrich (2021): The Lean 4 theorem prover - Linguaggio di formalizzazione
Valutazione Complessiva: Questo è un articolo di verifica di concetto di natura esplorativa che propone una nuova direzione di ricerca di valore, ma con verifica sperimentale gravemente insufficiente. Come preprint e ricerca preliminare, identifica con successo problemi chiave e fornisce un percorso tecnico fattibile, ma rimane a grande distanza da una soluzione matura. Il valore principale dell'articolo risiede nella definizione del problema e nella guida direzionale, piuttosto che nel breakthrough tecnico. Si raccomanda che i lavori successivi si concentrino sulla risoluzione dell'automazione del grounding delle variabili e sulla valutazione su larga scala.