Towards Autoformalization of LLM-generated Outputs for Requirement Verification
Gupte, S
Autoformalization, the process of translating informal statements into formal logic, has gained renewed interest with the emergence of powerful Large Language Models (LLMs). While LLMs show promise in generating structured outputs from natural language (NL), such as Gherkin Scenarios from NL feature requirements, there's currently no formal method to verify if these outputs are accurate. This paper takes a preliminary step toward addressing this gap by exploring the use of a simple LLM-based autoformalizer to verify LLM-generated outputs against a small set of natural language requirements. We conducted two distinct experiments. In the first one, the autoformalizer successfully identified that two differently-worded NL requirements were logically equivalent, demonstrating the pipeline's potential for consistency checks. In the second, the autoformalizer was used to identify a logical inconsistency between a given NL requirement and an LLM-generated output, highlighting its utility as a formal verification tool. Our findings, while limited, suggest that autoformalization holds significant potential for ensuring the fidelity and logical consistency of LLM-generated outputs, laying a crucial foundation for future, more extensive studies into this novel application.
academic
Zur Autoformaliserung von LLM-generierten Ausgaben für die Anforderungsverifikation
Dieses Papier untersucht die Machbarkeit der Verwendung von Autoformaliserungstechniken zur Verifikation von Ausgaben großer Sprachmodelle (LLM). Da LLMs Potenzial bei der Umwandlung von natürlichsprachigen Anforderungen in strukturierte Ausgaben (wie Gherkin-Szenarien) zeigen, wird die Frage nach der formalen Verifikation der Genauigkeit dieser Ausgaben zum Schlüsselproblem. Das Forschungsteam führte zwei Versuchsgruppen durch: Die erste Gruppe identifizierte erfolgreich zwei unterschiedlich formulierte natürlichsprachige Anforderungen als logisch äquivalent; die zweite Gruppe identifizierte logische Inkonsistenzen zwischen LLM-generierten Ausgaben und ursprünglichen Anforderungen. Obwohl der Forschungsumfang begrenzt ist, deuten die Ergebnisse darauf hin, dass die Autoformaliserung erhebliches Potenzial bei der Gewährleistung der Treue und logischen Konsistenz von LLM-generierten Ausgaben hat.
Mit der weit verbreiteten Anwendung von LLMs, insbesondere bei der automatischen Generierung von Testszenarien in Ingenieuraufgaben, besteht eine kritische Herausforderung: Es fehlen formale Methoden zur Verifikation, ob LLM-generierte Ausgaben die ursprünglichen natürlichsprachigen Anforderungen korrekt widerspiegeln. Beispielsweise kann nach der Generierung eines Gherkin-Szenarios aus einer Anforderung wie „Wenn die Fahrzeuggeschwindigkeit ≥ 10 und der Sicherheitsgurt nicht angelegt ist, dann Sicherheitsgurt-Warnung aktivieren" nicht gewährleistet werden, dass der generierte Inhalt logisch korrekt ist.
In sicherheitskritischen Bereichen wie der Automobilindustrie ist die Anforderungsverifikation von entscheidender Bedeutung. Fehlerhafte Anforderungsumwandlungen können zu folgenden Problemen führen:
Unvollständige oder fehlerhafte Testfälle
Systemverhalten, das nicht den Erwartungen entspricht
Traditionelle Formalisierungsmethoden: Hauptsächlich auf mathematische Theorembeweise angewendet, mangelnde Anwendung auf Ingenieuranforderungsverifikation
LLM-Bewertungsmethoden: Abhängig von manueller Überprüfung oder heuristischen Methoden, mangelnde strenge logische Verifikation
Autoformaliserungsforschung: Hauptsächlich auf Datensatzkonstruktion und Modelltraining konzentriert, weniger auf praktische Ingenieuranwendungen
Dieses Papier schlägt vor, Autoformaliserungstechniken auf die Verifikation von LLM-Ausgaben anzuwenden – ein neues Szenario – indem sowohl natürlichsprachige Anforderungen als auch LLM-generierte Ausgaben in formale logische Darstellungen (Lean 4) umgewandelt werden und ein Theorembeweiser zur Verifikation der logischen Äquivalenz verwendet wird.
Vorschlag der ersten Autoformaliserungspipeline zur Verifikation von LLM-generierten Ausgaben: Umwandlung von natürlichsprachigen Anforderungen und LLM-Ausgaben in Lean 4-Formalisierungen und Verifikation der logischen Konsistenz durch bidirektionale Äquivalenzbeweise
Verifikation von zwei konkreten Anwendungsszenarien:
Identifikation der logischen Äquivalenz unterschiedlich formulierter natürlichsprachiger Anforderungen
Erkennung logischer Inkonsistenzen zwischen LLM-generierten Ausgaben und ursprünglichen Anforderungen
Aktuelle Implementierung: Manuelle Identifikation und Vereinheitlichung von Variablen, die in verschiedenen Formalisierungen auf dasselbe Konzept verweisen
Problembeispiel:
vehicle_speed_avg in R1 und mean_vehicle_speed in R2 verweisen auf die gleiche physikalische Größe
Es ist erforderlich, dem Lean-Compiler diese Äquivalenz explizit mitzuteilen
-- Beispiel der manuellen Verankerung
(h_speed : vehicle_speed_avg = mean_vehicle_speed)
(h_belt : seatbelt_active = seatbelt_plugged_in)
Bereichsübergreifende Anwendungsinnovation: Erste Anwendung von Autoformaliserungstechniken aus dem mathematischen Theorembeweisbereich auf die Verifikation von Softwareingenieuranforderungen
Zweischichtige LLM-Verwendung:
Erste Schicht: Formalisierungsübersetzung (NL → Lean)
Zweite Schicht: Theorembeweiser (Verifikation der Äquivalenz)
Fehlerbasierter Verifikationsmechanismus: Nutzung des Fehlschlagens des Theorembeweisers als Indikator für logische Inkonsistenz – eine innovative Methode der negativen Verifikation
Identifikation der Variablenverankerung: Explizite Darlegung, dass die Variablenverankerung ein unverzichtbarer Schritt in der Autoformaliserungspipeline ist, was in früheren Forschungen nicht ausreichend betont wurde
R1 und R2 wurden erfolgreich in Lean-Propositionen umgewandelt (Abbildungen 3, 4)
Variablenzuordnungen wurden manuell etabliert:
vehicle_speed_avg ≡ mean_vehicle_speed
seatbelt_active ≡ seatbelt_plugged_in
Verifikationsergebnis (Abbildung 5):
✅ Lean-Kompilierung erfolgreich
✅ Satz req1_eq_req2 erfolgreich bewiesen
Schlussfolgerung: R1 und R2 sind logisch äquivalent
Bedeutung: Demonstriert, dass die Pipeline semantisch identische, aber unterschiedlich formulierte Anforderungen erkennen kann, was bei der Anforderungskonsistenzprüfung hilfreich ist.
G3 führt Variablen ein, die in R3 nicht erwähnt werden
Logische Struktur ist komplexer (enthält 4 Szenariobeispiele)
Verifikationsergebnis (Abbildung 8):
❌ Lean-Code-Kompilierung fehlgeschlagen oder Beweis fehlgeschlagen
Schlussfolgerung: G3 ist logisch inkonsistent mit R3
Bedeutung: Erfolgreiche Erkennung des „Überproduktions"-Problems von LLM-generierten Ausgaben – Hinzufügung von Einschränkungen, die in der ursprünglichen Anforderung nicht vorhanden sind.
Formalisierung hängt von Interpretierbarkeit ab: Die Nichtdeterminismus des LLM führt dazu, dass die gleiche Anforderung möglicherweise unterschiedliche, aber beide „angemessene" Formalisierungen erzeugt
Variablenverankerung ist ein Engpass:
Der zeitaufwändigste Schritt
Erfordert Systembereichswissen
Derzeit nur manuell durchführbar
Systemkontext ist entscheidend: Das Fehlen expliziter Systemdefinitionen (wie Datenwörterbücher) führt zu Formalisierungsinkonsistenzen
Negative Verifikation ist wirksam: Beweisfehlschlag kann logische Inkonsistenz wirksam anzeigen
Mathematische Problemlösung: Mathematik von der Oberstufe bis zur Universität
Codeverifikation: Verifikation der Programm-Korrektheit
Biomedizin: Faktenchecks
Beitrag dieses Papiers: Erste Anwendung der Autoformaliserung auf Ingenieuranforderungsverifikation und LLM-Ausgabeverifikation, eröffnet neue Anwendungsrichtungen.
Machbarkeitsverifikation: Die Autoformaliserungspipeline kann effektiv die logische Konsistenz zwischen LLM-generierten Ausgaben und ursprünglichen Anforderungen verifizieren
Qualitätskontrolle von LLM-Ausgaben (Erkennung logischer Fehler)
Konzeptnachweis: Obwohl die Stichprobe begrenzt ist, wurde erfolgreich demonstriert, dass Theorembeweistechniken auf Softwareingenieuraufgaben angewendet werden können
Weng et al. (2025): Autoformalization in the era of large language models: A survey - Übersichtsliteratur
Wu et al. (2022): Autoformalization with large language models - Grundlagenarbeit zur Autoformaliserung
Ren et al. (2025): DeepSeek-Prover-v2 - Kernmodell in diesem Papier verwendet
Jiang et al. (2022): Draft, sketch, and prove - Unterziel-Zerlegungsmethode
de Moura & Ullrich (2021): The Lean 4 theorem prover - Formalisierungssprache
Gesamtbewertung: Dies ist ein konzeptnachweis-orientiertes Explorationspapier, das eine wertvolle neue Forschungsrichtung vorschlägt, aber unter schwerwiegend unzureichender experimenteller Verifikation leidet. Als Preprint und vorläufige Forschung identifiziert es erfolgreich Schlüsselprobleme und bietet einen praktikablen technischen Weg, liegt aber noch weit entfernt von einer reifen Lösung. Der Hauptwert des Papiers liegt in der Problemdefinition und Richtungsweisung, nicht in technischen Durchbrüchen. Es wird empfohlen, dass nachfolgende Arbeiten sich auf die Automatisierung der Variablenverankerung und großflächige Bewertungen konzentrieren.