Towards Autoformalization of LLM-generated Outputs for Requirement Verification
Gupte, S
Autoformalization, the process of translating informal statements into formal logic, has gained renewed interest with the emergence of powerful Large Language Models (LLMs). While LLMs show promise in generating structured outputs from natural language (NL), such as Gherkin Scenarios from NL feature requirements, there's currently no formal method to verify if these outputs are accurate. This paper takes a preliminary step toward addressing this gap by exploring the use of a simple LLM-based autoformalizer to verify LLM-generated outputs against a small set of natural language requirements. We conducted two distinct experiments. In the first one, the autoformalizer successfully identified that two differently-worded NL requirements were logically equivalent, demonstrating the pipeline's potential for consistency checks. In the second, the autoformalizer was used to identify a logical inconsistency between a given NL requirement and an LLM-generated output, highlighting its utility as a formal verification tool. Our findings, while limited, suggest that autoformalization holds significant potential for ensuring the fidelity and logical consistency of LLM-generated outputs, laying a crucial foundation for future, more extensive studies into this novel application.
academic
LLM-जनित आउटपुट के आवश्यकता सत्यापन के लिए स्वचालित औपचारिकीकरण की ओर
यह पेपर बड़े भाषा मॉडल (LLM) द्वारा जनित आउटपुट को सत्यापित करने के लिए स्वचालित औपचारिकीकरण (Autoformalization) तकनीक का उपयोग करने की व्यवहार्यता की खोज करता है। जैसे-जैसे LLM प्राकृतिक भाषा आवश्यकताओं को संरचित आउटपुट (जैसे Gherkin परिदृश्य) में परिवर्तित करने में संभावना प्रदर्शित कर रहे हैं, इन आउटपुट की सटीकता को औपचारिक रूप से सत्यापित करना एक महत्वपूर्ण प्रश्न बन गया है। अनुसंधान दल ने दो प्रयोग समूह आयोजित किए: पहला समूह सफलतापूर्वक दो अलग-अलग शब्दों वाली प्राकृतिक भाषा आवश्यकताओं को तार्किक रूप से समतुल्य के रूप में पहचाना; दूसरा समूह LLM-जनित आउटपुट और मूल आवश्यकता के बीच तार्किक असंगति की पहचान की। हालांकि अनुसंधान का दायरा सीमित है, परिणाम दर्शाते हैं कि स्वचालित औपचारिकीकरण LLM-जनित आउटपुट की निष्ठा और तार्किक संगति सुनिश्चित करने में महत्वपूर्ण संभावना रखता है।
LLM अनुप्रयोगों के प्रसार के साथ, विशेषकर परीक्षण परिदृश्य स्वचालित रूप से उत्पन्न करने जैसे इंजीनियरिंग कार्यों में, एक महत्वपूर्ण चुनौती मौजूद है: LLM द्वारा जनित आउटपुट मूल प्राकृतिक भाषा आवश्यकता को सटीक रूप से प्रतिबिंबित करता है या नहीं, इसे सत्यापित करने के लिए औपचारिक विधियों की कमी। उदाहरण के लिए, "जब वाहन की गति ≥10 और सीटबेल्ट अनबद्ध हो, तो सीटबेल्ट अलर्ट शुरू करें" जैसी आवश्यकता से Gherkin परिदृश्य उत्पन्न करने के बाद, जनित सामग्री की तार्किक सही होने की गारंटी नहीं दी जा सकती।
ऑटोमोटिव इंजीनियरिंग जैसे सुरक्षा-महत्वपूर्ण क्षेत्रों में, आवश्यकता सत्यापन अत्यंत महत्वपूर्ण है। गलत आवश्यकता रूपांतरण निम्नलिखित का कारण बन सकता है:
यह पेपर LLM आउटपुट सत्यापन के इस नए परिदृश्य में स्वचालित औपचारिकीकरण तकनीक लागू करने का प्रस्ताव देता है, प्राकृतिक भाषा आवश्यकताओं और LLM-जनित आउटपुट दोनों को औपचारिक तर्क प्रतिनिधित्व (Lean 4) में परिवर्तित करके, तार्किक समतुल्यता सत्यापित करने के लिए प्रमेय प्रमाणक का उपयोग करके।
LLM-जनित आउटपुट सत्यापन के लिए पहली स्वचालित औपचारिकीकरण पाइपलाइन प्रस्तावित की: प्राकृतिक भाषा आवश्यकताओं और LLM आउटपुट को Lean 4 औपचारिक प्रतिनिधित्व में परिवर्तित किया, और द्विशर्त समतुल्यता प्रमाण के माध्यम से तार्किक संगति सत्यापित की
दो विशिष्ट अनुप्रयोग परिदृश्यों को सत्यापित किया:
विभिन्न शब्दों वाली प्राकृतिक भाषा आवश्यकताओं की तार्किक समतुल्यता की पहचान
LLM-जनित आउटपुट और मूल आवश्यकता के बीच तार्किक असंगति का पता लगाना
मुख्य तकनीकी चुनौतियों की पहचान की:
चर आधारभूतकरण (variable grounding) की आवश्यकता और स्वचालन कठिनाई
औपचारिकीकरण पर LLM अनिश्चितता का प्रभाव
प्राकृतिक भाषा अस्पष्टता का प्रबंधन
भविष्य की अनुसंधान दिशाएं प्रस्तावित कीं: विश्वसनीय LLM आउटपुट सत्यापन ढांचे के निर्माण के लिए आधार स्थापित किया
अंतर-क्षेत्र अनुप्रयोग नवाचार: पहली बार गणितीय प्रमेय प्रमाण क्षेत्र की स्वचालित औपचारिकीकरण तकनीक को सॉफ्टवेयर इंजीनियरिंग आवश्यकता सत्यापन में लागू किया
दोहरी-स्तरीय LLM उपयोग:
पहला स्तर: औपचारिकीकरण अनुवाद (NL → Lean)
दूसरा स्तर: प्रमेय प्रमाण (समतुल्यता सत्यापन)
विफलता-आधारित सत्यापन तंत्र: प्रमेय प्रमाणक की विफलता को तार्किक असंगति के संकेतक के रूप में उपयोग करें, यह एक नवीन नकारात्मक सत्यापन विधि है
चर आधारभूतकरण पहचान: स्पष्ट रूप से प्रस्तावित करें कि चर आधारभूतकरण स्वचालित औपचारिकीकरण पाइपलाइन में अपरिहार्य चरण है, जो पूर्व अनुसंधान में पर्याप्त रूप से जोर नहीं दिया गया था
Weng et al. (2025): बड़े भाषा मॉडलों के युग में स्वचालित औपचारिकीकरण: एक सर्वेक्षण - सर्वेक्षण साहित्य
Wu et al. (2022): बड़े भाषा मॉडलों के साथ स्वचालित औपचारिकीकरण - स्वचालित औपचारिकीकरण मूल कार्य
Ren et al. (2025): DeepSeek-Prover-v2 - इस पेपर द्वारा उपयोग किया गया मूल मॉडल
Jiang et al. (2022): ड्राफ्ट, स्केच, और प्रमाण - उप-लक्ष्य अपघटन विधि
de Moura & Ullrich (2021): Lean 4 प्रमेय प्रमाणक - औपचारिकीकरण भाषा
समग्र मूल्यांकन: यह एक अवधारणा प्रमाण प्रकार का अन्वेषणात्मक पेपर है, जो एक मूल्यवान नई अनुसंधान दिशा प्रस्तावित करता है, लेकिन प्रयोगात्मक सत्यापन गंभीर रूप से अपर्याप्त है। प्रीप्रिंट और प्रारंभिक अनुसंधान के रूप में, यह सफलतापूर्वक मुख्य समस्याओं की पहचान करता है और व्यवहार्य तकनीकी पथ प्रदान करता है, लेकिन परिपक्व समाधान से अभी भी बहुत दूर है। पेपर का मुख्य मूल्य समस्या परिभाषा और दिशा निर्देशन में है, तकनीकी सफलता में नहीं। अनुवर्ती कार्य को चर आधारभूतकरण स्वचालन और बड़े पैमाने पर मूल्यांकन समस्याओं को हल करने पर ध्यान केंद्रित करना चाहिए।