Towards Autoformalization of LLM-generated Outputs for Requirement Verification
Gupte, S
Autoformalization, the process of translating informal statements into formal logic, has gained renewed interest with the emergence of powerful Large Language Models (LLMs). While LLMs show promise in generating structured outputs from natural language (NL), such as Gherkin Scenarios from NL feature requirements, there's currently no formal method to verify if these outputs are accurate. This paper takes a preliminary step toward addressing this gap by exploring the use of a simple LLM-based autoformalizer to verify LLM-generated outputs against a small set of natural language requirements. We conducted two distinct experiments. In the first one, the autoformalizer successfully identified that two differently-worded NL requirements were logically equivalent, demonstrating the pipeline's potential for consistency checks. In the second, the autoformalizer was used to identify a logical inconsistency between a given NL requirement and an LLM-generated output, highlighting its utility as a formal verification tool. Our findings, while limited, suggest that autoformalization holds significant potential for ensuring the fidelity and logical consistency of LLM-generated outputs, laying a crucial foundation for future, more extensive studies into this novel application.
본 논문은 자동형식화(Autoformalization) 기술을 사용하여 대규모 언어모델(LLM) 생성 출력을 검증하는 가능성을 탐색합니다. LLM이 자연언어 요구사항을 구조화된 출력(예: Gherkin 시나리오)으로 변환하는 데 잠재력을 보이면서, 이러한 출력의 정확성을 형식적으로 검증하는 방법이 핵심 문제가 되었습니다. 연구팀은 두 가지 실험 그룹을 수행했습니다: 첫 번째 그룹은 서로 다른 표현의 두 자연언어 요구사항이 논리적으로 동등함을 성공적으로 식별했으며, 두 번째 그룹은 LLM 생성 출력과 원본 요구사항 간의 논리적 불일치를 식별했습니다. 연구 범위는 제한적이지만, 결과는 자동형식화가 LLM 생성 출력의 충실성과 논리적 일관성을 보장하는 데 상당한 잠재력을 가지고 있음을 시사합니다.
LLM 응용이 확산되면서, 특히 테스트 시나리오 자동 생성 등 공학 작업에서 다음과 같은 핵심 과제가 발생합니다: LLM 생성 출력이 원본 자연언어 요구사항을 정확하게 반영하는지 검증하기 위한 형식적 방법의 부재. 예를 들어, "차속 ≥ 10이고 안전벨트가 미착용일 때 안전벨트 경고 시작"이라는 요구사항에서 Gherkin 시나리오를 생성한 후, 생성 내용의 논리적 정확성을 보장할 수 없습니다.
Weng et al. (2025): Autoformalization in the era of large language models: A survey - 종합 문헌
Wu et al. (2022): Autoformalization with large language models - 자동형식화 기초 연구
Ren et al. (2025): DeepSeek-Prover-v2 - 본 논문에서 사용한 핵심 모델
Jiang et al. (2022): Draft, sketch, and prove - 부분목표 분해 방법
de Moura & Ullrich (2021): The Lean 4 theorem prover - 형식화 언어
종합 평가: 이것은 개념 증명형 탐색 논문으로, 가치 있는 새로운 연구 방향을 제시하지만 실험 검증이 심각하게 부족합니다. 프리프린트 및 초기 연구로서, 이 논문은 핵심 문제를 성공적으로 식별하고 실행 가능한 기술 경로를 제공하지만, 성숙한 솔루션까지는 아직 거리가 멉니다. 논문의 주요 가치는 문제 정의 및 방향 제시에 있으며, 기술 혁신에 있지 않습니다. 후속 연구는 변수 접지 자동화 및 대규모 평가 문제 해결에 중점을 두기를 권장합니다.