Towards Autoformalization of LLM-generated Outputs for Requirement Verification
Gupte, S
Autoformalization, the process of translating informal statements into formal logic, has gained renewed interest with the emergence of powerful Large Language Models (LLMs). While LLMs show promise in generating structured outputs from natural language (NL), such as Gherkin Scenarios from NL feature requirements, there's currently no formal method to verify if these outputs are accurate. This paper takes a preliminary step toward addressing this gap by exploring the use of a simple LLM-based autoformalizer to verify LLM-generated outputs against a small set of natural language requirements. We conducted two distinct experiments. In the first one, the autoformalizer successfully identified that two differently-worded NL requirements were logically equivalent, demonstrating the pipeline's potential for consistency checks. In the second, the autoformalizer was used to identify a logical inconsistency between a given NL requirement and an LLM-generated output, highlighting its utility as a formal verification tool. Our findings, while limited, suggest that autoformalization holds significant potential for ensuring the fidelity and logical consistency of LLM-generated outputs, laying a crucial foundation for future, more extensive studies into this novel application.
academic
К автоформализации выходных данных LLM для верификации требований
В данной работе исследуется возможность применения методов автоматической формализации (Autoformalization) для верификации выходных данных больших языковых моделей (LLM). По мере того как LLM демонстрируют потенциал в преобразовании требований на естественном языке в структурированные выходные данные (например, сценарии Gherkin), возникает критическая проблема: как формально верифицировать точность этих выходных данных. Исследовательская группа провела два набора экспериментов: в первом наборе успешно выявлены логически эквивалентные требования на естественном языке с различными формулировками; во втором наборе обнаружены логические несоответствия между выходными данными LLM и исходными требованиями. Несмотря на ограниченный объём исследования, результаты демонстрируют значительный потенциал автоматической формализации в обеспечении верности и логической согласованности выходных данных LLM.
С распространением приложений LLM, особенно в автоматической генерации тестовых сценариев и других инженерных задач, возникает критический вызов: отсутствие формальных методов для верификации того, что выходные данные LLM точно отражают исходные требования на естественном языке. Например, после генерации сценария Gherkin из требования "Когда скорость автомобиля ≥ 10 км/ч И ремень безопасности не пристёгнут, активировать напоминание о ремне безопасности", невозможно гарантировать логическую корректность сгенерированного содержимого.
В критических по безопасности областях, таких как автомобилестроение, верификация требований имеет первостепенное значение. Ошибочное преобразование требований может привести к:
Традиционные методы формализации: в основном применяются к доказательству математических теорем, недостаточно используются для верификации инженерных требований
Методы оценки LLM: полагаются на ручную проверку или эвристические подходы, лишены строгой логической верификации
Исследования автоматической формализации: сосредоточены на построении наборов данных и обучении моделей, редко применяются к практическим инженерным задачам
В данной работе предлагается применить методы автоматической формализации к новому сценарию — верификации выходных данных LLM. Подход заключается в преобразовании как требований на естественном языке, так и выходных данных LLM в представление формальной логики (Lean 4) и использовании средства доказательства теорем для верификации логической эквивалентности.
Предложен первый конвейер автоматической формализации для верификации выходных данных LLM: преобразование требований на естественном языке и выходных данных LLM в формальное представление Lean 4 с последующей верификацией логической согласованности посредством доказательства двусторонней эквивалентности
Верифицированы два конкретных сценария применения:
Выявление логической эквивалентности требований на естественном языке с различными формулировками
Обнаружение логических несоответствий между выходными данными LLM и исходными требованиями
Выявлены ключевые технические вызовы:
Необходимость и сложность автоматизации привязки переменных (variable grounding)
Влияние недетерминированности LLM на формализацию
Обработка неоднозначности естественного языка
Предложены направления будущих исследований: создание основы для построения надёжной системы верификации выходных данных LLM
Инновация в междисциплинарном применении: впервые методы автоматической формализации из области математического доказательства теорем применены к верификации требований в инженерии программного обеспечения
Двухуровневое использование LLM:
Первый уровень: формализация перевода (ЕЯ → Lean)
Второй уровень: доказательство теорем (верификация эквивалентности)
Механизм верификации на основе отказа: использование отказа средства доказательства теорем как индикатора логического несоответствия — инновационный метод отрицательной верификации
Выявление привязки переменных: явное указание на то, что привязка переменных является неотъемлемым этапом конвейера автоматической формализации, что недостаточно подчёркивалось в предыдущих исследованиях
R1 и R2 успешно преобразованы в пропозиции Lean (рисунки 3, 4)
Отображение переменных установлено вручную:
vehicle_speed_avg ≡ mean_vehicle_speed
seatbelt_active ≡ seatbelt_plugged_in
Результаты верификации (рисунок 5):
✅ Компиляция Lean успешна
✅ Доказательство теоремы req1_eq_req2 успешно
Заключение: R1 и R2 логически эквивалентны
Значимость: доказано, что конвейер может выявлять семантически идентичные, но различно сформулированные требования, что способствует проверке согласованности требований.
Формализация зависит от интерпретируемости: недетерминированность LLM приводит к тому, что одно требование может порождать различные, но "разумные" формализации
Привязка переменных — узкое место:
Наиболее трудозатратный этап
Требует знания предметной области системы
В настоящее время возможна только ручная реализация
Контекст системы критически важен: отсутствие явного определения системы (например, словаря данных) приводит к несоответствиям в формализации
Отрицательная верификация эффективна: неудача доказательства эффективно указывает на логическое несоответствие
Решение математических задач: от средней школы до университета
Верификация кода: верификация корректности программ
Биомедицина: проверка фактов
Вклад данной работы: впервые автоматическая формализация применена к верификации инженерных требований и верификации выходных данных LLM, открывая новое направление применения.
Контроль качества выходных данных LLM (обнаружение логических ошибок)
Концептуальное доказательство: хотя выборка ограничена, успешно продемонстрирован потенциал применения методов доказательства теорем в инженерии программного обеспечения
Weng et al. (2025): Autoformalization in the era of large language models: A survey — обзорная литература
Wu et al. (2022): Autoformalization with large language models — фундаментальная работа по автоматической формализации
Ren et al. (2025): DeepSeek-Prover-v2 — основная модель, используемая в работе
Jiang et al. (2022): Draft, sketch, and prove — метод разложения подцелей
de Moura & Ullrich (2021): The Lean 4 theorem prover — язык формализации
Общая оценка: Это концептуально-доказательственная исследовательская статья, предлагающая ценное новое направление исследований, но с серьёзно недостаточной экспериментальной верификацией. Как препринт и предварительное исследование, она успешно выявляет ключевые проблемы и предоставляет жизнеспособный технический путь, однако до зрелого решения остаётся значительное расстояние. Основная ценность статьи заключается в определении проблемы и указании направления, а не в технических прорывах. Рекомендуется, чтобы последующие работы сосредоточились на решении проблем автоматизации привязки переменных и крупномасштабной оценки.