Autoformalization serves a crucial role in connecting natural language and formal reasoning. This paper presents MASA, a novel framework for building multi-agent systems for autoformalization driven by Large Language Models (LLMs). MASA leverages collaborative agents to convert natural language statements into their formal representations. The architecture of MASA is designed with a strong emphasis on modularity, flexibility, and extensibility, allowing seamless integration of new agents and tools to adapt to a fast-evolving field. We showcase the effectiveness of MASA through use cases on real-world mathematical definitions and experiments on formal mathematics datasets. This work highlights the potential of multi-agent systems powered by the interaction of LLMs and theorem provers in enhancing the efficiency and reliability of autoformalization, providing valuable insights and support for researchers and practitioners in the field.
- рдкреЗрдкрд░ ID: 2510.08988
- рд╢реАрд░реНрд╖рдХ: MASA: LLM-Driven Multi-Agent Systems for Autoformalization
- рд▓реЗрдЦрдХ: Lan Zhang (рдореИрдирдЪреЗрд╕реНрдЯрд░ рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп), Marco Valentino (рд╢реЗрдлреАрд▓реНрдб рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп), Andr├й Freitas (рдореИрдирдЪреЗрд╕реНрдЯрд░ рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп, Idiap рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рдВрд╕реНрдерд╛рди, рд░рд╛рд╖реНрдЯреНрд░реАрдп рдмрд╛рдпреЛрдорд╛рд░реНрдХрд░ рдХреЗрдВрджреНрд░)
- рд╡рд░реНрдЧреАрдХрд░рдг: cs.CL (рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рднрд╛рд╖рд╛рд╡рд┐рдЬреНрдЮрд╛рди), cs.FL (рдФрдкрдЪрд╛рд░рд┐рдХ рднрд╛рд╖рд╛рдПрдБ)
- рдкреНрд░рдХрд╛рд╢рди рд╕рдордп: 10 рдЕрдХреНрдЯреВрдмрд░ 2025 (arXiv рдкреНрд░реАрдкреНрд░рд┐рдВрдЯ)
- рдкреЗрдкрд░ рд▓рд┐рдВрдХ: https://arxiv.org/abs/2510.08988
рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдФрд░ рдФрдкрдЪрд╛рд░рд┐рдХ рддрд░реНрдХ рдХреЛ рдЬреЛрдбрд╝рдиреЗ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рднреВрдорд┐рдХрд╛ рдирд┐рднрд╛рддрд╛ рд╣реИред рдпрд╣ рдкреЗрдкрд░ MASA рдкреНрд░рд╕реНрддреБрдд рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ (LLMs) рджреНрд╡рд╛рд░рд╛ рд╕рдВрдЪрд╛рд▓рд┐рдд рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдирд┐рд░реНрдорд╛рдг рдХреЗ рд▓рд┐рдП рдПрдХ рдврд╛рдВрдЪрд╛ рд╣реИред MASA рд╕рд╣рдпреЛрдЧреА рдПрдЬреЗрдВрдЯреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдХрдердиреЛрдВ рдХреЛ рдЙрдирдХреЗ рдФрдкрдЪрд╛рд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддрд╛ рд╣реИред MASA рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдбрд┐рдЬрд╝рд╛рдЗрди рдореЙрдбреНрдпреВрд▓рд░рд┐рдЯреА, рд▓рдЪреАрд▓реЗрдкрди рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рдкрд░ рдЬреЛрд░ рджреЗрддрд╛ рд╣реИ, рдЬреЛ рдирдП рдПрдЬреЗрдВрдЯреЛрдВ рдФрд░ рдЙрдкрдХрд░рдгреЛрдВ рдХреЗ рдирд┐рд░реНрдмрд╛рдз рдПрдХреАрдХрд░рдг рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рд▓реЗрдЦрдХ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЧрдгрд┐рддреАрдп рдкрд░рд┐рднрд╛рд╖рд╛рдУрдВ рдХреЗ рдЙрдкрдпреЛрдЧ рдорд╛рдорд▓реЛрдВ рдФрд░ рдФрдкрдЪрд╛рд░рд┐рдХ рдЧрдгрд┐рдд рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░ рдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ MASA рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдпрд╣ рдХрд╛рд░реНрдп LLMs рдФрд░ рдкреНрд░рдореЗрдп рдкреНрд░реЛрд╡рд░ рдЗрдВрдЯрд░реИрдХреНрд╢рди рджреНрд╡рд╛рд░рд╛ рд╕рдВрдЪрд╛рд▓рд┐рдд рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреА рдХреНрд╖рдорддрд╛ рдХреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреА рджрдХреНрд╖рддрд╛ рдФрд░ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдпрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХреЗ рд▓рд┐рдП рдЙрдЬрд╛рдЧрд░ рдХрд░рддрд╛ рд╣реИред
рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг (Autoformalization) рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдЧрдгрд┐рддреАрдп рдХрдердиреЛрдВ рдХреЛ рдорд╢реАрди-рд╕рддреНрдпрд╛рдкрди рдпреЛрдЧреНрдп рдФрдкрдЪрд╛рд░рд┐рдХ рддрд░реНрдХ рд╕реВрддреНрд░реЛрдВ рдореЗрдВ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рдиреЗ рдХрд╛ рдХрд╛рд░реНрдп рд╣реИред рдЗрд╕ рд╕рдорд╕реНрдпрд╛ рдХреА рдореВрд▓ рдЪреБрдиреМрддрд┐рдпрд╛рдБ рд╣реИрдВ:
- рдЕрд░реНрде рд╕рдВрдмрдВрдзреА рдЕрдВрддрд░рд╛рд▓: рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдХреА рдЕрд╕реНрдкрд╖реНрдЯрддрд╛ рдФрд░ рдФрдкрдЪрд╛рд░рд┐рдХ рднрд╛рд╖рд╛ рдХреА рдХрдареЛрд░рддрд╛ рдХреЗ рдмреАрдЪ рд╡рд┐рд╢рд╛рд▓ рдЕрдВрддрд░
- рдЬрдЯрд┐рд▓рддрд╛: рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЧрдгрд┐рддреАрдп рдХрдерди рдЕрдХреНрд╕рд░ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдФрд░ рддрд░реНрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛рдУрдВ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рддреЗ рд╣реИрдВ
- рд╕рдЯреАрдХрддрд╛ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛: рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкрд░рд┐рдгрд╛рдо рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рдФрд░ рдЕрд░реНрде рджреЛрдиреЛрдВ рдореЗрдВ рд╕рд╣реА рд╣реЛрдиреЗ рдЪрд╛рд╣рд┐рдП
рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ:
- рдЧрдгрд┐рддреАрдп рд╕рддреНрдпрд╛рдкрди: рдкреНрд░рдореЗрдп рдкреНрд░рдорд╛рдг рдФрд░ рдЧрдгрд┐рддреАрдп рд╕рддреНрдпрд╛рдкрди рдХреЗ рд▓рд┐рдП рдЖрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдирд╛
- рддрд░реНрдХ рдкрд╛рд░рджрд░реНрд╢рд┐рддрд╛: рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рддрд░реНрдХ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдФрдкрдЪрд╛рд░рд┐рдХ рддрд░реНрдХ рдЕрдзрд┐рдХ рд╡реНрдпрд╡рд╕реНрдерд┐рдд, рдкрд╛рд░рджрд░реНрд╢реА рдФрд░ рдХрдареЛрд░ рд╣реИ
- рд╕реНрд╡рдЪрд╛рд▓рди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛: рдореИрдиреБрдЕрд▓ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЛ рдмрдбрд╝реЗ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮ рдЬреНрдЮрд╛рди рдФрд░ рд╕рдордп рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИ
LLM-рдЖрдзрд╛рд░рд┐рдд рдореМрдЬреВрджрд╛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╕рдорд╕реНрдпрд╛рдПрдБ рд╣реИрдВ:
- рдПрдХрд▓-рдЗрдХрд╛рдИ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рд╕реАрдорд╛рдПрдБ: рдПрдХрд▓ LLM рдЬрдЯрд┐рд▓ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреА рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рд╕рдорд╕реНрдпрд╛рдУрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдореЗрдВ рдХрдард┐рдирд╛рдИ рдХрд░рддрд╛ рд╣реИ
- рдореЙрдбреНрдпреВрд▓рд░рд┐рдЯреА рдХреА рдХрдореА: рдореМрдЬреВрджрд╛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдореЗрдВ рдореЙрдбреНрдпреВрд▓рд░рд┐рдЯреА, рд▓рдЪреАрд▓рд╛рдкрди рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рдХреА рдХрдореА рд╣реИ
- рдШрдЯрдХ рдЗрдВрдЯрд░реИрдХреНрд╢рди рдЕрдкрд░реНрдпрд╛рдкреНрдд: рдХрдИ рдЗрдВрдЯрд░реИрдХреНрдЯрд┐рд╡ рдШрдЯрдХреЛрдВ рдХреЛ рдкреНрд░рднрд╛рд╡реА рдврдВрдЧ рд╕реЗ рдПрдХреАрдХреГрдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ
рд▓реЗрдЦрдХреЛрдВ рдиреЗ MASA рдврд╛рдВрдЪрд╛ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░реЗрд░рдгрд╛ рд╣реИ:
- рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреА рдЬрдЯрд┐рд▓рддрд╛ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдореЙрдбреНрдпреВрд▓рд░ рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдмрдирд╛рдирд╛
- рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЛ рд╕рд┐рд╕реНрдЯрдо рдХреЛ рддреЗрдЬреА рд╕реЗ рд╡рд┐рдХрд╕рд┐рдд рдФрд░ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд▓рдЪреАрд▓рд╛ рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд▓ рдврд╛рдВрдЪрд╛ рдкреНрд░рджрд╛рди рдХрд░рдирд╛
- рдПрдЬреЗрдВрдЯ рд╕рд╣рдпреЛрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреА рджрдХреНрд╖рддрд╛ рдФрд░ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдпрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рдирд╛
- рдореЙрдбреНрдпреВрд▓рд░ рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдврд╛рдВрдЪрд╛ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд┐рдпрд╛: MASA рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреЗ рдирд┐рд░реНрдорд╛рдг рдХреЗ рд▓рд┐рдП рдПрдХ рдореЙрдбреНрдпреВрд▓рд░ рдврд╛рдВрдЪрд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдЕрдЪреНрдЫреА рд▓рдЪреАрд▓рд╛рдкрди рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рд╣реИ
- рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд┐рдП: рдПрдЬреЗрдВрдЯреЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреА рдЧрдгрд┐рддреАрдп рдкрд░рд┐рднрд╛рд╖рд╛рдУрдВ рдХреЛ рдФрдкрдЪрд╛рд░рд┐рдХ рдмрдирд╛рдХрд░, рдврд╛рдВрдЪреЗ рдХреА рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдХреНрд╖рдорддрд╛ рдХреЛ рдЙрдЬрд╛рдЧрд░ рдХрд┐рдпрд╛
- рд╡реНрдпрд╡рд╕реНрдерд┐рдд рдореВрд▓реНрдпрд╛рдВрдХрди: рддреАрди рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХреЗ рддрд╣рдд рдврд╛рдВрдЪреЗ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛, рдЗрд╕рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рд╕рд╛рдмрд┐рдд рдХреА рдФрд░ рдореВрд▓реНрдпрд╡рд╛рди рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдкреНрд░рджрд╛рди рдХреАред рдЕрдВрддрд┐рдо рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐рдореВрд▓рдХ рд╕реНрд╡-рд╕реБрдзрд╛рд░ рдкреНрд░рдгрд╛рд▓реА Qwen2.5-7B рдФрд░ GPT-4.1-mini рдкрд░ рдХреНрд░рдорд╢рдГ 35.25% рдФрд░ 61.89% рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕рд╣реА рдФрд░ рдЕрд░реНрде рд╕рдВрд░реЗрдЦрд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рджрд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рддреА рд╣реИ
- рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди: рдкреВрд░реНрдг рдХреЛрдб рдФрд░ рдбреЗрдЯрд╛ рдкреНрд░рджрд╛рди рдХрд░рдХреЗ, рдЕрдиреБрд╕рдВрдзрд╛рди рдХреА рдмрд╛рдзрд╛ рдХреЛ рдХрдо рдХрд┐рдпрд╛
рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЛ рдПрдХ рд░реВрдкрд╛рдВрддрд░рдг рдлрд╝рдВрдХреНрд╢рди A рдХреЗ рд░реВрдк рдореЗрдВ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЬреЛ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдХрдерди s рдХреЛ рдЗрд╕рдХреЗ рдФрдкрдЪрд╛рд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ ╧Ж = A(s) рдореЗрдВ рдореИрдк рдХрд░рддрд╛ рд╣реИред рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╡рд┐рдзрд┐рдпрд╛рдБ LLM рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рд┐рдд рд╣реЛрддреА рд╣реИрдВ: A = LLM(prompt)ред MASA рдЗрд╕ рдкрд░рд┐рднрд╛рд╖рд╛ рдХреЛ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рдХрд░рддрд╛ рд╣реИ, рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рд░реВрдкрд╛рдВрддрд░рдг рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рддрд╛ рд╣реИред
MASA рдврд╛рдВрдЪреЗ рдореЗрдВ рдкрд╛рдБрдЪ рдореБрдЦреНрдп рдШрдЯрдХ рд╣реИрдВ:
рдПрдЬреЗрдВрдЯ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдирд┐рд╖реНрдкрд╛рджрд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореВрд▓ рддрддреНрд╡ рд╣реИрдВ, рдЬрд┐рдирдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ:
- AutoformalizationAgent: рдХрдо-рдирдореВрдирд╛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдирд┐рд╖реНрдкрд╛рджрд┐рдд рдХрд░рддрд╛ рд╣реИ
- HardCritiqueAgent: рдкреНрд░рдореЗрдп рдкреНрд░реЛрд╡рд░ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕реНрддрд░ рдХреА рдЖрд▓реЛрдЪрдирд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- SoftCritiqueAgent: LLM рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЕрд░реНрде рд╕реНрддрд░ рдХреА рдЖрд▓реЛрдЪрдирд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- FormalRefinementAgent: рдХрдареЛрд░ рдЖрд▓реЛрдЪрдирд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдФрдкрдЪрд╛рд░рд┐рдХ рдХреЛрдб рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ
- InformalRefinementAgent: рдирд░рдо рдЖрд▓реЛрдЪрдирд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдФрдкрдЪрд╛рд░рд┐рдХ рдХреЛрдб рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ
- DenoisingAgent: рд╢реЛрд░ рд╣рдЯрд╛рдиреЗ рд╡рд╛рд▓рд╛ рдЙрдкрдХрд░рдг рдПрдЬреЗрдВрдЯ
- ImportRetrievalAgent: рдЖрдпрд╛рдд рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдЙрдкрдХрд░рдг рдПрдЬреЗрдВрдЯ
LLM рдПрдЬреЗрдВрдЯреЛрдВ рдХреЛ рддрд░реНрдХ рдФрд░ рднрд╛рд╖рд╛ рдХреНрд╖рдорддрд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ:
- OpenAI рдореЙрдбрд▓ (рдЬреИрд╕реЗ GPT-4.1-mini)
- HuggingFace рд╕реНрдерд╛рдиреАрдп рдореЙрдбрд▓ (рдЬреИрд╕реЗ Qwen2.5-7B, DeepSeek-Math)
рдФрдкрдЪрд╛рд░рд┐рдХ рднрд╛рд╖рд╛ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдХреА рдЬрд╛рдирдХрд╛рд░реА рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд░рддрд╛ рд╣реИ, рд╕рдВрдмрдВрдзрд┐рдд рдЬреНрдЮрд╛рди рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИред рд╡рд░реНрддрдорд╛рди рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди Isabelle/HOL рдФрдкрдЪрд╛рд░рд┐рдХ рдХрдерди рдФрд░ рдкреНрд░рдорд╛рдгреЛрдВ рдХреЗ рдЬреНрдЮрд╛рди рдЖрдзрд╛рд░ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рддрд╛ рд╣реИред
рдЧрдгрд┐рддреАрдп рдкреБрд╕реНрддрдХрд╛рд▓рдп рдореЗрдВ рдбреЗрдЯрд╛ рдмрд┐рдВрджреБрдУрдВ рдХреА рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХрддрд╛ рдХреЛ рд░реИрдВрдХ рдХрд░рддрд╛ рд╣реИ, рд╡рд░реНрддрдорд╛рди рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди BM25 рд╡рд┐рдзрд┐ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИред
рдФрдкрдЪрд╛рд░рд┐рдХ рдХреЛрдб рдХреА рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕рд╣реА рдФрд░ рддрд╛рд░реНрдХрд┐рдХ рд╕рд╣реА рд╣реЛрдиреЗ рдХреЛ рд╕рддреНрдпрд╛рдкрд┐рдд рдХрд░рддрд╛ рд╣реИ, рддреНрд░реБрдЯрд┐ рд╕рдВрджреЗрд╢ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ:
- Isabelle (рд╕рдорд░реНрдкрд┐рдд рд╕рд░реНрд╡рд░ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ)
- Lean4 (REPL рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ)
- рдореЙрдбреНрдпреВрд▓рд░ рдбрд┐рдЬрд╝рд╛рдЗрди: рдЕрдореВрд░реНрдд рдЖрдзрд╛рд░ рд╡рд░реНрдЧ рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ, рдирдП рдПрдЬреЗрдВрдЯреЛрдВ рдФрд░ рдЙрдкрдХрд░рдгреЛрдВ рдХреЗ рд╡рд┐рд╕реНрддрд╛рд░ рдХреЛ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рдмрдирд╛рддрд╛ рд╣реИ
- рдмрд╣реБ-рд╕реНрддрд░реАрдп рдЖрд▓реЛрдЪрдирд╛ рддрдВрддреНрд░: рдХрдареЛрд░ рдЖрд▓реЛрдЪрдирд╛ (рд╡рд╛рдХреНрдп рд░рдЪрдирд╛) рдФрд░ рдирд░рдо рдЖрд▓реЛрдЪрдирд╛ (рдЕрд░реНрде) рдХреЛ рдЬреЛрдбрд╝рддрд╛ рд╣реИ
- рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐рдореВрд▓рдХ рд╕реБрдзрд╛рд░ рдкреНрд░рдХреНрд░рд┐рдпрд╛: рдмрд╣реБ-рджреМрд░ рд╕реНрд╡-рд╕реБрдзрд╛рд░ рдПрдЬреЗрдВрдЯ рд╕рд╣рдпреЛрдЧ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ
- рдЙрдкрдХрд░рдг рдПрдЬреЗрдВрдЯ рдПрдХреАрдХрд░рдг: рд╢реЛрд░ рд╣рдЯрд╛рдиреЗ рдФрд░ рдЖрдпрд╛рдд рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдЬреИрд╕реЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрдкрдХрд░рдгреЛрдВ рдХреЛ рдПрдХреАрдХреГрдд рдХрд░рддрд╛ рд╣реИ
- miniF2F: Isabelle/HOL рдФрд░ Lean4 рдХреЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рдмреЗрдВрдЪрдорд╛рд░реНрдХрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП
- ProofNet: Lean4 рдХреЛрдб рдХреЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- Pass Rate: рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕рд╣реА рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХрд╛ рдкреНрд░рддрд┐рд╢рдд
- BLEU-4: рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЗ рд╕рд╛рде n-gram рдУрд╡рд░рд▓реИрдк
- ChrF: рд╡рд░реНрдг-рд╕реНрддрд░реАрдп F-score
- RUBY: рдХреЛрдб рдорд╛рдЗрдЧреНрд░реЗрд╢рди рдореВрд▓реНрдпрд╛рдВрдХрди рдореЗрдЯреНрд░рд┐рдХ
- Alignment Faithfulness (AF): рдХреНрдпрд╛ рдФрдкрдЪрд╛рд░рд┐рдХ рдХреЛрдб рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдЕрд░реНрде рдХреЛ рд╕рдЯреАрдХ рд░реВрдк рд╕реЗ рд╕рдВрд░реЗрдЦрд┐рдд рдХрд░рддрд╛ рд╣реИ
- Formalization Correctness (FC): рдХреНрдпрд╛ рдФрдкрдЪрд╛рд░рд┐рдХ рдХреЛрдб рд╕реНрд╡рдпрдВ рд╡реИрдз, рдкреНрд░рд╛рдХреГрддрд┐рдХ рдФрд░ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рд╕реНрд╡рд░реВрдкрд┐рдд рд╣реИ
- рд╢реВрдиреНрдп-рдирдореВрдирд╛ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ (ZS): LLM рдХрд╛ рд╕реАрдзреЗ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ
- рдХрдо-рдирдореВрдирд╛ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ (FS): 3 рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг
- рд╡рд┐рднрд┐рдиреНрди LLM рд╕рдВрдпреЛрдЬрди: GPT-4.1-mini, DeepSeek-Math-7B, Qwen2.5-7B
- рдирд░рдо рдЖрд▓реЛрдЪрдирд╛ рдПрдЬреЗрдВрдЯ рдХреЗ рдмреИрдХрдПрдВрдб LLM рдХреЗ рд░реВрдк рдореЗрдВ GPT-4.1-mini рдХрд╛ рдЙрдкрдпреЛрдЧ
- Isabelle/HOL рдФрд░ Lean4 рджреЛрдиреЛрдВ рдФрдкрдЪрд╛рд░рд┐рдХ рднрд╛рд╖рд╛рдУрдВ рдХрд╛ рд╕рдорд░реНрдерди
- рдкреВрд░реНрдг Python рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдФрд░ Jupyter Notebook рдЙрджрд╛рд╣рд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
miniF2F-Test (Isabelle/HOL):
- GPT-4.1-mini рд╢реВрдиреНрдп-рдирдореВрдирд╛: Pass Rate 65.57% тЖТ 77.05% (+11.48%)
- GPT-4.1-mini рдХрдо-рдирдореВрдирд╛: Pass Rate 76.23% тЖТ 86.48% (+10.25%)
- DeepSeek-Math рдХрдо-рдирдореВрдирд╛: Pass Rate 29.10% тЖТ 36.48% (+7.38%)
ProofNet-Test (Lean4):
- GPT-4.1-mini рд╢реВрдиреНрдп-рдирдореВрдирд╛: Pass Rate 3.30% тЖТ 3.85% (+0.55%)
- GPT-4.1-mini рдХрдо-рдирдореВрдирд╛: Pass Rate 12.09% тЖТ 14.84% (+2.75%)
miniF2F (Lean4):
- DeepSeek-Math + GPT-4.1-mini рд╕реБрдзрд╛рд░: AF 38.52% тЖТ 90.57%, FC 47.54% тЖТ 79.92%
- Qwen2.5-7B + GPT-4.1-mini рд╕реБрдзрд╛рд░: AF 54.51% тЖТ 93.44%, FC 62.70% тЖТ 85.25%
рдЪрд┐рддреНрд░ 2 рдкрд░рд┐рдгрд╛рдо рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ:
- Qwen2.5-7B: 4 рджреМрд░реЛрдВ рдХреЗ рдмрд╛рдж, рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕рд╣реА рдФрд░ рдЕрд░реНрде рд╕рдВрд░реЗрдЦрд┐рдд рдХрд╛ рдЕрдиреБрдкрд╛рдд 35.25% рддрдХ рдкрд╣реБрдБрдЪрддрд╛ рд╣реИ
- GPT-4.1-mini: 4 рджреМрд░реЛрдВ рдХреЗ рдмрд╛рдж, рд╡рд╛рдХреНрдп рд░рдЪрдирд╛ рд╕рд╣реА рдФрд░ рдЕрд░реНрде рд╕рдВрд░реЗрдЦрд┐рдд рдХрд╛ рдЕрдиреБрдкрд╛рдд 61.89% рддрдХ рдкрд╣реБрдБрдЪрддрд╛ рд╣реИ
- рдХрдо-рдирдореВрдирд╛ рд╢реВрдиреНрдп-рдирдореВрдирд╛ рд╕реЗ рдмреЗрд╣рддрд░ рд╣реИ: рд╕рднреА рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдореЗрдВ, рдХрдо-рдирдореВрдирд╛ рд╕реАрдЦрдирд╛ рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ
- рдореЙрдбрд▓ рдХреНрд╖рдорддрд╛ рдкреНрд░рднрд╛рд╡: рдордЬрдмреВрдд рдореЙрдбрд▓ (GPT-4.1-mini) рдФрдкрдЪрд╛рд░рд┐рдХ рд╕реБрдзрд╛рд░ рдореЗрдВ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВ
- рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐рдореВрд▓рдХ рд╕реБрдзрд╛рд░ рдкреНрд░рднрд╛рд╡реА: рдмрд╣реБ-рджреМрд░ рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдЧреБрдгрд╡рддреНрддрд╛ рдореЗрдВ рдирд┐рд░рдВрддрд░ рд╕реБрдзрд╛рд░ рдХрд░ рд╕рдХрддреА рд╣реИ
- рдХреНрд░реЙрд╕-рдореЙрдбрд▓ рд╕реБрдзрд╛рд░: рдордЬрдмреВрдд рдореЙрдбрд▓ рдХрдордЬреЛрд░ рдореЙрдбрд▓ рдХреЗ рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ
- рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рд╡рд┐рдзрд┐рдпрд╛рдБ: Wu et al. (2022) рдЖрджрд┐ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЗ рд▓рд┐рдП LLM рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ
- рдбреЗрдЯрд╛ рдЬрдирд░реЗрд╢рди: Jiang et al. (2024) рдФрд░ Liu et al. (2025b) рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рд╕рдорд╛рдирд╛рдВрддрд░ рдХреЙрд░реНрдкрд╕ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╣реИрдВ
- рд╕рд┐рд╕реНрдЯрдо рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди: рдореМрдЬреВрджрд╛ рд╕рд┐рд╕реНрдЯрдо рдореЗрдВ рдореЙрдбреНрдпреВрд▓рд░рд┐рдЯреА рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рдХреА рдХрдореА рд╣реИ
- рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдХреНрд╖реЗрддреНрд░: рдСрдкрд░реЗрдЯрд┐рдВрдЧ рд╕рд┐рд╕реНрдЯрдо, рдЪрд┐рдХрд┐рддреНрд╕рд╛ рд╢рд┐рдХреНрд╖рд╛, рдЙрддреНрддрд░ рд╕рддреНрдпрд╛рдкрди рдЖрджрд┐
- рддрд░реНрдХ рдХрд╛рд░реНрдп: рдЕрдВрдХрдЧрдгрд┐рддреАрдп рддрд░реНрдХ рдФрд░ рд╕рд╛рдорд╛рдиреНрдп рддрд░реНрдХ
- рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдЕрдиреБрдкреНрд░рдпреЛрдЧ: рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдЕрдиреБрд╕рдВрдзрд╛рди рд╕реАрдорд┐рдд рд╣реИ
- рдврд╛рдВрдЪреЗ рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛: MASA рдиреЗ рд╕рдлрд▓рддрд╛рдкреВрд░реНрд╡рдХ рдПрдХ рдореЙрдбреНрдпреВрд▓рд░ рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рдгрд╛рд▓реА рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдХрд┐рдпрд╛
- рдкреНрд░рджрд░реНрд╢рди рд╕реБрдзрд╛рд░: рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕рд╣рдпреЛрдЧ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреА рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ
- рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп: рдврд╛рдВрдЪрд╛ рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЛ рдПрдХ рд▓рдЪреАрд▓рд╛ рд╡рд┐рдХрд╛рд╕ рдордВрдЪ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- рдХреЗрдВрджреНрд░реАрдп рдирд┐рдпрдВрддреНрд░рдг рдХреА рдХрдореА: рдкреНрд░рдгрд╛рд▓реА рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдПрдЬреЗрдВрдЯреЛрдВ рдХреЛ рдЖрд╡рдВрдЯрд┐рдд рдФрд░ рдирд┐рдпрдВрддреНрд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЗрдВрджреНрд░реАрдп рдПрдЬреЗрдВрдЯ рдирд╣реАрдВ рд╣реИ
- рдЕрд░реНрде рдореВрд▓реНрдпрд╛рдВрдХрди рд╕реАрдорд╛рдПрдБ: рдЕрд░реНрде рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗрд╡рд▓ рдЙрдЪреНрдЪ-рд╕реНрддрд░реАрдп рдирд┐рд░реНрдгрдп рддрдХ рд╕реАрдорд┐рдд рд╣реИ, рдЕрдзрд┐рдХ рд╕реВрдХреНрд╖реНрдо рдореВрд▓реНрдпрд╛рдВрдХрди рдорд╛рдирджрдВрдб рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ
- рдореЙрдбрд▓ рдирд┐рд░реНрднрд░рддрд╛: рдкреНрд░рдгрд╛рд▓реА рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдмрд╣реБрдд рд╣рдж рддрдХ рдЕрдВрддрд░реНрдирд┐рд╣рд┐рдд LLM рдХреА рдХреНрд╖рдорддрд╛ рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ
- рдХреЗрдВрджреНрд░реАрдп рдирд┐рдпрдВрддреНрд░рдг рдореЗрдВ рд╕реБрдзрд╛рд░: рдЕрдзрд┐рдХ рдЙрдиреНрдирдд рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдирд┐рдпрдВрддреНрд░рдг рддрдВрддреНрд░ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдирд╛
- рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЛ рдкрд░рд┐рд╖реНрдХреГрдд рдХрд░рдирд╛: рдЕрдзрд┐рдХ рд╕реВрдХреНрд╖реНрдо рдЕрд░реНрде рдореВрд▓реНрдпрд╛рдВрдХрди рдорд╛рдирджрдВрдб рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдирд╛
- рдЕрдиреБрдкреНрд░рдпреЛрдЧ рд╡рд┐рд╕реНрддрд╛рд░: рдврд╛рдВрдЪреЗ рдХреЛ рдЕрдзрд┐рдХ рд╡реНрдпрд╛рдкрдХ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХрд╛рд░реНрдпреЛрдВ рдореЗрдВ рд▓рд╛рдЧреВ рдХрд░рдирд╛
- рдордЬрдмреВрдд рдирд╡рд╛рдЪрд╛рд░: рдкрд╣рд▓реА рд╡реНрдпрд╡рд╕реНрдерд┐рдд рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдврд╛рдВрдЪрд╛
- рдЙрдЪрд┐рдд рдбрд┐рдЬрд╝рд╛рдЗрди: рдореЙрдбреНрдпреВрд▓рд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдбрд┐рдЬрд╝рд╛рдЗрди рд╕реБрд░реБрдЪрд┐рдкреВрд░реНрдг рд╣реИ, рд╡рд┐рд╕реНрддрд╛рд░ рдореЗрдВ рдЖрд╕рд╛рди
- рдкрд░реНрдпрд╛рдкреНрдд рдкреНрд░рдпреЛрдЧ: рдХрдИ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдореЗрдЯреНрд░рд┐рдХреНрд╕ рдХреЛ рдХрд╡рд░ рдХрд░рддрд╛ рд╣реИ
- рдЙрдЪреНрдЪ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп: рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдЕрдиреБрд╕рдВрдзрд╛рди рдХреА рдмрд╛рдзрд╛ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ
- рдордЬрдмреВрдд рдкрд░рд┐рдгрд╛рдо рд╡рд┐рд╢реНрд╡рд╕рдиреАрдпрддрд╛: рдХрдИ рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░ рд╡рд┐рдзрд┐ рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рдХреЛ рд╕рддреНрдпрд╛рдкрд┐рдд рдХрд░рддрд╛ рд╣реИ
- рдЕрдкрд░реНрдпрд╛рдкреНрдд рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг: рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕рд╣рдпреЛрдЧ рддрдВрддреНрд░ рдХреЗ рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рдХрдореА
- рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓рд╛рдЧрдд: рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдкреНрд░рдгрд╛рд▓реА рдХреА рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рдУрд╡рд░рд╣реЗрдб рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдЕрдкрд░реНрдпрд╛рдкреНрдд рд╣реИ
- рддреНрд░реБрдЯрд┐ рдкреНрд░рд╕рд╛рд░: рдПрдЬреЗрдВрдЯреЛрдВ рдХреЗ рдмреАрдЪ рддреНрд░реБрдЯрд┐ рдкреНрд░рд╕рд╛рд░ рд╕рдорд╕реНрдпрд╛ рдХрд╛ рдЧрд╣рди рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдирд╣реАрдВ
- рдореВрд▓реНрдпрд╛рдВрдХрди рд╕реАрдорд╛рдПрдБ: рдЕрд░реНрде рдореВрд▓реНрдпрд╛рдВрдХрди рдЕрднреА рднреА LLM рдирд┐рд░реНрдгрдп рдкрд░ рдирд┐рд░реНрднрд░ рд╣реИ, рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ
- рд╢реИрдХреНрд╖рдгрд┐рдХ рдпреЛрдЧрджрд╛рди: рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЗ рд▓рд┐рдП рдирдпрд╛ рдкреНрд░рддрд┐рдорд╛рди рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп: рдврд╛рдВрдЪрд╛ рд╕реАрдзреЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рд╡рд┐рдХрд╛рд╕ рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
- рдкреБрдирд░реБрддреНрдкрд╛рджрдирд╢реАрд▓рддрд╛: рдкреВрд░реНрдг рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдкреБрдирд░реБрддреНрдкрд╛рджрдирд╢реАрд▓рддрд╛ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ
- рд╡рд┐рдХрд╛рд╕ рдХреЛ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдирд╛: рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдХреЛ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИ
- рдЧрдгрд┐рддреАрдп рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг: рдЬрдЯрд┐рд▓ рдЧрдгрд┐рддреАрдп рдкреНрд░рдореЗрдп рдФрд░ рдкрд░рд┐рднрд╛рд╖рд╛рдУрдВ рдХреЗ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрдд
- рд╢реИрдХреНрд╖рдгрд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ: рдЧрдгрд┐рдд рд╢рд┐рдХреНрд╖рдг рдореЗрдВ рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
- рдЕрдиреБрд╕рдВрдзрд╛рди рдЙрдкрдХрд░рдг: рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЗ рд▓рд┐рдП рдЖрдзрд╛рд░ рдордВрдЪ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
- рдФрджреНрдпреЛрдЧрд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ: рдФрдкрдЪрд╛рд░рд┐рдХ рд╕рддреНрдпрд╛рдкрди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╡рд╛рд▓реА рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
рдореБрдЦреНрдп рд╕рдВрджрд░реНрдн рд╕рд╛рд╣рд┐рддреНрдп рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ:
- Wu et al. (2022): Autoformalization with large language models
- Zheng et al. (2022): miniF2F: a cross-system benchmark for formal olympiad-level mathematics
- Azerbayev et al. (2023): ProofNet: Autoformalizing and formally proving undergraduate-level mathematics
- Jiang et al. (2023): Draft, sketch, and prove: Guiding formal theorem provers with informal proofs
рд╕рд╛рд░рд╛рдВрд╢: MASA рдПрдХ рдирд╡рд╛рдЪрд╛рд░реА рдмрд╣реБ-рдПрдЬреЗрдВрдЯ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдврд╛рдВрдЪрд╛ рд╣реИ, рдЬреЛ рдореЙрдбреНрдпреВрд▓рд░ рдбрд┐рдЬрд╝рд╛рдЗрди рдФрд░ рдПрдЬреЗрдВрдЯ рд╕рд╣рдпреЛрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдХреЗ рдкреНрд░рднрд╛рд╡ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдХрд╛рд░реНрдп рддрдХрдиреАрдХреА рдирд╡рд╛рдЪрд╛рд░, рдкреНрд░рдпреЛрдЧ рд╕рддреНрдпрд╛рдкрди рдФрд░ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп рдХреЗ рд╕рднреА рдкрд╣рд▓реБрдУрдВ рдореЗрдВ рдЙрддреНрдХреГрд╖реНрдЯ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддрд╛ рд╣реИ, рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдФрдкрдЪрд╛рд░рд┐рдХреАрдХрд░рдг рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЗ рд▓рд┐рдП рдирдИ рджрд┐рд╢рд╛ рдЦреЛрд▓рддрд╛ рд╣реИред рдХреБрдЫ рд╕реАрдорд╛рдУрдВ рдХреЗ рдмрд╛рд╡рдЬреВрдж, рдЗрд╕рдХрд╛ рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдФрд░ рдЕрдЪреНрдЫреА рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рдЗрд╕реЗ рдЗрд╕ рдХреНрд╖реЗрддреНрд░ рдХрд╛ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рдмрдирд╛рддреА рд╣реИред