Autoformalization serves a crucial role in connecting natural language and formal reasoning. This paper presents MASA, a novel framework for building multi-agent systems for autoformalization driven by Large Language Models (LLMs). MASA leverages collaborative agents to convert natural language statements into their formal representations. The architecture of MASA is designed with a strong emphasis on modularity, flexibility, and extensibility, allowing seamless integration of new agents and tools to adapt to a fast-evolving field. We showcase the effectiveness of MASA through use cases on real-world mathematical definitions and experiments on formal mathematics datasets. This work highlights the potential of multi-agent systems powered by the interaction of LLMs and theorem provers in enhancing the efficiency and reliability of autoformalization, providing valuable insights and support for researchers and practitioners in the field.
- পেপার আইডি: 2510.08988
- শিরোনাম: MASA: স্বয়ংক্রিয় আনুপচারিকীকরণের জন্য LLM-চালিত মাল্টি-এজেন্ট সিস্টেম
- লেখক: ল্যান ঝাং (ম্যাঞ্চেস্টার বিশ্ববিদ্যালয়), মার্কো ভ্যালেন্টিনো (শেফিল্ড বিশ্ববিদ্যালয়), আন্দ্রে ফ্রেইটাস (ম্যাঞ্চেস্টার বিশ্ববিদ্যালয়, ইডিয়াপ গবেষণা প্রতিষ্ঠান, জাতীয় বায়োমার্কার কেন্দ্র)
- শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান), cs.FL (আনুপচারিক ভাষা)
- প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রাক-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.08988
স্বয়ংক্রিয় আনুপচারিকীকরণ প্রাকৃতিক ভাষা এবং আনুপচারিক যুক্তির মধ্যে সংযোগ স্থাপনে গুরুত্বপূর্ণ ভূমিকা পালন করে। এই পেপারে আমরা MASA উপস্থাপন করছি, যা বৃহৎ ভাষা মডেল (LLM) দ্বারা চালিত একটি মাল্টি-এজেন্ট সিস্টেম নির্মাণ কাঠামো যা স্বয়ংক্রিয় আনুপচারিকীকরণ কাজের জন্য ব্যবহৃত হয়। MASA সহযোগী এজেন্টদের ব্যবহার করে প্রাকৃতিক ভাষার বিবৃতিকে তাদের আনুপচারিক প্রতিনিধিত্বে রূপান্তরিত করে। MASA-র স্থাপত্য ডিজাইন মডুলারিটি, নমনীয়তা এবং স্কেলেবিলিটির উপর জোর দেয়, যা দ্রুত বিকশিত ক্ষেত্রের সাথে খাপ খাইয়ে নেওয়ার জন্য নতুন এজেন্ট এবং সরঞ্জামগুলির নির্বিঘ্ন একীকরণের অনুমতি দেয়। লেখকরা বাস্তব-বিশ্বের গাণিতিক সংজ্ঞার ব্যবহার-কেস এবং আনুপচারিক গণিত ডেটাসেটে পরীক্ষা-নিরীক্ষার মাধ্যমে MASA-র কার্যকারিতা প্রদর্শন করেছেন। এই কাজটি LLM এবং উপপাদ্য প্রমাণকারীর মিথস্ক্রিয়া দ্বারা চালিত মাল্টি-এজেন্ট সিস্টেমগুলির স্বয়ংক্রিয় আনুপচারিকীকরণের দক্ষতা এবং নির্ভরযোগ্যতা উন্নত করার সম্ভাবনা তুলে ধরে।
স্বয়ংক্রিয় আনুপচারিকীকরণ হল প্রাকৃতিক ভাষার গাণিতিক বিবৃতিকে স্বয়ংক্রিয়ভাবে মেশিন-যাচাইযোগ্য আনুপচারিক যুক্তির সূত্রে রূপান্তরিত করার কাজ। এই সমস্যার মূল চ্যালেঞ্জগুলি হল:
- অর্থগত ব্যবধান: প্রাকৃতিক ভাষার অস্পষ্টতা এবং আনুপচারিক ভাষার কঠোরতার মধ্যে বিশাল পার্থক্য
- জটিলতা: বাস্তব-বিশ্বের গাণিতিক বিবৃতিতে প্রায়শই জটিল ধারণা এবং যুক্তির শৃঙ্খল জড়িত থাকে
- নির্ভুলতার প্রয়োজনীয়তা: আনুপচারিকীকরণের ফলাফল অবশ্যই বাক্যতাত্ত্বিক এবং অর্থগতভাবে উভয়ই সঠিক হতে হবে
স্বয়ংক্রিয় আনুপচারিকীকরণ গুরুত্বপূর্ণ তাৎপর্য রাখে:
- গাণিতিক যাচাইকরণ: উপপাদ্য প্রমাণ এবং গাণিতিক যাচাইকরণের ভিত্তি প্রদান করে
- যুক্তির স্বচ্ছতা: প্রাকৃতিক ভাষার যুক্তির তুলনায় আনুপচারিক যুক্তি আরও সুশৃঙ্খল, স্বচ্ছ এবং কঠোর
- স্বয়ংক্রিয়করণের প্রয়োজন: ম্যানুয়াল আনুপচারিকীকরণে প্রচুর বিশেষজ্ঞ জ্ঞান এবং সময় ব্যয় প্রয়োজন
বিদ্যমান LLM-ভিত্তিক স্বয়ংক্রিয় আনুপচারিকীকরণ সিস্টেমগুলিতে নিম্নলিখিত সমস্যা রয়েছে:
- একক-স্তরীয় স্থাপত্য সীমাবদ্ধতা: একক LLM জটিল বাস্তব-বিশ্বের স্বয়ংক্রিয় আনুপচারিকীকরণ সমস্যা পরিচালনা করতে অসুবিধা পায়
- মডুলারিটির অভাব: বিদ্যমান বাস্তবায়নে মডুলারিটি, নমনীয়তা এবং স্কেলেবিলিটির অভাব রয়েছে
- উপাদান মিথস্ক্রিয়া অপর্যাপ্ত: একাধিক মিথস্ক্রিয়াশীল উপাদানগুলি কার্যকরভাবে একীভূত করতে পারে না
লেখকরা MASA কাঠামো প্রস্তাব করার প্রেরণা হল:
- স্বয়ংক্রিয় আনুপচারিকীকরণের জটিলতা সমাধানের জন্য মডুলার মাল্টি-এজেন্ট সিস্টেম নির্মাণ করা
- গবেষকদের দ্রুত সিস্টেম বিকাশ এবং সম্প্রসারণের জন্য নমনীয় এবং স্কেলেবল কাঠামো প্রদান করা
- এজেন্ট সহযোগিতার মাধ্যমে স্বয়ংক্রিয় আনুপচারিকীকরণের দক্ষতা এবং নির্ভরযোগ্যতা উন্নত করা
- মডুলার মাল্টি-এজেন্ট কাঠামো প্রস্তাব: MASA স্বয়ংক্রিয় আনুপচারিকীকরণ মাল্টি-এজেন্ট সিস্টেম নির্মাণের জন্য একটি মডুলার কাঠামো প্রদান করে যা ভাল নমনীয়তা এবং স্কেলেবিলিটি রাখে
- বাস্তব-বিশ্বের প্রয়োগ প্রদর্শন: এজেন্টদের মাধ্যমে বাস্তব-বিশ্বের গাণিতিক সংজ্ঞা আনুপচারিক করে, কাঠামোর ব্যবহারিক সম্ভাবনা তুলে ধরে
- সিস্টেমেটিক মূল্যায়ন: তিনটি মাল্টি-এজেন্ট সেটিংয়ের অধীনে কাঠামো মূল্যায়ন করে, এর কার্যকারিতা প্রমাণ করে এবং মূল্যবান অন্তর্দৃষ্টি প্রদান করে। চূড়ান্ত পুনরাবৃত্তিমূলক স্ব-উন্নতি সিস্টেম Qwen2.5-7B এবং GPT-4.1-mini-তে যথাক্রমে 35.25% এবং 61.89% বাক্যতাত্ত্বিকভাবে সঠিক এবং অর্থগতভাবে সংযুক্ত আনুপচারিকীকরণের হার অর্জন করে
- ওপেন-সোর্স বাস্তবায়ন: সম্পূর্ণ কোড এবং ডেটা প্রদান করে, গবেষণার প্রবেশদ্বার হ্রাস করে
স্বয়ংক্রিয় আনুপচারিকীকরণকে একটি রূপান্তর ফাংশন A হিসাবে সংজ্ঞায়িত করা যায় যা প্রাকৃতিক ভাষার বিবৃতি s কে তার আনুপচারিক প্রতিনিধিত্ব φ = A(s)-তে ম্যাপ করে। ঐতিহ্যবাহী পদ্ধতি LLM প্রম্পটের মাধ্যমে এটি বাস্তবায়ন করে: A = LLM(prompt)। MASA এই সংজ্ঞাকে সম্প্রসারিত করে, মাল্টি-এজেন্ট সিস্টেমের মাধ্যমে আরও জটিল রূপান্তর প্রক্রিয়া বাস্তবায়ন করে।
MASA কাঠামোতে পাঁচটি মূল উপাদান রয়েছে:
এজেন্টগুলি নির্দিষ্ট কার্যকারিতা সম্পাদনকারী মৌলিক উপাদান, যার মধ্যে রয়েছে:
- AutoformalizationAgent: কম-নমুনা স্বয়ংক্রিয় আনুপচারিকীকরণ সম্পাদন করে
- HardCritiqueAgent: উপপাদ্য প্রমাণকারীর উপর ভিত্তি করে বাক্যতাত্ত্বিক স্তরের সমালোচনা প্রদান করে
- SoftCritiqueAgent: LLM-এর উপর ভিত্তি করে অর্থগত স্তরের সমালোচনা প্রদান করে
- FormalRefinementAgent: কঠোর সমালোচনার উপর ভিত্তি করে আনুপচারিক কোড উন্নত করে
- InformalRefinementAgent: নরম সমালোচনার উপর ভিত্তি করে আনুপচারিক কোড উন্নত করে
- DenoisingAgent: সরঞ্জাম এজেন্ট অপসারণ করে
- ImportRetrievalAgent: আমদানি পুনরুদ্ধার সরঞ্জাম এজেন্ট
LLM এজেন্টদের যুক্তি এবং ভাষা ক্ষমতা প্রদান করে, সমর্থন করে:
- OpenAI মডেল (যেমন GPT-4.1-mini)
- HuggingFace স্থানীয় মডেল (যেমন Qwen2.5-7B, DeepSeek-Math)
আনুপচারিক ভাষা লাইব্রেরির তথ্য সংরক্ষণ করে, সম্পর্কিত জ্ঞান পুনরুদ্ধার সমর্থন করে। বর্তমান বাস্তবায়নে Isabelle/HOL আনুপচারিক বিবৃতি এবং প্রমাণের জ্ঞান ভিত্তি অন্তর্ভুক্ত রয়েছে।
গাণিতিক লাইব্রেরিতে ডেটা পয়েন্টগুলির প্রাসঙ্গিকতা র্যাঙ্ক করে, বর্তমান বাস্তবায়ন BM25 পদ্ধতির উপর ভিত্তি করে।
আনুপচারিক করার বাক্যতাত্ত্বিক সঠিকতা এবং যুক্তিগত বৈধতা যাচাই করে, ত্রুটির তথ্য প্রদান করে। সমর্থন করে:
- Isabelle (নিবেদিত সার্ভারের মাধ্যমে)
- Lean4 (REPL-এর মাধ্যমে)
- মডুলার ডিজাইন: বিমূর্ত ভিত্তি শ্রেণী ডিজাইন ব্যবহার করে, নতুন এজেন্ট এবং সরঞ্জাম সম্প্রসারণ সহজতর করে
- বহু-স্তরীয় সমালোচনা প্রক্রিয়া: কঠোর সমালোচনা (বাক্যতা) এবং নরম সমালোচনা (অর্থ) একত্রিত করে
- পুনরাবৃত্তিমূলক উন্নতি প্রবাহ: একাধিক রাউন্ড স্ব-উন্নতি এজেন্ট সহযোগিতা সমর্থন করে
- সরঞ্জাম এজেন্ট একীকরণ: অপসারণ এবং আমদানি পুনরুদ্ধারের মতো ব্যবহারিক সরঞ্জাম একীভূত করে
- miniF2F: Isabelle/HOL এবং Lean4-এর বাস্তব আনুপচারিকীকরণ প্রদান করে, বেঞ্চমার্ক পরীক্ষার জন্য ব্যবহৃত হয়
- ProofNet: Lean4 কোডের বাস্তব আনুপচারিকীকরণ প্রদান করে
- Pass Rate: বাক্যতাত্ত্বিকভাবে সঠিক আনুপচারিকীকরণের শতাংশ
- BLEU-4: বাস্তব আনুপচারিকীকরণের সাথে n-gram ওভারল্যাপের মাত্রা
- ChrF: অক্ষর-স্তরের F-স্কোর
- RUBY: কোড স্থানান্তর মূল্যায়ন মেট্রিক
- সংযোগ বিশ্বস্ততা (AF): আনুপচারিক কোড প্রাকৃতিক ভাষার অর্থকে সঠিকভাবে সংযুক্ত করে কিনা
- আনুপচারিকীকরণ সঠিকতা (FC): আনুপচারিক কোড নিজেই কার্যকর, প্রাকৃতিক এবং ভালভাবে বিন্যাসিত কিনা
- শূন্য-নমুনা প্রম্পটিং (ZS): সরাসরি LLM ব্যবহার করে আনুপচারিকীকরণ
- কম-নমুনা প্রম্পটিং (FS): 3টি উদাহরণ ব্যবহার করে আনুপচারিকীকরণ
- বিভিন্ন LLM সমন্বয়: GPT-4.1-mini, DeepSeek-Math-7B, Qwen2.5-7B
- নরম সমালোচনা এজেন্টের ব্যাকএন্ড LLM হিসাবে GPT-4.1-mini ব্যবহার করে
- Isabelle/HOL এবং Lean4 দুটি আনুপচারিক ভাষা সমর্থন করে
- সম্পূর্ণ Python বাস্তবায়ন এবং Jupyter Notebook উদাহরণ প্রদান করে
miniF2F-Test (Isabelle/HOL):
- GPT-4.1-mini শূন্য-নমুনা: Pass Rate 65.57% → 77.05% (+11.48%)
- GPT-4.1-mini কম-নমুনা: Pass Rate 76.23% → 86.48% (+10.25%)
- DeepSeek-Math কম-নমুনা: Pass Rate 29.10% → 36.48% (+7.38%)
ProofNet-Test (Lean4):
- GPT-4.1-mini শূন্য-নমুনা: Pass Rate 3.30% → 3.85% (+0.55%)
- GPT-4.1-mini কম-নমুনা: Pass Rate 12.09% → 14.84% (+2.75%)
miniF2F (Lean4):
- DeepSeek-Math + GPT-4.1-mini উন্নতি: AF 38.52% → 90.57%, FC 47.54% → 79.92%
- Qwen2.5-7B + GPT-4.1-mini উন্নতি: AF 54.51% → 93.44%, FC 62.70% → 85.25%
চিত্র 2 ফলাফল দেখায়:
- Qwen2.5-7B: 4 রাউন্ড পুনরাবৃত্তির পরে, বাক্যতাত্ত্বিকভাবে সঠিক এবং অর্থগতভাবে সংযুক্তির অনুপাত 35.25% এ পৌঁছায়
- GPT-4.1-mini: 4 রাউন্ড পুনরাবৃত্তির পরে, বাক্যতাত্ত্বিকভাবে সঠিক এবং অর্থগতভাবে সংযুক্তির অনুপাত 61.89% এ পৌঁছায়
- কম-নমুনা শূন্য-নমুনার চেয়ে উন্নত: সমস্ত সেটিংয়ে, কম-নমুনা শিক্ষা উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে
- মডেল ক্ষমতার প্রভাব: শক্তিশালী মডেল (GPT-4.1-mini) আনুপচারিক উন্নতিতে আরও ভাল কর্মক্ষমতা প্রদর্শন করে
- পুনরাবৃত্তিমূলক উন্নতি কার্যকর: একাধিক রাউন্ড পুনরাবৃত্তি ক্রমাগত আনুপচারিকীকরণের গুণমান উন্নত করতে পারে
- ক্রস-মডেল উন্নতি: শক্তিশালী মডেল দুর্বল মডেলের আউটপুট উন্নত করতে পারে
- প্রম্পটিং পদ্ধতি: Wu et al. (2022) এবং অন্যরা স্বয়ংক্রিয় আনুপচারিকীকরণের জন্য LLM প্রম্পটিং ব্যবহার করেন
- ডেটা প্রজন্ম: Jiang et al. (2024) এবং Liu et al. (2025b) বড় আকারের সমান্তরাল কর্পাস বিকাশ করেন
- সিস্টেম বাস্তবায়ন: বিদ্যমান সিস্টেমগুলিতে মডুলারিটি এবং স্কেলেবিলিটির অভাব রয়েছে
- প্রয়োগের ক্ষেত্র: অপারেটিং সিস্টেম, চিকিৎসা শিক্ষা, উত্তর যাচাইকরণ ইত্যাদি
- যুক্তির কাজ: পাটিগণিত যুক্তি এবং সাধারণ যুক্তি
- স্বয়ংক্রিয় আনুপচারিকীকরণ প্রয়োগ: স্বয়ংক্রিয় আনুপচারিকীকরণ ক্ষেত্রে মাল্টি-এজেন্ট সিস্টেম গবেষণা সীমিত
- কাঠামোর কার্যকারিতা: MASA সফলভাবে একটি মডুলার মাল্টি-এজেন্ট স্বয়ংক্রিয় আনুপচারিকীকরণ সিস্টেম নির্মাণ করেছে
- কর্মক্ষমতা উন্নতি: মাল্টি-এজেন্ট সহযোগিতা স্বয়ংক্রিয় আনুপচারিকীকরণের নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করে
- ব্যবহারিক মূল্য: কাঠামো গবেষকদের একটি নমনীয় উন্নয়ন প্ল্যাটফর্ম প্রদান করে
- কেন্দ্রীয় নিয়ন্ত্রণের অভাব: সিস্টেমে বিভিন্ন এজেন্টকে বরাদ্দ এবং নিয়ন্ত্রণ করার জন্য কেন্দ্রীয় এজেন্টের অভাব রয়েছে
- অর্থগত মূল্যায়ন সীমাবদ্ধতা: অর্থগত মূল্যায়ন শুধুমাত্র উচ্চ-স্তরের বিচারের মধ্যে সীমাবদ্ধ, আরও সূক্ষ্ম-দানাদার মূল্যায়ন মান প্রয়োজন
- মডেল নির্ভরতা: সিস্টেমের কর্মক্ষমতা অন্তর্নিহিত LLM-এর ক্ষমতার উপর অনেকাংশে নির্ভর করে
- কেন্দ্রীয় নিয়ন্ত্রণ বৃদ্ধি: আরও উন্নত মাল্টি-এজেন্ট সিস্টেম নিয়ন্ত্রণ প্রক্রিয়া বিকাশ করা
- মূল্যায়ন পরিমার্জন: আরও সূক্ষ্ম অর্থগত মূল্যায়ন মান প্রতিষ্ঠা করা
- প্রয়োগ সম্প্রসারণ: কাঠামোটি আরও বিস্তৃত আনুপচারিকীকরণ কাজে প্রয়োগ করা
- শক্তিশালী উদ্ভাবনী: প্রথম সিস্টেমেটিক মাল্টি-এজেন্ট স্বয়ংক্রিয় আনুপচারিকীকরণ কাঠামো
- যুক্তিসঙ্গত ডিজাইন: মডুলার স্থাপত্য ডিজাইন মার্জিত, সম্প্রসারণ সহজ
- পর্যাপ্ত পরীক্ষা: একাধিক সেটিং এবং মূল্যায়ন মেট্রিক্স অন্তর্ভুক্ত করে
- উচ্চ ব্যবহারিক মূল্য: ওপেন-সোর্স বাস্তবায়ন গবেষণার প্রবেশদ্বার হ্রাস করে
- শক্তিশালী ফলাফল প্রভাব: একাধিক ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করে
- অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: মাল্টি-এজেন্ট সহযোগিতা প্রক্রিয়ার তাত্ত্বিক বিশ্লেষণের অভাব
- গণনামূলক খরচ: মাল্টি-এজেন্ট সিস্টেমের গণনামূলক ওভারহেড বিশ্লেষণ অপর্যাপ্ত
- ত্রুটি প্রসার: এজেন্টদের মধ্যে ত্রুটি প্রসার সমস্যা গভীরভাবে বিশ্লেষণ করা হয়নি
- মূল্যায়ন সীমাবদ্ধতা: অর্থগত মূল্যায়ন এখনও LLM বিচারের উপর নির্ভর করে, সম্ভাব্য পক্ষপাত থাকতে পারে
- একাডেমিক অবদান: স্বয়ংক্রিয় আনুপচারিকীকরণ গবেষণার জন্য নতুন প্যারাডাইম প্রদান করে
- ব্যবহারিক মূল্য: কাঠামো সরাসরি বাস্তব প্রয়োগ উন্নয়নে ব্যবহার করা যায়
- পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন পুনরুৎপাদনযোগ্যতা নিশ্চিত করে
- উন্নয়ন প্রচার: আনুপচারিকীকরণ ক্ষেত্রে মাল্টি-এজেন্ট প্রয়োগ প্রচার করার সম্ভাবনা রয়েছে
- গাণিতিক আনুপচারিকীকরণ: জটিল গাণিতিক উপপাদ্য এবং সংজ্ঞার স্বয়ংক্রিয় আনুপচারিকীকরণের জন্য উপযুক্ত
- শিক্ষা প্রয়োগ: গাণিতিক শিক্ষায় আনুপচারিকীকরণ প্রশিক্ষণে ব্যবহার করা যায়
- গবেষণা সরঞ্জাম: স্বয়ংক্রিয় আনুপচারিকীকরণ গবেষণার জন্য ভিত্তি প্ল্যাটফর্ম হিসাবে কাজ করে
- শিল্প প্রয়োগ: আনুপচারিক যাচাইকরণ প্রয়োজন এমন সফটওয়্যার সিস্টেমে একীভূত করা যায়
মূল তথ্যসূত্রগুলির মধ্যে রয়েছে:
- Wu et al. (2022): বৃহৎ ভাষা মডেলের সাথে স্বয়ংক্রিয় আনুপচারিকীকরণ
- Zheng et al. (2022): miniF2F: আনুপচারিক অলিম্পিয়াড-স্তরের গণিতের জন্য ক্রস-সিস্টেম বেঞ্চমার্ক
- Azerbayev et al. (2023): ProofNet: স্নাতক-স্তরের গণিতের স্বয়ংক্রিয় আনুপচারিকীকরণ এবং আনুপচারিক প্রমাণ
- Jiang et al. (2023): খসড়া, স্কেচ এবং প্রমাণ: অনানুপচারিক প্রমাণ দিয়ে আনুপচারিক উপপাদ্য প্রমাণকারীদের নির্দেশনা
সারসংক্ষেপ: MASA একটি উদ্ভাবনী মাল্টি-এজেন্ট স্বয়ংক্রিয় আনুপচারিকীকরণ কাঠামো যা মডুলার ডিজাইন এবং এজেন্ট সহযোগিতার মাধ্যমে স্বয়ংক্রিয় আনুপচারিকীকরণের প্রভাব উল্লেখযোগ্যভাবে উন্নত করে। এই কাজটি প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং ব্যবহারিক মূল্যের ক্ষেত্রে চমৎকার কর্মক্ষমতা প্রদর্শন করে, স্বয়ংক্রিয় আনুপচারিকীকরণ গবেষণার জন্য নতুন দিকনির্দেশনা খুলে দেয়। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর ওপেন-সোর্স বাস্তবায়ন এবং ভাল স্কেলেবিলিটি এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।