Mathematical problem-solving is a key field in artificial intelligence (AI) and a critical benchmark for evaluating the capabilities of large language models (LLMs). While extensive research has focused on mathematical problem-solving, most existing work and datasets concentrate on computational tasks, leaving gaps in areas like mathematical analysis, which demands rigorous proofs and formal reasoning. We developed the DEMI-MathAnalysis dataset, comprising proof-based problems from mathematical analysis topics such as Sequences and Limits, Infinite Series, and Convex Functions. We also designed a guiding framework to rigorously enhance LLMs' ability to solve these problems. Through fine-tuning LLMs on this dataset and employing our framework, we observed significant improvements in their capability to generate logical, complete, and elegant proofs. This work addresses critical gaps in mathematical reasoning and contributes to advancing trustworthy AI capable of handling formalized mathematical language. The code is publicly accessible at LLMs for Mathematical Analysis.
- पेपर ID: 2501.00059
- शीर्षक: गणितीय विश्लेषण के लिए बड़े भाषा मॉडल
- लेखक: Ziye Chen (बोस्टन विश्वविद्यालय), Hao Qi (बोस्टन विश्वविद्यालय)
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन तिथि: 28 दिसंबर 2024
- पेपर लिंक: https://arxiv.org/abs/2501.00059
गणितीय समस्या-समाधान कृत्रिम बुद्धिमत्ता (AI) में एक प्रमुख क्षेत्र है और बड़े भाषा मॉडल (LLMs) की क्षमताओं का मूल्यांकन करने के लिए एक महत्वपूर्ण बेंचमार्क है। जबकि गणितीय समस्या-समाधान पर व्यापक शोध किया गया है, अधिकांश मौजूदा कार्य और डेटासेट कम्प्यूटेशनल कार्यों पर केंद्रित हैं, जिससे गणितीय विश्लेषण जैसे क्षेत्रों में अंतराल रह गया है, जिसके लिए कठोर प्रमाण और औपचारिक तर्क की आवश्यकता होती है। हमने DEMI-MathAnalysis डेटासेट विकसित किया, जिसमें गणितीय विश्लेषण विषयों जैसे अनुक्रम और सीमाएं, अनंत श्रृंखला, और उत्तल कार्य से प्रमाण-आधारित समस्याएं शामिल हैं। हमने इन समस्याओं को हल करने के लिए LLMs की क्षमता को कठोरता से बढ़ाने के लिए एक मार्गदर्शन ढांचा भी डिज़ाइन किया। इस डेटासेट पर LLMs को फाइन-ट्यून करके और हमारे ढांचे को नियोजित करके, हमने तार्किक, पूर्ण और सुरुचिपूर्ण प्रमाण उत्पन्न करने की उनकी क्षमता में महत्वपूर्ण सुधार देखा। यह कार्य गणितीय तर्क में महत्वपूर्ण अंतराल को संबोधित करता है और औपचारिक गणितीय भाषा को संभालने में सक्षम विश्वसनीय AI को आगे बढ़ाने में योगदान देता है।
यह अनुसंधान गणितीय विश्लेषण क्षेत्र में मौजूदा बड़े भाषा मॉडल में कठोर प्रमाण क्षमता की कमी की समस्या को हल करने का प्रयास करता है। विशेष रूप से:
- मौजूदा डेटासेट की सीमाएं: मौजूदा गणितीय डेटासेट मुख्य रूप से कम्प्यूटेशनल कार्यों (जैसे बीजगणित, ज्यामिति, सांख्यिकी आदि) पर केंद्रित हैं, और लगभग पूरी तरह से प्रमाण-आधारित समस्याओं से बचते हैं
- औपचारिक तर्क क्षमता अपर्याप्त: LLMs कठोर तार्किक तर्क और औपचारिक विधियों (जैसे ε-δ प्रमाण) की आवश्यकता वाली गणितीय विश्लेषण समस्याओं को संभालने में खराब प्रदर्शन करते हैं
- विशेष मूल्यांकन बेंचमार्क की कमी: गणितीय प्रमाण गुणवत्ता के लिए विशेष मूल्यांकन डेटासेट और विधियां नहीं हैं
गणितीय विश्लेषण गणित की एक मूल शाखा है, जो कठोर प्रमाण और औपचारिक विधियों पर जोर देती है। इस क्षेत्र में LLMs की क्षमता बढ़ाना महत्वपूर्ण है:
- विश्वसनीय AI प्रणाली बनाने के लिए
- औपचारिक गणितीय भाषा प्रसंस्करण में AI को आगे बढ़ाने के लिए
- गणितीय शिक्षा और अनुसंधान के लिए बुद्धिमान सहायता उपकरण प्रदान करने के लिए
लेखकों ने विश्लेषण के माध्यम से पाया कि मौजूदा गणितीय डेटासेट में प्रमाण समस्याओं का वितरण बहुत कम है, अधिकांश समस्याएं सीमित उत्तर वाली कम्प्यूटेशनल समस्याएं हैं, जिससे LLMs को खुली-अंत वाली, कठोर तार्किक तर्क की आवश्यकता वाली गणितीय प्रमाणों को संभालने की क्षमता की कमी है।
- DEMI-MathAnalysis डेटासेट का निर्माण: गणितीय विश्लेषण प्रमाण समस्याओं के लिए पहला विशेष डेटासेट, जिसमें अनुक्रम और सीमाएं, अनंत श्रृंखला, उत्तल कार्य आदि विषय शामिल हैं
- मार्गदर्शन ढांचा प्रस्तावित: समस्या वर्गीकरण, ज्ञान पुनर्प्राप्ति और समाधान पीढ़ी सहित एक व्यापक ढांचा डिज़ाइन किया गया
- महत्वपूर्ण प्रदर्शन सुधार: सूक्ष्म-ट्यूनिंग और ढांचे के अनुप्रयोग के माध्यम से, छोटे मॉडल को कठोर गणितीय तर्क कार्यों पर बड़े मॉडल के प्रदर्शन के करीब लाया गया
- मूल्यांकन विधि प्रदान: सही होना, पूर्णता, स्पष्टता, प्रासंगिकता और अंतर्दृष्टि के पाँच-आयामी मूल्यांकन प्रणाली स्थापित की गई
इस पेपर में अध्ययन किया गया कार्य LLMs को गणितीय विश्लेषण में प्रमाण समस्याओं को हल करने में सक्षम बनाना है, विशेष रूप से:
- इनपुट: औपचारिक गणितीय विश्लेषण समस्या विवरण (LaTeX प्रारूप)
- आउटपुट: तार्किक रूप से कठोर, पूर्ण और स्पष्ट गणितीय प्रमाण
- बाधाएं: गणितीय विश्लेषण की औपचारिक विधियों का पालन करना आवश्यक है (जैसे ε-δ परिभाषा)
डेटासेट दो आधिकारिक पाठ्यपुस्तकों से प्राप्त है:
- गणितीय विश्लेषण में समस्याएं (Demidovich, 1964)
- वास्तविक विश्लेषण में समस्याएं और समाधान (Hata, 2007)
प्रत्येक डेटा प्रविष्टि में चार घटक शामिल हैं:
- संख्या: मूल सामग्री से जुड़ा अनुक्रम पहचानकर्ता
- समस्या प्रकार: गणितीय क्षेत्र द्वारा वर्गीकृत समस्या प्रकार
- समस्या: LaTeX प्रारूप में समस्या विवरण
- समाधान: विस्तृत चरण-दर-चरण समाधान
डेटासेट 9 मुख्य विषयों को कवर करता है:
- अनुक्रम और सीमाएं (Sequences and Limits)
- अनंत श्रृंखला (Infinite Series)
- सतत कार्य (Continuous Functions)
- अवकलन (Differentiation)
- समाकलन (Integration)
- अनुचित समाकलन (Improper Integrals)
- कार्य श्रृंखला (Series of Functions)
- बहुपद द्वारा सन्निकटन (Approximation by Polynomials)
- उत्तल कार्य (Convex Functions)
ढांचे में चार प्रमुख मॉड्यूल शामिल हैं:
- समस्या पहचान मॉड्यूल
- इनपुट समस्या के विश्लेषण और वर्गीकरण के लिए हल्के-फुल्के LLM वर्गीकारक का उपयोग
- DEMI-MathAnalysis डेटासेट के मेटाडेटा पर प्रशिक्षण
- सुनिश्चित करता है कि बाद के चरण समस्या के गणितीय क्षेत्र के लिए अनुकूलित हैं
- प्रॉम्प्ट निर्माण मॉड्यूल
- पूर्ण समस्या विवरण युक्त विस्तृत प्रॉम्प्ट का निर्माण
- वर्गीकारक द्वारा निर्धारित समस्या प्रकार को एकीकृत करना
- ज्ञान आधार से गतिशील रूप से संबंधित पूरक ज्ञान पुनर्प्राप्त करना
- ज्ञान आधार एकीकरण
- गणितीय विश्लेषण विशिष्ट अवधारणाओं, नियमों और औपचारिक विधियों का क्यूरेटेड पुस्तकालय
- मुख्य परिभाषाएं (जैसे सीमा की ε-δ परिभाषा)
- प्रमेय और गुण (जैसे श्रृंखला अभिसरण या उत्तलता से संबंधित)
- समस्या-विशिष्ट启发विधियां प्रदान करना
- समाधान पीढ़ी मॉड्यूल
- विस्तृत समाधान उत्पन्न करने के लिए सूक्ष्म-ट्यून किए गए LLM का उपयोग
- तार्किक कठोरता, पूर्णता और स्पष्टता पर जोर
- औपचारिक तर्क तकनीकों को एकीकृत करना
- गतिशील प्रॉम्प्ट अनुकूलन: समस्या प्रकार और पुनर्प्राप्त ज्ञान के आधार पर प्रॉम्प्ट को गतिशील रूप से अनुकूलित करना
- औपचारिक तर्क एकीकरण: ε-δ प्रमाण और श्रृंखला अभिसरण प्रमेय जैसी औपचारिक विधियों को स्पष्ट रूप से समाधान प्रक्रिया में एकीकृत करना
- मॉड्यूलर डिज़ाइन: प्रत्येक घटक को स्वतंत्र रूप से अनुकूलित और प्रतिस्थापित किया जा सकता है
प्रयोग विभिन्न आकारों के कई भाषा मॉडल का उपयोग करते हैं:
- Llama-3.2-3B-Instruct: Meta का 3B पैरामीटर मॉडल
- Qwen-2.5-Math-7B: अलीबाबा का 7B पैरामीटर गणित-विशेष मॉडल
- OpenAI o1-preview: प्रदर्शन ऊपरी सीमा के रूप में तुलना बेंचमार्क
कुशल सूक्ष्म-ट्यूनिंग के लिए Unsloth फ्रेमवर्क का उपयोग, मुख्य हाइपरपैरामीटर सेटिंग्स:
- per_device_train_batch_size = 2
- gradient_accumulation_steps = 4
- warmup_steps = 5
- max_steps = 300
- learning_rate = 2e-4
- optim = "adamw_8bit"
GPT-4o को मूल्यांकन विशेषज्ञ के रूप में नियोजित किया गया, पाँच प्रमुख मेट्रिक्स (कुल 10 अंक) के आधार पर:
- सही होना (Correctness): तार्किक कठोरता और समस्या आवश्यकताओं का पालन
- पूर्णता (Completeness): सभी चरणों का पूर्ण तर्क और धारणा हैंडलिंग
- स्पष्टता (Clarity): संरचित प्रस्तुति और गणितीय प्रतीकों की सामंजस्य
- प्रासंगिकता (Relevance): उपयुक्त विधियों का उपयोग और अप्रासंगिक विवरण से बचना
- अंतर्दृष्टि (Insight): अवधारणा समझ और समाधान की सुंदरता
| मॉडल | औसत स्कोर |
|---|
| Llama-3.2-3B-Instruct | 0% |
| सूक्ष्म-ट्यून किया गया Llama-3.2 | 33.5% |
| ढांचे के साथ सूक्ष्म-ट्यून किया गया Llama-3.2 | 40.8% |
| Qwen-2.5-Math-7B-bnb-4bit | 0% |
| सूक्ष्म-ट्यून किया गया Qwen-2.5 | 37.6% |
| ढांचे के साथ सूक्ष्म-ट्यून किया गया Qwen-2.5 | 38.6% |
| OpenAI o1-preview | 41.5% |
- बेसलाइन मॉडल पूर्ण विफलता: प्रशिक्षण रहित मॉडल कठोर प्रमाण कार्यों पर 0 स्कोर करते हैं, डेटासेट की चुनौती को उजागर करते हैं
- सूक्ष्म-ट्यूनिंग महत्वपूर्ण सुधार लाती है: केवल सूक्ष्म-ट्यूनिंग के माध्यम से 30-40% प्रदर्शन सुधार प्राप्त किया जा सकता है
- ढांचा आगे प्रदर्शन बढ़ाता है: मार्गदर्शन ढांचा सूक्ष्म-ट्यून किए गए मॉडल के लिए अतिरिक्त प्रदर्शन सुधार लाता है
- छोटे मॉडल बड़े मॉडल के प्रदर्शन के करीब पहुंचते हैं: अनुकूलित छोटे मॉडल अत्याधुनिक बड़े मॉडल के प्रदर्शन के करीब पहुंच सकते हैं
पेपर परिशिष्ट A में एक ठोस उदाहरण प्रदर्शित करता है, जो मार्गदर्शन ढांचे के साथ और बिना GPT-4o के प्रदर्शन में अंतर की तुलना करता है। बिना मार्गदर्शन के GPT-4o ने हालांकि फ़ंक्शन सीमा और निरंतरता के बीच संबंध को समझा, लेकिन सटीक परिभाषा का उपयोग करके कठोर प्रमाण प्रदान नहीं कर सका।
- GSM8K: प्राथमिक गणित अनुप्रयोग समस्या डेटासेट
- MATH: चुनौतीपूर्ण प्रतियोगिता समस्याएं
- MathVerse: चार्ट सहित बहु-विषयक समस्याएं
- GeoEval: ज्यामिति समस्या समाधान मूल्यांकन
- TAL-SCQ5K: चीनी-अंग्रेजी बहुविकल्पीय प्रश्न
- AlphaGeometry: यूक्लिडियन समतल ज्यामिति प्रमेय प्रमाणक
- श्रृंखला-विचार (CoT): तर्क उदाहरणों के माध्यम से गणितीय प्रदर्शन बढ़ाना
- OpenAI उपलब्धियां: अमेरिकी गणित ओलंपियाड प्रीसेलेक्शन में उत्कृष्ट प्रदर्शन
पेपर इंगित करता है कि मौजूदा अनुसंधान मुख्य रूप से ज्यामिति या बीजगणित समस्याओं पर केंद्रित है जहां परिणामों को जल्दी सत्यापित किया जा सकता है, जबकि समाधान प्रक्रिया की महत्ता को नजरअंदाज किया जाता है।
- DEMI-MathAnalysis डेटासेट गणितीय विश्लेषण प्रमाण समस्याओं में अंतराल को सफलतापूर्वक भरता है
- प्रस्तावित मार्गदर्शन ढांचा औपचारिक गणितीय तर्क में LLMs की क्षमता को प्रभावी ढंग से बढ़ाता है
- यहां तक कि छोटे मॉडल भी, उपयुक्त सूक्ष्म-ट्यूनिंग और मार्गदर्शन के साथ, प्रमाण कार्यों पर अच्छा प्रदर्शन प्राप्त कर सकते हैं
- मूल्यांकन प्रणाली की स्थिरता: LLM-आधारित मूल्यांकन परिणाम एक निश्चित सीमा के भीतर उतार-चढ़ाव कर सकते हैं
- डेटासेट आकार: कम्प्यूटेशनल गणितीय डेटासेट की तुलना में, प्रमाण समस्याओं का डेटा अभी भी सीमित है
- औपचारिक सत्यापन की कमी: आउटपुट को Lean जैसी स्वचालित प्रमाण भाषा में परिवर्तित करने की क्षमता की कमी
- डेटासेट विस्तार: व्यापक गणितीय विषयों को शामिल करना
- मूल्यांकन प्रणाली में सुधार: अधिक मजबूत प्रमाण मूल्यांकन प्रणाली विकसित करना, Lean भाषा में रूपांतरण पर विचार करना
- ढांचा सामान्यीकरण: ढांचे की सामान्यता और अनुकूलनशीलता में सुधार
- महत्वपूर्ण अंतराल भरना: पहली बार LLMs में गणितीय विश्लेषण प्रमाण में कमी को व्यवस्थित रूप से संबोधित करना
- पद्धति नवाचार: प्रस्तावित मार्गदर्शन ढांचे में अच्छी मॉड्यूलर डिज़ाइन और विस्तारशीलता है
- उचित प्रयोगात्मक डिज़ाइन: विभिन्न आकारों के कई मॉडल का उपयोग करके तुलना, परिणाम प्रेरक हैं
- व्यापक मूल्यांकन प्रणाली: पाँच-आयामी मूल्यांकन मेट्रिक्स गणितीय प्रमाण के मुख्य तत्वों को व्यापक रूप से कवर करते हैं
- मूल्यांकन व्यक्तिपरकता: GPT-4o द्वारा मूल्यांकन पर निर्भरता पूर्वाग्रह पेश कर सकती है, मानव मूल्यांकन सत्यापन की कमी
- डेटासेट आकार सीमा: अन्य गणितीय डेटासेट की तुलना में, आकार अपेक्षाकृत छोटा है
- सामान्यीकरण क्षमता अज्ञात: केवल गणितीय विश्लेषण क्षेत्र में सत्यापित, अन्य कठोर तर्क की आवश्यकता वाले क्षेत्रों में प्रदर्शन अज्ञात है
- कम्प्यूटेशनल लागत विश्लेषण की कमी: सूक्ष्म-ट्यूनिंग और अनुमान की विस्तृत कम्प्यूटेशनल लागत विश्लेषण प्रदान नहीं किया गया
- शैक्षणिक योगदान: AI गणितीय तर्क अनुसंधान के लिए एक नई दिशा खोलता है, विशेष रूप से औपचारिक प्रमाण क्षेत्र में
- व्यावहारिक मूल्य: गणितीय शिक्षा और अनुसंधान के लिए संभावित बुद्धिमान सहायता उपकरण प्रदान करता है
- पुनरुत्पादनशीलता: कोड और डेटासेट सार्वजनिक रूप से उपलब्ध हैं, बाद के अनुसंधान को सुविधाजनक बनाता है
- गणितीय शिक्षा: छात्रों को गणितीय विश्लेषण प्रमाण विधियां सीखने में सहायता करना
- गणितीय अनुसंधान: गणितज्ञों को प्रमाण ड्राफ्ट और विचार प्रेरणा प्रदान करना
- AI अनुसंधान: LLMs औपचारिक तर्क क्षमता का मूल्यांकन और सुधार करने के लिए बेंचमार्क के रूप में
- स्वचालित प्रमेय प्रमाण: औपचारिक सत्यापन प्रणाली के साथ संयोजन में, अधिक विश्वसनीय प्रमाण सहायक बनाना
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Cobbe et al. (2021): GSM8K डेटासेट
- Hendrycks et al. (2021): MATH डेटासेट
- Wei et al. (2023): श्रृंखला-विचार तर्क विधि
- Trinh et al. (2024): AlphaGeometry प्रणाली
- और कई नवीनतम गणितीय AI बेंचमार्क और LLM गणितीय क्षमता अनुसंधान
यह कार्य AI गणितीय तर्क क्षेत्र में महत्वपूर्ण अग्रणी महत्व रखता है, विशेष रूप से औपचारिक प्रमाण इस पहले से अनदेखे महत्वपूर्ण दिशा में। कुछ सीमाओं के बावजूद, इसका योगदान भविष्य में अधिक विश्वसनीय और व्यापक क्षमता वाले AI गणितीय सहायक बनाने के लिए एक महत्वपूर्ण आधार स्थापित करता है।