Mathematical problem-solving is a key field in artificial intelligence (AI) and a critical benchmark for evaluating the capabilities of large language models (LLMs). While extensive research has focused on mathematical problem-solving, most existing work and datasets concentrate on computational tasks, leaving gaps in areas like mathematical analysis, which demands rigorous proofs and formal reasoning. We developed the DEMI-MathAnalysis dataset, comprising proof-based problems from mathematical analysis topics such as Sequences and Limits, Infinite Series, and Convex Functions. We also designed a guiding framework to rigorously enhance LLMs' ability to solve these problems. Through fine-tuning LLMs on this dataset and employing our framework, we observed significant improvements in their capability to generate logical, complete, and elegant proofs. This work addresses critical gaps in mathematical reasoning and contributes to advancing trustworthy AI capable of handling formalized mathematical language. The code is publicly accessible at LLMs for Mathematical Analysis.
- পেপার আইডি: 2501.00059
- শিরোনাম: গাণিতিক বিশ্লেষণের জন্য বৃহৎ ভাষা মডেল
- লেখক: জিয়ে চেন (বোস্টন বিশ্ববিদ্যালয়), হাও কি (বোস্টন বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.CL cs.AI
- প্রকাশনার সময়: ২০২৪ সালের ২৮ ডিসেম্বর
- পেপার লিঙ্ক: https://arxiv.org/abs/2501.00059
গাণিতিক সমস্যা সমাধান কৃত্রিম বুদ্ধিমত্তা (এআই) এর একটি মূল ক্ষেত্র এবং বৃহৎ ভাষা মডেল (এলএলএম) এর ক্ষমতা মূল্যায়নের জন্য একটি গুরুত্বপূর্ণ মানদণ্ড। যদিও গাণিতিক সমস্যা সমাধানে ব্যাপক গবেষণা হয়েছে, বেশিরভাগ বিদ্যমান কাজ এবং ডেটাসেট গণনামূলক কাজের উপর দৃষ্টি নিবদ্ধ করে, যা গাণিতিক বিশ্লেষণের মতো ক্ষেত্রগুলিতে ফাঁক রেখে যায়, যা কঠোর প্রমাণ এবং আনুষ্ঠানিক যুক্তির দাবি রাখে। আমরা DEMI-MathAnalysis ডেটাসেট তৈরি করেছি, যা ক্রম এবং সীমা, অসীম শ্রেণী এবং উত্তল ফাংশনের মতো গাণিতিক বিশ্লেষণ বিষয়গুলি থেকে প্রমাণ-ভিত্তিক সমস্যা নিয়ে গঠিত। আমরা এই সমস্যাগুলি সমাধান করার জন্য এলএলএম-এর ক্ষমতা কঠোরভাবে বৃদ্ধি করার জন্য একটি নির্দেশনামূলক কাঠামোও ডিজাইন করেছি। এই ডেটাসেটে এলএলএম-এর সূক্ষ্ম-সুর করা এবং আমাদের কাঠামো প্রয়োগ করার মাধ্যমে, আমরা যৌক্তিক, সম্পূর্ণ এবং মার্জিত প্রমাণ তৈরি করার তাদের ক্ষমতায় উল্লেখযোগ্য উন্নতি দেখেছি। এই কাজ গাণিতিক যুক্তিতে গুরুত্বপূর্ণ ফাঁক সমাধান করে এবং আনুষ্ঠানিক গাণিতিক ভাষা পরিচালনা করতে সক্ষম বিশ্বাসযোগ্য এআই অগ্রগতিতে অবদান রাখে।
এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল বিদ্যমান বৃহৎ ভাষা মডেলগুলি গাণিতিক বিশ্লেষণ ক্ষেত্রে কঠোর প্রমাণ ক্ষমতার অভাব। বিশেষভাবে:
- বিদ্যমান ডেটাসেটের সীমাবদ্ধতা: বিদ্যমান গাণিতিক ডেটাসেটগুলি প্রধানত গণনামূলক কাজের উপর দৃষ্টি নিবদ্ধ করে (যেমন বীজগণিত, জ্যামিতি, পরিসংখ্যান ইত্যাদি), প্রমাণ-ভিত্তিক সমস্যাগুলি প্রায় সম্পূর্ণভাবে এড়িয়ে চলে
- আনুষ্ঠানিক যুক্তি ক্ষমতা অপর্যাপ্ত: এলএলএম-গুলি কঠোর যুক্তি এবং আনুষ্ঠানিক পদ্ধতির প্রয়োজন এমন গাণিতিক বিশ্লেষণ সমস্যাগুলি পরিচালনা করতে দুর্বল পারফরম্যান্স করে (যেমন ε-δ প্রমাণ)
- বিশেষায়িত মূল্যায়ন মানদণ্ডের অভাব: গাণিতিক প্রমাণের গুণমানের জন্য কোনও বিশেষায়িত মূল্যায়ন ডেটাসেট এবং পদ্ধতি নেই
গাণিতিক বিশ্লেষণ গণিতের একটি মূল শাখা হিসাবে, কঠোর প্রমাণ এবং আনুষ্ঠানিক পদ্ধতির উপর জোর দেয়। এই ক্ষেত্রে এলএলএম-এর ক্ষমতা উন্নত করা নিম্নলিখিত উদ্দেশ্যগুলির জন্য গুরুত্বপূর্ণ:
- বিশ্বাসযোগ্য এআই সিস্টেম তৈরিতে গুরুত্বপূর্ণ তাৎপর্য রাখে
- আনুষ্ঠানিক গাণিতিক ভাষা প্রক্রিয়াকরণে এআই অগ্রগতি প্রচার করে
- গাণিতিক শিক্ষা এবং গবেষণার জন্য বুদ্ধিমান সহায়তা সরঞ্জাম প্রদান করে
লেখকরা বিশ্লেষণের মাধ্যমে আবিষ্কার করেছেন যে বিদ্যমান গাণিতিক ডেটাসেটে প্রমাণ-ভিত্তিক সমস্যার বিতরণ অত্যন্ত কম, বেশিরভাগ সমস্যা সীমিত উত্তরের গণনামূলক সমস্যা, যা এলএলএম-গুলিকে খোলা-সমাপ্ত, কঠোর যুক্তি প্রয়োজনীয় গাণিতিক প্রমাণ পরিচালনা করার ক্ষমতা থেকে বঞ্চিত করে।
- DEMI-MathAnalysis ডেটাসেট তৈরি: গাণিতিক বিশ্লেষণ প্রমাণ সমস্যার জন্য প্রথম বিশেষায়িত ডেটাসেট, যা ক্রম এবং সীমা, অসীম শ্রেণী, উত্তল ফাংশন ইত্যাদি বিষয় অন্তর্ভুক্ত করে
- নির্দেশনামূলক কাঠামো প্রস্তাব: সমস্যা শ্রেণীবিভাগ, জ্ঞান পুনরুদ্ধার এবং সমাধান প্রজন্ম অন্তর্ভুক্ত একটি ব্যাপক কাঠামো ডিজাইন করা
- উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: সূক্ষ্ম-সুর এবং কাঠামো প্রয়োগের মাধ্যমে, ছোট মডেলগুলিকে কঠোর গাণিতিক যুক্তি কাজে বড় মডেলের কর্মক্ষমতার কাছাকাছি আনা
- মূল্যায়ন পদ্ধতি প্রদান: সঠিকতা, সম্পূর্ণতা, স্পষ্টতা, প্রাসঙ্গিকতা এবং অন্তর্দৃষ্টির উপর ভিত্তি করে পাঁচ-মাত্রিক মূল্যায়ন ব্যবস্থা প্রতিষ্ঠা করা
এই পেপারে গবেষণা করা কাজটি এলএলএম-গুলিকে গাণিতিক বিশ্লেষণে প্রমাণ সমস্যা সমাধান করতে সক্ষম করা, যা নির্দিষ্টভাবে অন্তর্ভুক্ত করে:
- ইনপুট: আনুষ্ঠানিক গাণিতিক বিশ্লেষণ সমস্যা বিবৃতি (LaTeX ফর্ম্যাট)
- আউটপুট: যৌক্তিকভাবে কঠোর, সম্পূর্ণ এবং স্পষ্ট গাণিতিক প্রমাণ
- সীমাবদ্ধতা: গাণিতিক বিশ্লেষণের আনুষ্ঠানিক পদ্ধতি অনুসরণ করতে হবে (যেমন ε-δ সংজ্ঞা)
ডেটাসেট দুটি কর্তৃপক্ষ পাঠ্যপুস্তক থেকে উৎপন্ন:
- গাণিতিক বিশ্লেষণে সমস্যা (ডেমিডোভিচ, ১৯৬৪)
- বাস্তব বিশ্লেষণে সমস্যা এবং সমাধান (হাতা, ২০০৭)
প্রতিটি ডেটা এন্ট্রি চারটি উপাদান অন্তর্ভুক্ত করে:
- সংখ্যা: মূল উপাদানের সাথে সম্পর্কিত ক্রম সনাক্তকারী
- সমস্যার ধরন: গাণিতিক ক্ষেত্র দ্বারা শ্রেণীবদ্ধ সমস্যার ধরন
- সমস্যা: LaTeX ফর্ম্যাটে সমস্যা বিবৃতি
- সমাধান: বিস্তারিত ধাপে ধাপে সমাধান
ডেটাসেট নয়টি প্রধান বিষয় জুড়ে বিস্তৃত:
- ক্রম এবং সীমা (Sequences and Limits)
- অসীম শ্রেণী (Infinite Series)
- ক্রমাগত ফাংশন (Continuous Functions)
- পার্থক্য (Differentiation)
- একীকরণ (Integration)
- অনুপযুক্ত অবিচ্ছেদ্য (Improper Integrals)
- ফাংশনের শ্রেণী (Series of Functions)
- বহুপদ দ্বারা অনুমান (Approximation by Polynomials)
- উত্তল ফাংশন (Convex Functions)
কাঠামোতে চারটি মূল মডিউল রয়েছে:
- সমস্যা সনাক্তকরণ মডিউল
- ইনপুট সমস্যা বিশ্লেষণ এবং শ্রেণীবিভাগের জন্য হালকা-ওজনের এলএলএম শ্রেণীবিভাগকারী ব্যবহার করে
- DEMI-MathAnalysis ডেটাসেটের মেটাডেটার উপর ভিত্তি করে প্রশিক্ষিত
- পরবর্তী পদক্ষেপগুলি সমস্যার গাণিতিক ক্ষেত্রের জন্য কাস্টমাইজ করা নিশ্চিত করে
- প্রম্পট নির্মাণ মডিউল
- সম্পূর্ণ সমস্যা বিবৃতি অন্তর্ভুক্ত করে বিস্তারিত প্রম্পট তৈরি করে
- শ্রেণীবিভাগকারী দ্বারা নির্ধারিত সমস্যার ধরন একীভূত করে
- জ্ঞান ভাণ্ডার থেকে গতিশীলভাবে প্রাসঙ্গিক পরিপূরক জ্ঞান পুনরুদ্ধার করে
- জ্ঞান ভাণ্ডার একীকরণ
- গাণিতিক বিশ্লেষণ-নির্দিষ্ট ধারণা, নিয়ম এবং আনুষ্ঠানিক পদ্ধতির একটি সংগৃহীত লাইব্রেরি অন্তর্ভুক্ত করে
- মূল সংজ্ঞা জুড়ে (যেমন সীমার ε-δ সংজ্ঞা)
- উপপাদ্য এবং বৈশিষ্ট্য অন্তর্ভুক্ত করে (যেমন শ্রেণী সংগ্রহযোগ্যতা বা উত্তলতা সম্পর্কিত)
- সমস্যা-নির্দিষ্ট হিউরিস্টিক্স প্রদান করে
- সমাধান প্রজন্ম মডিউল
- বিস্তারিত সমাধান তৈরি করতে সূক্ষ্ম-সুর এলএলএম ব্যবহার করে
- যৌক্তিক কঠোরতা, সম্পূর্ণতা এবং স্পষ্টতার উপর জোর দেয়
- আনুষ্ঠানিক যুক্তি কৌশল একীভূত করে
- গতিশীল প্রম্পট অভিযোজন: সমস্যার ধরন এবং পুনরুদ্ধার করা জ্ঞানের উপর ভিত্তি করে প্রম্পট গতিশীলভাবে কাস্টমাইজ করা
- আনুষ্ঠানিক যুক্তি একীকরণ: ε-δ প্রমাণ এবং শ্রেণী সংগ্রহযোগ্যতা উপপাদ্যের মতো আনুষ্ঠানিক পদ্ধতিগুলি স্পষ্টভাবে সমাধান প্রক্রিয়ায় একীভূত করা
- মডুলার ডিজাইন: প্রতিটি উপাদান স্বাধীনভাবে অপ্টিমাইজ এবং প্রতিস্থাপন করা যায়
পরীক্ষাগুলি বিভিন্ন আকারের একাধিক ভাষা মডেল ব্যবহার করেছে:
- Llama-3.2-3B-Instruct: মেটার ৩B প্যারামিটার মডেল
- Qwen-2.5-Math-7B: আলিবাবার ৭B প্যারামিটার গণিত-নির্দিষ্ট মডেল
- OpenAI o1-preview: কর্মক্ষমতা উপরের সীমা হিসাবে তুলনা মানদণ্ড
দক্ষ সূক্ষ্ম-সুর করার জন্য Unsloth ফ্রেমওয়ার্ক ব্যবহার করা হয়েছে, প্রধান হাইপারপ্যারামিটার সেটিংস:
- per_device_train_batch_size = 2
- gradient_accumulation_steps = 4
- warmup_steps = 5
- max_steps = 300
- learning_rate = 2e-4
- optim = "adamw_8bit"
পাঁচটি মূল মেট্রিক্সের উপর ভিত্তি করে মূল্যায়ন বিশেষজ্ঞ হিসাবে GPT-4o ব্যবহার করা হয়েছে (মোট স্কোর ১০ পয়েন্ট):
- সঠিকতা (Correctness): যৌক্তিক কঠোরতা এবং সমস্যার প্রয়োজনীয়তা মেনে চলা
- সম্পূর্ণতা (Completeness): সমস্ত পদক্ষেপের সম্পূর্ণ যুক্তি এবং অনুমান পরিচালনা
- স্পষ্টতা (Clarity): কাঠামোগত উপস্থাপনা এবং গাণিতিক প্রতীকের সামঞ্জস্য
- প্রাসঙ্গিকতা (Relevance): উপযুক্ত পদ্ধতির ব্যবহার এবং অপ্রাসঙ্গিক বিবরণ এড়ানো
- অন্তর্দৃষ্টি (Insight): ধারণা বোঝা এবং সমাধানের কমনীয়তা
| মডেল | গড় স্কোর |
|---|
| Llama-3.2-3B-Instruct | 0% |
| সূক্ষ্ম-সুর Llama-3.2 | 33.5% |
| কাঠামো সহ সূক্ষ্ম-সুর Llama-3.2 | 40.8% |
| Qwen-2.5-Math-7B-bnb-4bit | 0% |
| সূক্ষ্ম-সুর Qwen-2.5 | 37.6% |
| কাঠামো সহ সূক্ষ্ম-সুর Qwen-2.5 | 38.6% |
| OpenAI o1-preview | 41.5% |
- ভিত্তিরেখা মডেল সম্পূর্ণ ব্যর্থতা: অপ্রশিক্ষিত মডেলগুলি কঠোর প্রমাণ কাজে ০ স্কোর করে, ডেটাসেটের চ্যালেঞ্জিং প্রকৃতি তুলে ধরে
- সূক্ষ্ম-সুর উল্লেখযোগ্য উন্নতি নিয়ে আসে: শুধুমাত্র সূক্ষ্ম-সুর করার মাধ্যমে ৩০-৪০% কর্মক্ষমতা উন্নতি অর্জন করা যায়
- কাঠামো আরও কর্মক্ষমতা বৃদ্ধি করে: নির্দেশনামূলক কাঠামো সূক্ষ্ম-সুর মডেলগুলিতে অতিরিক্ত কর্মক্ষমতা বৃদ্ধি নিয়ে আসে
- ছোট মডেল বড় মডেলের কর্মক্ষমতার কাছাকাছি পৌঁছায়: অপ্টিমাইজ করা ছোট মডেলগুলি অত্যাধুনিক বড় মডেলের পারফরম্যান্সের কাছাকাছি পৌঁছাতে পারে
পেপারটি পরিশিষ্ট A-তে একটি নির্দিষ্ট উদাহরণ প্রদর্শন করে, নির্দেশনামূলক কাঠামো সহ এবং ছাড়াই GPT-4o এর পারফরম্যান্সের পার্থক্য তুলনা করে। অনির্দেশিত GPT-4o ফাংশন সীমা এবং ধারাবাহিকতার মধ্যে সংযোগ বুঝলেও, নির্ভুল সংজ্ঞা ব্যবহার করে কঠোর প্রমাণ প্রদান করতে পারেনি।
- GSM8K: প্রাথমিক গণিত প্রয়োগ সমস্যা ডেটাসেট
- MATH: চ্যালেঞ্জিং প্রতিযোগিতা সমস্যা
- MathVerse: চার্ট সহ বহু-শৃঙ্খলা সমস্যা
- GeoEval: জ্যামিতি সমস্যা সমাধান মূল্যায়ন
- TAL-SCQ5K: চীনা এবং ইংরেজি বহুনির্বাচনী প্রশ্ন
- AlphaGeometry: ইউক্লিডীয় সমতল জ্যামিতি উপপাদ্য প্রমাণক
- চেইন-অফ-থট (CoT): যুক্তি উদাহরণের মাধ্যমে গাণিতিক কর্মক্ষমতা বৃদ্ধি
- OpenAI অর্জন: আমেরিকান গণিত অলিম্পিয়াড প্রাক-নির্বাচনে চমৎকার পারফরম্যান্স
পেপারটি নির্দেশ করে যে বিদ্যমান গবেষণা প্রধানত দ্রুত যাচাইযোগ্য ফলাফলের জ্যামিতি বা বীজগণিত সমস্যার উপর দৃষ্টি নিবদ্ধ করে, যখন সমাধান প্রক্রিয়ার গুরুত্ব উপেক্ষা করে।
- DEMI-MathAnalysis ডেটাসেট সফলভাবে গাণিতিক বিশ্লেষণ প্রমাণ সমস্যার ফাঁক পূরণ করেছে
- প্রস্তাবিত নির্দেশনামূলক কাঠামো আনুষ্ঠানিক গাণিতিক যুক্তিতে এলএলএম-এর ক্ষমতা কার্যকরভাবে বৃদ্ধি করে
- এমনকি ছোট মডেলগুলিও, উপযুক্ত সূক্ষ্ম-সুর এবং নির্দেশনার মাধ্যমে, প্রমাণ কাজে ভাল পারফরম্যান্স অর্জন করতে পারে
- মূল্যায়ন ব্যবস্থার স্থিতিশীলতা: এলএলএম-ভিত্তিক মূল্যায়ন ফলাফল একটি নির্দিষ্ট পরিসরে ওঠানামা করতে পারে
- ডেটাসেট আকার: গণনামূলক গাণিতিক ডেটাসেটের তুলনায়, প্রমাণ-ভিত্তিক সমস্যার ডেটা পরিমাণ এখনও সীমিত
- আনুষ্ঠানিক যাচাইকরণের অভাব: আউটপুটকে Lean এর মতো স্বয়ংক্রিয় প্রমাণ ভাষায় রূপান্তরিত করার ক্ষমতার অভাব
- ডেটাসেট সম্প্রসারণ: আরও বিস্তৃত গাণিতিক বিষয় অন্তর্ভুক্ত করা
- মূল্যায়ন ব্যবস্থা উন্নতি: আরও শক্তিশালী প্রমাণ মূল্যায়ন ব্যবস্থা বিকাশ করা, Lean ভাষায় রূপান্তর বিবেচনা করা
- কাঠামো সাধারণীকরণ: কাঠামোর সার্বজনীনতা এবং অভিযোজনযোগ্যতা উন্নত করা
- গুরুত্বপূর্ণ ফাঁক পূরণ: প্রথমবারের মতো সিস্টেমেটিকভাবে গাণিতিক বিশ্লেষণ প্রমাণে এলএলএম-এর অপর্যাপ্ততা সমাধান করা
- পদ্ধতিগত উদ্ভাবন: প্রস্তাবিত নির্দেশনামূলক কাঠামো ভাল মডুলার ডিজাইন এবং স্কেলেবিলিটি রয়েছে
- যুক্তিসঙ্গত পরীক্ষামূলক ডিজাইন: বিভিন্ন আকারের একাধিক মডেল ব্যবহার করে তুলনা, ফলাফল প্রভাবশালী
- সম্পূর্ণ মূল্যায়ন ব্যবস্থা: পাঁচ-মাত্রিক মূল্যায়ন মেট্রিক্স গাণিতিক প্রমাণের মূল উপাদানগুলি সম্পূর্ণভাবে কভার করে
- মূল্যায়ন বিষয়বস্তুতা: GPT-4o দ্বারা মূল্যায়নের উপর নির্ভরতা পক্ষপাত প্রবর্তন করতে পারে, মানব মূল্যায়ন যাচাইকরণের অভাব
- ডেটাসেট আকার সীমাবদ্ধতা: অন্যান্য গাণিতিক ডেটাসেটের তুলনায়, আকার তুলনামূলকভাবে ছোট
- সাধারণীকরণ ক্ষমতা অজানা: শুধুমাত্র গাণিতিক বিশ্লেষণ ক্ষেত্রে যাচাই করা হয়েছে, কঠোর যুক্তির প্রয়োজন অন্যান্য ক্ষেত্রে পারফরম্যান্স অজানা
- গণনা খরচ বিশ্লেষণ অনুপস্থিত: সূক্ষ্ম-সুর এবং অনুমানের বিস্তারিত গণনা খরচ বিশ্লেষণ প্রদান করা হয়নি
- একাডেমিক অবদান: এআই গাণিতিক যুক্তি গবেষণায় নতুন দিকনির্দেশনা খোলে, বিশেষত আনুষ্ঠানিক প্রমাণ ক্ষেত্রে
- ব্যবহারিক মূল্য: গাণিতিক শিক্ষা এবং গবেষণার জন্য সম্ভাব্য বুদ্ধিমান সহায়তা সরঞ্জাম প্রদান করে
- পুনরুৎপাদনযোগ্যতা: কোড এবং ডেটাসেট জনসাধারণের জন্য উপলব্ধ, পরবর্তী গবেষণা সুবিধা প্রদান করে
- গাণিতিক শিক্ষা: শিক্ষার্থীদের গাণিতিক বিশ্লেষণ প্রমাণ পদ্ধতি শিখতে সহায়তা করা
- গাণিতিক গবেষণা: গণিতবিদদের প্রমাণ খসড়া এবং চিন্তা অনুপ্রেরণা প্রদান করা
- এআই গবেষণা: এলএলএম-এর আনুষ্ঠানিক যুক্তি ক্ষমতা মূল্যায়ন এবং উন্নত করার জন্য মানদণ্ড হিসাবে কাজ করা
- স্বয়ংক্রিয় উপপাদ্য প্রমাণ: আনুষ্ঠানিক যাচাইকরণ ব্যবস্থার সাথে একত্রিত করে, আরও নির্ভরযোগ্য প্রমাণ সহায়ক তৈরি করা
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
- Cobbe et al. (2021): GSM8K ডেটাসেট
- Hendrycks et al. (2021): MATH ডেটাসেট
- Wei et al. (2023): চেইন-অফ-থট যুক্তি পদ্ধতি
- Trinh et al. (2024): AlphaGeometry সিস্টেম
- এবং গাণিতিক এআই মানদণ্ড এবং এলএলএম গাণিতিক ক্ষমতা গবেষণার একাধিক সর্বশেষ কাজ
এই কাজটি এআই গাণিতিক যুক্তি ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগামী তাৎপর্য রাখে, বিশেষত আনুষ্ঠানিক প্রমাণে যা পূর্বে উপেক্ষা করা হয়েছিল। কিছু সীমাবদ্ধতা থাকলেও, এর অবদান ভবিষ্যতে আরও বিশ্বাসযোগ্য এবং সক্ষম এআই গাণিতিক সহায়ক তৈরির জন্য একটি গুরুত্বপূর্ণ ভিত্তি স্থাপন করে।