বৃহৎ ভাষা মডেল (LLMs) গণিত সমস্যা সমাধানের কাজে শক্তিশালী যুক্তি ক্ষমতা এবং উৎকর্ষ কর্মক্ষমতা প্রদর্শন করেছে। সম্প্রতি, দীর্ঘ-শৃঙ্খল যুক্তি (Chain-of-Thought, CoT) থেকে যুক্তি ক্ষমতা নিষ্কাশন ছোট ভাষা মডেল (SLMs) বৃদ্ধির একটি কার্যকর পদ্ধতি হয়ে উঠেছে। বিদ্যমান গবেষণা সাধারণত SLMs কে শিক্ষার্থী মডেল হিসাবে ব্যবহার করে, দীর্ঘ-শৃঙ্খল CoT কে তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করে তত্ত্বাবধানমূলক সূক্ষ্ম-সুর (SFT) এর মাধ্যমে যুক্তি ক্ষমতা স্থানান্তর করে। তবে, এই দীর্ঘ-শৃঙ্খল CoT শিক্ষক মডেলগুলি সাধারণত শিক্ষার্থী মডেলের ক্ষমতা সম্পর্কে অবগত নয়, যা যুক্তি ট্র্যাজেক্টরির কার্যকর ব্যবহারকে সীমাবদ্ধ করে। এই সীমাবদ্ধতা অতিক্রম করার জন্য, এই পত্রটি ত্রুটি-সচেতন স্ব-প্রতিফলন (ORION) কাঠামো প্রস্তাব করে, যা ত্রুটি-সচেতন প্রতিফলন প্রক্রিয়ার মাধ্যমে শিক্ষক CoT পরিমার্জন করে। ORION শিক্ষার্থী মডেলকে শিক্ষক CoT পরিমার্জন এবং নিজস্ব যুক্তি ত্রুটি অন্তর্ভুক্ত করে আরও উপযুক্ত শিক্ষক CoT তৈরি করতে সক্ষম করে। একাধিক গণিত যুক্তি মানদণ্ডে পরীক্ষা-নিরীক্ষা দেখায় যে ORION সমস্ত ভিত্তিরেখার উপর ২% এর বেশি কর্মক্ষমতা উন্নতি অর্জন করে।
এই গবেষণা যা মূল সমস্যা সমাধান করে তা হল: বৃহৎ যুক্তি মডেলের দীর্ঘ-শৃঙ্খল যুক্তি ক্ষমতা কীভাবে কার্যকরভাবে ছোট ভাষা মডেলে নিষ্কাশন করা যায়, বিশেষ করে গণিত সমস্যা সমাধানের কাজে।
১. গণনা সম্পদ সীমাবদ্ধতা: বৃহৎ যুক্তি মডেলগুলি যদিও কর্মক্ষমতা উৎকৃষ্ট, তবে স্থাপনার খরচ বেশি, তার ক্ষমতা আরও হালকা মডেলে স্থানান্তর করা প্রয়োজন २. যুক্তি ক্ষমতার ব্যবধান: ছোট মডেলগুলি জটিল গণিত যুক্তি কাজে দুর্বল কর্মক্ষমতা প্রদর্শন করে, কার্যকর জ্ঞান স্থানান্তর পদ্ধতির প্রয়োজন ३. ব্যবহারিক প্রয়োগের চাহিদা: শিক্ষা, গবেষণা এবং অন্যান্য ক্ষেত্রগুলি দক্ষ এবং নির্ভুল গণিত যুক্তি সিস্টেমের প্রয়োজন
१. ক্ষমতা সচেতনতার অভাব: ঐতিহ্যবাহী নিষ্কাশন পদ্ধতিতে, শিক্ষক মডেল দ্বারা উৎপাদিত দীর্ঘ-শৃঙ্খল CoT শিক্ষার্থী মডেলের প্রকৃত ক্ষমতা স্তর বিবেচনা করে না २. প্যাসিভ শেখার সমস্যা: শিক্ষার্থী মডেল শুধুমাত্র অত্যন্ত জটিল যুক্তি পদক্ষেপ প্যাসিভভাবে গ্রহণ করতে পারে, কার্যকর যুক্তি প্যাটার্ন অভ্যন্তরীণ করা কঠিন ३. ত্রুটি ব্যবহারের অপ্রতুলতা: বিদ্যমান পদ্ধতিগুলি শিক্ষার্থী মডেলের নিজস্ব ত্রুটি তথ্য প্রশিক্ষণ প্রক্রিয়া উন্নত করতে সম্পূর্ণভাবে ব্যবহার করে না
জর্জ বার্নার্ড শ'র বিখ্যাত উক্তি "সাফল্য কখনও ত্রুটি না করা নয়, বরং একই ত্রুটি পুনরাবৃত্তি না করা" দ্বারা অনুপ্রাণিত, এই পত্রটি শিক্ষার্থী মডেলের ত্রুটি তথ্য ব্যবহার করে CoT পরিমার্জন প্রক্রিয়া পরিচালনা করার প্রস্তাব করে, যার ফলে শিক্ষার্থী মডেল শেখার জন্য আরও উপযুক্ত তত্ত্বাবধানমূলক সংকেত উৎপাদিত হয়।
१. ORION কাঠামো প্রস্তাব: প্রথমবারের মতো ত্রুটি-সচেতন স্ব-প্রতিফলন প্রক্রিয়া দীর্ঘ-শৃঙ্খল যুক্তি নিষ্কাশনে প্রবর্তন করা, শিক্ষার্থী মডেলকে নিজস্ব ত্রুটির উপর ভিত্তি করে শিক্ষক CoT পরিমার্জন করতে সক্ষম করা २. দ্বি-পর্যায়ের প্রশিক্ষণ কৌশল ডিজাইন: ত্রুটি প্রকাশ পর্যায় এবং যুক্তি পরিমার্জন পর্যায় অন্তর্ভুক্ত করা, শিক্ষার্থী মডেল ত্রুটি পদ্ধতিগতভাবে ব্যবহার করা ३. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: GSM-Hard, MATH500, AIME24, AMC23 এবং অন্যান্য একাধিক গণিত যুক্তি মানদণ্ডে সমস্ত ভিত্তিরেখা পদ্ধতি ২% এর বেশি অতিক্রম করা ४. গভীর বিশ্লেষণ প্রদান: ORION দ্বারা উৎপাদিত CoT উচ্চতর সংযোগ এবং যুক্তিগত সামঞ্জস্য প্রদর্শন করে, প্রশিক্ষণ প্রক্রিয়া আরও স্থিতিশীল
একটি গণিত সমস্যা q দেওয়া হলে, লক্ষ্য হল একটি ছোট ভাষা মডেল Ms প্রশিক্ষণ করা যা সঠিক সমাধান উৎপাদন করতে পারে। ইনপুট হল সমস্যা বর্ণনা, আউটপুট হল যুক্তি প্রক্রিয়া এবং চূড়ান্ত উত্তর সহ সম্পূর্ণ সমাধান।
ভ্যানিলা SFT: মানব-মন্তব্যকৃত উত্তর লেবেল ব্যবহার করে সরাসরি তত্ত্বাবধানমূলক শেখা
J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)
দীর্ঘ-শৃঙ্খল যুক্তি নিষ্কাশন: শিক্ষক মডেল দ্বারা উৎপাদিত CoT কে তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করা
o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)
পর্যায় এক: ত্রুটি প্রকাশ (Error Exposure)
Yi ~ SampleτM(s(InstructQA(qi)))
Yi_err = {yi_k | Ans(yi_k) ≠ Li}
পর্যায় দুই: যুক্তি পরিমার্জন (Reasoning Refinement)
õi_k = Ms(InstructRef(q, yi_k, oi))
D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}
१. ত্রুটি-সচেতন প্রক্রিয়া: প্রথমবারের মতো CoT নিষ্কাশনে শিক্ষার্থী মডেলের ত্রুটি তথ্য পদ্ধতিগতভাবে ব্যবহার করা २. স্ব-প্রতিফলন পরিমার্জন: শিক্ষার্থী মডেলকে প্রশিক্ষণ ডেটা নির্মাণ প্রক্রিয়ায় সক্রিয়ভাবে অংশগ্রহণ করতে দেওয়া, প্যাসিভভাবে গ্রহণ করার পরিবর্তে ३. ক্ষমতা অভিযোজন ডিজাইন: উৎপাদিত CoT শিক্ষার্থী মডেলের শেখার ক্ষমতার সাথে আরও সামঞ্জস্যপূর্ণ, শিক্ষক-শিক্ষার্থী ব্যবধান হ্রাস করা
१. শূন্য-শট ভিত্তিরেখা: Vanilla LLM, Wrong-of-Thought २. SFT ভিত্তিরেখা: SFT(Label), SFT(Long-CoT) ३. বিলোপন ভেরিয়েন্ট: ORION w/o Solution Error, ORION w/o Self-Reflection
সমস্ত পরীক্ষা ডেটাসেটে, ORION ভিত্তিরেখা পদ্ধতিগুলির চেয়ে উল্লেখযোগ্যভাবে ভাল:
Qwen3-8B-Instruct ফলাফল:
| পদ্ধতি | AIME24 | AMC23 | Math500 | GSM-H | গড় |
|---|---|---|---|---|---|
| Vanilla LLM | 20.00 | 55.00 | 81.40 | 57.40 | 53.45 |
| SFT(Long-CoT) | 23.33 | 57.50 | 82.90 | 59.27 | 55.75 |
| ORION | 26.67 | 62.50 | 83.50 | 59.83 | 58.13 |
মূল আবিষ্কার: १. ORION সবচেয়ে শক্তিশালী ভিত্তিরেখা SFT(Long-CoT) এর তুলনায় গড়ে २.३८% উন্নতি २. সমস্ত মেরুদণ্ড মডেলে সামঞ্জস্যপূর্ণ উন্নতি পর্যবেক্ষণ করা হয়েছে ३. ত্রুটি-সচেতন প্রম্পট পদ্ধতি Wrong-of-Thought এর তুলনায় ५% এর বেশি উন্নতি
| উপাদান | AIME24 | AMC23 | Math500 | GSM-H | গড় |
|---|---|---|---|---|---|
| SFT(Long-CoT) | 23.33 | 57.50 | 82.90 | 59.27 | 55.75 |
| w/o Solution Error | 26.67 | 60.00 | 83.15 | 59.27 | 57.27 |
| w/o Self-Reflection | 20.00 | 57.50 | 82.75 | 58.86 | 54.78 |
| ORION (সম্পূর্ণ) | 26.67 | 62.50 | 83.50 | 59.83 | 58.13 |
বিশ্লেষণ উপসংহার:
এন্ট্রপি মূল্যায়নের মাধ্যমে আবিষ্কৃত: १. ORION প্রশিক্ষণ প্রক্রিয়ায় এন্ট্রপি মান উল্লেখযোগ্যভাবে কম এবং আরও স্থিতিশীল २. স্ব-প্রতিফলন প্রক্রিয়া আরও স্থিতিশীল শেখার প্রক্রিয়া কার্যকরভাবে প্রচার করে ३. ত্রুটি তথ্যের সংযোজন প্রশিক্ষণ এন্ট্রপি মূল্য আরও হ্রাস করে
যুক্তি দৈর্ঘ্য: ORION দ্বারা উৎপাদিত CoT ভিত্তিরেখা পদ্ধতির চেয়ে প্রায় ४०% ছোট, অত্যধিক চিন্তাভাবনা সমস্যা কার্যকরভাবে হ্রাস করা
বিভ্রান্তি স্কোর: ORION Qwen3 এ १६.९ বিভ্রান্তি অর্জন করে, SFT(Long-CoT) এর २४.८ থেকে উল্লেখযোগ্যভাবে কম
GPT-४ পছন্দ মূল্যায়ন: ORION ४४.२% জয়ের হার অর্জন করে, অন্যান্য পদ্ধতির প্রায় দ্বিগুণ
५०० ত্রুটি নমুনার বিশ্লেষণে আবিষ্কৃত:
१. CoT প্রম্পট পদ্ধতি: Wei et al. (२०२२) দ্বারা প্রস্তাবিত শৃঙ্খল-চিন্তাভাবনা গণিত যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে २. যুক্তি মডেল উন্নয়ন: DeepSeek-R1 এর মতো বিশেষায়িত যুক্তি মডেল গণিত সমস্যায় উৎকর্ষ কর্মক্ষমতা প্রদর্শন করে
१. ঐতিহ্যবাহী নিষ্কাশন: শিক্ষক আউটপুট সরাসরি তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করা २. যুক্তি নিষ্কাশন: Hsieh et al. (२०२३) এবং অন্যান্য কাজ যুক্তি ক্ষমতা স্থানান্তর অন্বেষণ করেছে
१. ত্রুটি সংশোধন পদ্ধতি: An et al. (२०२३) ত্রুটি সমাধান ব্যবহার করে প্রশিক্ষণ প্রস্তাব করেছে २. এই পত্রের উদ্ভাবন: প্রথমবারের মতো ত্রুটি-সচেতনতা CoT পরিমার্জন প্রক্রিয়ায় প্রবর্তন করা
१. ORION কার্যকারিতা: একাধিক গণিত যুক্তি মানদণ্ডে সামঞ্জস্যপূর্ণ এবং উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করা २. প্রক্রিয়া যুক্তিসঙ্গততা: ত্রুটি-সচেতন স্ব-প্রতিফলন প্রক্রিয়া শিক্ষার্থী মডেলের জন্য আরও উপযুক্ত প্রশিক্ষণ ডেটা উৎপাদন করতে পারে ३. প্রশিক্ষণ উন্নতি: ঐতিহ্যবাহী পদ্ধতির তুলনায়, ORION আরও স্থিতিশীল প্রশিক্ষণ, উচ্চতর উৎপাদন গুণমান
१. গণনা খরচ: এখনও শক্তিশালী বন্ধ-উৎস যুক্তি মডেলের উপর নির্ভর করে প্রাথমিক CoT উৎপাদনের জন্য, গণনা ওভারহেড বেশি २. শিক্ষক মডেল সীমাবদ্ধতা: প্রধানত DeepSeek-R1 এর উপর ভিত্তি করে, অন্যান্য যুক্তি মডেলের প্রভাব সম্পূর্ণভাবে অন্বেষণ করা হয়নি ३. ডোমেইন সীমাবদ্ধতা: বর্তমানে প্রধানত গণিত যুক্তি কাজে যাচাই করা হয়েছে, অন্যান্য যুক্তি কাজের প্রভাব যাচাই করা প্রয়োজন
१. আরও দক্ষ CoT উৎপাদন পদ্ধতি অন্বেষণ করা, বন্ধ-উৎস মডেলের উপর নির্ভরতা হ্রাস করা २. আরও অনেক যুক্তি কাজ এবং ডোমেইনে সম্প্রসারণ করা ३. আরও সূক্ষ্ম ত্রুটি শ্রেণীবিভাগ এবং প্রক্রিয়াকরণ কৌশল গবেষণা করা
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো শিক্ষার্থী মডেল ত্রুটি তথ্য পদ্ধতিগতভাবে CoT পরিমার্জনে ব্যবহার করা, চিন্তাভাবনা উপন্যাস २. ব্যাপক পরীক্ষা-নিরীক্ষা: একাধিক ডেটাসেট, একাধিক মেরুদণ্ড মডেলে সম্পূর্ণ মূল্যায়ন পরিচালিত ३. গভীর বিশ্লেষণ: শুধুমাত্র কর্মক্ষমতা সংখ্যা রিপোর্ট করা নয়, প্রশিক্ষণ স্থিতিশীলতা, উৎপাদন গুণমান এবং অন্যান্য দিক থেকে বিশ্লেষণ করা ४. ভাল পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা-উৎস কোড প্রদান করা
१. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: ত্রুটি-সচেতন প্রক্রিয়া কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা অভাব २. গণনা ওভারহেড বিশ্লেষণ অনুপস্থিত: ORION এর ভিত্তিরেখা পদ্ধতির তুলনায় অতিরিক্ত গণনা খরচ বিস্তারিত বিশ্লেষণ করা হয়নি ३. ত্রুটি প্রকার প্রক্রিয়াকরণ: বিভিন্ন ধরনের ত্রুটির প্রক্রিয়াকরণ কৌশল তুলনামূলক সহজ, উন্নতির সম্ভাবনা থাকতে পারে
१. একাডেমিক মূল্য: যুক্তি ক্ষমতা নিষ্কাশনের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করা २. ব্যবহারিক মূল্য: পদ্ধতি তুলনামূলক সহজ বাস্তবায়ন, ভাল প্রয়োগ সম্ভাবনা ३. অনুপ্রেরণামূলক অর্থ: ত্রুটি-সচেতন চিন্তাভাবনা অন্যান্য NLP কাজে প্রযোজ্য হতে পারে
१. শিক্ষা প্রয়োগ: গণিত টিউটরিং সিস্টেম নির্মাণে ব্যবহার করা যায় २. গবেষণা সরঞ্জাম: গণিত যুক্তি ক্ষমতা প্রয়োজন এমন গবেষণা পরিস্থিতিতে উপযুক্ত ३. সম্পদ-সীমাবদ্ধ পরিবেশ: গণনা সম্পদ সীমাবদ্ধ কিন্তু যুক্তি ক্ষমতা প্রয়োজন এমন পরিস্থিতিতে মূল্যবান
१. Wei, J., et al. (२०२२). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. २. An, S., et al. (२०२३). Learning from mistakes makes llm better reasoner. ArXiv preprint. ३. Hsieh, C.-Y., et al. (२०२३). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings. ४. DeepSeek-AI, et al. (२०२५). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
এই পত্রটি দ্বারা প্রস্তাবিত ORION কাঠামো শিক্ষার্থী মডেলের ত্রুটি তথ্য চতুরভাবে ব্যবহার করে যুক্তি ক্ষমতা নিষ্কাশন প্রক্রিয়া উন্নত করে, একটি উদ্ভাবনী এবং ব্যবহারিক অবদান। যদিও তাত্ত্বিক বিশ্লেষণ এবং গণনা ওভারহেড দিক থেকে উন্নতির সুযোগ রয়েছে, তবে এর মূল চিন্তাভাবনা চমৎকার অনুপ্রেরণামূলক এবং প্রচার মূল্য রয়েছে।