Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- পেপার আইডি: 2511.04902
- শিরোনাম: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- লেখক: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- শ্রেণীবিভাগ: cs.LG, cs.AI
- প্রকাশনা সম্মেলন: NeurIPS 2025 Workshop: MATH-AI
- পেপার লিঙ্ক: https://arxiv.org/abs/2511.04902
- কোড লিঙ্ক: https://github.com/BorealisAI/CuMa
এই পেপারটি বিভিন্ন আকার (০.৫B থেকে ৭B প্যারামিটার) এবং যুক্তি ক্ষমতার ভাষা মডেলগুলিতে লেবেল-মুক্ত শক্তিশালী শিক্ষা (Label-Free RL) পদ্ধতির কর্মক্ষমতা সম্পর্কে একটি পদ্ধতিগত গবেষণা পরিচালনা করে। গবেষণাটি একটি গুরুত্বপূর্ণ সীমাবদ্ধতা প্রকাশ করে: লেবেল-মুক্ত RL ভিত্তি মডেলের পূর্ব-বিদ্যমান যুক্তি ক্ষমতার উপর অত্যন্ত নির্ভরশীল, এবং দুর্বল মডেলগুলির জন্য, কর্মক্ষমতা প্রায়শই ভিত্তিরেখার নিচে পড়ে যায়। গবেষণায় দেখা যায় যে ছোট মডেলগুলি কার্যকর স্ব-প্রতিফলনের জন্য যথেষ্ট দীর্ঘ বা বৈচিত্র্যময় চিন্তার শৃঙ্খল (CoT) তৈরি করতে পারে না, এবং প্রশিক্ষণ ডেটার কঠিনতা সাফল্য বা ব্যর্থতা নির্ধারণে মূল ভূমিকা পালন করে। এই চ্যালেঞ্জগুলি মোকাবেলা করার জন্য, লেখকরা CuMa পদ্ধতি প্রস্তাব করেন, যা পাঠ্যক্রম শিক্ষা ব্যবহার করে ক্রমান্বয়ে কঠিন সমস্যা প্রবর্তন করে এবং প্রশিক্ষণে বহুসংখ্যক ভোটের ফলাফল ছাড়া নমুনাগুলি মুখোশ করে। এই পদ্ধতিটি সমস্ত মডেল আকারে সামঞ্জস্যপূর্ণ উন্নতি প্রদর্শন করে।
সাম্প্রতিক বছরগুলিতে, বড় ভাষা মডেলের যুক্তি ক্ষমতা উন্নতি প্রধানত শক্তিশালী শিক্ষা কৌশলের উপর নির্ভর করে, কিন্তু ঐতিহ্যবাহী পদ্ধতিগুলি (যেমন RLHF, RLVR) বাহ্যিক তদারকি সংকেতের উপর গুরুতরভাবে নির্ভরশীল (মানব টীকা বা ডোমেইন-নির্দিষ্ট সত্য লেবেল)। এই স্কেলেবিলিটি বাধা সমাধানের জন্য, গবেষকরা লেবেল-মুক্ত RL পদ্ধতি প্রস্তাব করেছেন (যেমন TTRL এবং Intuitor), কিন্তু এই পদ্ধতিগুলি প্রধানত বড়, শক্তিশালী যুক্তি ক্ষমতা সম্পন্ন মডেলগুলিতে যাচাই করা হয়েছে (যেমন Qwen2.5-Math-7B)। এই পেপারটি যে মূল সমস্যাটি সমাধান করে তা হল: এই লেবেল-মুক্ত RL পদ্ধতিগুলি সীমিত যুক্তি ক্ষমতা সম্পন্ন ছোট ভিত্তি মডেলগুলিতে সাধারণীকরণ করতে পারে কিনা?
১. সম্পদ-সীমিত পরিস্থিতি: প্রান্ত ডিভাইস বা সীমিত কম্পিউটিং সম্পদ সহ পরিবেশে, ছোট মডেলগুলি আরও ব্যবহারিক মূল্য রাখে
२. স্কেলেবিলিটি: ছোট মডেলের শিক্ষার প্রক্রিয়া বোঝা স্কেলেবল যুক্তি সিস্টেম তৈরির জন্য গুরুত্বপূর্ণ
३. তাত্ত্বিক তাৎপর্য: যুক্তি ক্ষমতা স্ব-বুটস্ট্র্যাপিং এর ন্যূনতম পূর্বশর্ত প্রকাশ করা
१. TTRL: বহুসংখ্যক ভোটের মাধ্যমে অলেবেলযুক্ত পরীক্ষা ডেটায় পুরস্কার অনুমান করে, কিন্তু ছোট মডেলগুলি প্রাথমিক প্রশিক্ষণে খুব কম সঠিক আউটপুট তৈরি করে, যা মিথ্যা লেবেলে ত্রুটি ঘটায়
२. Intuitor: মডেল স্ব-নিশ্চিততা (self-certainty) ব্যবহার করে অভ্যন্তরীণ পুরস্কার হিসাবে, কিন্তু ছোট মডেলগুলির নিশ্চিততা ক্যালিব্রেশন দুর্বল
३. দুর্বল মডেলের গবেষণা অভাব: বিদ্যমান পদ্ধতিগুলি অপর্যাপ্ত ভিত্তি যুক্তি ক্ষমতার সময় ব্যর্থতার মোড বিবেচনা করে না
পদ্ধতিগত পরীক্ষার মাধ্যমে লেবেল-মুক্ত RL পদ্ধতিগুলি দুর্বল মডেলে ব্যর্থ হওয়ার মূল কারণ প্রকাশ করা এবং লক্ষ্যবস্তু সমাধান প্রস্তাব করা, যাতে সম্পদ-সীমিত মডেলগুলিও অনুপর্যবেক্ষিত RL থেকে উপকৃত হতে পারে।
१. প্রথম পদ্ধতিগত বিশ্লেষণ: বিভিন্ন মডেল আকার (०.५B-७B) জুড়ে লেবেল-মুক্ত RL পদ্ধতির কর্মক্ষমতা পার্থক্য প্রকাশ করে, দুর্বল মডেলগুলিতে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস এবং এমনকি ব্যর্থতা আবিষ্কার করে
२. মূল আবিষ্কার:
- লেবেল-মুক্ত RL ভিত্তি মডেলের পূর্ব-বিদ্যমান যুক্তি ক্ষমতার উপর অত্যন্ত নির্ভরশীল
- ছোট মডেলগুলি স্ব-প্রতিফলনের জন্য যথেষ্ট দীর্ঘ বা বৈচিত্র্যময় চিন্তার শৃঙ্খল তৈরি করতে পারে না
- প্রশিক্ষণ ডেটার কঠিনতা সাফল্য নির্ধারণে মূল ভূমিকা পালন করে
- CoT দৈর্ঘ্য শক্তিশালী যুক্তি ক্ষমতার সরাসরি প্রতিফলন নয়
३. CuMa পদ্ধতি প্রস্তাব: পাঠ্যক্রম শিক্ষা, পুরস্কার মুখোশ এবং ডেটা প্রজন্মের সমন্বিত কাঠামো
- সহজ থেকে কঠিন পর্যন্ত ক্রমান্বয়ী প্রশিক্ষণ কৌশল
- বহুসংখ্যক সম্মতি ছাড়া নমুনাগুলির পুরস্কার সংকেত মুখোশ করা
- LLM-ভিত্তিক কঠিনতা-নিয়ন্ত্রিত ডেটা প্রজন্ম পাইপলাইন
४. অভিজ্ঞতামূলক যাচাইকরণ: Math 500, GPQA, AIME24, GSM8K, LCB সহ একাধিক যুক্তি বেঞ্চমার্কে যাচাই করা, পদ্ধতিটি সমস্ত মডেল আকারে কার্যকর তা প্রমাণ করে, বিশেষত দুর্বল মডেলগুলিতে উল্লেখযোগ্য উন্নতি
ইনপুট: অলেবেলযুক্ত যুক্তি সমস্যা ডেটাসেট D={x1,...,xM} (যেমন গণিত সমস্যা)
আউটপুট: অপ্টিমাইজড নীতি মডেল πθ, যা সঠিক যুক্তি শৃঙ্খল এবং উত্তর তৈরি করতে পারে
সীমাবদ্ধতা: প্রশিক্ষণ প্রক্রিয়ায় সত্য লেবেলগুলিতে অ্যাক্সেস করা যায় না, শুধুমাত্র মডেল নিজেই তৈরি করা একাধিক প্রার্থী সমাধানের মাধ্যমে শিখতে পারে
ডেটাসেটটি K=५ কঠিনতা স্তরে বিভক্ত করা হয়:
D=D1∪D2∪...∪DK
যেখানে D1 সবচেয়ে সহজ সমস্যা রয়েছে এবং DK সবচেয়ে কঠিন সমস্যা রয়েছে। প্রশিক্ষণ D1→DK ক্রমে সম্পাদিত হয়।
প্রতিটি প্রম্পটের জন্য xi, N টি প্রার্থী সমাধান {yi(1),...,yi(N)} তৈরি করা হয়, পুরস্কার ফাংশন সংজ্ঞায়িত করা হয়:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
যখন নমুনার কোন বহুসংখ্যক সম্মতি নেই (অর্থাৎ সর্বোচ্চ উপস্থিতি < २), এর শিক্ষা সংকেত মুখোশ করা হয়:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
এটি মডেলকে অনিশ্চিত পূর্বাভাস থেকে শিখতে প্রতিরোধ করে।
পূর্বনির্ধারিত কঠিনতার সিন্থেটিক ডেটা তৈরি করতে LLM ব্যবহার করা হয়:
- কাঠামোগত প্রম্পট কৌশল, স্পষ্টভাবে কঠিনতা স্তর নির্দিষ্ট করে (१-५)
- প্রতিটি স্তরে রেফারেন্স হিসাবে উদাহরণ সমস্যা প্রদান করা
- বৈচিত্র্য বৃদ্ধির জন্য গতিশীল উদাহরণ রিফ্রেশ
- প্রতিটি প্রজন্মে २५ টি নমুনা, বিভিন্ন গণিত উপ-বিষয় কভার করে
Baseline এর সাথে পার্থক্য:
- TTRL/Intuitor: নির্দিষ্ট কঠিনতা ডেটায় প্রশিক্ষণ
- CuMa: সহজ সমস্যা থেকে শুরু করে, ক্রমান্বয়ে কঠিনতা বৃদ্ধি
ডিজাইন যুক্তিসঙ্গততা:
- ছোট মডেলগুলি কঠিন সমস্যায় প্রায় সঠিক সমাধান তৈরি করতে পারে না (যেমন চিত্র २ দেখায়, ०.५B মডেল প্রাথমিক প্রশিক্ষণে সঠিকতা প্রায় ०)
- সহজ সমস্যা থেকে ভিত্তি যুক্তি ক্ষমতা প্রতিষ্ঠা করুন, তারপর জটিল সমস্যায় স্থানান্তর করুন
- মানব শিক্ষার জ্ঞানীয় নিয়মের সাথে সামঞ্জস্যপূর্ণ
উদ্ভাবন পয়েন্ট: শুধুমাত্র স্পষ্ট বহুসংখ্যক সম্মতি থাকলে মডেল আপডেট করা
সমাধান করা সমস্যা:
- প্রাথমিক প্রশিক্ষণে, ছোট মডেলগুলি তৈরি করা প্রার্থী সমাধানগুলি অত্যন্ত বিচ্ছিন্ন
- কোন বহুসংখ্যক সম্মতি নেই মানে মডেল সেই সমস্যা সম্পর্কে অনিশ্চিত
- জোরপূর্বক শিক্ষা শব্দ প্রবর্তন করে, কর্মক্ষমতা হ্রাস ঘটায়
পরীক্ষা প্রমাণ: টেবিল २ অ্যাবলেশন পরীক্ষা দেখায়, পুরস্কার মুখোশ অপসারণের পরে কর্মক্ষমতা ३२.८ থেকে ३०.७ এ পড়ে যায়
প্রযুক্তিগত বিবরণ:
- কাঠামোগত প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করে বিভিন্ন কঠিনতার গণিত সমস্যা তৈরি করা
- বীজগণিত, জ্যামিতি, সম্ভাবনা ইত্যাদি একাধিক উপ-ক্ষেত্র অন্তর্ভুক্ত করা
- নির্দিষ্ট প্যাটার্নে ওভারফিটিং এড়াতে গতিশীল নমুনা উদাহরণ
ভূমিকা: পাঠ্যক্রম শিক্ষার জন্য পর্যাপ্ত বিভিন্ন কঠিনতা স্তরের নমুনা প্রদান করা
१. Math 500: ५०० উচ্চ-মানের গণিত সমস্যা
२. GPQA: গবেষণা-স্তরের পদার্থবিজ্ঞান প্রশ্নোত্তর
३. AIME24: আমেরিকান গণিত আমন্ত্রণ পরীক্ষা २०२४ সমস্যা
४. GSM8K: প্রাথমিক বিদ্যালয় গণিত প্রয়োগ সমস্যা (८,०००+ সমস্যা)
५. LCB: যুক্তি অনুমান বেঞ্চমার্ক
- নির্ভুলতা (Accuracy): উৎপাদিত উত্তর মান উত্তরের সাথে সম্পূর্ণভাবে মেলে এমন অনুপাত
- সমস্ত পরীক্ষা শতাংশ নির্ভুলতা রিপোর্ট করে
१. Base Model: RL প্রশিক্ষণ ছাড়া ভিত্তি মডেল
२. GRPO: সত্য লেবেল ব্যবহার করে তদারকি শক্তিশালী শিক্ষা (উপরের সীমা রেফারেন্স)
३. Intuitor: স্ব-নিশ্চিততা-ভিত্তিক লেবেল-মুক্ত RL
४. TTRL: বহুসংখ্যক ভোট-ভিত্তিক পরীক্ষা-সময় RL
- অপ্টিমাইজার: AdamW
- শিক্ষার হার: শিখর ३×१०⁻⁶, কোসাইন ক্ষয়
- নমুনা কৌশল: প্রতিটি প্রম্পটের জন্য ८ টি প্রার্থী তৈরি করুন, তাপমাত্রা ०.६
- সর্বোচ্চ প্রজন্ম দৈর্ঘ্য: ३,०७२ টোকেন
- প্রশিক্ষণ পর্ব: १ এপিসোড
- হার্ডওয়্যার: ४×NVIDIA H100 80GB GPU
- মডেল সিরিজ: Qwen२.५ (०.५B, १.५B, ३B, ७B)
०.५B মডেল:
- Base: Math 500=२३.४, GSM8K=२६.३८
- TTRL: সম্পূর্ণ ব্যর্থতা (Math 500=०.०)
- Intuitor: কর্মক্ষমতা হ্রাস (GSM8K=०.६८)
- CuMa: Math 500=३२.८ (+४०%), GSM8K=३२.९ (+२५%)
७B মডেল:
- Base: Math 500=५८.२, GSM8K=८१.५
- GRPO: ७३.८, ८५.६७ (লেবেলযুক্ত উপরের সীমা)
- TTRL/Intuitor: ७३.६/७२.२, ८४.३९/७८.१९
- CuMa: ७४.०, ८४.४९ (লেবেলযুক্ত পদ্ধতির কাছাকাছি)
মূল আবিষ্কার:
- বড় মডেলে সমস্ত লেবেল-মুক্ত পদ্ধতি কার্যকর
- ছোট মডেলে শুধুমাত্র CuMa স্থিতিশীল উন্নতি করে, অন্যান্য পদ্ধতি হ্রাস বা ব্যর্থতা ঘটায়
- CuMa ०.५B মডেলে ব্যর্থতা এড়ায়, উল্লেখযোগ্য উন্নতি অর্জন করে
CuMa ५ টি বিভিন্ন যুক্তি বেঞ্চমার্কে উন্নতি প্রদর্শন করে:
- Math 500: সমস্ত মডেল আকারে উন্নতি
- GPQA: ७B মডেল २७.७७→३२.३२
- AIME24: ७B মডেল ६.६७→१३.३३ (দ্বিগুণ)
- LCB: ३B মডেল ५.२०→८.०४
টেবিল २ CuMa এর প্রতিটি উপাদানের অবদান দেখায় (०.५B মডেল, Math 500):
| কনফিগারেশন | কর্মক্ষমতা | হ্রাস |
|---|
| সম্পূর্ণ CuMa | ३२.८ | - |
| পুরস্কার মুখোশ অপসারণ | ३०.७ | -६.४% |
| ডেটা প্রজন্ম অপসারণ | २४.५ | -२५.३% |
| পাঠ্যক্রম শিক্ষা অপসারণ | २०.१ | -३८.७% |
মূল অন্তর্দৃষ্টি:
१. পাঠ্যক্রম শিক্ষা সবচেয়ে গুরুত্বপূর্ণ: অপসারণের পরে কর্মক্ষমতা ব্যর্থতার কাছাকাছি (२०.१ বনাম ভিত্তি २३.४)
२. ডেটা প্রজন্ম গুরুত্বপূর্ণ: বিভিন্ন কঠিনতা নমুনা প্রদান করে পাঠ্যক্রম শিক্ষা সমর্থন করে
३. পুরস্কার মুখোশ কার্যকর: শব্দ সংকেত থেকে শিক্ষা এড়ায়, প্রশিক্ষণ স্থিতিশীল করে
- ०.५B মডেল: প্রথম ५० ধাপে প্রায় কোন সঠিক আউটপুট নেই
- পরিণতি: TTRL এর বহুসংখ্যক ভোট ভুল মিথ্যা লেবেল তৈরি করে→মডেল ব্যর্থতা
- CuMa সমাধান: সহজ সমস্যা থেকে শুরু করুন, প্রাথমিকভাবে আংশিক সঠিক উত্তর তৈরি করুন
- ७B মডেল: দৈর্ঘ্য ५००→१४०० টোকেন, স্ব-প্রতিফলন অন্তর্ভুক্ত
- ०.५B/१.५B মডেল: দৈর্ঘ্য ५००-७०० বজায় রাখে, উল্লেখযোগ্য বৃদ্ধি নেই
- আবিষ্কার: দৈর্ঘ্য বৃদ্ধি ছোট মডেলের নির্ভরযোগ্য সূচক নয়
०.५B মডেলে বিভিন্ন কঠিনতা স্তর (Level १-२ থেকে १-५) পরীক্ষা করুন:
- Math 500: L१-२ সময় ०.३५→L१-४ সময় প্রায় ० (ব্যর্থতা)
- GSM8K: ०.२८ থেকে ক্রমান্বয়ে ०.१५ এ হ্রাস
- সিদ্ধান্ত: অত্যধিক কঠিন ডেটা ছোট মডেলকে শিখতে বাধা দেয়
१. যুক্তি ক্ষমতা থ্রেশহোল্ড: লেবেল-মুক্ত RL এর জন্য ন্যূনতম যুক্তি ক্ষমতা প্রয়োজন
२. ডেটা-ক্ষমতা মিল: প্রশিক্ষণ ডেটা কঠিনতা মডেল ক্ষমতার সাথে সামঞ্জস্যপূর্ণ হতে হবে
३. বহুসংখ্যক ভোট নির্ভরযোগ্যতা: ভিত্তি মডেল আংশিক সঠিক সমাধান তৈরি করতে পারে তার উপর নির্ভর করে
४. পাঠ্যক্রম শিক্ষা সার্বজনীনতা: সমস্ত মডেল আকারে সহায়ক, কিন্তু দুর্বল মডেলের জন্য আরও গুরুত্বপূর্ণ
५. CoT দৈর্ঘ্য বিভ্রান্তিকর: ছোট মডেলের যুক্তি উন্নতির একমাত্র সূচক হিসাবে ব্যবহার করা যায় না
- RLHF: মানব প্রতিক্রিয়ার মাধ্যমে মডেল সারিবদ্ধকরণ
- GRPO: গণিত যুক্তির জন্য নিয়ম-ভিত্তিক পুরস্কার পদ্ধতি
- DeepSeek-R1: বড় আকারের যুক্তি মডেল
- সীমাবদ্ধতা: টীকা ডেটা উপর নির্ভর করে, স্কেলেবিলিটি সীমিত
- Self-rewarding LMs: মডেল স্ব-মূল্যায়ন
- Self-play fine-tuning: স্ব-খেলা উন্নতি
- DPO: সরাসরি পছন্দ অপ্টিমাইজেশন
- এই পেপারের পার্থক্য: দুর্বল মডেলে RL পদ্ধতির প্রযোজ্যতার উপর ফোকাস
- TTRL: পরীক্ষা-সময় বহুসংখ্যক ভোট RL
- Intuitor: স্ব-নিশ্চিততা-ভিত্তিক
- এই পেপারের অবদান: এই পদ্ধতিগুলির দুর্বল মডেলে ব্যর্থতা মোড প্রকাশ করা এবং সমাধান প্রস্তাব করা
- ঐতিহ্যবাহী পাঠ্যক্রম শিক্ষা প্রধানত তদারকি শিক্ষায় ব্যবহৃত হয়
- এই পেপারের উদ্ভাবন: প্রথমবার পাঠ্যক্রম শিক্ষা সিস্টেমেটিকভাবে লেবেল-মুক্ত RL যুক্তি কাজে প্রয়োগ করা
१. মূল আবিষ্কার: লেবেল-মুক্ত RL "বিনামূল্যে দুপুরের খাবার" নয়, ভিত্তি যুক্তি ক্ষমতা প্রয়োজন
२. ব্যর্থতা প্রক্রিয়া:
- দুর্বল মডেল যথেষ্ট সঠিক সমাধান তৈরি করতে পারে না→বহুসংখ্যক ভোট ব্যর্থ হয়
- বৈচিত্র্যময় CoT অভাব→স্ব-প্রতিফলন প্রক্রিয়া অকার্যকর
- ডেটা অত্যধিক কঠিন→শিক্ষা সংকেত বিরল
३. সমাধান কার্যকারিতা: CuMa ०.५B-७B সমস্ত আকারে কর্মক্ষমতা উন্নত করে, বিশেষত দুর্বল মডেলে উল্লেখযোগ্য উন্নতি
४. তাত্ত্বিক তাৎপর্য: যুক্তি ক্ষমতা স্ব-বুটস্ট্র্যাপিং এর ন্যূনতম শর্ত এবং পথ প্রকাশ করা
१. মডেল পরিসীমা: শুধুমাত্র Qwen সিরিজ মডেলে যাচাই করা, অন্যান্য স্থাপত্য (যেমন LLaMA, Mistral) এর সাধারণীকরণ অজানা
२. ডোমেইন সীমাবদ্ধতা: প্রধানত গণিত যুক্তিতে ফোকাস, অন্যান্য যুক্তি প্রকারে (যেমন সাধারণ জ্ঞান যুক্তি, যুক্তি যুক্তি) প্রযোজ্যতা আরও যাচাইকরণ প্রয়োজন
३. পাঠ্যক্রম ডিজাইন: কঠিনতা স্তর মানব সংজ্ঞা বা LLM প্রজন্মের উপর নির্ভর করে, স্বয়ংক্রিয় কঠিনতা মূল্যায়ন প্রক্রিয়া অভাব
४. গণনা খরচ: প্রচুর প্রার্থী সমাধান প্রজন্ম প্রয়োজন (প্রতি প্রশ্নে ८ টি), অনুমান খরচ বেশি
५. ন্যূনতম ক্ষমতা থ্রেশহোল্ড: "যথেষ্ট যুক্তি ক্ষমতা" এর পরিমাণগত মান স্পষ্টভাবে সংজ্ঞায়িত নয়
६. ডেটা প্রজন্ম গুণমান: সিন্থেটিক ডেটার বৈচিত্র্য এবং গুণমান প্রজন্ম মডেলের উপর নির্ভর করে
१. স্ব-অভিযোজনশীল পাঠ্যক্রম: মডেল রিয়েল-টাইম কর্মক্ষমতার উপর ভিত্তি করে গতিশীলভাবে কঠিনতা সামঞ্জস্য করা
२. মিশ্র পুরস্কার: বহুসংখ্যক ভোট এবং নিশ্চিততার মাল্টি-সিগন্যাল পুরস্কার সংমিশ্রণ
३. ক্রস-ডোমেইন যাচাইকরণ: কোড প্রজন্ম, বৈজ্ঞানিক যুক্তি ইত্যাদি ক্ষেত্রে সম্প্রসারণ
४. তাত্ত্বিক বিশ্লেষণ: যুক্তি ক্ষমতা এবং RL কার্যকারিতার মধ্যে আনুষ্ঠানিক সম্পর্ক প্রতিষ্ঠা করা
५. দক্ষতা অপ্টিমাইজেশন: প্রার্থী সমাধান প্রজন্ম সংখ্যা হ্রাস করা, গণনা খরচ কমানো
- প্রথমবার সিস্টেমেটিকভাবে দুর্বল মডেলে লেবেল-মুক্ত RL ব্যর্থতা প্রকাশ করা
- বহু-মাত্রিক পরীক্ষার মাধ্যমে মূল কারণ বিশ্লেষণ (মডেল আকার, ডেটা কঠিনতা, CoT দৈর্ঘ্য)
- চিত্র २ এর ভিজ্যুয়ালাইজেশন প্রাথমিক প্রশিক্ষণ ব্যর্থতা প্রক্রিয়া সরাসরি প্রদর্শন করে
- সহজ এবং কার্যকর: তিনটি উপাদান (পাঠ্যক্রম শিক্ষা, পুরস্কার মুখোশ, ডেটা প্রজন্ম) সবই স্পষ্ট প্রেরণা রাখে
- তাত্ত্বিক সমর্থন: পাঠ্যক্রম শিক্ষা জ্ঞানীয় বিজ্ঞান এবং মেশিন শিক্ষা তত্ত্ব দ্বারা সমর্থিত
- প্রকৌশল সম্ভাব্য: বাস্তবায়ন সহজ, জটিল নতুন উপাদান প্রবর্তন করে না
- স্কেল সম্পূর্ণ: ०.५B-७B চারটি মডেল আকার কভার করে
- বেঞ্চমার্ক বৈচিত্র্যময়: ५ টি বিভিন্ন ধরনের যুক্তি কাজ
- তুলনা সম্পূর্ণ: লেবেলযুক্ত উপরের সীমা (GRPO) এবং একাধিক লেবেল-মুক্ত baseline অন্তর্ভুক্ত
- অ্যাবলেশন বিস্তারিত: প্রতিটি উপাদানের অবদান পৃথকভাবে যাচাই করা
- সম্পদ-সীমিত পরিস্থিতিতে (প্রান্ত ডিভাইস, কম খরচ স্থাপনা) সম্ভাব্য সমাধান প্রদান করা
- কোড খোলা উৎস, পুনরুৎপাদনযোগ্যতা শক্তিশালী
- পদ্ধতি সাধারণ, অন্যান্য RL প্যারাডাইমে সম্প্রসারণযোগ্য
- কাঠামো যুক্তি কঠোর: সমস্যা→বিশ্লেষণ→পদ্ধতি→যাচাইকরণ
- ভিজ্যুয়ালাইজেশন প্রভাব ভাল (চিত্র १-४ মূল আবিষ্কার সরাসরি প্রদর্শন করে)
- মূল অবদান সারসংক্ষেপ সঠিক
- আনুষ্ঠানিক বিশ্লেষণ অভাব: যুক্তি ক্ষমতা এবং RL সংগতির মধ্যে তাত্ত্বিক সম্পর্ক প্রতিষ্ঠা করা হয়নি
- কঠিনতা সংজ্ঞা অস্পষ্ট: Level १-५ বিভাজন বিষয়গত বিচারের উপর নির্ভর করে
- থ্রেশহোল্ড অপরিমাপিত: কী পরিমাণ যুক্তি ক্ষমতা লেবেল-মুক্ত RL সমর্থন করতে যথেষ্ট?
- একক মডেল সিরিজ: শুধুমাত্র Qwen মডেল, স্থাপত্য পক্ষপাত বাদ দেওয়া হয়নি
- ডেটা প্রজন্ম নির্ভরতা: সিন্থেটিক ডেটা গুণমান Qwen-72B এর উপর নির্ভর করে, সম্ভাব্য পক্ষপাত প্রবর্তন করে
- পরিসংখ্যান তাৎপর্য অভাব: একাধিক চালানোর ভেরিয়েন্স এবং আত্মবিশ্বাস ব্যবধান রিপোর্ট করা হয়নি
- গণনা খরচ অরিপোর্টেড: প্রশিক্ষণ সময়, GPU সময় ইত্যাদি সম্পদ খরচ প্রকাশ করা হয়নি
- পাঠ্যক্রম নির্দিষ্ট: ५ টি কঠিনতা স্তর এবং ক্রম হাইপারপ্যারামিটার, স্ব-অভিযোজনশীল প্রক্রিয়া অভাব
- বহুসংখ্যক ভোট দুর্বল: এখনও ভিত্তি মডেল আংশিক সঠিক সমাধান তৈরি করতে পারে তার উপর নির্ভর করে
- পুরস্কার মুখোশ রক্ষণশীল: সম্ভবত শিক্ষা মূল্য সহ কঠিন নমুনা মিস করে
- ব্যর্থতা কেস অভাব: CuMa এখনও ব্যর্থ হয় এমন পরিস্থিতি প্রদর্শন করা হয়নি
- মানব শিক্ষার সাথে তুলনা: পাঠ্যক্রম শিক্ষার সাদৃশ্য গভীরভাবে অন্বেষণ করা হয়নি
- দীর্ঘমেয়াদী প্রভাব অজানা: শুধুমাত্র १ এপিসোড প্রশিক্ষণ, ক্রমাগত প্রশিক্ষণের স্থিতিশীলতা যাচাই করা হয়নি
- কাজ একক: প্রধানত গণিত যুক্তি, অন্যান্য যুক্তি প্রকার পর্যাপ্তভাবে যাচাই করা হয়নি
- ভাষা সীমাবদ্ধতা: শুধুমাত্র ইংরেজি ডেটা, বহুভাষিক পরিস্থিতি বিবেচনা করা হয়নি
- ডোমেইন জ্ঞান: বিশেষায়িত জ্ঞান প্রয়োজনীয় কাজে (যেমন চিকিৎসা, আইনি) প্রযোজ্যতা অজানা
१. গবেষণা শূন্যতা পূরণ: প্রথমবার দুর্বল মডেলে লেবেল-মুক্ত RL আচরণ সিস্টেমেটিকভাবে গবেষণা করা
२. পদ্ধতিগত অন্তর্দৃষ্টি: RL যুক্তি কাজে পাঠ্যক্রম শিক্ষার কার্যকারিতা প্রমাণ করা
३. ব্যবহারিক নির্দেশনা: ছোট মডেল যুক্তি ক্ষমতা উন্নতির জন্য সম্ভাব্য পথ প্রদান করা
४. তাত্ত্বিক ভিত্তি: যুক্তি ক্ষমতা স্ব-বুটস্ট্র্যাপিং প্রক্রিয়া গবেষণার জন্য ভিত্তি স্থাপন করা
- প্রান্ত স্থাপনা: ছোট মডেলে RL এর মাধ্যমে যুক্তি ক্ষমতা উন্নতি সক্ষম করা, স্থাপনা খরচ হ্রাস করা
- শিক্ষা প্রয়োগ: ক্রমান্বয়ী শিক্ষা কৌশল ব্যক্তিগতকৃত শিক্ষা সিস্টেমে প্রয়োগ করা যায়
- গবেষণা সরঞ্জাম: খোলা উৎস কোড এবং ডেটা প্রজন্ম পাইপলাইন সম্প্রদায়ের জন্য ব্যবহারযোগ্য
- ✅ কোড খোলা উৎস (GitHub)
- ✅ হাইপারপ্যারামিটার বিস্তারিত (শিক্ষার হার, তাপমাত্রা, প্রজন্ম দৈর্ঘ্য ইত্যাদি)
- ✅ ডেটা প্রজন্ম প্রম্পট খোলা (পরিশিষ্ট B)
- ⚠️ গণনা সম্পদ প্রয়োজনীয়তা উচ্চ (४×H100)
- ⚠️ সিন্থেটিক ডেটা সরাসরি খোলা নয়
१. সম্পদ-সীমিত পরিবেশ: ছোট মডেলে যুক্তি ক্ষমতা উন্নতি প্রয়োজন
२. লেবেল-মুক্ত ডেটা: প্রচুর যুক্তি সমস্যা কিন্তু মান উত্তর অভাব
३. ক্রমান্বয়ী শিক্ষা: কাজ স্পষ্ট কঠিনতা স্তর রাখে (যেমন শিক্ষা, প্রতিযোগিতা প্রশিক্ষণ)
४. গণিত/কোড যুক্তি: উদ্দেশ্য সঠিক উত্তর সহ বন্ধ ডোমেইন কাজ
१. খোলা ডোমেইন প্রজন্ম: যেমন সৃজনশীল লেখা, কথোপকথন সিস্টেম (কোন স্পষ্ট সঠিক উত্তর নেই)
२. অত্যন্ত দুর্বল মডেল: <०.५B বা ভিত্তি যুক্তি ক্ষমতা প্রায় র্যান্ডম মডেল
३. রিয়েল-টাইম সিস্টেম: দ্রুত প্রতিক্রিয়া প্রয়োজন, একাধিক নমুনা খরচ সহ্য করতে পারে না
४. বিষয়গত কাজ: যেমন অনুভূতি বিশ্লেষণ, শৈলী স্থানান্তর (বহুসংখ্যক ভোট অর্থহীন)
१. DeepSeekMath १: গণিত যুক্তির খোলা মডেল বেঞ্চমার্ক
२. DeepSeek-R1 २: বড় আকারের যুক্তি মডেল এবং RL প্রশিক্ষণ
३. TTRL ३: পরীক্ষা-সময় শক্তিশালী শিক্ষা কাঠামো
४. Intuitor ४: অভ্যন্তরীণ নিশ্চিততা-ভিত্তিক অনুপর্যবেক্ষিত RL
५. RLHF ६: মানব প্রতিক্রিয়া থেকে শেখার ক্লাসিক পদ্ধতি
६. PPO ७: নিকটবর্তী নীতি অপ্টিমাইজেশন অ্যালগরিদম
७. Chain-of-Thought ८: চিন্তার শৃঙ্খল প্রম্পট প্রযুক্তি
- শক্তিশালী শিক্ষা ভিত্তি ५: Sutton & Barto ক্লাসিক পাঠ্যপুস্তক
- DPO १७: সরাসরি পছন্দ অপ্টিমাইজেশন
- Self-rewarding LMs १४-१६: স্ব-পুরস্কার এবং স্ব-উন্নতি
এই পেপারটি দুর্বল যুক্তি মডেলে লেবেল-মুক্ত শক্তিশালী শিক্ষার ব্যর্থতা সমস্যার সমাধানে গভীর অভিজ্ঞতামূলক গবেষণা এবং পদ্ধতি উদ্ভাবন পরিচালনা করে। মূল মূল্য যুক্তি ক্ষমতা স্ব-বুটস্ট্র্যাপিং এর পূর্বশর্ত প্রকাশ করা: ভিত্তি মডেলের অনুপর্যবেক্ষিত RL থেকে উপকৃত হওয়ার জন্য ন্যূনতম যুক্তি ক্ষমতা থাকতে হবে। CuMa পদ্ধতি পাঠ্যক্রম শিক্ষা, পুরস্কার মুখোশ এবং ডেটা প্রজন্মের সহযোগী ডিজাইনের মাধ্যমে, ०.५B এর মতো দুর্বল মডেলগুলিও স্থিতিশীলভাবে উন্নত করতে সফল হয়।
হাইলাইট: সমস্যা সনাক্তকরণ নির্ভুল, পদ্ধতি সহজ এবং কার্যকর, পরীক্ষা ব্যাপক, ব্যবহারিক মূল্য উচ্চ।
অপূর্ণতা: তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত, সাধারণীকরণ যাচাইকরণ সীমিত, পরিসংখ্যান তাৎপর্য অভাব।
সুপারিশ সূচক: ⭐⭐⭐⭐ (४/५)
ছোট মডেল যুক্তি, অনুপর্যবেক্ষিত শিক্ষা এবং পাঠ্যক্রম শিক্ষায় আগ্রহী গবেষকদের জন্য পড়ার যোগ্য। সম্পদ-সীমিত পরিস্থিতিতে যুক্তি মডেল স্থাপনের জন্য শিল্পের জন্যও গুরুত্বপূর্ণ রেফারেন্স মূল্য রাখে।