গ্রুপ-রিলেটিভ পলিসি অপটিমাইজেশন (GRPO) তার সরলতার কারণে বড় ভাষা মডেল (LLM) দ্বারা নির্দিষ্ট কাজ সম্পাদনের জন্য ব্যাপকভাবে গৃহীত হয়েছে। তবে যখন আমরা শক্তিশালী শেখার প্রশিক্ষণ উন্নত করতে আরও সমৃদ্ধ অ-বাইনারি প্রতিক্রিয়া ব্যবহার করতে চাই, এই সরলতা অপর্যাপ্ত নিয়মকানুন তৈরি করে। ক্রমিক পুরস্কার ব্যবহার করে আংশিক পুরস্কার প্রদান করার সময়, GRPO এর সরলতা নেতিবাচক প্রভাব ফেলতে শুরু করে, এর গ্রুপ-গড় ভিত্তি প্রায়শই ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করে, যা ভুল আচরণকে শক্তিশালী করে। এই পেপারটি সঠিকতা-সম্পর্কিত নীতি অপটিমাইজেশন (CoRPO) প্রবর্তন করে, যা এই ত্রুটি সমাধানের জন্য একটি নতুন সূত্র। CoRPO একটি অভিযোজিত ভিত্তি ব্যবহার করে ন্যূনতম গুণমান থ্রেশহোল্ড প্রয়োগ করে, নিশ্চিত করে যে ব্যর্থ সমাধানগুলি কখনও ইতিবাচক শক্তিশালীকরণ পায় না। একবার নীতি ধারাবাহিকভাবে এই থ্রেশহোল্ড পূরণ করলে, ভিত্তি স্বয়ংক্রিয়ভাবে আপেক্ষিক পছন্দ মোডে রূপান্তরিত হয়, মডেলকে শুধুমাত্র "গ্রহণযোগ্য" সমাধান নয় বরং সর্বোত্তম সমাধান খুঁজতে চালিত করে।
১. GRPO এর ব্যাপক প্রয়োগ: GRPO তার সরলতা এবং দক্ষতার কারণে গণিত এবং কোড জেনারেশনের মতো যাচাইযোগ্য কাজে ব্যাপকভাবে গ্রহণ করা হয়েছে, বিশেষত জটিল মূল্য ফাংশনের পরিবর্তে গ্রুপ-গড় পুরস্কার ভিত্তি হিসাবে ব্যবহার করে।
२. বাইনারি থেকে ক্রমিক পুরস্কারে রূপান্তর: বিদ্যমান RL পদ্ধতিগুলি প্রধানত বাইনারি পছন্দের জন্য ডিজাইন করা হয়েছে, কিন্তু বাস্তব প্রয়োগে ১-৫ রেটিং এর মতো ক্রমিক পুরস্কারের মতো আরও সমৃদ্ধ প্রতিক্রিয়া সংকেত প্রয়োজন।
३. GRPO এর মৌলিক ত্রুটি: GRPO শেখার লক্ষ্যকে পরম মূল্য থেকে আপেক্ষিক পছন্দে পুনর্সংজ্ঞায়িত করে, সুবিধা আর শেখা পরম প্রত্যাশিত পুরস্কারের বিরুদ্ধে পরিমাপ করা হয় না, বরং নমুনা সহকর্মীদের কর্মক্ষমতার বিরুদ্ধে।
যখন নীতি যথাযথভাবে প্রশিক্ষিত হয়নি, GRPO এর গ্রুপ-গড় ভিত্তি প্রায়শই একটি বড় ঋণাত্মক সংখ্যা হয়ে ওঠে। এই অবস্থায়, যেকোনো "কম খারাপ" ব্যর্থ ট্র্যাজেক্টরি সন্তুষ্ট করে, যার ফলে , এবং এইভাবে মডেলকে উদ্দেশ্যমূলকভাবে ভুল ট্র্যাজেক্টরি উৎপন্ন করার সম্ভাবনা বৃদ্ধি করতে সক্রিয়ভাবে প্রশিক্ষণ দেয়।
१. তাত্ত্বিক বিশ্লেষণ: গাণিতিকভাবে প্রমাণ করা হয়েছে যে GRPO ভিত্তি ক্রমিক পুরস্কার কাজে অনুপযুক্ত নিয়মকানুন, এবং এটি ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করার মূল কারণ প্রকাশ করে
२. CoRPO পদ্ধতি: সঠিকতা-সম্পর্কিত নীতি অপটিমাইজেশন (CoRPO) প্রস্তাব করা হয়েছে, একটি অভিযোজিত ভিত্তি সহ একটি নতুন সুবিধা সূত্র যা GRPO এর ত্রুটি সমাধান করে
३. দ্বি-পর্যায়ের শেখার কাঠামো: "সঠিকতা-সন্ধান" থেকে "পছন্দ-সন্ধান" এ স্বয়ংক্রিয় রূপান্তর প্রক্রিয়া ডিজাইন করা হয়েছে, নীতি উন্নতির প্রক্রিয়ায় বিভিন্ন শেখার সংকেত প্রদান করে
४. অভিজ্ঞতামূলক যাচাইকরণ: কোড যাচাইকরণ কাজে CoRPO এর কার্যকারিতা যাচাই করা হয়েছে, আরও স্থিতিশীল সংমিশ্রণ এবং উন্নত ডোমেইন-বাহ্যিক সাধারণীকরণ ক্ষমতা প্রদর্শন করে
নীতি থেকে নমুনা করা টি রোলআউট এর একটি সেট দেওয়া, GRPO গ্রুপ-গড় পুরস্কার ভিত্তি হিসাবে ব্যবহার করে:
সুবিধা ফাংশন সংজ্ঞায়িত করা হয়:
মূল সমস্যা: যখন ব্যর্থ ট্র্যাজেক্টরি (যেখানে ) নিম্নলিখিত শর্ত পূরণ করে তখন ইতিবাচক সুবিধা পায়:
এটি জটিল সমস্যায় নীতি যথাযথভাবে প্রশিক্ষিত না হওয়ার সাধারণ পরিস্থিতি, যা মডেলকে সক্রিয়ভাবে ভুল আচরণ শিখতে পরিচালিত করে।
প্রথমে স্ট্যাটিক ভিত্তি প্রস্তাব করা হয়:
এটি সঠিকতা নিশ্চয়তা নিশ্চিত করে, কিন্তু নীতি উন্নতির পরে অনুসরণ চালিকা অভাব।
চূড়ান্ত CoRPO সূত্র স্ট্যাটিক এবং গতিশীল ভিত্তির সুবিধা একত্রিত করে:
পর্যায় १: সঠিকতা-সন্ধান ()
পর্যায় २: পছন্দ-সন্ধান ()
একটি ব্যাখ্যামূলক যাচাইকারী প্রশিক্ষণ দেওয়া হয় LLM দ্বারা উৎপন্ন কোডের সঠিকতা যাচাই করতে। সমস্যা এবং দুটি প্রার্থী প্রতিক্রিয়া দেওয়া, নীতি স্কোর আউটপুট করে, প্রতিটি প্রতিক্রিয়ার সঠিকতার প্রতি আস্থা প্রকাশ করে।
বিভিন্ন কাজে মডেলের নির্ভুলতা মূল্যায়ন করতে pass@16 মেট্রিক ব্যবহার করা হয়।
প্রতিনিধিত্বমূলক ব্যাচের রোলআউট বিতরণ বিশ্লেষণ করে, ১८% ব্যর্থ ট্র্যাজেক্টরি ইতিবাচক সুবিধা পেয়েছে, অভিজ্ঞতামূলকভাবে ত্রুটির অস্তিত্ব নিশ্চিত করে।
ইতিবাচক এবং নেতিবাচক সুবিধা সংকেতের অনুপাত বিশ্লেষণ করে ( এবং ):
প্রাথমিক প্রশিক্ষণ পর্যায়: স্ট্যাটিক এবং CoRPO ভিত্তি উভয়ের १.० এর নিচে, সমস্ত ব্যর্থ ট্র্যাজেক্টরি সঠিকভাবে চিহ্নিত করে এবং নেতিবাচক প্রতিক্রিয়া প্রদান করে, সঠিকতা নিশ্চয়তা প্রতিফলিত করে।
মধ্য-পরবর্তী প্রশিক্ষণ: স্ট্যাটিক ভিত্তির ইতিবাচক-নেতিবাচক প্রতিক্রিয়া অনুপাত তীব্রভাবে বৃদ্ধি পায়, যখন CoRPO ভিত্তি একটি মধ্যম স্তরে স্থিতিশীল থাকে, "সঠিকতা" মোড থেকে "পছন্দ" মোডে সফলভাবে রূপান্তরিত হয়।
| কাজ | GRPO | Static | CoRPO |
|---|---|---|---|
| ডোমেইন-মধ্যস্থ কাজ | |||
| প্রথম সঠিক | ८७.१ | ८०.२ | ८३.२ |
| দ্বিতীয় সঠিক | ८६.३ | ८९.५ | ८६.३ |
| ডোমেইন-বাহ্যিক কোডিং কাজ | |||
| উভয় ভুল | ५०.० | ६४.० | ५६.० |
| উভয় সঠিক | ८९.६ | ९३.७ | ९५.८ |
| ডোমেইন-বাহ্যিক গণিত কাজ | |||
| প্রথম সঠিক | ७९.३ | ८०.५ | ८१.६ |
| দ্বিতীয় সঠিক | ८१.४ | ८७.१ | ८१.४ |
१. সঠিকতা নিশ্চয়তার মূল্য: স্ট্যাটিক এবং CoRPO ভিত্তি GRPO এর তুলনায় ডোমেইন-বাহ্যিক কাজে উল্লেখযোগ্যভাবে উন্নত, প্রমাণ করে যে "কম খারাপ" ব্যর্থতা শিখতে বাধা দেওয়া আরও শক্তিশালী এবং সাধারণীকরণযোগ্য সঠিকতা সংকেত শিখতে সাহায্য করে
२. রক্ষণশীলতা ট্রেড-অফ: CoRPO এর রক্ষণশীলতা ছোট ওজন আপডেট পদক্ষেপের দিকে পরিচালিত করে, ডোমেইন-মধ্যস্থ কাজে স্ট্যাটিক ভিত্তির তুলনায় সামান্য কম কর্মক্ষমতা, কিন্তু ডোমেইন-বাহ্যিক কাজে ভাল কর্মক্ষমতা
३. সাধারণীকরণ ক্ষমতা: সঠিকতা নিশ্চয়তা প্রয়োগ করে, CoRPO আরও শক্তিশালী সঠিকতা ধারণা শিখেছে, যা আরও ভাল ডোমেইন-বাহ্যিক কর্মক্ষমতায় অনুবাদ করে
এই কৌশলগুলি প্রকৃতপক্ষে ভিত্তি পরিচালনার অন্তর্নিহিত অনুমানমূলক প্রচেষ্টা, GRPO সূত্রের অসম ক্রমিক পুরস্কার সমস্যা পরিচালনার সমাধান।
१. GRPO এর মৌলিক ত্রুটি: ক্রমিক পুরস্কার কাজে, GRPO এর সরল ভিত্তি ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করে, ভুল আচরণ শক্তিশালী না করার লক্ষ্য লঙ্ঘন করে
२. CoRPO এর কার্যকারিতা: অভিযোজিত ভিত্তির মাধ্যমে সঠিকতা নিশ্চয়তা প্রয়োগ করে, CoRPO সফলভাবে GRPO এর রোগজনক প্রশিক্ষণ গতিশীলতা সমাধান করে
३. সাধারণীকরণ ক্ষমতা উন্নতি: CoRPO ডোমেইন-বাহ্যিক কাজে উন্নত সাধারণীকরণ ক্ষমতা প্রদর্শন করে, সঠিকতা নিশ্চয়তার মূল্য প্রমাণ করে
१. অভিজ্ঞতামূলক স্কেল সীমিত: শুধুমাত্র কোড যাচাইকরণ কাজে যাচাই করা হয়েছে, আরও কাজ এবং ডোমেইনে পরীক্ষা প্রয়োজন
२. হাইপারপ্যারামিটার টিউনিং অপর্যাপ্ত: স্বীকার করে যে বর্তমান হাইপারপ্যারামিটার CoRPO এর জন্য অপ্টিমাইজ করা হয়নি, কর্মক্ষমতা তুলনার ন্যায্যতা প্রভাবিত করতে পারে
३. তাত্ত্বিক বিশ্লেষণ গভীরতা: সমস্যা চিহ্নিত করার সময়, কেন ক্রমিক পুরস্কার এই সমস্যা সৃষ্টি করে তার গভীর তাত্ত্বিক বিশ্লেষণ সীমিত
४. গণনা ওভারহেড বিশ্লেষণ: GRPO এর তুলনায় CoRPO এর গণনা ওভারহেড বিশ্লেষণ অনুপস্থিত
१. একাডেমিক অবদান: LLM প্রশিক্ষণে শক্তিশালী শেখার প্রয়োগের জন্য গুরুত্বপূর্ণ তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে
२. ব্যবহারিক মূল্য: ক্রমিক পুরস্কার দিয়ে LLM প্রশিক্ষণের জন্য ব্যবহারিক সমাধান প্রদান করে
३. গবেষণা দিকনির্দেশনা: বাইনারি থেকে ক্রমিক থেকে আরও ঘন প্রতিক্রিয়ার গবেষণা পথ খোলে
१. যাচাইযোগ্য কাজ: বিশেষত গণিত, কোড জেনারেশন ইত্যাদি স্পষ্ট সঠিকতা মানদণ্ড সহ কাজের জন্য উপযুক্ত २. ক্রমিক পুরস্কার পরিস্থিতি: যেকোনো RL প্রশিক্ষণ পরিস্থিতি যেখানে १-५ রেটিং ইত্যাদি ক্রমিক পুরস্কার ব্যবহার প্রয়োজন ३. LLM ক্ষমতা শেখা: LLM কে শুধুমাত্র পছন্দ সমন্বয় নয় বরং নতুন ক্ষমতা শিখতে চাওয়া পরিস্থিতি
পেপারটি १५টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, GRPO মূল পেপার, PPO এবং সর্বশেষ LLM শক্তিশালী শেখার প্রশিক্ষণ পদ্ধতি অন্তর্ভুক্ত করে, গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে।
এই পেপারটি তাত্ত্বিক বিশ্লেষণ এবং ব্যবহারিক সমাধানের মধ্যে ভাল ভারসাম্য অর্জন করেছে, LLM শক্তিশালী শেখার প্রশিক্ষণে একটি গুরুত্বপূর্ণ সমস্যার জন্য গভীর অন্তর্দৃষ্টি এবং কার্যকর সমাধান প্রদান করে, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রাখে।