2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh
Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
academic

পছন্দের বিপর্যয়: কেন GRPO ক্রমিক পুরস্কারে ব্যর্থ হয়

মৌলিক তথ্য

  • পেপার আইডি: 2511.04439
  • শিরোনাম: The Peril of Preference: Why GRPO fails on Ordinal Rewards
  • লেখক: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
  • শ্রেণীবিভাগ: cs.AI, cs.LG
  • প্রকাশনার সময়: ২০২৫ সালের ৬ নভেম্বর (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2511.04439

সারসংক্ষেপ

গ্রুপ-রিলেটিভ পলিসি অপটিমাইজেশন (GRPO) তার সরলতার কারণে বড় ভাষা মডেল (LLM) দ্বারা নির্দিষ্ট কাজ সম্পাদনের জন্য ব্যাপকভাবে গৃহীত হয়েছে। তবে যখন আমরা শক্তিশালী শেখার প্রশিক্ষণ উন্নত করতে আরও সমৃদ্ধ অ-বাইনারি প্রতিক্রিয়া ব্যবহার করতে চাই, এই সরলতা অপর্যাপ্ত নিয়মকানুন তৈরি করে। ক্রমিক পুরস্কার ব্যবহার করে আংশিক পুরস্কার প্রদান করার সময়, GRPO এর সরলতা নেতিবাচক প্রভাব ফেলতে শুরু করে, এর গ্রুপ-গড় ভিত্তি প্রায়শই ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করে, যা ভুল আচরণকে শক্তিশালী করে। এই পেপারটি সঠিকতা-সম্পর্কিত নীতি অপটিমাইজেশন (CoRPO) প্রবর্তন করে, যা এই ত্রুটি সমাধানের জন্য একটি নতুন সূত্র। CoRPO একটি অভিযোজিত ভিত্তি ব্যবহার করে ন্যূনতম গুণমান থ্রেশহোল্ড প্রয়োগ করে, নিশ্চিত করে যে ব্যর্থ সমাধানগুলি কখনও ইতিবাচক শক্তিশালীকরণ পায় না। একবার নীতি ধারাবাহিকভাবে এই থ্রেশহোল্ড পূরণ করলে, ভিত্তি স্বয়ংক্রিয়ভাবে আপেক্ষিক পছন্দ মোডে রূপান্তরিত হয়, মডেলকে শুধুমাত্র "গ্রহণযোগ্য" সমাধান নয় বরং সর্বোত্তম সমাধান খুঁজতে চালিত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

১. GRPO এর ব্যাপক প্রয়োগ: GRPO তার সরলতা এবং দক্ষতার কারণে গণিত এবং কোড জেনারেশনের মতো যাচাইযোগ্য কাজে ব্যাপকভাবে গ্রহণ করা হয়েছে, বিশেষত জটিল মূল্য ফাংশনের পরিবর্তে গ্রুপ-গড় পুরস্কার ভিত্তি হিসাবে ব্যবহার করে।

२. বাইনারি থেকে ক্রমিক পুরস্কারে রূপান্তর: বিদ্যমান RL পদ্ধতিগুলি প্রধানত বাইনারি পছন্দের জন্য ডিজাইন করা হয়েছে, কিন্তু বাস্তব প্রয়োগে ১-৫ রেটিং এর মতো ক্রমিক পুরস্কারের মতো আরও সমৃদ্ধ প্রতিক্রিয়া সংকেত প্রয়োজন।

३. GRPO এর মৌলিক ত্রুটি: GRPO শেখার লক্ষ্যকে পরম মূল্য থেকে আপেক্ষিক পছন্দে পুনর্সংজ্ঞায়িত করে, সুবিধা আর শেখা পরম প্রত্যাশিত পুরস্কারের বিরুদ্ধে পরিমাপ করা হয় না, বরং নমুনা সহকর্মীদের কর্মক্ষমতার বিরুদ্ধে।

মূল সমস্যা

যখন নীতি যথাযথভাবে প্রশিক্ষিত হয়নি, GRPO এর গ্রুপ-গড় ভিত্তি প্রায়শই একটি বড় ঋণাত্মক সংখ্যা হয়ে ওঠে। এই অবস্থায়, যেকোনো "কম খারাপ" ব্যর্থ ট্র্যাজেক্টরি R(yf)>bR(y_f) > b সন্তুষ্ট করে, যার ফলে A(yf)>0A(y_f) > 0, এবং এইভাবে মডেলকে উদ্দেশ্যমূলকভাবে ভুল ট্র্যাজেক্টরি উৎপন্ন করার সম্ভাবনা বৃদ্ধি করতে সক্রিয়ভাবে প্রশিক্ষণ দেয়।

গবেষণা প্রেরণা

  • ক্রমিক পুরস্কার কাজে GRPO এর মৌলিক ত্রুটি সমাধান করা
  • সঠিকতা নিশ্চিত করে এবং অপটিমাইজেশন চালিত করে এমন একটি প্রশিক্ষণ কাঠামো প্রতিষ্ঠা করা
  • LLM কে শক্তিশালী শেখার মাধ্যমে নতুন ক্ষমতা শিখতে সক্ষম করার ভিত্তি স্থাপন করা

মূল অবদান

१. তাত্ত্বিক বিশ্লেষণ: গাণিতিকভাবে প্রমাণ করা হয়েছে যে GRPO ভিত্তি ক্রমিক পুরস্কার কাজে অনুপযুক্ত নিয়মকানুন, এবং এটি ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করার মূল কারণ প্রকাশ করে

२. CoRPO পদ্ধতি: সঠিকতা-সম্পর্কিত নীতি অপটিমাইজেশন (CoRPO) প্রস্তাব করা হয়েছে, একটি অভিযোজিত ভিত্তি সহ একটি নতুন সুবিধা সূত্র যা GRPO এর ত্রুটি সমাধান করে

३. দ্বি-পর্যায়ের শেখার কাঠামো: "সঠিকতা-সন্ধান" থেকে "পছন্দ-সন্ধান" এ স্বয়ংক্রিয় রূপান্তর প্রক্রিয়া ডিজাইন করা হয়েছে, নীতি উন্নতির প্রক্রিয়ায় বিভিন্ন শেখার সংকেত প্রদান করে

४. অভিজ্ঞতামূলক যাচাইকরণ: কোড যাচাইকরণ কাজে CoRPO এর কার্যকারিতা যাচাই করা হয়েছে, আরও স্থিতিশীল সংমিশ্রণ এবং উন্নত ডোমেইন-বাহ্যিক সাধারণীকরণ ক্ষমতা প্রদর্শন করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

সমস্যা সংজ্ঞা

নীতি πθ\pi_\theta থেকে নমুনা করা GG টি রোলআউট {y1,y2,...,yG}\{y_1, y_2, ..., y_G\} এর একটি সেট দেওয়া, GRPO গ্রুপ-গড় পুরস্কার ভিত্তি হিসাবে ব্যবহার করে:

b=1Gi=1GR(yi)b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

সুবিধা ফাংশন সংজ্ঞায়িত করা হয়: A(yi)=R(yi)bnormA(y_i) = \frac{R(y_i) - b}{norm}

GRPO এর ত্রুটি বিশ্লেষণ

মূল সমস্যা: যখন ব্যর্থ ট্র্যাজেক্টরি yfy_f (যেখানে R(yf)<0R(y_f) < 0) নিম্নলিখিত শর্ত পূরণ করে তখন ইতিবাচক সুবিধা পায়: b<R(yf)<0b < R(y_f) < 0

এটি জটিল সমস্যায় নীতি যথাযথভাবে প্রশিক্ষিত না হওয়ার সাধারণ পরিস্থিতি, যা মডেলকে সক্রিয়ভাবে ভুল আচরণ শিখতে পরিচালিত করে।

CoRPO সমাধান

१. আদর্শ ভিত্তির তিনটি মানদণ্ড

  • সঠিকতা নিশ্চয়তা: ব্যর্থ ট্র্যাজেক্টরি কখনও ইতিবাচক সুবিধা পাওয়া উচিত নয়
  • আনুপাতিক প্রতিক্রিয়া: ব্যর্থ সমাধানের জন্য নেতিবাচক প্রতিক্রিয়া তাদের গুণমানের সাথে সমানুপাতিক হওয়া উচিত
  • অনুসরণ চালিকা: "গ্রহণযোগ্য" সমাধানে উন্নতির সংকেত প্রদান অব্যাহত রাখা

२. স্ট্যাটিক ভিত্তি পদ্ধতি

প্রথমে স্ট্যাটিক ভিত্তি প্রস্তাব করা হয়: bstatic=Rmin_correctb_{static} = R_{min\_correct}Astatic(y)=R(y)Rmin_correctA_{static}(y) = R(y) - R_{min\_correct}

এটি সঠিকতা নিশ্চয়তা নিশ্চিত করে, কিন্তু নীতি উন্নতির পরে অনুসরণ চালিকা অভাব।

३. CoRPO অভিযোজিত ভিত্তি

চূড়ান্ত CoRPO সূত্র স্ট্যাটিক এবং গতিশীল ভিত্তির সুবিধা একত্রিত করে:

bmean=1Gi=1GR(yi)b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

bcorpo=max(Rmin_correct,bmean)b_{corpo} = \max(R_{min\_correct}, b_{mean})

Acorpo(yi)=R(yi)bcorpoA_{corpo}(y_i) = R(y_i) - b_{corpo}

४. দ্বি-পর্যায়ের অপারেশন প্রক্রিয়া

পর্যায় १: সঠিকতা-সন্ধান (bmean<Rmin_correctb_{mean} < R_{min\_correct})

  • ভিত্তি Rmin_correctR_{min\_correct} এ লক করা
  • নিশ্চিত করে যে সমস্ত ব্যর্থ ট্র্যাজেক্টরি নেতিবাচক সুবিধা পায়
  • মৌলিক সঠিকতা শেখার উপর ফোকাস করে

পর্যায় २: পছন্দ-সন্ধান (bmeanRmin_correctb_{mean} \geq R_{min\_correct})

  • ভিত্তি মান GRPO ভিত্তি bmeanb_{mean} হয়ে ওঠে
  • সঠিক সমাধানের মধ্যে আপেক্ষিক পছন্দ প্রতিষ্ঠা করে
  • "ভাল" থেকে "সর্বোত্তম" উন্নতি চালিত করে

পরীক্ষামূলক সেটআপ

কাজের সংজ্ঞা

একটি ব্যাখ্যামূলক যাচাইকারী প্রশিক্ষণ দেওয়া হয় LLM দ্বারা উৎপন্ন কোডের সঠিকতা যাচাই করতে। সমস্যা QQ এবং দুটি প্রার্থী প্রতিক্রিয়া (RA,RB)(R_A, R_B) দেওয়া, নীতি স্কোর V=(vA,vB)[0,10]V = (v_A, v_B) \in [0, 10] আউটপুট করে, প্রতিটি প্রতিক্রিয়ার সঠিকতার প্রতি আস্থা প্রকাশ করে।

ডেটাসেট

  • প্রশিক্ষণ সেট: CodeForces এবং LeetCode থেকে প্রোগ্রামিং সমস্যা, Qwen3-8B ব্যবহার করে একাধিক সমাধান উৎপন্ন, সঠিক এবং ভুল যুক্তি ট্র্যাজেক্টরি সহ, মোট ४८९০ নমুনা
  • যাচাইকরণ সেট:
    • ডোমেইন-মধ্যস্থ কোডিং: একটি সঠিক একটি ভুল প্রতিক্রিয়া (१९६ নমুনা)
    • ডোমেইন-বাহ্যিক কোডিং: উভয় সঠিক বা উভয় ভুল প্রতিক্রিয়া (९८ নমুনা)
    • ডোমেইন-বাহ্যিক গণিত: একটি সঠিক একটি ভুল প্রতিক্রিয়া (१५७ নমুনা)

পরীক্ষামূলক কনফিগারেশন

  • মডেল: Qwen3-8B
  • সর্বোচ্চ ক্রম দৈর্ঘ্য: १६,३८४
  • প্রতিটি প্রম্পটের জন্য ८টি রোলআউট উৎপন্ন
  • বৈশ্বিক ব্যাচ আকার: ५१२
  • শেখার হার: १×१०⁻⁶
  • অন-নীতি প্রশিক্ষণ কঠোরভাবে অনুসরণ করা

মূল্যায়ন মেট্রিক্স

বিভিন্ন কাজে মডেলের নির্ভুলতা মূল্যায়ন করতে pass@16 মেট্রিক ব্যবহার করা হয়।

পরীক্ষামূলক ফলাফল

GRPO ত্রুটি যাচাইকরণ

প্রতিনিধিত্বমূলক ব্যাচের রোলআউট বিতরণ বিশ্লেষণ করে, ১८% ব্যর্থ ট্র্যাজেক্টরি ইতিবাচক সুবিধা পেয়েছে, অভিজ্ঞতামূলকভাবে b<R(yf)<0b < R(y_f) < 0 ত্রুটির অস্তিত্ব নিশ্চিত করে।

প্রশিক্ষণ গতিশীলতা বিশ্লেষণ

ইতিবাচক এবং নেতিবাচক সুবিধা সংকেতের অনুপাত বিশ্লেষণ করে (rcount=#{A(y)>0}#{A(y)<0}r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}} এবং rloss=ΣLossA(y)>0ΣLossA(y)<0r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}):

প্রাথমিক প্রশিক্ষণ পর্যায়: স্ট্যাটিক এবং CoRPO ভিত্তি উভয়ের rcountr_{count} १.० এর নিচে, সমস্ত ব্যর্থ ট্র্যাজেক্টরি সঠিকভাবে চিহ্নিত করে এবং নেতিবাচক প্রতিক্রিয়া প্রদান করে, সঠিকতা নিশ্চয়তা প্রতিফলিত করে।

মধ্য-পরবর্তী প্রশিক্ষণ: স্ট্যাটিক ভিত্তির ইতিবাচক-নেতিবাচক প্রতিক্রিয়া অনুপাত তীব্রভাবে বৃদ্ধি পায়, যখন CoRPO ভিত্তি একটি মধ্যম স্তরে স্থিতিশীল থাকে, "সঠিকতা" মোড থেকে "পছন্দ" মোডে সফলভাবে রূপান্তরিত হয়।

ডাউনস্ট্রিম নির্ভুলতা ফলাফল

কাজGRPOStaticCoRPO
ডোমেইন-মধ্যস্থ কাজ
প্রথম সঠিক८७.१८०.२८३.२
দ্বিতীয় সঠিক८६.३८९.५८६.३
ডোমেইন-বাহ্যিক কোডিং কাজ
উভয় ভুল५०.०६४.०५६.०
উভয় সঠিক८९.६९३.७९५.८
ডোমেইন-বাহ্যিক গণিত কাজ
প্রথম সঠিক७९.३८०.५८१.६
দ্বিতীয় সঠিক८१.४८७.१८१.४

মূল আবিষ্কার

१. সঠিকতা নিশ্চয়তার মূল্য: স্ট্যাটিক এবং CoRPO ভিত্তি GRPO এর তুলনায় ডোমেইন-বাহ্যিক কাজে উল্লেখযোগ্যভাবে উন্নত, প্রমাণ করে যে "কম খারাপ" ব্যর্থতা শিখতে বাধা দেওয়া আরও শক্তিশালী এবং সাধারণীকরণযোগ্য সঠিকতা সংকেত শিখতে সাহায্য করে

२. রক্ষণশীলতা ট্রেড-অফ: CoRPO এর রক্ষণশীলতা ছোট ওজন আপডেট পদক্ষেপের দিকে পরিচালিত করে, ডোমেইন-মধ্যস্থ কাজে স্ট্যাটিক ভিত্তির তুলনায় সামান্য কম কর্মক্ষমতা, কিন্তু ডোমেইন-বাহ্যিক কাজে ভাল কর্মক্ষমতা

३. সাধারণীকরণ ক্ষমতা: সঠিকতা নিশ্চয়তা প্রয়োগ করে, CoRPO আরও শক্তিশালী সঠিকতা ধারণা শিখেছে, যা আরও ভাল ডোমেইন-বাহ্যিক কর্মক্ষমতায় অনুবাদ করে

সম্পর্কিত কাজ

শক্তিশালী শেখার ভিত্তি পদ্ধতি

  • PPO: মূল্য ফাংশন ভিত্তি হিসাবে ব্যবহার করে, বড় গণনা এবং স্মৃতি ওভারহেড
  • GRPO: গ্রুপ-গড় পুরস্কার দ্বারা ভিত্তি গণনা সরল করে, কিন্তু ক্রমিক পুরস্কার কাজে ত্রুটি রয়েছে

LLM শক্তিশালী শেখার প্রশিক্ষণ

  • ডেটা কিউরেশন: "সর্বোত্তম পয়েন্ট" সাফল্যের হার বজায় রাখা
  • গতিশীল রোলআউট নির্বাচন: ব্যাচে উচ্চ বৈচিত্র্য নিশ্চিত করা
  • পুরস্কার পুনঃওজন: নেতিবাচক উদাহরণ পক্ষপাত বা ইতিবাচক উদাহরণ প্রভাব স্কেলিং

এই কৌশলগুলি প্রকৃতপক্ষে ভিত্তি bb পরিচালনার অন্তর্নিহিত অনুমানমূলক প্রচেষ্টা, GRPO সূত্রের অসম ক্রমিক পুরস্কার সমস্যা পরিচালনার সমাধান।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. GRPO এর মৌলিক ত্রুটি: ক্রমিক পুরস্কার কাজে, GRPO এর সরল ভিত্তি ব্যর্থ ট্র্যাজেক্টরিতে ইতিবাচক সুবিধা বরাদ্দ করে, ভুল আচরণ শক্তিশালী না করার লক্ষ্য লঙ্ঘন করে

२. CoRPO এর কার্যকারিতা: অভিযোজিত ভিত্তির মাধ্যমে সঠিকতা নিশ্চয়তা প্রয়োগ করে, CoRPO সফলভাবে GRPO এর রোগজনক প্রশিক্ষণ গতিশীলতা সমাধান করে

३. সাধারণীকরণ ক্ষমতা উন্নতি: CoRPO ডোমেইন-বাহ্যিক কাজে উন্নত সাধারণীকরণ ক্ষমতা প্রদর্শন করে, সঠিকতা নিশ্চয়তার মূল্য প্রমাণ করে

সীমাবদ্ধতা

१. অভিজ্ঞতামূলক স্কেল সীমিত: শুধুমাত্র কোড যাচাইকরণ কাজে যাচাই করা হয়েছে, আরও কাজ এবং ডোমেইনে পরীক্ষা প্রয়োজন

२. হাইপারপ্যারামিটার টিউনিং অপর্যাপ্ত: স্বীকার করে যে বর্তমান হাইপারপ্যারামিটার CoRPO এর জন্য অপ্টিমাইজ করা হয়নি, কর্মক্ষমতা তুলনার ন্যায্যতা প্রভাবিত করতে পারে

३. তাত্ত্বিক বিশ্লেষণ গভীরতা: সমস্যা চিহ্নিত করার সময়, কেন ক্রমিক পুরস্কার এই সমস্যা সৃষ্টি করে তার গভীর তাত্ত্বিক বিশ্লেষণ সীমিত

४. গণনা ওভারহেড বিশ্লেষণ: GRPO এর তুলনায় CoRPO এর গণনা ওভারহেড বিশ্লেষণ অনুপস্থিত

প্রভাব

१. একাডেমিক অবদান: LLM প্রশিক্ষণে শক্তিশালী শেখার প্রয়োগের জন্য গুরুত্বপূর্ণ তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে

२. ব্যবহারিক মূল্য: ক্রমিক পুরস্কার দিয়ে LLM প্রশিক্ষণের জন্য ব্যবহারিক সমাধান প্রদান করে

३. গবেষণা দিকনির্দেশনা: বাইনারি থেকে ক্রমিক থেকে আরও ঘন প্রতিক্রিয়ার গবেষণা পথ খোলে

প্রযোজ্য পরিস্থিতি

१. যাচাইযোগ্য কাজ: বিশেষত গণিত, কোড জেনারেশন ইত্যাদি স্পষ্ট সঠিকতা মানদণ্ড সহ কাজের জন্য উপযুক্ত २. ক্রমিক পুরস্কার পরিস্থিতি: যেকোনো RL প্রশিক্ষণ পরিস্থিতি যেখানে १-५ রেটিং ইত্যাদি ক্রমিক পুরস্কার ব্যবহার প্রয়োজন ३. LLM ক্ষমতা শেখা: LLM কে শুধুমাত্র পছন্দ সমন্বয় নয় বরং নতুন ক্ষমতা শিখতে চাওয়া পরিস্থিতি

তথ্যসূত্র

পেপারটি १५টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, GRPO মূল পেপার, PPO এবং সর্বশেষ LLM শক্তিশালী শেখার প্রশিক্ষণ পদ্ধতি অন্তর্ভুক্ত করে, গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে।


এই পেপারটি তাত্ত্বিক বিশ্লেষণ এবং ব্যবহারিক সমাধানের মধ্যে ভাল ভারসাম্য অর্জন করেছে, LLM শক্তিশালী শেখার প্রশিক্ষণে একটি গুরুত্বপূর্ণ সমস্যার জন্য গভীর অন্তর্দৃষ্টি এবং কার্যকর সমাধান প্রদান করে, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রাখে।