2025-11-25T12:19:17.889498

Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap

Sun, Liang, Zhang et al.
Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
academic

LLM স্ব-উন্নতি প্রশিক্ষণ গতিশীলতার তাত্ত্বিক মডেলিং সমাধানকারী-যাচাইকারী ব্যবধানের মাধ্যমে

মৌলিক তথ্য

  • পত্র আইডি: 2507.00075
  • শিরোনাম: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
  • লেখক: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (শাংহাই আর্থিক বিশ্ববিদ্যালয় পরিসংখ্যান ও ডেটা বিজ্ঞান একাডেমি)
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনার সময়: arXiv:2507.00075v3 cs.LG 10 Oct 2025
  • পত্র লিঙ্ক: https://arxiv.org/abs/2507.00075v3

সারসংক্ষেপ

বৃহৎ ভাষা মডেলের স্ব-উন্নতি বর্তমান সময়ের সবচেয়ে গুরুত্বপূর্ণ প্রযুক্তিগুলির মধ্যে একটি, যা বাহ্যিক ডেটার উপর নির্ভর না করে LLM কর্মক্ষমতা উন্নত করার লক্ষ্য রাখে। এর উল্লেখযোগ্য গুরুত্ব সত্ত্বেও, স্ব-উন্নতি প্রক্রিয়ায় LLM এর কর্মক্ষমতা বিবর্তনের প্রক্রিয়া এখনও যথাযথভাবে অন্বেষণ করা হয়নি। এই পত্রটি সমাধানকারী-যাচাইকারী ব্যবধান (solver-verifier gap) ধারণার মাধ্যমে স্ব-উন্নতির প্রশিক্ষণ গতিশীলতার তাত্ত্বিক মডেলিং করে। এই গবেষণা একটি অনুমানের উপর ভিত্তি করে: স্ব-উন্নতির কর্মক্ষমতা উন্নতি LLM সমাধানকারী ক্ষমতা এবং যাচাইকারী ক্ষমতার মধ্যে ব্যবধান থেকে উদ্ভূত হয়। তাত্ত্বিক কাঠামোর উপর ভিত্তি করে, লেখকরা সম্পূর্ণ প্রশিক্ষণ গতিপথ কীভাবে মডেল করতে হয় তা প্রদর্শন করেন এবং তাত্ত্বিক মডেলটি পরীক্ষামূলক ফলাফলের সাথে সামঞ্জস্য করে স্ব-উন্নতির ক্ষমতা সীমা পরিমাপ করেন। লেখকরা একাধিক LLM এবং ডেটাসেটে তাত্ত্বিক কাঠামোর কার্যকারিতা যাচাই করেন এবং বাহ্যিক ডেটা কীভাবে এই গতিশীলতাগুলিকে প্রভাবিত করে তার বিশ্লেষণ প্রসারিত করেন।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

  1. মূল সমস্যা: LLM স্ব-উন্নতি প্রক্রিয়ায় কর্মক্ষমতা বিবর্তনের তাত্ত্বিক বোঝাপড়ার অভাব, বিশেষত প্রশিক্ষণ গতিশীলতার গাণিতিক মডেলিং
  2. গুরুত্ব:
    • ডেটা বাধা: বৃহৎ আকারের ডেটা সংগ্রহ চ্যালেঞ্জের সম্মুখীন, ভবিষ্যতে ডেটা ক্ষয়ের সম্ভাবনা
    • স্বায়ত্তশাসিত শিক্ষার প্রয়োজনীয়তা: মডেলগুলিকে স্বায়ত্তভাবে মানিয়ে নিতে এবং বিকশিত হতে সক্ষম হতে হবে
    • তাত্ত্বিক শূন্যতা: বিদ্যমান কাজ প্রধানত পদ্ধতির কার্যকারিতার উপর দৃষ্টি নিবদ্ধ করে, প্রক্রিয়ার গভীর বোঝাপড়ার অভাব

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. তাত্ত্বিক অপর্যাপ্ততা: স্ব-উন্নতি গতিশীলতার তাত্ত্বিক মডেলের অভাব
  2. প্রক্রিয়া অস্পষ্টতা: কর্মক্ষমতা উন্নতির চালিকা কারণ সম্পর্কে সীমিত বোঝাপড়া
  3. দুর্বল পূর্বাভাস ক্ষমতা: প্রশিক্ষণ গতিপথ এবং কর্মক্ষমতা সীমা পূর্বাভাস দিতে অক্ষম

গবেষণা প্রেরণা

Song et al. (2025) এবং Huang et al. (2025) এর কাজের উপর ভিত্তি করে, লেখকরা প্রস্তাব করেন যে সমাধানকারী-যাচাইকারী ব্যবধান স্ব-উন্নতির মূল চালিকা শক্তি এবং এই প্রক্রিয়া বর্ণনা করার জন্য একটি গাণিতিক কাঠামো প্রতিষ্ঠা করেন।

মূল অবদান

  1. তাত্ত্বিক কাঠামো: সমাধানকারী-যাচাইকারী ক্ষমতা ব্যবধানের উপর ভিত্তি করে স্ব-উন্নতি গতিশীলতার তাত্ত্বিক মডেল প্রস্তাব করে, সূচকীয় সংমিশ্রণ আইন প্রাপ্ত করে
  2. গাণিতিক মডেলিং: প্রশিক্ষণ গতিশীলতা বর্ণনা করে এমন যুগ্ম অবকল সমীকরণ প্রতিষ্ঠা করে এবং বিশ্লেষণাত্মক সমাধান অর্জন করে
  3. পরীক্ষামূলক যাচাইকরণ: একাধিক মডেল (Phi সিরিজ, Llama সিরিজ) এবং ডেটাসেট (Math, GSM8k) এ তাত্ত্বিক পূর্বাভাস যাচাই করে
  4. ক্রস-উন্নতি বিশ্লেষণ: বাহ্যিক ডেটার প্রভাব বিশ্লেষণের জন্য কাঠামো প্রসারিত করে, সীমিত বাহ্যিক ডেটা শর্তে ব্যবহারের সময় চূড়ান্ত কর্মক্ষমতায় সামান্য প্রভাব ফেলে এমন আবিষ্কার করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

সমাধানকারী (Solver): মডেল সরাসরি প্রতিক্রিয়া উৎপন্ন করার ক্ষমতা, অনিশ্চয়তা দ্বারা পরিমাপ করা হয়: Us(t)=1ni=1nlogπf(y^i(t)xi)U_s(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i(t)|x_i)

যাচাইকারী (Verifier): মডেল সর্বোত্তম প্রতিক্রিয়া মূল্যায়ন এবং নির্বাচন করার ক্ষমতা, Best-of-N কৌশলের উপর ভিত্তি করে: y^iBoN=argmin{y^i,j:s(y^i,j)σ}1L(y^i,j)Uf(y^i,jxi)\hat{y}_i^{BoN} = \arg\min_{\{\hat{y}_{i,j}: s(\hat{y}_{i,j}) \geq \sigma\}} \frac{1}{L(\hat{y}_{i,j})} U_f(\hat{y}_{i,j}|x_i)

যাচাইকারী অনিশ্চয়তা: Uv(t)=1ni=1nlogπf(y^iBoN(t)xi)U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i^{BoN}(t)|x_i)

তাত্ত্বিক কাঠামো

1. ক্ষমতা ব্যবধান সংজ্ঞা

G(t)=Us(t)Uv(t)=1ni=1nlogπf(y^i(t)xi)πf(y^iBoN(t)xi)G(t) = U_s(t) - U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \frac{\pi_f(\hat{y}_i(t)|x_i)}{\pi_f(\hat{y}_i^{BoN}(t)|x_i)}

2. গতিশীলতা সমীকরণ

পদার্থবিজ্ঞানের সম্ভাব্য শক্তি ধারণা দ্বারা অনুপ্রাণিত, যুগ্ম অবকল সমীকরণ প্রতিষ্ঠা করে: dUs(t)dt=αE(t),dUv(t)dt=βE(t)\frac{dU_s(t)}{dt} = -\alpha E(t), \quad \frac{dU_v(t)}{dt} = -\beta E(t)

যেখানে E(t)E(t) হল "ব্যবধান সম্ভাব্য শক্তি", α>β>0\alpha > \beta > 0 হল সহগ।

3. রৈখিক আনুমানিকতা

সম্ভাব্য ফাংশনের প্রথম-ক্রম টেইলর সম্প্রসারণ: E(t)kG(t)bE(t) \approx kG(t) - b

4. বিশ্লেষণাত্মক সমাধান

প্রস্তাব 3.1: k(αβ)>0k(\alpha-\beta) > 0 শর্তে, ক্ষমতা গতিশীলতা সূচকীয় ক্ষয় অনুসরণ করে:

Us(t)αek(αβ)t+Us,U_s(t) \approx \alpha' e^{-k(\alpha-\beta)t} + U_{s,\infty}Uv(t)βek(αβ)t+Uv,U_v(t) \approx \beta' e^{-k(\alpha-\beta)t} + U_{v,\infty}G(t)δek(αβ)t+GG(t) \approx \delta e^{-k(\alpha-\beta)t} + G_\infty

যেখানে:

  • α=αδαβ\alpha' = \frac{\alpha\delta}{\alpha-\beta}, β=βδαβ\beta' = \frac{\beta\delta}{\alpha-\beta}
  • δ=Us,0Uv,0bk\delta = U_{s,0} - U_{v,0} - \frac{b}{k}
  • Us,=Us,0αU_{s,\infty} = U_{s,0} - \alpha', Uv,=Uv,0βU_{v,\infty} = U_{v,0} - \beta'

ক্রস-উন্নতি মডেলিং

সীমিত বাহ্যিক ডেটা MM এর জন্য, tt তম রাউন্ডে ব্যবহারের অনুপাত ηt\eta_t (t=1Tηt=1\sum_{t=1}^T \eta_t = 1 সন্তুষ্ট করে):

যাচাইকারী ক্ষমতা বাহ্যিক ডেটা দ্বারা প্রভাবিত: Uvc(t)=(1+γηt)1Uv(t1)U_v^c(t) = (1 + \gamma\eta_t)^{-1}U_v(t-1)

প্রস্তাব 5.1: চূড়ান্ত অনিশ্চয়তা শুধুমাত্র t=1Tηt\sum_{t=1}^T \eta_t এর উপর নির্ভর করে, নির্দিষ্ট ηt\eta_t বিতরণের উপর নয়।

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • Math: গাণিতিক সমস্যা সমাধান ডেটাসেট
  • GSM8k: প্রাথমিক গণিত প্রয়োগ প্রশ্ন ডেটাসেট
  • ProntoQA: প্রশ্নোত্তর ডেটাসেট

মডেল

  • Phi সিরিজ: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
  • Llama সিরিজ: Llama-3.2-3B, Llama-3.1-8B

যাচাইকরণ পদ্ধতি

  1. TrueFalse (TF): দ্বিমুখী সঠিকতা স্কোরিং
  2. Quality Evaluation (QE): ক্রমাগত গুণমান স্কোরিং 0,1

পরীক্ষামূলক পরামিতি

  • শিক্ষার হার: 1e-5
  • নমুনা সংখ্যা N: 16
  • LoRA র‍্যাঙ্ক: 16
  • প্রশিক্ষণ রাউন্ড: 10

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

1. সূচকীয় সংমিশ্রণ যাচাইকরণ

পরীক্ষামূলক ফলাফল তাত্ত্বিক পূর্বাভাসের সূচকীয় সংমিশ্রণ আইনকে দৃঢ়ভাবে সমর্থন করে:

  • ফিটিং উৎকর্ষতা: R² > 0.9, অনিশ্চয়তা বিবর্তন সূচকীয় মডেল দ্বারা ভালভাবে বর্ণিত হয় তা নির্দেশ করে
  • সামঞ্জস্য: সমস্ত মডেল-ডেটাসেট সমন্বয়ে সূচকীয় প্রবণতা পর্যবেক্ষণ করা হয়

2. সমাধানকারী-যাচাইকারী ব্যবধান যাচাইকরণ

  • সর্বজনীনতা: যাচাইকারী সর্বদা সমাধানকারীর চেয়ে উন্নত, ব্যবধান 0.067-0.284 এর মধ্যে
  • স্থিতিশীলতা: ব্যবধান বিভিন্ন নমুনা সংখ্যা N এবং ক্রস-মূল্যায়ন পরিস্থিতিতে সামঞ্জস্যপূর্ণ থাকে
  • রৈখিক সম্পর্ক: ব্যবধান G এবং এর পরিবর্তনের হার dG/dt শক্তিশালী রৈখিক সম্পর্ক প্রদর্শন করে (R² > 0.8)

3. কর্মক্ষমতা উন্নতি

স্ব-উন্নতির পরে সমস্ত মডেল উল্লেখযোগ্য উন্নতি প্রদর্শন করে:

  • Phi-4-mini: Math নির্ভুলতা 30.31% থেকে 45.08% এ উন্নীত, GSM8k 73.42% থেকে 88.53% এ
  • অনুরূপ উন্নতি: অন্যান্য মডেলও 15-25% কর্মক্ষমতা উন্নতি প্রদর্শন করে

ক্রস-উন্নতি পরীক্ষা

বাহ্যিক ডেটা বরাদ্দ কৌশল

তিনটি কৌশল পরীক্ষা করে: Early (প্রথম রাউন্ডে সম্পূর্ণ ব্যবহার), Uniform (সমান বিতরণ), Late (শেষ রাউন্ডে ব্যবহার)

মূল আবিষ্কার:

  • কৌশলগত কর্মক্ষমতা পার্থক্য ন্যূনতম (<2.17%)
  • তাত্ত্বিক পূর্বাভাস যাচাই করে: বরাদ্দ সময় চূড়ান্ত কর্মক্ষমতা প্রভাবিত করে না
  • বাহ্যিক ডেটা গুণমান ব্যবহারের সময়ের চেয়ে বেশি গুরুত্বপূর্ণ

সংখ্যাগত ফলাফল

Phi-4-mini এর উদাহরণ হিসাবে:

  • Math ডেটাসেট: তিনটি কৌশল গড় 1.16% উন্নতি
  • GSM8k ডেটাসেট: তিনটি কৌশল গড় 0.10% উন্নতি

বিলোপন পরীক্ষা

Pass@K বিশ্লেষণ

  • বৈচিত্র্য হ্রাস: বড় K মানে Pass@K হ্রাস, উৎপাদন বৈচিত্র্য হ্রাস নির্দেশ করে
  • গুণমান উন্নতি: ছোট K মানে Pass@K উন্নতি, স্ব-উন্নতি কার্যকারিতা যাচাই করে
  • সংমিশ্রণ ব্যাখ্যা: বৈচিত্র্য হ্রাস কর্মক্ষমতা স্থিতিশীলতার কারণ হতে পারে

সম্পর্কিত কাজ

স্ব-উন্নতি গবেষণা

  1. পদ্ধতি শ্রেণী:
    • আউটপুট সূক্ষ্ম-সুর: LLM উৎপাদিত ডেটার উপর ভিত্তি করে প্রশিক্ষণ
    • স্ব-পাতন: বড় মডেল থেকে ছোট মডেলে জ্ঞান স্থানান্তর
    • স্ব-সংশোধন: মডেল ত্রুটি চিহ্নিত এবং সংশোধন করে
  2. তাত্ত্বিক গবেষণা:
    • রৈখিক মডেলের সংমিশ্রণ হার বিশ্লেষণ
    • স্নায়ু নেটওয়ার্কের স্ব-পাতন তত্ত্ব
    • শক্তিশালী শিক্ষা কাঠামোর অধীনে স্ব-উন্নতি

ক্রস-উন্নতি গবেষণা

  1. মানব-মন্তব্যকৃত ডেটা: উচ্চ খরচ কিন্তু নির্ভরযোগ্য গুণমান
  2. শক্তিশালী মডেল ডেটা: সীমিত অ্যাক্সেস কিন্তু উল্লেখযোগ্য প্রভাব
  3. সীমিত ডেটা ব্যবহার: এই পত্রের মূল ফোকাস

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. তাত্ত্বিক যাচাইকরণ: সমাধানকারী-যাচাইকারী ব্যবধান প্রকৃতপক্ষে স্ব-উন্নতি চালিত করে, গতিশীলতা সূচকীয় সংমিশ্রণ আইন অনুসরণ করে
  2. পূর্বাভাস ক্ষমতা: কাঠামো প্রশিক্ষণ গতিপথ এবং কর্মক্ষমতা সীমা পূর্বাভাস দিতে পারে
  3. ব্যবহারিক নির্দেশনা: বাহ্যিক ডেটা ব্যবহারের সময় নমনীয়, ডেটা গুণমানে ফোকাস করুন

সীমাবদ্ধতা

  1. ঘটনাবিজ্ঞান মডেলিং: ঘটনাবিজ্ঞান পদ্ধতি গ্রহণ করে, প্রথম নীতি থেকে অনুপ্রেরণার অভাব
  2. রৈখিক আনুমানিকতা: সম্ভাব্য ফাংশনের রৈখিক আনুমানিকতা প্রয়োগযোগ্যতার পরিসীমা সীমিত করতে পারে
  3. সময়-অপরিবর্তনীয় অনুমান: ক্রস-উন্নতিতে প্রভাব পরামিতি γ সময়-অপরিবর্তনীয় অনুমান করে
  4. ডেটাসেট সীমাবদ্ধতা: প্রধানত গাণিতিক যুক্তি কাজে যাচাইকরণ

ভবিষ্যত দিকনির্দেশনা

  1. প্রক্রিয়া অন্বেষণ: সূচকীয় গতিশীলতার স্নায়ু নেটওয়ার্ক স্তরের প্রক্রিয়া গভীরভাবে অধ্যয়ন করা
  2. পরামিতি সম্পর্ক: α, β এবং মডেল স্থাপত্যের সম্পর্ক গবেষণা করা
  3. প্রসারিত প্রয়োগ: আরও বেশি কাজ এবং ডোমেনে কাঠামোর প্রয়োগযোগ্যতা যাচাই করা
  4. সময়-পরিবর্তনশীল মডেলিং: সময়-অপরিবর্তনীয় অনুমান শিথিল করা, আরও নির্ভুল গতিশীল মডেল প্রতিষ্ঠা করা

গভীর মূল্যায়ন

শক্তি

  1. তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো স্ব-উন্নতির গাণিতিক তাত্ত্বিক কাঠামো প্রস্তাব করে, গুরুত্বপূর্ণ শূন্যতা পূরণ করে
  2. পরীক্ষা-নিরীক্ষা পর্যাপ্ত: একাধিক মডেল, একাধিক ডেটাসেটের ব্যাপক যাচাইকরণ, শক্তিশালী ফলাফল সামঞ্জস্য
  3. ব্যবহারিক মূল্য: কর্মক্ষমতা পূর্বাভাস এবং প্রশিক্ষণ নির্দেশনার জন্য ব্যবহারিক সরঞ্জাম প্রদান করে
  4. লেখার স্পষ্টতা: গাণিতিক অনুপ্রেরণা কঠোর, পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত

অপূর্ণতা

  1. তাত্ত্বিক গভীরতা: ঘটনাবিজ্ঞান মডেলিং গভীর প্রক্রিয়া ব্যাখ্যার অভাব
  2. প্রয়োগযোগ্যতার পরিসীমা: প্রধানত গাণিতিক যুক্তিতে যাচাইকৃত, অন্যান্য কাজে প্রয়োগযোগ্যতা অপেক্ষা করছে
  3. অনুমান সীমাবদ্ধতা: একাধিক সরলীকৃত অনুমান মডেল নির্ভুলতা প্রভাবিত করতে পারে
  4. গণনা দক্ষতা: Best-of-N কৌশলের গণনা খরচ যথাযথভাবে আলোচনা করা হয়নি

প্রভাব

  1. একাডেমিক অবদান: স্ব-উন্নতি গবেষণার জন্য গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে
  2. ব্যবহারিক নির্দেশনা: LLM প্রশিক্ষণ কৌশল অপ্টিমাইজেশনের জন্য পরিমাণগত সরঞ্জাম প্রদান করে
  3. পরবর্তী গবেষণা: আরও তাত্ত্বিক মডেলিং কাজ অনুপ্রাণিত করতে পারে

প্রয়োগযোগ্য পরিস্থিতি

  1. LLM প্রশিক্ষণ: স্ব-উন্নতি কৌশল ডিজাইন নির্দেশনা দেয়
  2. কর্মক্ষমতা পূর্বাভাস: প্রশিক্ষণ গতিপথ এবং সংমিশ্রণ বিন্দু অনুমান করে
  3. সম্পদ বরাদ্দ: বাহ্যিক ডেটা ব্যবহার কৌশল অপ্টিমাইজ করে
  4. তাত্ত্বিক গবেষণা: আরও প্রক্রিয়া অন্বেষণের জন্য ভিত্তি প্রদান করে

সংদর্ভ

মূল সংদর্ভগুলি অন্তর্ভুক্ত করে:

  1. Song et al. (2025): উৎপাদন-যাচাইকরণ ব্যবধান ধারণা প্রস্তাব করে
  2. Huang et al. (2025): তীক্ষ্ণকরণ প্রক্রিয়া তত্ত্ব
  3. Zelikman et al. (2022): STaR স্ব-উন্নতি পদ্ধতি
  4. Wang et al. (2023): Self-Instruct পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের তাত্ত্বিক গবেষণা পত্র যা LLM স্ব-উন্নতির এই গুরুত্বপূর্ণ ক্ষেত্রে প্রথম সিস্টেমেটিক গাণিতিক তাত্ত্বিক কাঠামো প্রদান করে। তাত্ত্বিক গভীরতা এবং প্রয়োগযোগ্যতার পরিসীমার কিছু সীমাবদ্ধতা থাকলেও, এর উদ্ভাবনী প্রকৃতি, পরীক্ষামূলক যাচাইকরণের পর্যাপ্ততা এবং ব্যবহারিক মূল্য সবই অত্যন্ত উল্লেখযোগ্য, এই ক্ষেত্রের তাত্ত্বিক উন্নয়ন প্রচারে গুরুত্বপূর্ণ তাৎপর্য রাখে।