2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic

দীর্ঘ-শৃঙ্খল যুক্তি নিষ্কাশনকে ত্রুটি-সচেতন স্ব-প্রতিফলনের মাধ্যমে উন্নত করা

মৌলিক তথ্য

  • পেপার আইডি: 2505.22131
  • শিরোনাম: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
  • লেখক: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনার সময়: ২০২৫ সালের মে (ArXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2505.22131

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) গণিত সমস্যা সমাধানের কাজে শক্তিশালী যুক্তি ক্ষমতা এবং উৎকর্ষ কর্মক্ষমতা প্রদর্শন করেছে। সম্প্রতি, দীর্ঘ-শৃঙ্খল যুক্তি (Chain-of-Thought, CoT) থেকে যুক্তি ক্ষমতা নিষ্কাশন ছোট ভাষা মডেল (SLMs) বৃদ্ধির একটি কার্যকর পদ্ধতি হয়ে উঠেছে। বিদ্যমান গবেষণা সাধারণত SLMs কে শিক্ষার্থী মডেল হিসাবে ব্যবহার করে, দীর্ঘ-শৃঙ্খল CoT কে তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করে তত্ত্বাবধানমূলক সূক্ষ্ম-সুর (SFT) এর মাধ্যমে যুক্তি ক্ষমতা স্থানান্তর করে। তবে, এই দীর্ঘ-শৃঙ্খল CoT শিক্ষক মডেলগুলি সাধারণত শিক্ষার্থী মডেলের ক্ষমতা সম্পর্কে অবগত নয়, যা যুক্তি ট্র্যাজেক্টরির কার্যকর ব্যবহারকে সীমাবদ্ধ করে। এই সীমাবদ্ধতা অতিক্রম করার জন্য, এই পত্রটি ত্রুটি-সচেতন স্ব-প্রতিফলন (ORION) কাঠামো প্রস্তাব করে, যা ত্রুটি-সচেতন প্রতিফলন প্রক্রিয়ার মাধ্যমে শিক্ষক CoT পরিমার্জন করে। ORION শিক্ষার্থী মডেলকে শিক্ষক CoT পরিমার্জন এবং নিজস্ব যুক্তি ত্রুটি অন্তর্ভুক্ত করে আরও উপযুক্ত শিক্ষক CoT তৈরি করতে সক্ষম করে। একাধিক গণিত যুক্তি মানদণ্ডে পরীক্ষা-নিরীক্ষা দেখায় যে ORION সমস্ত ভিত্তিরেখার উপর ২% এর বেশি কর্মক্ষমতা উন্নতি অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যা মূল সমস্যা সমাধান করে তা হল: বৃহৎ যুক্তি মডেলের দীর্ঘ-শৃঙ্খল যুক্তি ক্ষমতা কীভাবে কার্যকরভাবে ছোট ভাষা মডেলে নিষ্কাশন করা যায়, বিশেষ করে গণিত সমস্যা সমাধানের কাজে।

সমস্যার গুরুত্ব

১. গণনা সম্পদ সীমাবদ্ধতা: বৃহৎ যুক্তি মডেলগুলি যদিও কর্মক্ষমতা উৎকৃষ্ট, তবে স্থাপনার খরচ বেশি, তার ক্ষমতা আরও হালকা মডেলে স্থানান্তর করা প্রয়োজন २. যুক্তি ক্ষমতার ব্যবধান: ছোট মডেলগুলি জটিল গণিত যুক্তি কাজে দুর্বল কর্মক্ষমতা প্রদর্শন করে, কার্যকর জ্ঞান স্থানান্তর পদ্ধতির প্রয়োজন ३. ব্যবহারিক প্রয়োগের চাহিদা: শিক্ষা, গবেষণা এবং অন্যান্য ক্ষেত্রগুলি দক্ষ এবং নির্ভুল গণিত যুক্তি সিস্টেমের প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. ক্ষমতা সচেতনতার অভাব: ঐতিহ্যবাহী নিষ্কাশন পদ্ধতিতে, শিক্ষক মডেল দ্বারা উৎপাদিত দীর্ঘ-শৃঙ্খল CoT শিক্ষার্থী মডেলের প্রকৃত ক্ষমতা স্তর বিবেচনা করে না २. প্যাসিভ শেখার সমস্যা: শিক্ষার্থী মডেল শুধুমাত্র অত্যন্ত জটিল যুক্তি পদক্ষেপ প্যাসিভভাবে গ্রহণ করতে পারে, কার্যকর যুক্তি প্যাটার্ন অভ্যন্তরীণ করা কঠিন ३. ত্রুটি ব্যবহারের অপ্রতুলতা: বিদ্যমান পদ্ধতিগুলি শিক্ষার্থী মডেলের নিজস্ব ত্রুটি তথ্য প্রশিক্ষণ প্রক্রিয়া উন্নত করতে সম্পূর্ণভাবে ব্যবহার করে না

গবেষণা প্রেরণা

জর্জ বার্নার্ড শ'র বিখ্যাত উক্তি "সাফল্য কখনও ত্রুটি না করা নয়, বরং একই ত্রুটি পুনরাবৃত্তি না করা" দ্বারা অনুপ্রাণিত, এই পত্রটি শিক্ষার্থী মডেলের ত্রুটি তথ্য ব্যবহার করে CoT পরিমার্জন প্রক্রিয়া পরিচালনা করার প্রস্তাব করে, যার ফলে শিক্ষার্থী মডেল শেখার জন্য আরও উপযুক্ত তত্ত্বাবধানমূলক সংকেত উৎপাদিত হয়।

মূল অবদান

१. ORION কাঠামো প্রস্তাব: প্রথমবারের মতো ত্রুটি-সচেতন স্ব-প্রতিফলন প্রক্রিয়া দীর্ঘ-শৃঙ্খল যুক্তি নিষ্কাশনে প্রবর্তন করা, শিক্ষার্থী মডেলকে নিজস্ব ত্রুটির উপর ভিত্তি করে শিক্ষক CoT পরিমার্জন করতে সক্ষম করা २. দ্বি-পর্যায়ের প্রশিক্ষণ কৌশল ডিজাইন: ত্রুটি প্রকাশ পর্যায় এবং যুক্তি পরিমার্জন পর্যায় অন্তর্ভুক্ত করা, শিক্ষার্থী মডেল ত্রুটি পদ্ধতিগতভাবে ব্যবহার করা ३. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: GSM-Hard, MATH500, AIME24, AMC23 এবং অন্যান্য একাধিক গণিত যুক্তি মানদণ্ডে সমস্ত ভিত্তিরেখা পদ্ধতি ২% এর বেশি অতিক্রম করা ४. গভীর বিশ্লেষণ প্রদান: ORION দ্বারা উৎপাদিত CoT উচ্চতর সংযোগ এবং যুক্তিগত সামঞ্জস্য প্রদর্শন করে, প্রশিক্ষণ প্রক্রিয়া আরও স্থিতিশীল

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি গণিত সমস্যা q দেওয়া হলে, লক্ষ্য হল একটি ছোট ভাষা মডেল Ms প্রশিক্ষণ করা যা সঠিক সমাধান উৎপাদন করতে পারে। ইনপুট হল সমস্যা বর্ণনা, আউটপুট হল যুক্তি প্রক্রিয়া এবং চূড়ান্ত উত্তর সহ সম্পূর্ণ সমাধান।

মডেল স্থাপত্য

१. ঐতিহ্যবাহী নিষ্কাশন পদ্ধতির পর্যালোচনা

ভ্যানিলা SFT: মানব-মন্তব্যকৃত উত্তর লেবেল ব্যবহার করে সরাসরি তত্ত্বাবধানমূলক শেখা

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

দীর্ঘ-শৃঙ্খল যুক্তি নিষ্কাশন: শিক্ষক মডেল দ্বারা উৎপাদিত CoT কে তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করা

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

२. ORION কাঠামো ডিজাইন

পর্যায় এক: ত্রুটি প্রকাশ (Error Exposure)

  • প্রতিটি সমস্যা qi এর জন্য, বিভিন্ন তাপমাত্রা τ ব্যবহার করে K টি প্রার্থী সমাধান নমুনা করা:
Yi ~ SampleτM(s(InstructQA(qi)))
  • ত্রুটি সমাধান ফিল্টার করে ত্রুটি সেট তৈরি করা:
Yi_err = {yi_k | Ans(yi_k) ≠ Li}

পর্যায় দুই: যুক্তি পরিমার্জন (Reasoning Refinement)

  • শিক্ষার্থী মডেল ত্রুটি সমাধানের উপর ভিত্তি করে শিক্ষক CoT পরিমার্জন করা:
õi_k = Ms(InstructRef(q, yi_k, oi))
  • পরিমার্জিত প্রশিক্ষণ ডেটাসেট তৈরি করা:
D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. ত্রুটি-সচেতন প্রক্রিয়া: প্রথমবারের মতো CoT নিষ্কাশনে শিক্ষার্থী মডেলের ত্রুটি তথ্য পদ্ধতিগতভাবে ব্যবহার করা २. স্ব-প্রতিফলন পরিমার্জন: শিক্ষার্থী মডেলকে প্রশিক্ষণ ডেটা নির্মাণ প্রক্রিয়ায় সক্রিয়ভাবে অংশগ্রহণ করতে দেওয়া, প্যাসিভভাবে গ্রহণ করার পরিবর্তে ३. ক্ষমতা অভিযোজন ডিজাইন: উৎপাদিত CoT শিক্ষার্থী মডেলের শেখার ক্ষমতার সাথে আরও সামঞ্জস্যপূর্ণ, শিক্ষক-শিক্ষার্থী ব্যবধান হ্রাস করা

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

  • প্রশিক্ষণ ডেটা: OpenR1-Math-220k ডেটাসেট থেকে ১০,০০০ নমুনা র্যান্ডমলি নমুনা করা
  • মূল্যায়ন ডেটাসেট:
    • GSM-Hard: ১,३१९ টি বর্ধিত গণনা কঠিনতার গণিত সমস্যা
    • MATH500: ५०० টি প্রতিযোগিতা-স্তরের গণিত সমস্যা
    • AIME24: ३० টি আমেরিকান গণিত আমন্ত্রণ পরীক্ষা সমস্যা
    • AMC23: ४० টি আমেরিকান গণিত প্রতিযোগিতা সমস্যা

মূল্যায়ন মেট্রিক্স

  • Acc@1: একক নমুনার নির্ভুলতা
  • Acc@10: १० টি নমুনার মধ্যে সর্বোত্তম নির্ভুলতা

তুলনামূলক পদ্ধতি

१. শূন্য-শট ভিত্তিরেখা: Vanilla LLM, Wrong-of-Thought २. SFT ভিত্তিরেখা: SFT(Label), SFT(Long-CoT) ३. বিলোপন ভেরিয়েন্ট: ORION w/o Solution Error, ORION w/o Self-Reflection

বাস্তবায়ন বিবরণ

  • মেরুদণ্ড মডেল: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
  • প্রশিক্ষণ কনফিগারেশন: শেখার হার ५×१०^-५, গ্রেডিয়েন্ট সংগ্রহ পদক্ষেপ ८, ३ টি epoch প্রশিক্ষণ
  • অপ্টিমাইজেশন কৌশল: দক্ষ প্রশিক্ষণের জন্য LoRA ব্যবহার করা

পরীক্ষা-নিরীক্ষার ফলাফল

প্রধান ফলাফল

সমস্ত পরীক্ষা ডেটাসেটে, ORION ভিত্তিরেখা পদ্ধতিগুলির চেয়ে উল্লেখযোগ্যভাবে ভাল:

Qwen3-8B-Instruct ফলাফল:

পদ্ধতিAIME24AMC23Math500GSM-Hগড়
Vanilla LLM20.0055.0081.4057.4053.45
SFT(Long-CoT)23.3357.5082.9059.2755.75
ORION26.6762.5083.5059.8358.13

মূল আবিষ্কার: १. ORION সবচেয়ে শক্তিশালী ভিত্তিরেখা SFT(Long-CoT) এর তুলনায় গড়ে २.३८% উন্নতি २. সমস্ত মেরুদণ্ড মডেলে সামঞ্জস্যপূর্ণ উন্নতি পর্যবেক্ষণ করা হয়েছে ३. ত্রুটি-সচেতন প্রম্পট পদ্ধতি Wrong-of-Thought এর তুলনায় ५% এর বেশি উন্নতি

বিলোপন পরীক্ষা-নিরীক্ষা

উপাদানAIME24AMC23Math500GSM-Hগড়
SFT(Long-CoT)23.3357.5082.9059.2755.75
w/o Solution Error26.6760.0083.1559.2757.27
w/o Self-Reflection20.0057.5082.7558.8654.78
ORION (সম্পূর্ণ)26.6762.5083.5059.8358.13

বিশ্লেষণ উপসংহার:

  • স্ব-প্রতিফলন প্রক্রিয়া প্রায় १.५% কর্মক্ষমতা উন্নতিতে অবদান রাখে
  • ত্রুটি তথ্য সংযোজন অতিরিক্ত ०.८६% উন্নতিতে অবদান রাখে
  • দুটি উপাদান পরস্পর পরিপূরক, একসাথে সর্বোত্তম প্রভাব

প্রশিক্ষণ স্থিতিশীলতা বিশ্লেষণ

এন্ট্রপি মূল্যায়নের মাধ্যমে আবিষ্কৃত: १. ORION প্রশিক্ষণ প্রক্রিয়ায় এন্ট্রপি মান উল্লেখযোগ্যভাবে কম এবং আরও স্থিতিশীল २. স্ব-প্রতিফলন প্রক্রিয়া আরও স্থিতিশীল শেখার প্রক্রিয়া কার্যকরভাবে প্রচার করে ३. ত্রুটি তথ্যের সংযোজন প্রশিক্ষণ এন্ট্রপি মূল্য আরও হ্রাস করে

উৎপাদন গুণমান মূল্যায়ন

যুক্তি দৈর্ঘ্য: ORION দ্বারা উৎপাদিত CoT ভিত্তিরেখা পদ্ধতির চেয়ে প্রায় ४०% ছোট, অত্যধিক চিন্তাভাবনা সমস্যা কার্যকরভাবে হ্রাস করা

বিভ্রান্তি স্কোর: ORION Qwen3 এ १६.९ বিভ্রান্তি অর্জন করে, SFT(Long-CoT) এর २४.८ থেকে উল্লেখযোগ্যভাবে কম

GPT-४ পছন্দ মূল্যায়ন: ORION ४४.२% জয়ের হার অর্জন করে, অন্যান্য পদ্ধতির প্রায় দ্বিগুণ

ত্রুটি প্রকার বিশ্লেষণ

५०० ত্রুটি নমুনার বিশ্লেষণে আবিষ্কৃত:

  • যুক্তি ত্রুটি ४६.५% দখল করে, সবচেয়ে প্রধান ত্রুটি প্রকার
  • ORION যুক্তি ত্রুটি সংশোধনে ४१.५% সাফল্যের হার অর্জন করে, ভিত্তিরেখার १५.५% এর চেয়ে উল্লেখযোগ্যভাবে ভাল
  • বোঝাপড়া ত্রুটি এবং গণনা ত্রুটিতেও স্পষ্ট উন্নতি

সম্পর্কিত কাজ

গণিত যুক্তি গবেষণা

१. CoT প্রম্পট পদ্ধতি: Wei et al. (२०२२) দ্বারা প্রস্তাবিত শৃঙ্খল-চিন্তাভাবনা গণিত যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে २. যুক্তি মডেল উন্নয়ন: DeepSeek-R1 এর মতো বিশেষায়িত যুক্তি মডেল গণিত সমস্যায় উৎকর্ষ কর্মক্ষমতা প্রদর্শন করে

জ্ঞান নিষ্কাশন গবেষণা

१. ঐতিহ্যবাহী নিষ্কাশন: শিক্ষক আউটপুট সরাসরি তত্ত্বাবধানমূলক সংকেত হিসাবে ব্যবহার করা २. যুক্তি নিষ্কাশন: Hsieh et al. (२०२३) এবং অন্যান্য কাজ যুক্তি ক্ষমতা স্থানান্তর অন্বেষণ করেছে

ত্রুটি-সচেতন শেখা

१. ত্রুটি সংশোধন পদ্ধতি: An et al. (२०२३) ত্রুটি সমাধান ব্যবহার করে প্রশিক্ষণ প্রস্তাব করেছে २. এই পত্রের উদ্ভাবন: প্রথমবারের মতো ত্রুটি-সচেতনতা CoT পরিমার্জন প্রক্রিয়ায় প্রবর্তন করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ORION কার্যকারিতা: একাধিক গণিত যুক্তি মানদণ্ডে সামঞ্জস্যপূর্ণ এবং উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করা २. প্রক্রিয়া যুক্তিসঙ্গততা: ত্রুটি-সচেতন স্ব-প্রতিফলন প্রক্রিয়া শিক্ষার্থী মডেলের জন্য আরও উপযুক্ত প্রশিক্ষণ ডেটা উৎপাদন করতে পারে ३. প্রশিক্ষণ উন্নতি: ঐতিহ্যবাহী পদ্ধতির তুলনায়, ORION আরও স্থিতিশীল প্রশিক্ষণ, উচ্চতর উৎপাদন গুণমান

সীমাবদ্ধতা

१. গণনা খরচ: এখনও শক্তিশালী বন্ধ-উৎস যুক্তি মডেলের উপর নির্ভর করে প্রাথমিক CoT উৎপাদনের জন্য, গণনা ওভারহেড বেশি २. শিক্ষক মডেল সীমাবদ্ধতা: প্রধানত DeepSeek-R1 এর উপর ভিত্তি করে, অন্যান্য যুক্তি মডেলের প্রভাব সম্পূর্ণভাবে অন্বেষণ করা হয়নি ३. ডোমেইন সীমাবদ্ধতা: বর্তমানে প্রধানত গণিত যুক্তি কাজে যাচাই করা হয়েছে, অন্যান্য যুক্তি কাজের প্রভাব যাচাই করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. আরও দক্ষ CoT উৎপাদন পদ্ধতি অন্বেষণ করা, বন্ধ-উৎস মডেলের উপর নির্ভরতা হ্রাস করা २. আরও অনেক যুক্তি কাজ এবং ডোমেইনে সম্প্রসারণ করা ३. আরও সূক্ষ্ম ত্রুটি শ্রেণীবিভাগ এবং প্রক্রিয়াকরণ কৌশল গবেষণা করা

গভীর মূল্যায়ন

সুবিধা

१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো শিক্ষার্থী মডেল ত্রুটি তথ্য পদ্ধতিগতভাবে CoT পরিমার্জনে ব্যবহার করা, চিন্তাভাবনা উপন্যাস २. ব্যাপক পরীক্ষা-নিরীক্ষা: একাধিক ডেটাসেট, একাধিক মেরুদণ্ড মডেলে সম্পূর্ণ মূল্যায়ন পরিচালিত ३. গভীর বিশ্লেষণ: শুধুমাত্র কর্মক্ষমতা সংখ্যা রিপোর্ট করা নয়, প্রশিক্ষণ স্থিতিশীলতা, উৎপাদন গুণমান এবং অন্যান্য দিক থেকে বিশ্লেষণ করা ४. ভাল পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা-উৎস কোড প্রদান করা

অপূর্ণতা

१. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: ত্রুটি-সচেতন প্রক্রিয়া কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা অভাব २. গণনা ওভারহেড বিশ্লেষণ অনুপস্থিত: ORION এর ভিত্তিরেখা পদ্ধতির তুলনায় অতিরিক্ত গণনা খরচ বিস্তারিত বিশ্লেষণ করা হয়নি ३. ত্রুটি প্রকার প্রক্রিয়াকরণ: বিভিন্ন ধরনের ত্রুটির প্রক্রিয়াকরণ কৌশল তুলনামূলক সহজ, উন্নতির সম্ভাবনা থাকতে পারে

প্রভাব

१. একাডেমিক মূল্য: যুক্তি ক্ষমতা নিষ্কাশনের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করা २. ব্যবহারিক মূল্য: পদ্ধতি তুলনামূলক সহজ বাস্তবায়ন, ভাল প্রয়োগ সম্ভাবনা ३. অনুপ্রেরণামূলক অর্থ: ত্রুটি-সচেতন চিন্তাভাবনা অন্যান্য NLP কাজে প্রযোজ্য হতে পারে

প্রযোজ্য পরিস্থিতি

१. শিক্ষা প্রয়োগ: গণিত টিউটরিং সিস্টেম নির্মাণে ব্যবহার করা যায় २. গবেষণা সরঞ্জাম: গণিত যুক্তি ক্ষমতা প্রয়োজন এমন গবেষণা পরিস্থিতিতে উপযুক্ত ३. সম্পদ-সীমাবদ্ধ পরিবেশ: গণনা সম্পদ সীমাবদ্ধ কিন্তু যুক্তি ক্ষমতা প্রয়োজন এমন পরিস্থিতিতে মূল্যবান

রেফারেন্স

१. Wei, J., et al. (२०२२). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. २. An, S., et al. (२०२३). Learning from mistakes makes llm better reasoner. ArXiv preprint. ३. Hsieh, C.-Y., et al. (२०२३). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings. ४. DeepSeek-AI, et al. (२०२५). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.


এই পত্রটি দ্বারা প্রস্তাবিত ORION কাঠামো শিক্ষার্থী মডেলের ত্রুটি তথ্য চতুরভাবে ব্যবহার করে যুক্তি ক্ষমতা নিষ্কাশন প্রক্রিয়া উন্নত করে, একটি উদ্ভাবনী এবং ব্যবহারিক অবদান। যদিও তাত্ত্বিক বিশ্লেষণ এবং গণনা ওভারহেড দিক থেকে উন্নতির সুযোগ রয়েছে, তবে এর মূল চিন্তাভাবনা চমৎকার অনুপ্রেরণামূলক এবং প্রচার মূল্য রয়েছে।