2025-11-17T14:34:12.785982

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

Kang, Song, Kim

Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.

academic

LiteStage: বহু-পর্যায়ের যুক্তির জন্য লেটেন্সি-সচেতন স্তর এড়িয়ে যাওয়া

মৌলিক তথ্য

পেপার আইডি: 2510.14211
শিরোনাম: LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
লেখক: Beomseok Kang, Jiwon Song, Jae-Joon Kim (সিউল জাতীয় বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.CL, cs.AI
প্রকাশের সময়: ২০২৫ সালের ১৬ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.14211
কোড লিঙ্ক: https://github.com/beomseokg/LiteStage

সংক্ষিপ্তসার

বহু-পর্যায়ের যুক্তি জটিল সমস্যাগুলিকে ক্রমানুসারী উপ-পর্যায়ে বিভক্ত করে ছোট ভাষা মডেলের যুক্তি ক্ষমতা বৃদ্ধির একটি কার্যকর কৌশল হয়ে উঠেছে। তবে এটি বর্ধিত লেটেন্সির মূল্যে আসে। লেখকরা পর্যবেক্ষণ করেছেন যে বিদ্যমান অভিযোজিত ত্বরণ কৌশল (যেমন স্তর এড়িয়ে যাওয়া) এই সেটিংয়ে দক্ষতা এবং নির্ভুলতার ভারসাম্য রাখতে সংগ্রাম করে, প্রধানত দুটি মূল চ্যালেঞ্জের সম্মুখীন হয়: (১) পর্যায়-জুড়ে এড়িয়ে যাওয়ার সংবেদনশীলতার পার্থক্য, (২) অপ্রয়োজনীয় আউটপুট টোকেন উৎপাদন। এই সমস্যাগুলি সমাধানের জন্য, এই পেপারটি LiteStage প্রস্তাব করে, যা বহু-পর্যায়ের যুক্তির জন্য একটি লেটেন্সি-সচেতন স্তর এড়িয়ে যাওয়ার কাঠামো। LiteStage সর্বোত্তম স্তর বাজেট বরাদ্দের জন্য পর্যায়ক্রমিক অফলাইন অনুসন্ধান এবং অপ্রয়োজনীয় ডিকোডিং দমন করার জন্য আত্মবিশ্বাস-ভিত্তিক অনলাইন প্রজন্ম প্রাথমিক প্রস্থান প্রক্রিয়া একত্রিত করে। OBQA, CSQA এবং StrategyQA তিনটি বেঞ্চমার্কে পরীক্ষা-নিরীক্ষা দেখায় যে LiteStage ৪.০% এর কম নির্ভুলতা ক্ষতির সাথে ১.৭০× পর্যন্ত ত্বরণ অর্জন করে, যা পূর্ববর্তী প্রশিক্ষণ-মুক্ত স্তর এড়িয়ে যাওয়ার পদ্ধতিকে ছাড়িয়ে যায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বহু-পর্যায়ের যুক্তি জটিল সমস্যাগুলিকে একাধিক ক্রমানুসারী উপ-সমস্যায় বিভক্ত করে ছোট ভাষা মডেলের যুক্তি ক্ষমতা বৃদ্ধি করে। উদাহরণস্বরূপ, TinyThinker তিন-পর্যায়ের যুক্তি গ্রহণ করে: স্মরণ (Recall), বিশ্লেষণ (Analysis) এবং সংক্ষিপ্তকরণ (Summary)। যদিও এই পদ্ধতি যুক্তির গুণমান কার্যকরভাবে উন্নত করে, এটি অনিবার্যভাবে অনুমান লেটেন্সি বৃদ্ধি করে।

মূল চ্যালেঞ্জ

লেখকরা গভীর বিশ্লেষণের মাধ্যমে দুটি মূল সমস্যা আবিষ্কার করেছেন:

১. পর্যায়-জুড়ে এড়িয়ে যাওয়ার সংবেদনশীলতার পার্থক্য: বিভিন্ন যুক্তি পর্যায়ে স্তর এড়িয়ে যাওয়ার প্রতি সংবেদনশীলতার মাত্রা উল্লেখযোগ্যভাবে পরিবর্তিত হয়। পরীক্ষা-নিরীক্ষা দেখায় যে পর্যায় ৩ (সংক্ষিপ্তকরণ পর্যায়) স্তর এড়িয়ে যাওয়ার প্রতি সবচেয়ে সংবেদনশীল, যখন পর্যায় ১ (স্মরণ পর্যায়) তুলনামূলকভাবে শক্তিশালী।

२. অপ্রয়োজনীয় টোকেন উৎপাদন: স্তর এড়িয়ে যাওয়া প্রতিটি টোকেনের গণনামূলক খরচ হ্রাস করে, কিন্তু প্রায়শই আরও বেশি টোকেন উৎপাদন করে, যা শেষ পর্যন্ত শেষ-থেকে-শেষ লেটেন্সি বৃদ্ধি করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান স্তর এড়িয়ে যাওয়ার পদ্ধতি (যেমন SkipDecode, UnifiedSkip, AdaSkip) সাধারণত একীভূত এড়িয়ে যাওয়ার কৌশল গ্রহণ করে, যা বহু-পর্যায়ের যুক্তিতে বিভিন্ন পর্যায়ের বৈশিষ্ট্যগুলির সাথে খাপ খাইয়ে নিতে পারে না, যার ফলে:

সংবেদনশীল পর্যায়ে অত্যধিক সংকোচন নির্ভুলতার তীব্র হ্রাস ঘটায়
স্তর এড়িয়ে যাওয়ার কারণে উৎপাদন দৈর্ঘ্য বৃদ্ধির সমস্যা উপেক্ষা করে
লেটেন্সি-সচেতন অপ্টিমাইজেশন প্রক্রিয়ার অভাব

মূল অবদান

१. LiteStage কাঠামো প্রস্তাব: বহু-পর্যায়ের যুক্তির জন্য প্রথম বিশেষায়িত লেটেন্সি-সচেতন স্তর এড়িয়ে যাওয়ার কাঠামো, যা পর্যায়-জুড়ে সংবেদনশীলতার পার্থক্য এবং অপ্রয়োজনীয় টোকেন উৎপাদন সমস্যা কার্যকরভাবে সমাধান করে।

२. পর্যায়ক্রমিক স্তর বাজেট বরাদ্দ কৌশল: সবচেয়ে ধীর পর্যায় থেকে দ্রুততম পর্যায়ে একটি লোভী অনুসন্ধান অ্যালগরিদম ডিজাইন করা হয়েছে, প্রতিটি যুক্তি পর্যায়ের জন্য সর্বোত্তম স্তর এড়িয়ে যাওয়ার বাজেট বরাদ্দ করে।

३. আত্মবিশ্বাস-চালিত প্রজন্ম প্রাথমিক প্রস্থান প্রক্রিয়া: অনলাইন আত্মবিশ্বাস পর্যবেক্ষণ প্রবর্তন করে, গতিশীলভাবে কম আত্মবিশ্বাসের অপ্রয়োজনীয় উৎপাদন সমাপ্ত করে, অনুমান দক্ষতা আরও উন্নত করে।

४. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: তিনটি বেঞ্চমার্ক ডেটাসেটে ১.১६-१.७०× ত্বরণ অর্জন করে, নির্ভুলতা ক্ষতি মাত্র ०.४-४.०%, বিদ্যমান প্রশিক্ষণ-মুক্ত পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

পরীক্ষা ডেটাসেট D দেওয়া, লক্ষ্য হল পর্যায়ক্রমিক স্তর বাজেট L খুঁজে পাওয়া যা প্রদত্ত নির্ভুলতা থ্রেশহোল্ড ε এর মধ্যে অনুমান লেটেন্সি কমায়:

argmin_L (1/|D|) ∑_{d∈D} T(M_L(d))
subject to: A(M_L(d)) ≤ A(M(d)) - ε

যেখানে T এবং A যথাক্রমে অনুমান লেটেন্সি এবং নির্ভুলতা প্রতিনিধিত্ব করে, M_L এবং M যথাক্রমে স্তর এড়িয়ে যাওয়া প্রয়োগ করা এবং সম্পূর্ণ স্তরের মডেল প্রতিনিধিত্ব করে।

মডেল স্থাপত্য

LiteStage দুটি পরিপূরক উপাদান রয়েছে:

१. অফলাইন কনফিগারেশন (Offline Configuration)

ধাপ १: স্তর গুরুত্ব অনুমান

উপ-স্তর স্তরের কোসাইন সাদৃশ্য গুরুত্ব প্রক্সি হিসাবে গ্রহণ করে
বহু-মাথা স্ব-মনোযোগ (MHSA) এবং ফিড-ফরওয়ার্ড নেটওয়ার্ক (FFN) এর গুরুত্ব আলাদাভাবে গণনা করে:

I^(j)_MHSA = (1/N) ∑_{n=0}^{N-1} cos(MHSA^(j)(x) + x, x)
I^(j)_FFN = (1/N) ∑_{n=0}^{N-1} cos(FFN^(j)(x) + x, x)

ধাপ २: স্তর বাজেট অনুসন্ধান

সবচেয়ে ধীর যুক্তি পর্যায় থেকে শুরু করে লোভী অনুসন্ধান পরিচালনা করে
নির্ভুলতা-লেটেন্সি বক্ররেখা তৈরি করে, নির্ভুলতা সীমাবদ্ধতার অধীনে সর্বোত্তম লেটেন্সি কনফিগারেশন নির্বাচন করে
পর্যায়ক্রমে অপ্টিমাইজ করে, পর্যায়-জুড়ে মিথস্ক্রিয়া সঠিকভাবে প্রতিফলিত হয় তা নিশ্চিত করে

२. অনলাইন সমন্বয় (Online Adjustment)

ধাপ ३: প্রজন্ম প্রাথমিক প্রস্থান

সাম্প্রতিক n টোকেনের আত্মবিশ্বাস ক্যাশে বজায় রাখে
গড় আত্মবিশ্বাস μ_Conf গণনা করে, যখন থ্রেশহোল্ডের নিচে থাকে তখন প্রাথমিকভাবে উৎপাদন সমাপ্ত করে
আত্মবিশ্বাস প্রতিটি টোকেনের সর্বাধিক লজিট মান হিসাবে সংজ্ঞায়িত করা হয়

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. অ-সমান স্তর বাজেট বরাদ্দ: প্রতিটি পর্যায়ের সংবেদনশীলতার পার্থক্য অনুযায়ী, বিভিন্ন স্তর এড়িয়ে যাওয়ার বাজেট স্ব-অভিযোজিতভাবে বরাদ্দ করে, সংবেদনশীল পর্যায়ে অত্যধিক সংকোচন এড়ায়।

२. লেটেন্সি-সচেতন অপ্টিমাইজেশন: শুধুমাত্র নির্ভুলতা নয়, বরং প্রকৃত অনুমান লেটেন্সি সামগ্রিকভাবে বিবেচনা করে, যে সমস্ত কনফিগারেশন আরও স্তর এড়িয়ে যায় কিন্তু উচ্চতর লেটেন্সি রয়েছে তা স্বয়ংক্রিয়ভাবে বাদ দেয়।

३. গতিশীল প্রজন্ম নিয়ন্ত্রণ: আত্মবিশ্বাস পর্যবেক্ষণের মাধ্যমে সক্রিয়ভাবে উৎপাদন দৈর্ঘ্য নিয়ন্ত্রণ করে, স্তর এড়িয়ে যাওয়ার কারণে অপ্রয়োজনীয় টোকেন সমস্যা প্রশমিত করে।

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

TinyThinker এর তিন-পর্যায়ের যুক্তি প্রবাহ গ্রহণ করে, তিনটি প্রশ্নোত্তর বেঞ্চমার্কে মূল্যায়ন পরিচালনা করে:

OpenBookQA (OBQA): খোলা-শেষ প্রশ্নোত্তর কাজ
CommonSenseQA (CSQA): সাধারণ জ্ঞান যুক্তি প্রশ্নোত্তর
StrategyQA: কৌশলগত যুক্তি প্রশ্নোত্তর

মূল্যায়ন মেট্রিক্স

নির্ভুলতা: প্রশ্নোত্তর সঠিকতার হার
ত্বরণ অনুপাত: সম্পূর্ণ স্তর মডেলের তুলনায় অনুমান গতি উন্নতি
লেটেন্সি: শেষ-থেকে-শেষ অনুমান সময়

তুলনা পদ্ধতি

SkipDecode: ক্রমবর্ধমান গভীর স্তর এড়িয়ে যাওয়া
UnifiedSkip: পর্যায়ক্রমিক স্তর এড়িয়ে যাওয়া
AdaSkip: কোসাইন সাদৃশ্য-ভিত্তিক উপ-স্তর গুরুত্ব অনুমান

বাস্তবায়ন বিবরণ

প্রধানত TinyLlama-1.1B-Chat-v1.0 মডেল ব্যবহার করে
১০ এপোক প্রশিক্ষণ, ব্যাচ আকার १६ (OBQA/CSQA) বা २४ (StrategyQA)
শেখার হার ५×१०^-५
१० পুনরাবৃত্তি মূল্যায়নের জন্য স্ব-সামঞ্জস্য প্রোটোকল গ্রহণ করে
আত্মবিশ্বাস থ্রেশহোল্ড ०.५ এ সেট করা হয়, ক্যাশে আকার n=५

পরীক্ষা-নিরীক্ষা ফলাফল

প্রধান ফলাফল

তিনটি বেঞ্চমার্ক ডেটাসেটে, LiteStage ভিত্তিরেখা পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে:

ডেটাসেট	ভিত্তিরেখা নির্ভুলতা	LiteStage নির্ভুলতা	ত্বরণ অনুপাত
OBQA	६४.०%	६०.०%	१.३२×
CSQA	५४.८%	५३.२%	१.१६×
StrategyQA	६२.४%	६२.०%	१.७०×

মূল আবিষ্কার

१. পর্যায় সংবেদনশীলতা পার্থক্য: একক-পর্যায় এড়িয়ে যাওয়া পরীক্ষার মাধ্যমে নিশ্চিত করা হয়, পর্যায় ३ স্তর এড়িয়ে যাওয়ার প্রতি সবচেয়ে সংবেদনশীল, এর নির্ভুলতা বক্ররেখা প্রায় সামগ্রিক কর্মক্ষমতা উপরের সীমা নির্ধারণ করে।

२. লেটেন্সি প্যারাডক্স: আরও বেশি স্তর এড়িয়ে যাওয়া সর্বদা দ্রুত অনুমান গতি নিয়ে আসে না, উৎপাদন দৈর্ঘ্য বৃদ্ধির কারণে, কিছু কনফিগারেশন বরং লেটেন্সি বৃদ্ধি করে।

३. আত্মবিশ্বাস প্যাটার্ন: স্তর এড়িয়ে যাওয়া মডেলের টোকেন আত্মবিশ্বাস একটি একঘেয়ে হ্রাসমান প্রবণতা প্রদর্শন করে, যখন সম্পূর্ণ স্তর মডেল পরবর্তী সময়ে আত্মবিশ্বাস পুনরুদ্ধার করতে পারে।

বিলোপ পরীক্ষা-নিরীক্ষা

অ-সমান স্তর বাজেটের প্রভাব:

একই স্তর এড়িয়ে যাওয়ার সংখ্যায়, LiteStage এর নির্ভুলতা সমান এড়িয়ে যাওয়ার কৌশলের চেয়ে উল্লেখযোগ্যভাবে বেশি
এড়িয়ে যাওয়া স্তর সংখ্যা বৃদ্ধির সাথে, কর্মক্ষমতা পার্থক্য আরও প্রসারিত হয়

প্রজন্ম প্রাথমিক প্রস্থানের অবদান:

হালকা স্তর এড়িয়ে যাওয়ার সময়, প্রজন্ম প্রাথমিক প্রস্থান প্রভাব খুব ছোট (-०.५% ডিকোডিং ধাপ)
ভারী স্তর এড়িয়ে যাওয়ার সময়, ডিকোডিং ধাপ ८२.५% পর্যন্ত হ্রাস করতে পারে
নির্ভুলতা মূলত স্থিতিশীল থাকে, কিছু ক্ষেত্রে এমনকি উন্নতি হয়

কেস বিশ্লেষণ

CSQA এর নির্দিষ্ট কেসের মাধ্যমে প্রদর্শন করা হয়, প্রজন্ম প্রাথমিক প্রস্থান কম আত্মবিশ্বাসের অপ্রয়োজনীয় পাঠ্য কার্যকরভাবে ছেদ করতে পারে, যখন মূল যুক্তি যুক্তি সম্পূর্ণ রাখে, চূড়ান্ত উত্তর সামঞ্জস্যপূর্ণ থাকে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. বহু-পর্যায়ের যুক্তিতে অ-সমান সংবেদনশীলতা: বিভিন্ন যুক্তি পর্যায়ে স্তর সংকোচনের প্রতি সংবেদনশীলতার মাত্রা উল্লেখযোগ্যভাবে পরিবর্তিত হয়, পার্থক্যপূর্ণ অপ্টিমাইজেশন কৌশল প্রয়োজন।

२. লেটেন্সি-সচেতন অপ্টিমাইজেশনের প্রয়োজনীয়তা: বিশুদ্ধ স্তর এড়িয়ে যাওয়া উৎপাদন দৈর্ঘ্য বৃদ্ধির কারণে লেটেন্সি অবনতি করতে পারে, নির্ভুলতা এবং লেটেন্সি সামগ্রিকভাবে বিবেচনা করা প্রয়োজন।

३. প্রজন্ম নিয়ন্ত্রণের কার্যকারিতা: আত্মবিশ্বাস-ভিত্তিক প্রজন্ম প্রাথমিক প্রস্থান স্তর এড়িয়ে যাওয়ার কারণে অপ্রয়োজনীয় প্রজন্ম সমস্যা কার্যকরভাবে প্রশমিত করতে পারে।

সীমাবদ্ধতা

१. অফলাইন অনুসন্ধান ওভারহেড: অন্যান্য প্রশিক্ষণ-মুক্ত পদ্ধতির তুলনায়, LiteStage এর অফলাইন কনফিগারেশন আরও বেশি গণনামূলক সম্পদ প্রয়োজন (প্রায় १-७.६ ঘন্টা)।

२. মডেল স্থাপত্য নির্ভরতা: প্রধানত Llama সিরিজ মডেলে যাচাই করা হয়, Qwen ইত্যাদি অন্যান্য স্থাপত্যে সীমিত প্রভাব।

३. প্রযোজ্য পরিসীমা সীমাবদ্ধতা: বিশেষভাবে বহু-পর্যায়ের যুক্তি পরিস্থিতির জন্য, একক-পর্যায়ের যুক্তিতে প্রযোজ্যতা সম্পূর্ণভাবে যাচাই করা হয়নি।

ভবিষ্যত দিকনির্দেশনা

१. আরও মডেল স্থাপত্যে সম্প্রসারণ: বিভিন্ন স্থাপত্যের এড়িয়ে যাওয়ার সংবেদনশীলতা বৈশিষ্ট্য গবেষণা করে

२. গতিশীল বাজেট বরাদ্দ: রানটাইম স্ব-অভিযোজিত সমন্বয় স্তর বাজেটের প্রক্রিয়া বিকাশ করে

३. বহুমোডাল যুক্তি অপ্টিমাইজেশন: কাঠামো দৃষ্টি-ভাষা ইত্যাদি বহুমোডাল যুক্তি কাজে প্রসারিত করে

গভীর মূল্যায়ন

সুবিধা

१. সমস্যা সনাক্তকরণ নির্ভুল: বহু-পর্যায়ের যুক্তিতে মূল বাধা সঠিকভাবে সনাক্ত করে, পর্যায় সংবেদনশীলতা পার্থক্য এবং অপ্রয়োজনীয় প্রজন্ম সমস্যা সহ।

२. পদ্ধতি ডিজাইন যুক্তিসঙ্গত: অফলাইন-অনলাইন সমন্বিত কাঠামো ডিজাইন চতুর, অপ্টিমাইজেশন প্রভাব নিশ্চিত করে এবং রানটাইম ওভারহেড নিয়ন্ত্রণ করে।

३. পরীক্ষা-নিরীক্ষা ডিজাইন সম্পূর্ণ: বিস্তারিত প্রেরণা পরীক্ষা-নিরীক্ষা, বিলোপ গবেষণা এবং কেস বিশ্লেষণের মাধ্যমে, পদ্ধতির কার্যকারিতা সম্পূর্ণভাবে যাচাই করে।

४. ব্যবহারিক মূল্য উচ্চ: প্রশিক্ষণ-মুক্ত পদ্ধতি হিসাবে, ভাল ব্যবহারিক প্রয়োগ সম্ভাবনা রয়েছে।

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পর্যায় সংবেদনশীলতা পার্থক্যের তাত্ত্বিক ব্যাখ্যার অভাব, প্রধানত অভিজ্ঞতামূলক পর্যবেক্ষণের উপর নির্ভর করে।

२. প্যারামিটার সেটিং অনুমানমূলক: আত্মবিশ্বাস থ্রেশহোল্ড, ক্যাশে আকার ইত্যাদি মূল প্যারামিটার প্রধানত অনুমানমূলক সেটিংয়ের উপর ভিত্তি করে, সিস্টেমেটিক বিশ্লেষণের অভাব।

३. সাধারণীকরণ সীমিত: বিভিন্ন মডেল স্থাপত্যে কর্মক্ষমতা পার্থক্য বৃহত্তর, সাধারণীকরণ ক্ষমতা উন্নতির প্রয়োজন।

প্রভাব

१. একাডেমিক অবদান: বহু-পর্যায়ের যুক্তিতে স্তর এড়িয়ে যাওয়ার অপ্টিমাইজেশন সমস্যা প্রথমবারের মতো সিস্টেমেটিকভাবে গবেষণা করে, সম্পর্কিত গবেষণার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে।

२. ব্যবহারিক মূল্য: ছোট ভাষা মডেলের দক্ষ অনুমানের জন্য ব্যবহারিক সমাধান প্রদান করে, সীমিত সম্পদ সহ ডিভাইসে স্থাপনা প্রচার করতে সাহায্য করে।

३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড বাস্তবায়ন প্রদান করে, পরবর্তী গবেষণা এবং প্রয়োগ সুবিধাজনক করে।

প্রযোজ্য পরিস্থিতি

LiteStage বিশেষভাবে নিম্নলিখিত পরিস্থিতির জন্য উপযুক্ত:

সীমিত সম্পদ সহ সীমান্ত ডিভাইস স্থাপনা
বহু-পর্যায়ের যুক্তি প্রয়োজন জটিল কাজ
লেটেন্সি-সংবেদনশীল রিয়েল-টাইম প্রয়োগ
ছোট ভাষা মডেলের অনুমান ত্বরণ

রেফারেন্স

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

TinyThinker (Piao and Park, 2024): বহু-পর্যায়ের যুক্তির প্রতিনিধিত্বমূলক কাজ
AdaSkip (He et al., 2025): উপ-স্তর স্তর এড়িয়ে যাওয়ার সর্বশেষ পদ্ধতি
Mixture-of-Depths (Raposo et al., 2024): গতিশীল গণনা বরাদ্দের অগ্রগামী কাজ

সামগ্রিক মূল্যায়ন: এই পেপারটি বহু-পর্যায়ের যুক্তিতে স্তর এড়িয়ে যাওয়ার অপ্টিমাইজেশন সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে, তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক প্রভাব উভয় ক্ষেত্রেই উল্লেখযোগ্য অবদান রাখে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি ছোট ভাষা মডেলের দক্ষ অনুমানের জন্য নতুন গবেষণা দিকনির্দেশনা উন্মোচন করে, উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে।