বহু-পর্যায়ের যুক্তি জটিল সমস্যাগুলিকে ক্রমানুসারী উপ-পর্যায়ে বিভক্ত করে ছোট ভাষা মডেলের যুক্তি ক্ষমতা বৃদ্ধির একটি কার্যকর কৌশল হয়ে উঠেছে। তবে এটি বর্ধিত লেটেন্সির মূল্যে আসে। লেখকরা পর্যবেক্ষণ করেছেন যে বিদ্যমান অভিযোজিত ত্বরণ কৌশল (যেমন স্তর এড়িয়ে যাওয়া) এই সেটিংয়ে দক্ষতা এবং নির্ভুলতার ভারসাম্য রাখতে সংগ্রাম করে, প্রধানত দুটি মূল চ্যালেঞ্জের সম্মুখীন হয়: (১) পর্যায়-জুড়ে এড়িয়ে যাওয়ার সংবেদনশীলতার পার্থক্য, (২) অপ্রয়োজনীয় আউটপুট টোকেন উৎপাদন। এই সমস্যাগুলি সমাধানের জন্য, এই পেপারটি LiteStage প্রস্তাব করে, যা বহু-পর্যায়ের যুক্তির জন্য একটি লেটেন্সি-সচেতন স্তর এড়িয়ে যাওয়ার কাঠামো। LiteStage সর্বোত্তম স্তর বাজেট বরাদ্দের জন্য পর্যায়ক্রমিক অফলাইন অনুসন্ধান এবং অপ্রয়োজনীয় ডিকোডিং দমন করার জন্য আত্মবিশ্বাস-ভিত্তিক অনলাইন প্রজন্ম প্রাথমিক প্রস্থান প্রক্রিয়া একত্রিত করে। OBQA, CSQA এবং StrategyQA তিনটি বেঞ্চমার্কে পরীক্ষা-নিরীক্ষা দেখায় যে LiteStage ৪.০% এর কম নির্ভুলতা ক্ষতির সাথে ১.৭০× পর্যন্ত ত্বরণ অর্জন করে, যা পূর্ববর্তী প্রশিক্ষণ-মুক্ত স্তর এড়িয়ে যাওয়ার পদ্ধতিকে ছাড়িয়ে যায়।
বহু-পর্যায়ের যুক্তি জটিল সমস্যাগুলিকে একাধিক ক্রমানুসারী উপ-সমস্যায় বিভক্ত করে ছোট ভাষা মডেলের যুক্তি ক্ষমতা বৃদ্ধি করে। উদাহরণস্বরূপ, TinyThinker তিন-পর্যায়ের যুক্তি গ্রহণ করে: স্মরণ (Recall), বিশ্লেষণ (Analysis) এবং সংক্ষিপ্তকরণ (Summary)। যদিও এই পদ্ধতি যুক্তির গুণমান কার্যকরভাবে উন্নত করে, এটি অনিবার্যভাবে অনুমান লেটেন্সি বৃদ্ধি করে।
লেখকরা গভীর বিশ্লেষণের মাধ্যমে দুটি মূল সমস্যা আবিষ্কার করেছেন:
১. পর্যায়-জুড়ে এড়িয়ে যাওয়ার সংবেদনশীলতার পার্থক্য: বিভিন্ন যুক্তি পর্যায়ে স্তর এড়িয়ে যাওয়ার প্রতি সংবেদনশীলতার মাত্রা উল্লেখযোগ্যভাবে পরিবর্তিত হয়। পরীক্ষা-নিরীক্ষা দেখায় যে পর্যায় ৩ (সংক্ষিপ্তকরণ পর্যায়) স্তর এড়িয়ে যাওয়ার প্রতি সবচেয়ে সংবেদনশীল, যখন পর্যায় ১ (স্মরণ পর্যায়) তুলনামূলকভাবে শক্তিশালী।
२. অপ্রয়োজনীয় টোকেন উৎপাদন: স্তর এড়িয়ে যাওয়া প্রতিটি টোকেনের গণনামূলক খরচ হ্রাস করে, কিন্তু প্রায়শই আরও বেশি টোকেন উৎপাদন করে, যা শেষ পর্যন্ত শেষ-থেকে-শেষ লেটেন্সি বৃদ্ধি করে।
বিদ্যমান স্তর এড়িয়ে যাওয়ার পদ্ধতি (যেমন SkipDecode, UnifiedSkip, AdaSkip) সাধারণত একীভূত এড়িয়ে যাওয়ার কৌশল গ্রহণ করে, যা বহু-পর্যায়ের যুক্তিতে বিভিন্ন পর্যায়ের বৈশিষ্ট্যগুলির সাথে খাপ খাইয়ে নিতে পারে না, যার ফলে:
१. LiteStage কাঠামো প্রস্তাব: বহু-পর্যায়ের যুক্তির জন্য প্রথম বিশেষায়িত লেটেন্সি-সচেতন স্তর এড়িয়ে যাওয়ার কাঠামো, যা পর্যায়-জুড়ে সংবেদনশীলতার পার্থক্য এবং অপ্রয়োজনীয় টোকেন উৎপাদন সমস্যা কার্যকরভাবে সমাধান করে।
२. পর্যায়ক্রমিক স্তর বাজেট বরাদ্দ কৌশল: সবচেয়ে ধীর পর্যায় থেকে দ্রুততম পর্যায়ে একটি লোভী অনুসন্ধান অ্যালগরিদম ডিজাইন করা হয়েছে, প্রতিটি যুক্তি পর্যায়ের জন্য সর্বোত্তম স্তর এড়িয়ে যাওয়ার বাজেট বরাদ্দ করে।
३. আত্মবিশ্বাস-চালিত প্রজন্ম প্রাথমিক প্রস্থান প্রক্রিয়া: অনলাইন আত্মবিশ্বাস পর্যবেক্ষণ প্রবর্তন করে, গতিশীলভাবে কম আত্মবিশ্বাসের অপ্রয়োজনীয় উৎপাদন সমাপ্ত করে, অনুমান দক্ষতা আরও উন্নত করে।
४. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: তিনটি বেঞ্চমার্ক ডেটাসেটে ১.১६-१.७०× ত্বরণ অর্জন করে, নির্ভুলতা ক্ষতি মাত্র ०.४-४.०%, বিদ্যমান প্রশিক্ষণ-মুক্ত পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে।
পরীক্ষা ডেটাসেট D দেওয়া, লক্ষ্য হল পর্যায়ক্রমিক স্তর বাজেট L খুঁজে পাওয়া যা প্রদত্ত নির্ভুলতা থ্রেশহোল্ড ε এর মধ্যে অনুমান লেটেন্সি কমায়:
argmin_L (1/|D|) ∑_{d∈D} T(M_L(d))
subject to: A(M_L(d)) ≤ A(M(d)) - ε
যেখানে T এবং A যথাক্রমে অনুমান লেটেন্সি এবং নির্ভুলতা প্রতিনিধিত্ব করে, M_L এবং M যথাক্রমে স্তর এড়িয়ে যাওয়া প্রয়োগ করা এবং সম্পূর্ণ স্তরের মডেল প্রতিনিধিত্ব করে।
LiteStage দুটি পরিপূরক উপাদান রয়েছে:
ধাপ १: স্তর গুরুত্ব অনুমান
I^(j)_MHSA = (1/N) ∑_{n=0}^{N-1} cos(MHSA^(j)(x) + x, x)
I^(j)_FFN = (1/N) ∑_{n=0}^{N-1} cos(FFN^(j)(x) + x, x)
ধাপ २: স্তর বাজেট অনুসন্ধান
ধাপ ३: প্রজন্ম প্রাথমিক প্রস্থান
१. অ-সমান স্তর বাজেট বরাদ্দ: প্রতিটি পর্যায়ের সংবেদনশীলতার পার্থক্য অনুযায়ী, বিভিন্ন স্তর এড়িয়ে যাওয়ার বাজেট স্ব-অভিযোজিতভাবে বরাদ্দ করে, সংবেদনশীল পর্যায়ে অত্যধিক সংকোচন এড়ায়।
२. লেটেন্সি-সচেতন অপ্টিমাইজেশন: শুধুমাত্র নির্ভুলতা নয়, বরং প্রকৃত অনুমান লেটেন্সি সামগ্রিকভাবে বিবেচনা করে, যে সমস্ত কনফিগারেশন আরও স্তর এড়িয়ে যায় কিন্তু উচ্চতর লেটেন্সি রয়েছে তা স্বয়ংক্রিয়ভাবে বাদ দেয়।
३. গতিশীল প্রজন্ম নিয়ন্ত্রণ: আত্মবিশ্বাস পর্যবেক্ষণের মাধ্যমে সক্রিয়ভাবে উৎপাদন দৈর্ঘ্য নিয়ন্ত্রণ করে, স্তর এড়িয়ে যাওয়ার কারণে অপ্রয়োজনীয় টোকেন সমস্যা প্রশমিত করে।
TinyThinker এর তিন-পর্যায়ের যুক্তি প্রবাহ গ্রহণ করে, তিনটি প্রশ্নোত্তর বেঞ্চমার্কে মূল্যায়ন পরিচালনা করে:
তিনটি বেঞ্চমার্ক ডেটাসেটে, LiteStage ভিত্তিরেখা পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে:
| ডেটাসেট | ভিত্তিরেখা নির্ভুলতা | LiteStage নির্ভুলতা | ত্বরণ অনুপাত |
|---|---|---|---|
| OBQA | ६४.०% | ६०.०% | १.३२× |
| CSQA | ५४.८% | ५३.२% | १.१६× |
| StrategyQA | ६२.४% | ६२.०% | १.७०× |
१. পর্যায় সংবেদনশীলতা পার্থক্য: একক-পর্যায় এড়িয়ে যাওয়া পরীক্ষার মাধ্যমে নিশ্চিত করা হয়, পর্যায় ३ স্তর এড়িয়ে যাওয়ার প্রতি সবচেয়ে সংবেদনশীল, এর নির্ভুলতা বক্ররেখা প্রায় সামগ্রিক কর্মক্ষমতা উপরের সীমা নির্ধারণ করে।
२. লেটেন্সি প্যারাডক্স: আরও বেশি স্তর এড়িয়ে যাওয়া সর্বদা দ্রুত অনুমান গতি নিয়ে আসে না, উৎপাদন দৈর্ঘ্য বৃদ্ধির কারণে, কিছু কনফিগারেশন বরং লেটেন্সি বৃদ্ধি করে।
३. আত্মবিশ্বাস প্যাটার্ন: স্তর এড়িয়ে যাওয়া মডেলের টোকেন আত্মবিশ্বাস একটি একঘেয়ে হ্রাসমান প্রবণতা প্রদর্শন করে, যখন সম্পূর্ণ স্তর মডেল পরবর্তী সময়ে আত্মবিশ্বাস পুনরুদ্ধার করতে পারে।
অ-সমান স্তর বাজেটের প্রভাব:
প্রজন্ম প্রাথমিক প্রস্থানের অবদান:
CSQA এর নির্দিষ্ট কেসের মাধ্যমে প্রদর্শন করা হয়, প্রজন্ম প্রাথমিক প্রস্থান কম আত্মবিশ্বাসের অপ্রয়োজনীয় পাঠ্য কার্যকরভাবে ছেদ করতে পারে, যখন মূল যুক্তি যুক্তি সম্পূর্ণ রাখে, চূড়ান্ত উত্তর সামঞ্জস্যপূর্ণ থাকে।
প্রশিক্ষণ-ভিত্তিক পদ্ধতি:
প্রশিক্ষণ-মুক্ত পদ্ধতি:
বিদ্যমান পদ্ধতি প্রধানত দীর্ঘ যুক্তি মডেলের লক্ষ্য করে, মডেল সংকোচনের কারণে প্রজন্ম দৈর্ঘ্য বৃদ্ধির সমস্যায় মনোযোগ দেয় না।
१. বহু-পর্যায়ের যুক্তিতে অ-সমান সংবেদনশীলতা: বিভিন্ন যুক্তি পর্যায়ে স্তর সংকোচনের প্রতি সংবেদনশীলতার মাত্রা উল্লেখযোগ্যভাবে পরিবর্তিত হয়, পার্থক্যপূর্ণ অপ্টিমাইজেশন কৌশল প্রয়োজন।
२. লেটেন্সি-সচেতন অপ্টিমাইজেশনের প্রয়োজনীয়তা: বিশুদ্ধ স্তর এড়িয়ে যাওয়া উৎপাদন দৈর্ঘ্য বৃদ্ধির কারণে লেটেন্সি অবনতি করতে পারে, নির্ভুলতা এবং লেটেন্সি সামগ্রিকভাবে বিবেচনা করা প্রয়োজন।
३. প্রজন্ম নিয়ন্ত্রণের কার্যকারিতা: আত্মবিশ্বাস-ভিত্তিক প্রজন্ম প্রাথমিক প্রস্থান স্তর এড়িয়ে যাওয়ার কারণে অপ্রয়োজনীয় প্রজন্ম সমস্যা কার্যকরভাবে প্রশমিত করতে পারে।
१. অফলাইন অনুসন্ধান ওভারহেড: অন্যান্য প্রশিক্ষণ-মুক্ত পদ্ধতির তুলনায়, LiteStage এর অফলাইন কনফিগারেশন আরও বেশি গণনামূলক সম্পদ প্রয়োজন (প্রায় १-७.६ ঘন্টা)।
२. মডেল স্থাপত্য নির্ভরতা: প্রধানত Llama সিরিজ মডেলে যাচাই করা হয়, Qwen ইত্যাদি অন্যান্য স্থাপত্যে সীমিত প্রভাব।
३. প্রযোজ্য পরিসীমা সীমাবদ্ধতা: বিশেষভাবে বহু-পর্যায়ের যুক্তি পরিস্থিতির জন্য, একক-পর্যায়ের যুক্তিতে প্রযোজ্যতা সম্পূর্ণভাবে যাচাই করা হয়নি।
१. আরও মডেল স্থাপত্যে সম্প্রসারণ: বিভিন্ন স্থাপত্যের এড়িয়ে যাওয়ার সংবেদনশীলতা বৈশিষ্ট্য গবেষণা করে
२. গতিশীল বাজেট বরাদ্দ: রানটাইম স্ব-অভিযোজিত সমন্বয় স্তর বাজেটের প্রক্রিয়া বিকাশ করে
३. বহুমোডাল যুক্তি অপ্টিমাইজেশন: কাঠামো দৃষ্টি-ভাষা ইত্যাদি বহুমোডাল যুক্তি কাজে প্রসারিত করে
१. সমস্যা সনাক্তকরণ নির্ভুল: বহু-পর্যায়ের যুক্তিতে মূল বাধা সঠিকভাবে সনাক্ত করে, পর্যায় সংবেদনশীলতা পার্থক্য এবং অপ্রয়োজনীয় প্রজন্ম সমস্যা সহ।
२. পদ্ধতি ডিজাইন যুক্তিসঙ্গত: অফলাইন-অনলাইন সমন্বিত কাঠামো ডিজাইন চতুর, অপ্টিমাইজেশন প্রভাব নিশ্চিত করে এবং রানটাইম ওভারহেড নিয়ন্ত্রণ করে।
३. পরীক্ষা-নিরীক্ষা ডিজাইন সম্পূর্ণ: বিস্তারিত প্রেরণা পরীক্ষা-নিরীক্ষা, বিলোপ গবেষণা এবং কেস বিশ্লেষণের মাধ্যমে, পদ্ধতির কার্যকারিতা সম্পূর্ণভাবে যাচাই করে।
४. ব্যবহারিক মূল্য উচ্চ: প্রশিক্ষণ-মুক্ত পদ্ধতি হিসাবে, ভাল ব্যবহারিক প্রয়োগ সম্ভাবনা রয়েছে।
१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পর্যায় সংবেদনশীলতা পার্থক্যের তাত্ত্বিক ব্যাখ্যার অভাব, প্রধানত অভিজ্ঞতামূলক পর্যবেক্ষণের উপর নির্ভর করে।
२. প্যারামিটার সেটিং অনুমানমূলক: আত্মবিশ্বাস থ্রেশহোল্ড, ক্যাশে আকার ইত্যাদি মূল প্যারামিটার প্রধানত অনুমানমূলক সেটিংয়ের উপর ভিত্তি করে, সিস্টেমেটিক বিশ্লেষণের অভাব।
३. সাধারণীকরণ সীমিত: বিভিন্ন মডেল স্থাপত্যে কর্মক্ষমতা পার্থক্য বৃহত্তর, সাধারণীকরণ ক্ষমতা উন্নতির প্রয়োজন।
१. একাডেমিক অবদান: বহু-পর্যায়ের যুক্তিতে স্তর এড়িয়ে যাওয়ার অপ্টিমাইজেশন সমস্যা প্রথমবারের মতো সিস্টেমেটিকভাবে গবেষণা করে, সম্পর্কিত গবেষণার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে।
२. ব্যবহারিক মূল্য: ছোট ভাষা মডেলের দক্ষ অনুমানের জন্য ব্যবহারিক সমাধান প্রদান করে, সীমিত সম্পদ সহ ডিভাইসে স্থাপনা প্রচার করতে সাহায্য করে।
३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড বাস্তবায়ন প্রদান করে, পরবর্তী গবেষণা এবং প্রয়োগ সুবিধাজনক করে।
LiteStage বিশেষভাবে নিম্নলিখিত পরিস্থিতির জন্য উপযুক্ত:
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এই পেপারটি বহু-পর্যায়ের যুক্তিতে স্তর এড়িয়ে যাওয়ার অপ্টিমাইজেশন সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে, তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক প্রভাব উভয় ক্ষেত্রেই উল্লেখযোগ্য অবদান রাখে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি ছোট ভাষা মডেলের দক্ষ অনুমানের জন্য নতুন গবেষণা দিকনির্দেশনা উন্মোচন করে, উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে।