সত্যিকারের নির্ভরযোগ্য কৃত্রিম বুদ্ধিমত্তার জন্য শুধুমাত্র জ্ঞানের পরিধি সম্প্রসারণ নয়, বরং "নিজে যা জানে তা জানা এবং কখন জানে না তা বোঝার" ক্ষমতা প্রয়োজন। গবেষণায় দেখা গেছে যে এমনকি সর্বোত্তম বৃহৎ ভাষা মডেলগুলিও পাঁচ ভাগের একভাগেরও বেশি ক্ষেত্রে তাদের নিজস্ব ক্ষমতা সম্পর্কে ভুল판断 করে, যা অভ্যন্তরীণ অনিশ্চয়তার উপর ভিত্তি করে প্রতিক্রিয়া সম্পূর্ণভাবে বিশ্বাসযোগ্য করে তোলে না। ন্যূনতম ডেটা প্রয়োজনীয় স্ব-উন্নতি শক্তিশালী শিক্ষণ কৌশল দ্বারা অনুপ্রাণিত হয়ে, এই পেপারটি KnowRL কাঠামো প্রস্তাব করে, যা মডেলের নিজস্ব সম্ভাব্যতার সীমানা সম্পর্কে অভ্যন্তরীণ বোঝাপড়া শক্তিশালী করার মাধ্যমে আরও নিরাপদ এবং দায়বদ্ধ আচরণ অর্জন করে। এই কাঠামোটি দুটি উপাদান একত্রিত করে: (i) অন্তর্দৃষ্টি প্রক্রিয়া, যেখানে মডেল এমন কাজ তৈরি করে এবং শ্রেণীবদ্ধ করে যা এটি সম্ভব বা অসম্ভব মনে করে; (ii) ঐক্যমত-ভিত্তিক পুরস্কার প্রক্রিয়া, যা অভ্যন্তরীণ সামঞ্জস্যের মাধ্যমে স্ব-জ্ঞান মূল্যায়নের স্থিতিশীলতা শক্তিশালী করে। অভ্যন্তরীণভাবে উত্পন্ন ডেটা ব্যবহার করে, ব্যয়বহুল বাহ্যিক তত্ত্বাবধান সম্পূর্ণরূপে এড়ানো হয়। LLaMA-3.1-8B এবং Qwen-2.5-7B-তে পরীক্ষা-নিরীক্ষা দেখায় যে KnowRL ধারাবাহিকভাবে স্ব-জ্ঞান ক্ষমতা উন্নত করে, নির্ভুলতা ২৮% পর্যন্ত বৃদ্ধি এবং F1 স্কোর ১২% বৃদ্ধি সহ।
এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল বৃহৎ ভাষা মডেলগুলি (LLMs) স্ব-জ্ঞান (self-knowledge) এর অভাব, অর্থাৎ মডেল তার নিজস্ব ক্ষমতার সীমানা সঠিকভাবে চিহ্নিত করতে পারে না এবং কোন কাজগুলি সম্ভব এবং কোনগুলি অসম্ভব তা স্পষ্টভাবে আলাদা করতে পারে না।
১. নিরাপত্তা উদ্বেগ: গবেষণা দেখায় যে এমনকি শীর্ষস্থানীয় LLMগুলিও ২০% এরও বেশি ক্ষেত্রে তাদের নিজস্ব ক্ষমতা সম্পর্কে ভুল판断 করে, যা গুরুতর বিশ্বাস এবং নিরাপত্তা সমস্যার দিকে পরিচালিত করে २. স্থাপনার ঝুঁকি: চিকিৎসা, আইন, আর্থিক এবং অন্যান্য সমালোচনামূলক ক্ষেত্রে, মডেলের অতিরিক্ত আত্মবিশ্বাস বা অপর্যাপ্ত আত্মবিশ্বাস উভয়ই গুরুতর পরিণতি আনতে পারে ३. নির্ভরযোগ্যতার প্রয়োজনীয়তা: সত্যিকারের নির্ভরযোগ্য AI সিস্টেমের মেটা-জ্ঞানীয় ক্ষমতা প্রয়োজন, যা নিজস্ব জ্ঞানের সীমাবদ্ধতা স্বীকার করতে পারে।
१. বাহ্যিক ডাটাবেস এবং স্ক্যাফোল্ডিং কৌশল এই ধরনের অভ্যন্তরীণ ত্রুটি সমাধানের জন্য উপযুক্ত নয় २. আত্মবিশ্বাস ক্যালিব্রেশন যদিও উত্তর সম্ভবত ভুল হতে পারে তা নির্দেশ করতে পারে, তবে মডেল যা সত্যিই জানে এবং জানে না তার ব্যাপারে সামঞ্জস্য নিশ্চিত করতে পারে না ३. পদ্ধতিগত পদ্ধতির অভাব মডেলের স্ব-জ্ঞান সীমানা শক্তিশালী করার জন্য
লেখক বিশ্বাস করেন যে LLMগুলি ইতিমধ্যে অভ্যন্তরীণভাবে অন্তর্দৃষ্টি ক্ষমতা রাখে এবং শক্তিশালী শিক্ষণের মাধ্যমে এই সম্ভাব্য ক্ষমতা পরিচালনা এবং শক্তিশালী করার প্রয়োজন, যাতে মডেল তার জ্ঞান সীমানা আরও ভালভাবে বুঝতে এবং প্রকাশ করতে পারে।
१. KnowRL কাঠামো প্রস্তাব: একটি শক্তিশালী শিক্ষণ-ভিত্তিক স্ব-জ্ঞান বৃদ্ধি কাঠামো, যা সীমিত প্রাথমিক ডেটা এবং বাহ্যিক তত্ত্বাবধান ছাড়াই LLMগুলির স্ব-জ্ঞান সীমানা সচেতনতা উন্নত করতে পারে
२. উদ্ভাবনী দ্বৈত-উপাদান ডিজাইন:
३. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: মাত্র কয়েকটি পুনরাবৃত্তিতে ২৮% পর্যন্ত নির্ভুলতা বৃদ্ধি এবং ১२% F1 স্কোর বৃদ্ধি অর্জন করে, স্কেলেবল স্ব-উন্নতি ক্ষমতা প্রদর্শন করে
४. ব্যবহারিকতা এবং স্কেলেবিলিটি: পদ্ধতি সহজ এবং বাহ্যিক সম্পদ থেকে স্বাধীন, সমস্ত ভবিষ্যত মডেলের নির্ভরযোগ্যতা বৃদ্ধির জন্য প্রযোজ্য।
স্ব-জ্ঞান কাজ মডেলের নিজস্ব ক্ষমতা এবং জ্ঞান সীমানা সম্পর্কে বোঝার উপর ভিত্তি করে সম্ভাব্য এবং অসম্ভাব্য কাজগুলি স্পষ্টভাবে আলাদা করার ক্ষমতা হিসাবে সংজ্ঞায়িত করা হয়। ইনপুট হল কাজের বর্ণনা, আউটপুট হল "সম্ভাব্য" বা "অসম্ভাব্য" এর দ্বিমুখী শ্রেণীবিভাগ, সীমাবদ্ধতা হল판断 মডেলের প্রকৃত ক্ষমতা সীমানার উপর ভিত্তি করে হওয়া উচিত।
KnowRL কাঠামো পুনরাবৃত্তিমূলক শক্তিশালী শিক্ষণ প্রশিক্ষণ লুপ গ্রহণ করে, যাতে দুটি মূল উপাদান রয়েছে:

r(x) = (१/k) * Σ[yi = Majority{y१, ..., yk}]
মডেল অত্যন্ত সহজ বা জটিল কাজ তৈরি করে ঐক্যমত পুরস্কার হ্যাক করা প্রতিরোধ করতে, নিম্নলিখিত ফিল্টারিং কৌশল গ্রহণ করা হয়:
१. স্ব-উত্পন্ন ডেটা কৌশল: সম্পূর্ণভাবে মডেল অভ্যন্তরীণভাবে উত্পন্ন ডেটার উপর নির্ভর করে, ব্যয়বহুল ম্যানুয়াল লেবেলিং এড়ায় २. ঐক্যমত প্রক্রিয়া: একাধিক নমুনার সামঞ্জস্যতা পুরস্কার সংকেত হিসাবে ব্যবহার করে, স্থিতিশীল বিশ্বাসযোগ্য শিক্ষণ সংকেত প্রদান করে ३. স্ব-উন্নতি লুপ: স্ব-খেলা শক্তিশালী শিক্ষণ একত্রিত করে, মডেল স্ব-নির্দেশিত স্ব-জ্ঞান সীমানা উন্নতি সক্ষম করে ४. বাহ্যিক নির্ভরতা ন্যূনতমকরণ: শুধুমাত্র ছোট-স্কেল বীজ ডেটাসেট প্রয়োজন, বাহ্যিক তত্ত্বাবধান প্রয়োজন নেই।
१. বীজ ডেটাসেট: १०० যাচাইকৃত উদাহরণ (५० সম্ভাব্য কাজ, ५० অসম্ভাব্য কাজ), মডেল নিজেই তৈরি এবং বিশেষজ্ঞ দ্বারা যাচাইকৃত २. অভ্যন্তরীণ মূল্যায়ন: স্ব-উত্পন্ন ডেটা ব্যবহার করে প্রজন্ম-যাচাইকরণ সামঞ্জস্যতা মূল্যায়ন ३. বাহ্যিক মূল্যায়ন: SelfAware ডেটাসেট, যাতে উত্তরযোগ্য এবং অনুত্তরযোগ্য প্রশ্ন এবং তাদের ব্যাখ্যা রয়েছে।
१. অভ্যন্তরীণ মূল্যায়ন: নির্ভুলতা (Accuracy) - প্রজন্ম-যাচাইকরণ প্রক্রিয়ার সামঞ্জস্য পরিমাপ করে २. বাহ্যিক মূল্যায়ন: F१ স্কোর - SelfAware ডেটাসেটে ভারসাম্যপূর্ণ নির্ভুলতা এবং স্মরণ।
অভ্যন্তরীণ স্ব-জ্ঞান উন্নতির জন্য প্রতিষ্ঠিত পদ্ধতির অভাবের কারণে, ভিত্তি মডেল কর্মক্ষমতা মূল্যায়নের জন্য ভিত্তি হিসাবে ব্যবহৃত হয়।
| মডেল | পুনরাবৃত্তি | নির্ভুলতা (%) | বৃদ্ধি (%) |
|---|---|---|---|
| LLaMA-३.१-८B | ভিত্তি মডেল | ३३.५६ | - |
| ३० তম পুনরাবৃত্তি | ४२.९९ | +९.४३ | |
| Qwen-२.५-७B | ভিত্তি মডেল | ३९.२२ | - |
| ३० তম পুনরাবৃত্তি | ४८.२९ | +९.०७ |
| মডেল | পুনরাবৃত্তি | F१ স্কোর (%) | বৃদ্ধি (%) |
|---|---|---|---|
| LLaMA-३.१-८B | ভিত্তি মডেল | ५६.१२ | - |
| ३० তম পুনরাবৃত্তি | ६३.१० | +६.९८ | |
| Qwen-२.५-७B | ভিত্তি মডেল | ६२.१७ | - |
| ३० তম পুনরাবৃত্তি | ६८.२९ | +६.१२ |
१. স্থিতিশীল একঘেয়ে উন্নতি: উভয় মডেল প্রায় প্রতিটি চেকপয়েন্টে স্পষ্ট একঘেয়ে উন্নতি প্রদর্শন করে, যা নিজস্ব সম্ভাব্যতা সীমানা সম্পর্কে বোঝাপড়ার স্থিতিশীল অভ্যন্তরীণ বৃদ্ধি প্রতিফলিত করে।
२. দ্রুত সংমিশ্রণ: সর্বাধিক উন্নতি প্রথম কয়েকটি প্রশিক্ষণ চক্রে ঘটে, যা স্ব-জ্ঞান উন্নতি কম খরচ, পূর্বাভাসযোগ্য এবং দক্ষ হতে পারে তা নির্দেশ করে।
३. উন্নতি প্ল্যাটফর্ম: ২५-३० পুনরাবৃত্তির কাছাকাছি, অগ্রগতি সমতল হতে শুরু করে, যা অভ্যন্তরীণ স্ব-উন্নতির প্রাকৃতিক সীমাবদ্ধতা নির্দেশ করে।
এই উদাহরণগুলি দেখায় যে মডেল তার অনুবাদ ক্ষমতার পরিধির মধ্যে কাজগুলি এবং তার নিশ্চিত জ্ঞান সীমানা অতিক্রম করে এমন জটিল বৈজ্ঞানিক সমস্যাগুলি সঠিকভাবে চিহ্নিত করতে পারে।
१. সমস্যা চিহ্নিতকরণ: একাধিক গবেষণা স্ব-জ্ঞানে LLMগুলির অসামঞ্জস্য এবং দোলাচলতা নির্দেশ করে। २. মূল্যায়ন পদ্ধতি:
१. স্ব-পরিমার্জন পদ্ধতি: Self-Refine LLMকে প্রাথমিক উত্তর তৈরি করার পরে স্ব-সমালোচনা এবং পুনরাবৃত্তিমূলক উন্নতি করতে দেয়। २. সংশ্লেষণ ডেটা পদ্ধতি: Self-Taught Evaluator, K२ ইত্যাদি স্ব-উত্পন্ন যুক্তিযুক্ত কাজ প্রশিক্ষণ সেট ব্যবহার করে। ३. শক্তিশালী শিক্ষণ পদ্ধতি: RLRF, R-Zero, SeRL ইত্যাদি পোস্ট-প্রসেসিং শক্তিশালী বা পুরস্কার সংকেত ব্যবহার করে।
१. কার্যকারিতা যাচাইকরণ: KnowRL কাঠামো LLMগুলির স্ব-জ্ঞান ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে, উভয় মডেলে স্থিতিশীল উন্নতি অর্জন করে। २. দক্ষতা সুবিধা: শুধুমাত্র ছোট-স্কেল বীজ ডেটাসেট এবং বাহ্যিক তত্ত্বাবধান ছাড়াই, মাত্র কয়েকটি পুনরাবৃত্তিতে সর্বাধিক উন্নতি অর্জন করা যায়। ३. ব্যবহারিক মূল্য: সমালোচনামূলক ক্ষেত্রে নিরাপদে AI সিস্টেম স্থাপনের জন্য একটি নির্দিষ্ট পথ প্রদান করে।
१. একক ভাষার সীমাবদ্ধতা: সমস্ত পরীক্ষা-নিরীক্ষা শুধুমাত্র ইংরেজি পরিবেশে পরিচালিত হয়, বহুভাষিক এবং কম সম্পদ পরিবেশে প্রভাব অজানা। २. প্রশিক্ষণ পরিধি সীমাবদ্ধতা: গণনা সীমাবদ্ধতার কারণে, ३० পুনরাবৃত্তির বাইরে কর্মক্ষমতা অন্বেষণ করা যায় না। ३. স্কেল অনিশ্চয়তা: মূল্যায়ন ८B প্যারামিটারের নিচে মডেলে সীমাবদ্ধ, বৃহত্তর প্যারামিটার মডেলে পদ্ধতির স্কেলেবিলিটি অজানা।
१. বহুভাষিক সম্প্রসারণ: বিভিন্ন ভাষা এবং সাংস্কৃতিক পটভূমিতে কাঠামোর কার্যকারিতা পরীক্ষা করা। २. দীর্ঘমেয়াদী প্রশিক্ষণ: দীর্ঘ প্রশিক্ষণ চক্রে কর্মক্ষমতা এবং উন্নতি সম্ভাবনা অন্বেষণ করা। ३. বড় আকারের যাচাইকরণ: বৃহত্তর প্যারামিটার আকারের মডেলে পদ্ধতির স্কেলেবিলিটি যাচাই করা। ४. ডোমেইন বিশেষীকরণ: নির্দিষ্ট ডোমেইন (যেমন চিকিৎসা, আইন) এর জন্য স্ব-জ্ঞান উন্নতি।
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো শক্তিশালী শিক্ষণ ব্যবহার করে LLMগুলির স্ব-জ্ঞান সমস্যা সিস্টেমেটিকভাবে সমাধান করে, পদ্ধতি উদ্ভাবনী এবং কার্যকর। २. উচ্চ ব্যবহারিকতা: সম্পূর্ণভাবে অভ্যন্তরীণ ডেটার উপর ভিত্তি করে, বাহ্যিক তত্ত্বাবধান প্রয়োজন নেই, স্থাপনা এবং সম্প্রসারণ সহজ। ३. পর্যাপ্ত পরীক্ষা-নিরীক্ষা: অভ্যন্তরীণ এবং বাহ্যিক দুটি মূল্যায়ন পদ্ধতি ব্যবহার করে, ফলাফল সামঞ্জস্যপূর্ণ এবং প্রভাবশালী। ४. দৃঢ় তাত্ত্বিক ভিত্তি: স্ব-খেলা শক্তিশালী শিক্ষণের তাত্ত্বিক কাঠামোর উপর ভিত্তি করে, ডিজাইন যুক্তিসঙ্গত।
१. সীমিত ভিত্তি তুলনা: ডোমেইনে সরাসরি তুলনামূলক পদ্ধতির অভাবের কারণে, প্রধানত ভিত্তি মডেলের সাথে তুলনা, আরও ব্যাপক পদ্ধতি তুলনার অভাব। २. সীমিত মূল্যায়ন পরিধি: শুধুমাত্র দুটি মধ্যম-স্কেল মডেলে পরীক্ষা করা হয়েছে, বড় মডেল যাচাইকরণের অভাব। ३. দীর্ঘমেয়াদী প্রভাব অজানা: প্রশিক্ষণ চক্র অপেক্ষাকৃত সংক্ষিপ্ত, দীর্ঘমেয়াদী উন্নতি সম্ভাবনা নির্ধারণ করা যায় না। ४. সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন: শুধুমাত্র ইংরেজি পরিবেশে পরীক্ষা করা হয়েছে, ভাষা জুড়ে সাধারণীকরণ ক্ষমতা অজানা।
१. একাডেমিক অবদান: AI নিরাপত্তা ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা এবং পদ্ধতি কাঠামো প্রদান করে। २. ব্যবহারিক মূল্য: আরও নির্ভরযোগ্য AI সিস্টেম বাস্তবে স্থাপনের জন্য একটি সম্ভাব্য সমাধান প্রদান করে। ३. পুনরুৎপাদনযোগ্যতা: লেখক কোড এবং ডেটা প্রকাশের প্রতিশ্রুতি দেন, গবেষণা সম্প্রদায়ের অনুসরণ সহজতর করে। ४. অনুপ্রেরণামূলক তাৎপর্য: LLMগুলির স্ব-উন্নতি সম্ভাবনা প্রদর্শন করে, আরও সম্পর্কিত গবেষণা অনুপ্রাণিত করতে পারে।
१. উচ্চ ঝুঁকি প্রয়োগ: চিকিৎসা নির্ণয়, আইনি পরামর্শ, আর্থিক সিদ্ধান্ত এবং অন্যান্য উচ্চ নির্ভরযোগ্যতার প্রয়োজনীয় ক্ষেত্র। २. শিক্ষা ব্যবস্থা: মডেল জ্ঞান সীমানা সৎভাবে প্রকাশ করতে পারে এমন শিক্ষা প্রয়োগ প্রয়োজন। ३. গবেষণা সহায়ক: পরিচিত এবং অজানা জ্ঞান সীমানা আলাদা করতে প্রয়োজনীয় গবেষণা সহায়ক সরঞ্জাম। ४. সাধারণ AI সিস্টেম: যেকোনো বিশ্বাসযোগ্যতা এবং নিরাপত্তা উন্নত করতে প্রয়োজনীয় AI প্রয়োগ।
পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত: १. স্ব-জ্ঞান এবং মেটা-জ্ঞানীয় সম্পর্কিত গবেষণা १-७ २. LLMগুলিতে শক্তিশালী শিক্ষণের প্রয়োগ १४, २२-२४ ३. স্ব-উন্নতি এবং স্ব-খেলা পদ্ধতি १५, ३०-३२, ४४-४९ ४. AI নিরাপত্তা এবং নির্ভরযোগ্যতা গবেষণা ११-१२, १६-१७
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার, যা LLMগুলির স্ব-জ্ঞানের এই গুরুত্বপূর্ণ সমস্যার জন্য একটি উদ্ভাবনী এবং ব্যবহারিক সমাধান প্রস্তাব করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর অবদান উল্লেখযোগ্য, পদ্ধতি উদ্ভাবনী, পরীক্ষা-নিরীক্ষার ফলাফল প্রভাবশালী এবং AI নিরাপত্তা ক্ষেত্রে গুরুত্বপূর্ণ তাৎপর্য রয়েছে।