এই গবেষণা বৃহৎ ভাষা মডেল এবং সত্তা মিলানোতে আত্মবিশ্বাস ক্যালিব্রেশনের ক্রস-ডোমেইন অন্বেষণ করে। অভিজ্ঞতামূলক অধ্যয়নের মাধ্যমে, সত্তা মিলানো কাজে RoBERTa-এর মূল আত্মবিশ্বাস এবং তাপমাত্রা স্কেলিং, মন্টে কার্লো ড্রপআউট এবং সমষ্টি পদ্ধতি ব্যবহার করে ক্যালিব্রেশনের পরে তুলনা করা হয়েছে। Abt-Buy, DBLP-ACM, iTunes-Amazon এবং Company ডেটাসেট ব্যবহার করে পরীক্ষা করা হয়েছে। ফলাফল দেখায় যে উন্নত RoBERTa মডেল হালকা অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে, প্রত্যাশিত ক্যালিব্রেশন ত্রুটি (ECE) বিভিন্ন ডেটাসেটে ০.০০৪৩ থেকে ০.০৫৫২ পর্যন্ত বিস্তৃত। গবেষণা দেখায় যে তাপমাত্রা স্কেলিং ব্যবহার এই অতিরিক্ত আত্মবিশ্বাস প্রশমিত করতে পারে, ECE স্কোর সর্বোচ্চ ২৩.৮৩% হ্রাস করে।
সত্তা মিলানো (Entity Matching, EM) সত্তা সমাধানের একটি মূল উপকাজ, যা বিভিন্ন ডেটা উৎস থেকে ডেটা এন্ট্রি জোড়া একই বাস্তব-বিশ্ব সত্তার দিকে নির্দেশ করে কিনা তা নির্ধারণ করার লক্ষ্য রাখে। এটি একটি দ্বিমুখী শ্রেণীবিভাগ সমস্যা যা সত্তা জোড়া "মিলিত" বা "অমিলিত" তা বিচার করতে প্রয়োজন।
১. বহু-ডোমেইন প্রয়োগ মূল্য: চিকিৎসা ক্ষেত্রে রোগীর যত্ন উন্নত করতে, ঐতিহাসিক জনসংখ্যা পুনর্নির্মাণে জন্ম, বিবাহ এবং মৃত্যু রেকর্ড সংযুক্ত করতে, আইন প্রয়োগে তদন্ত এবং অপরাধ প্রতিরোধের জন্য গুরুত্বপূর্ণ ২. স্বচ্ছতার প্রয়োজন: মডেলকে পূর্বাভাস ফলাফল প্রদান করার পাশাপাশি নির্ভরযোগ্য আত্মবিশ্বাস স্কোর প্রদান করতে হবে যাতে ব্যবহারকারীরা মডেলের নির্ভরযোগ্যতা বুঝতে পারে ३. ডাউনস্ট্রিম কাজের নির্দেশনা: নির্ভুল আত্মবিশ্বাস স্কোর পরবর্তী কাজের সিদ্ধান্ত নির্দেশনা দিতে পারে
१. অতিরিক্ত আত্মবিশ্বাস সমস্যা: আধুনিক বৃহৎ ভাষা মডেল অন্যান্য NLP কাজে অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে, পূর্বাভাসের অনিশ্চয়তা সঠিকভাবে প্রকাশ করতে অসুবিধা হয় २. গবেষণা ফাঁক: যদিও LLMs আত্মবিশ্বাস ক্যালিব্রেশনে গবেষণা রয়েছে, সত্তা মিলানো ডোমেইনে প্রয়োগ এখনও পর্যাপ্তভাবে অন্বেষণ করা হয়নি ३. পদ্ধতিগত মূল্যায়নের অভাব: সত্তা মিলানো কাজের জন্য আত্মবিশ্বাস ক্যালিব্রেশন পদ্ধতির পদ্ধতিগত তুলনামূলক গবেষণার অভাব
মডেল পূর্বাভাসের স্বচ্ছতা প্রদান করা, মডেলের অভ্যন্তরীণ কর্মপ্রক্রিয়া বোঝা, মডেলের দুর্বলতা চিহ্নিত করা এবং কর্মক্ষমতা উন্নত করা। যখন স্পষ্টভাবে জানা যায় যে মডেল কোন নির্দিষ্ট পরিস্থিতিতে অনিশ্চিত, তখন উন্নতির দিকগুলি খুঁজে পাওয়া সহজ হয়।
१. প্রথম পদ্ধতিগত অধ্যয়ন: সত্তা মিলানো ডোমেইনে LLMs-এর আত্মবিশ্বাস ক্যালিব্রেশনের প্রথম পদ্ধতিগত অধ্যয়ন २. একাধিক ক্যালিব্রেশন পদ্ধতির তুলনা: তাপমাত্রা স্কেলিং, মন্টে কার্লো ড্রপআউট এবং সমষ্টি পদ্ধতির সত্তা মিলানোতে আত্মবিশ্বাস ক্যালিব্রেশন প্রভাবের ব্যাপক তুলনা ३. বহু-ডেটাসেট যাচাইকরণ: ৬টি বিভিন্ন ডোমেইন এবং কাঠামোর ডেটাসেটে পদ্ধতির কার্যকারিতা এবং সাধারণীকরণ ক্ষমতা যাচাই করা ४. ব্যবহারিক নির্দেশনা: বাস্তব প্রয়োগে আত্মবিশ্বাস ক্যালিব্রেশনের সর্বোত্তম অনুশীলন সুপারিশ প্রদান করা, বিশেষত তাপমাত্রা স্কেলিং পদ্ধতির সুবিধা
१. প্রাক-প্রশিক্ষিত RoBERTa: HuggingFace-এর RoBERTa-base মডেল এনকোডার হিসাবে ব্যবহার করা २. সম্পূর্ণ সংযুক্ত স্তর: RoBERTa-এর পরে একক-স্তরের সম্পূর্ণ সংযুক্ত নেটওয়ার্ক যোগ করা ३. Sigmoid আউটপুট স্তর: ০-১ এর মধ্যে আত্মবিশ্বাস স্কোর উৎপাদন করা ४. ডেটা সিরিয়ালাইজেশন: Li এবং অন্যদের (২০२०) পদ্ধতি ব্যবহার করে কাঠামোগত ডেটা পাঠ্য ক্রমে রূপান্তরিত করা
१. তাপমাত্রা স্কেলিং (Temperature Scaling)
२. মন্টে কার্লো ড্রপআউট
३. সমষ্টি পদ্ধতি
१. হালকা-ওজন বাস্তবায়ন: মন্টে কার্লো ড্রপআউট এবং সমষ্টি পদ্ধতি শুধুমাত্র সম্পূর্ণ সংযুক্ত স্তরে প্রয়োগ করা, কম্পিউটেশনাল খরচ ন্যূনতম করা २. বহু-মেট্রিক অপ্টিমাইজেশন: প্রয়োগের প্রয়োজন অনুযায়ী ECE, MCE বা RMSCE অপ্টিমাইজ করার পছন্দ ३. পরিসংখ্যানগত তাৎপর্য যাচাইকরণ: জোড়া t-পরীক্ষা (তাপমাত্রা স্কেলিং, মন্টে কার্লো ড্রপআউট) এবং অজোড় t-পরীক্ষা (সমষ্টি পদ্ধতি) ব্যবহার করে উন্নতির তাৎপর্য মূল্যায়ন করা
বিভিন্ন ডোমেইনের ६টি সত্তা মিলানো ডেটাসেট ব্যবহার করা:
| ডেটাসেট | ডোমেইন | প্রশিক্ষণ সেট | যাচাইকরণ সেট | পরীক্ষা সেট |
|---|---|---|---|---|
| Abt-Buy | পণ্য | ५,७४३ (१०.७२%) | १,९१६ (१०.७५%) | १,९१६ (१०.७५%) |
| DBLP-ACM-S/D | উদ্ধৃতি | ७,४१७ (१७.९६%) | २,४७३ (१७.९६%) | २,४७३ (१७.९६%) |
| iTunes-Amazon-S/D | গান | ३२१ (२४.३०%) | १०९ (२७.७८%) | १०९ (२७.७८%) |
| Company | কোম্পানি | ६७,५९६ (२४.९४%) | २२,५३३ (२५.३०%) | २२,५०३ (२५.०६%) |
নোট: S/D কাঠামোগত/নোংরা ডেটা সংস্করণ নির্দেশ করে, বন্ধনীতে ইতিবাচক নমুনার অনুপাত
१. প্রত্যাশিত ক্যালিব্রেশন ত্রুটি (ECE): প্রধান মেট্রিক, পূর্বাভাস সম্ভাবনা এবং অভিজ্ঞতামূলক সম্ভাবনার মধ্যে গড় পার্থক্য পরিমাপ করা २. সর্বোচ্চ ক্যালিব্রেশন ত্রুটি (MCE): সর্বনিম্ন ক্ষেত্রে বিচ্যুতি পরিমাপ করা, উচ্চ-ঝুঁকি প্রয়োগের জন্য উপযুক্ত ३. মূল বর্গ ক্যালিব্রেশন ত্রুটি (RMSCE): বৃহত্তর ত্রুটিগুলির প্রভাবকে আরও জোর দেওয়া ४. F1 স্কোর: ক্যালিব্রেশন উন্নতি শ্রেণীবিভাগ কর্মক্ষমতার খরচে না হওয়া নিশ্চিত করা ५. ভিজ্যুয়ালাইজেশন বিশ্লেষণ: আত্মবিশ্বাস হিস্টোগ্রাম এবং নির্ভরযোগ্যতা চার্ট
RoBERTa মডেল সমস্ত ডেটাসেটে হালকা অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে:
| ডেটাসেট | মূল ECE | তাপমাত্রা স্কেলিং ECE | MC ড্রপআউট ECE | সমষ্টি ECE |
|---|---|---|---|---|
| Abt-Buy | ०.०१९३±०.००१८ | ०.०१४७±००००१७ | ०.०१९३±०.००१६ | ०.०१७३±०.००००५ |
| DBLP-ACM-S | ०.००४१±०.००१० | ०.००३६±०.००११ | ०.००३८±०.००१० | ०.००५७±००००२३ |
| Company | ०.०५५२±००००९९ | ०.०४२४±००००१०२ | ०.०५४३±००००८५ | - |
তাপমাত্রা স্কেলিং সর্বোত্তম পারফরম্যান্স:
আত্মবিশ্বাস হিস্টোগ্রাম দেখায়:
१. অতিরিক্ত আত্মবিশ্বাস সর্বজনীন: সমস্ত ডেটাসেটে RoBERTa বিভিন্ন মাত্রার অতিরিক্ত আত্মবিশ্বাস প্রদর্শন করে २. তাপমাত্রা স্কেলিং সবচেয়ে কার্যকর: অন্যান্য পদ্ধতির তুলনায়, তাপমাত্রা স্কেলিং ECE উন্নতিতে সর্বোত্তম পারফরম্যান্স দেখায় ३. কর্মক্ষমতা সংরক্ষণ: ক্যালিব্রেশন পদ্ধতি মূলত শ্রেণীবিভাগ কর্মক্ষমতা প্রভাবিত করে না
१. অতিরিক্ত আত্মবিশ্বাস নিশ্চিতকরণ: RoBERTা সত্তা মিলানো কাজে সত্যিই অতিরিক্ত আত্মবিশ্বাস সমস্যা রয়েছে, ECE স্কোর ०.००४३-०.०५५२ २. তাপমাত্রা স্কেলিং সর্বোত্তম: তাপমাত্রা স্কেলিং সবচেয়ে কার্যকর ক্যালিব্রেশন পদ্ধতি, ECE ২३.८३% পর্যন্ত হ্রাস করতে পারে ३. কর্মক্ষমতা সংরক্ষণ: আত্মবিশ্বাস ক্যালিব্রেশন শ্রেণীবিভাগ কর্মক্ষমতা ক্ষতি করে না ४. ব্যবহারিকতা শক্তিশালী: তাপমাত্রা স্কেলিং পদ্ধতি সহজ এবং বাস্তবায়ন সহজ, বাস্তব স্থাপনার জন্য উপযুক্ত
१. মডেল স্কেল সীমাবদ্ধতা: গবেষণা তুলনামূলকভাবে ছোট RoBERTা মডেলে কেন্দ্রীভূত, বৃহত্তর আধুনিক LLMs জড়িত নয় २. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: তাপমাত্রা স্কেলিং কেন সবচেয়ে ভাল কাজ করে তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব ३. ডেটাসেট স্কেল: কিছু ডেটাসেট (যেমন iTunes-Amazon) স্কেলে ছোট, ফলাফলের সাধারণীকরণকে প্রভাবিত করতে পারে ४. কম্পিউটেশনাল সম্পদ সীমাবদ্ধতা: কিছু পরীক্ষার সম্পূর্ণতা প্রভাবিত করে
१. একাডেমিক অবদান: সত্তা মিলানো ডোমেইনে গুরুত্বপূর্ণ আত্মবিশ্বাস ক্যালিব্রেশন গবেষণা দিকনির্দেশনা প্রবর্তন করা २. ব্যবহারিক মূল্য: তাপমাত্রা স্কেলিং পদ্ধতি সহজ এবং কার্যকর, বাস্তব সিস্টেমে স্থাপন করা সহজ ३. পুনরুৎপাদনযোগ্যতা: পরীক্ষা সেটআপ বিস্তারিত, পুনরুৎপাদন এবং সম্প্রসারণ সহজ ४. অনুপ্রেরণামূলক: পরবর্তী গবেষণার জন্য গুরুত্বপূর্ণ ভিত্তি এবং দিকনির্দেশনা প্রদান করা
१. উচ্চ-ঝুঁকি প্রয়োগ: চিকিৎসা রেকর্ড মিলানো ইত্যাদি নির্ভরযোগ্য আত্মবিশ্বাস অনুমান প্রয়োজন এমন দৃশ্যকল্প २. মানব-মেশিন সহযোগিতা: মডেল অনিশ্চয়তা তথ্য প্রদান করতে হবে এমন প্রয়োগ মানব সিদ্ধান্ত সহায়তা করতে ३. গুণমান নিয়ন্ত্রণ: আত্মবিশ্বাস স্কোরের মাধ্যমে মানব পর্যালোচনা প্রয়োজন এমন কঠিন নমুনা চিহ্নিত করা ४. মডেল অপ্টিমাইজেশন: আত্মবিশ্বাস তথ্য ব্যবহার করে মডেল প্রশিক্ষণ এবং ডেটা সংগ্রহ কৌশল উন্নত করা
এই পেপার সত্তা মিলানো ডোমেইনে আত্মবিশ্বাস ক্যালিব্রেশন গবেষণায় গুরুত্বপূর্ণ অবদান রাখে, পদ্ধতির পদ্ধতিগত তুলনা এবং ব্যবহারিক সমাধান প্রদান করে। তাপমাত্রা স্কেলিং পদ্ধতির উৎকৃষ্ট কর্মক্ষমতা বাস্তব প্রয়োগের জন্য মূল্যবান নির্দেশনা প্রদান করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, এই গবেষণা পরবর্তী কাজের জন্য দৃঢ় ভিত্তি স্থাপন করে, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।