ট্রান্সফর্মার-ভিত্তিক মডেলগুলি সীমিত প্রশিক্ষণ ডেটার পরিস্থিতিতে নিউরাল নেটওয়ার্ক এবং গ্র্যাডিয়েন্ট বুস্টেড ডিসিশন ট্রি (GBDT) এর মতো ক্লাসিক্যাল পদ্ধতির তুলনায় ট্যাবুলার ডেটায় প্রতিশ্রুতিশীল কর্মক্ষমতা প্রদর্শন করেছে। তারা তাদের প্রাক-প্রশিক্ষিত জ্ঞান ব্যবহার করে নতুন ডোমেনে মানিয়ে নেয়, মাত্র কয়েকটি প্রশিক্ষণ উদাহরণ সহ প্রশংসনীয় কর্মক্ষমতা অর্জন করে, যাকে ফিউ-শট রেজিম বলা হয়। তবে ফিউ-শট রেজিমে কর্মক্ষমতা লাভ উল্লেখযোগ্যভাবে বর্ধিত জটিলতা এবং পরামিতির সংখ্যার খরচে আসে। এই ট্রেড-অফ এড়াতে, আমরা TabDistill প্রবর্তন করি, জটিল ট্রান্সফর্মার-ভিত্তিক মডেলে প্রাক-প্রশিক্ষিত জ্ঞানকে সহজ নিউরাল নেটওয়ার্কে ডিস্টিল করার একটি নতুন কৌশল যা ট্যাবুলার ডেটা কার্যকরভাবে শ্রেণীবদ্ধ করে। আমাদের ফ্রেমওয়ার্ক উভয় জগতের সেরা ফলাফল দেয়: পরামিতি-দক্ষ হওয়ার সাথে সাথে সীমিত প্রশিক্ষণ ডেটার সাথে ভালভাবে কাজ করে। ডিস্টিল করা নিউরাল নেটওয়ার্কগুলি নিয়মিত নিউরাল নেটওয়ার্ক, XGBoost এবং লজিস্টিক রিগ্রেশনের মতো ক্লাসিক্যাল বেসলাইনগুলি অতিক্রম করে সমান প্রশিক্ষণ ডেটার অধীনে, এবং কিছু ক্ষেত্রে, এমনকি যে মূল ট্রান্সফর্মার-ভিত্তিক মডেলগুলি থেকে তারা ডিস্টিল করা হয়েছিল তাদেরও অতিক্রম করে।
এই গবেষণা ট্যাবুলার ডেটা শ্রেণীবিভাগে একটি মূল বৈপরীত্য সমাধান করে: ফিউ-শট পরিস্থিতিতে, ট্রান্সফর্মার-ভিত্তিক মডেলগুলি যদিও চমৎকার কর্মক্ষমতা প্রদান করে, তবে বিশাল পরামিতি সংখ্যা এবং উচ্চ গণনামূলক জটিলতা রয়েছে, যা বাস্তব অ্যাপ্লিকেশনে স্থাপনা করা কঠিন করে তোলে।
১. বাস্তব প্রয়োগের চাহিদা: আর্থিক, চিকিৎসা, উৎপাদন এবং অন্যান্য উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে, লেবেলযুক্ত ডেটার স্বল্পতা একটি সাধারণ সমস্যা, যেমন বিরল রোগ নির্ণয়, শতাব্দীর ঘটনা পূর্বাভাস ইত্যাদি २. ডেটা লেবেলিং খরচ: আর্থিক অ্যাপ্লিকেশনে ডেটা লেবেলিং ব্যয়বহুল, বিষয়গত, ত্রুটিপূর্ণ এবং ঐক্যমত্যের অভাব রয়েছে ३. স্থাপনা সীমাবদ্ধতা: বাস্তব অ্যাপ্লিকেশনের জন্য পরামিতি-দক্ষ এবং স্কেলেবল মডেল প্রয়োজন যা বিভিন্ন অবকাঠামো স্তরের সাথে খাপ খায়
१. ঐতিহ্যবাহী পদ্ধতি: XGBoost, CatBoost, LightGBM ইত্যাদি পর্যাপ্ত ডেটায় চমৎকার কাজ করে, কিন্তু ফিউ-শট পরিস্থিতিতে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায় २. ট্রান্সফর্মার পদ্ধতি: TabPFN, TabLLM ইত্যাদি ফিউ-শট পরিস্থিতিতে চমৎকার কাজ করে, কিন্তু পরামিতি সংখ্যা লক্ষ থেকে এমনকি বিলিয়ন স্তরে পৌঁছায়, অনুমান খরচ অত্যন্ত বেশি ३. দক্ষতা এবং কর্মক্ষমতা ভারসাম্য: ফিউ-শট কর্মক্ষমতা বজায় রেখে পরামিতি দক্ষতা উভয়ই প্রদান করে এমন সমাধানের অভাব
লেখক মূল প্রশ্ন উত্থাপন করেন: "আমরা কি উভয়ই অর্জন করতে পারি, অর্থাৎ পরামিতি দক্ষতা বজায় রেখে সীমিত প্রশিক্ষণ ডেটায় ভালভাবে কাজ করতে পারি?"
१. TabDistill ফ্রেমওয়ার্ক প্রস্তাব: ট্রান্সফর্মার মডেল জ্ঞান নিউরাল নেটওয়ার্কে ডিস্টিল করার একটি নতুন কৌশল, পরামিতি-দক্ষ ট্যাবুলার ডেটা শ্রেণীবিভাগ অর্জন করে २. দ্বি-মডেল বাস্তবায়ন: TabPFN (~११M পরামিতি) এবং BigScience T0pp (~११B পরামিতি) এর উপর ভিত্তি করে ফ্রেমওয়ার্ক বাস্তবায়ন, ~१००० পরামিতির MLP তে ডিস্টিল করা ३. পরীক্ষামূলক যাচাইকরণ: ५টি ট্যাবুলার ডেটাসেটে যাচাইকরণ, ডিস্টিল করা MLP ক্লাসিক্যাল বেসলাইন অতিক্রম করে, কিছু ক্ষেত্রে মূল ট্রান্সফর্মার মডেলও অতিক্রম করে ४. উদ্ভাবনী প্রশিক্ষণ কৌশল: পারমিউটেশন-ভিত্তিক প্রশিক্ষণ কৌশল প্রবর্তন করে, অত্যন্ত ছোট প্রশিক্ষণ সেটে ওভারফিটিং এড়ায়
ছোট স্কেলের ট্যাবুলার ডেটাসেট দেওয়া হয়েছে, যেখানে , লক্ষ্য হল প্রাক-প্রশিক্ষিত ট্রান্সফর্মার মডেল এর জ্ঞান ব্যবহার করে সহজ MLP তৈরি করা।
TabDistill দুটি পর্যায় অন্তর্ভুক্ত করে:
१. মৌলিক মডেল বিয়োজন:
२. MLP আর্কিটেকচার:
h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
যেখানে R স্তরের সংখ্যা, L লুকানো স্তরের প্রস্থ
३. রৈখিক ম্যাপিং:
m_η(z) = LayerNorm(Az + b)
যেখানে ,
পর্যায় १ ক্ষতি ফাংশন:
L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]
যেখানে
१. হাইপারনেটওয়ার্ক ধারণা: কম্পিউটার ভিশন ক্ষেত্রের অভিজ্ঞতা থেকে অনুপ্রেরণা নিয়ে, নিউরাল নেটওয়ার্ক ওজন তৈরি করতে ট্রান্সফর্মার ব্যবহার করা २. পারমিউটেশন বৃদ্ধি: প্রতিটি প্রশিক্ষণ যুগে বৈশিষ্ট্য ক্রম র্যান্ডমলি পারমিউট করা, ওভারফিটিং এড়ানো ३. পরামিতি-দক্ষ সূক্ষ্ম-সুর করা: শুধুমাত্র রৈখিক ম্যাপিং পরামিতি সূক্ষ্ম-সুর করা, মৌলিক মডেল পরামিতি অপরিবর্তিত রাখা ४. দ্বি-পর্যায় ডিজাইন: প্রথমে ডিস্টিল করা তারপর সূক্ষ্ম-সুর করা, প্রাক-প্রশিক্ষিত জ্ঞান সম্পূর্ণভাবে ব্যবহার করা
The <column name> is <value>"५টি জনসাধারণের ট্যাবুলার ডেটাসেট ব্যবহার করা হয়েছে: १. Bank (UCI Bank Marketing): গ্রাহক নিয়মিত আমানত সাবস্ক্রাইব করবে কিনা তা পূর্বাভাস দেওয়া २. Blood (UCI Blood Transfusion): রক্ত দান করবে কিনা তা পূর্বাভাস দেওয়া ३. Calhousing (California Housing): আবাসন ব্লক মূল্যবান কিনা তা পূর্বাভাস দেওয়া ४. Heart (UCI Heart Disease): হৃদরোগ আছে কিনা তা পূর্বাভাস দেওয়া ५. Income (Census Income): বার্ষিক আয় ५०K অতিক্রম করবে কিনা তা পূর্বাভাস দেওয়া
ফিউ-শট পরিস্থিতিতে শ্রেণীবিভাগ কর্মক্ষমতা বিবেচনা করে ROC-AUC প্রধান মূল্যায়ন মেট্রিক হিসাবে ব্যবহার করা হয়েছে।
१. ক্লাসিক্যাল বেসলাইন: লজিস্টিক রিগ্রেশন, XGBoost, স্বাধীনভাবে প্রশিক্ষিত MLP २. মৌলিক মডেল: TabPFN, T0pp (TabLLM) ३. ডিস্টিল করা মডেল: TabDistill + TabPFN, TabDistill + T0pp
টেবিল १ এর ROC-AUC ফলাফল অনুযায়ী:
१. নমুনা বৃদ্ধির সাথে কর্মক্ষমতা উন্নতি: সমস্ত পদ্ধতি N বৃদ্ধির সাথে সাধারণত কর্মক্ষমতা উন্নত করে २. বেসলাইন পদ্ধতির পার্থক্য: কোন একক ক্লাসিক্যাল পদ্ধতি সমস্ত ডেটাসেটে সর্বজনীনভাবে সর্বোত্তম নয় ३. মডেল নির্বাচন পার্থক্য: TabDistill + TabPFN সামগ্রিকভাবে TabDistill + T0pp এর চেয়ে ভাল, কিন্তু Income ডেটাসেটে বিপরীত
টেবিল ३ আশ্চর্যজনক ফলাফল দেখায়:
SHAP ব্যবহার করে বৈশিষ্ট্য গুরুত্ব বিশ্লেষণ:
१. ডিস্টিলেশন প্রভাব উল্লেখযোগ্য: অত্যন্ত ফিউ-শট পরিস্থিতিতে, ডিস্টিল করা মডেল ক্লাসিক্যাল পদ্ধতির চেয়ে স্পষ্টভাবে ভাল २. পরামিতি দক্ষতা: লক্ষ/বিলিয়ন পরামিতি থেকে হাজার-স্তরের পরামিতিতে সংকুচিত করা, দক্ষতা বৃদ্ধি বিশাল ३. জ্ঞান স্থানান্তর কার্যকর: প্রাক-প্রশিক্ষিত জ্ঞান সফলভাবে সহজ MLP তে স্থানান্তরিত হয় ४. শক্তিশালীতা ভাল: পারমিউটেশন বৃদ্ধি কৌশল কার্যকরভাবে ওভারফিটিং প্রতিরোধ করে
१. কার্যকারিতা যাচাইকরণ: TabDistill সফলভাবে পরামিতি দক্ষতা এবং ফিউ-শট কর্মক্ষমতার ভারসাম্য অর্জন করেছে २. কর্মক্ষমতা সুবিধা: ডিস্টিল করা MLP বেশিরভাগ ক্ষেত্রে ক্লাসিক্যাল বেসলাইন অতিক্রম করে, কিছু পরিস্থিতিতে এমনকি মূল ট্রান্সফর্মার অতিক্রম করে ३. ব্যবহারিক মূল্য: একটি বাস্তব স্থাপনযোগ্য সমাধান প্রদান করে, বিভিন্ন অবকাঠামো চাহিদা পূরণ করে
লেখক সৎভাবে নিম্নলিখিত ত্রুটি নির্দেশ করেন: १. বড় নমুনা কর্মক্ষমতা: প্রশিক্ষণ নমুনা বৃদ্ধির সাথে সাথে কর্মক্ষমতা উন্নতি সীমিত २. ম্যাপিং ফাংশন সরলতা: বর্তমানে সহজ রৈখিক ম্যাপিং ব্যবহার করা, কর্মক্ষমতা সীমা সীমাবদ্ধ করতে পারে ३. পক্ষপাত উত্তরাধিকার: ডিস্টিল করা মডেল মৌলিক মডেলের পক্ষপাত উত্তরাধিকার করতে পারে ४. প্রয়োগ পরিসীমা: বর্তমানে শুধুমাত্র দ্বিমুখী শ্রেণীবিভাগ কাজ যাচাই করা হয়েছে
१. ম্যাপিং ফাংশন উন্নতি: কর্মক্ষমতা উন্নত করতে আরও জটিল ম্যাপিং ফাংশন অন্বেষণ করা २. প্রয়োগ সম্প্রসারণ: প্রাকৃতিক ভাষা অনুমান, নির্দেশনা সুর করা এবং অন্যান্য ফিউ-শট কাজে সম্প্রসারণ করা ३. পক্ষপাত হ্রাস: দ্বিতীয় পর্যায়ের MLP সূক্ষ্ম-সুর করার মাধ্যমে মৌলিক মডেল পক্ষপাত হ্রাস করা ४. মাল্টি-টাস্ক লার্নিং: একাধিক ট্যাবুলার কাজ একযোগে পরিচালনার সম্ভাবনা অন্বেষণ করা
१. সমস্যা লক্ষ্যীকরণ শক্তিশালী: সঠিকভাবে বাস্তব প্রয়োগে মূল বৈপরীত্য চিহ্নিত এবং সমাধান করে २. পদ্ধতি উদ্ভাবনী: প্রথমবার হাইপারনেটওয়ার্ক ধারণা ট্যাবুলার ডেটা ডিস্টিলেশনে প্রয়োগ করা ३. পরীক্ষামূলক ডিজাইন সম্পূর্ণ:
१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ডিস্টিল করা মডেল মূল মডেল অতিক্রম করতে পারে কেন তার তাত্ত্বিক ব্যাখ্যার অভাব २. ডেটাসেট স্কেল সীমিত: শুধুমাত্র ५টি তুলনামূলক ছোট স্কেলের ডেটাসেটে যাচাইকরণ ३. কাজের ধরন একক: শুধুমাত্র দ্বিমুখী শ্রেণীবিভাগ কাজ বিবেচনা করা, রিগ্রেশন বা বহু-শ্রেণীবিভাগ জড়িত নয় ४. মৌলিক মডেল নির্বাচন: শুধুমাত্র দুটি মৌলিক মডেল পরীক্ষা করা, কভারেজ সীমিত ५. গণনা খরচ বিশ্লেষণ: প্রশিক্ষণ এবং অনুমানের প্রকৃত গণনা খরচ বিস্তারিত তুলনা নেই
१. একাডেমিক অবদান:
२. ব্যবহারিক মূল্য:
३. পুনরুৎপাদনযোগ্যতা:
१. সম্পদ-সীমিত পরিবেশ: মোবাইল ডিভাইস, এজ কম্পিউটিং এবং অন্যান্য পরিস্থিতি २. ফিউ-শট প্রয়োগ: চিকিৎসা নির্ণয়, আর্থিক ঝুঁকি নিয়ন্ত্রণ, গুণমান পরীক্ষা এবং অন্যান্য ডেটা-স্বল্প ক্ষেত্র ३. রিয়েল-টাইম অনুমান চাহিদা: দ্রুত প্রতিক্রিয়া প্রয়োজন এমন অনলাইন সেবা ४. মডেল ব্যাখ্যাযোগ্যতা প্রয়োজনীয়তা: জটিল ট্রান্সফর্মারের তুলনায় সহজ MLP আরও সহজে ব্যাখ্যা করা যায়
পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করেছে, প্রধানত অন্তর্ভুক্ত:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা বাস্তব সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, গুরুত্বপূর্ণ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি সম্পর্কিত ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে।