অনুপস্থিত ডেটা ট্যাবুলার ডেটায় একটি সর্বব্যাপী সমস্যা। বিদ্যমান সমাধানগুলি সাধারণ গড় ইমপিউটেশন থেকে জটিল জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্ক পর্যন্ত বিস্তৃত। তবে বাস্তব-বিশ্বের ডোমেনে কর্মক্ষমতার বিশাল পার্থক্য এবং হাইপারপ্যারামিটার টিউনিং সময়সাপেক্ষ হওয়ার কারণে, বর্তমানে কোনো ডিফল্ট ইমপিউটেশন পদ্ধতি নেই। TabPFN (একটি অত্যাধুনিক ট্যাবুলার তত্ত্বাবধানকৃত শিক্ষার ভিত্তি মডেল) এর উপর ভিত্তি করে, এই পেপারটি TabImpute প্রস্তাব করে, যা একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার যা অনুমান সময়ে নির্ভুল এবং দ্রুত শূন্য-শট ইমপিউটেশন প্রদান করে, কোনো ফিটিং বা হাইপারপ্যারামিটার টিউনিং ছাড়াই। TabImpute প্রশিক্ষণ এবং মূল্যায়নের জন্য, লেখকরা প্রবর্তন করেছেন: (i) ট্যাবুলার সেটিংসের জন্য এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন, যা পূর্ববর্তী TabPFN ইমপিউটেশন পদ্ধতির তুলনায় ১০০ গুণ ত্বরণ অর্জন করে; (ii) বাস্তব অনুপস্থিত প্যাটার্ন সংমিশ্রণ করে সিন্থেটিক প্রশিক্ষণ ডেটা জেনারেশন পাইপলাইন, পরীক্ষা সময়ের কর্মক্ষমতা উন্নত করে; (iii) MissBench, একটি ব্যাপক ইমপিউটেশন পদ্ধতি মূল্যায়ন বেঞ্চমার্ক যাতে ৪২টি OpenML ডেটাসেট এবং ১৩ ধরনের অনুপস্থিত প্যাটার্ন রয়েছে। MissBench চিকিৎসা, আর্থিক এবং প্রকৌশল সহ বিভিন্ন ডোমেন জুড়ে বিস্তৃত, ১১টি পরিপক্ক ইমপিউটেশন পদ্ধতির তুলনায় TabImpute এর শক্তিশালী কর্মক্ষমতা প্রদর্শন করে।
অনুপস্থিত ডেটা ট্যাবুলার ডেটায় সর্বত্র বিদ্যমান, যা পরিসংখ্যানবিদ, অর্থনীতিবিদ, স্বাস্থ্য কর্মচারী এবং ব্যবসায়িক সংস্থাগুলিকে প্রভাবিত করে। উদাহরণস্বরূপ, চিকিৎসা ডেটাসেটে রক্তচাপ পরিমাপের রেকর্ড অনুপস্থিত থাকতে পারে, অথবা একাধিক উৎস থেকে একীভূত ডেটাসেট শুধুমাত্র আংশিক বৈশিষ্ট্য ভাগ করতে পারে। উৎস যাই হোক না কেন, পরিসংখ্যানগত বা মেশিন লার্নিং মডেল ব্যবহার করার আগে অনুপস্থিত ডেটা অবশ্যই সংখ্যায় ইমপিউট করতে হবে।
১. সর্বজনীনতা: অনুপস্থিত ডেটা সমস্ত ক্ষেত্রে একটি সাধারণ সমস্যা ২. প্রয়োজনীয়তা: বেশিরভাগ মেশিন লার্নিং অ্যালগরিদম সরাসরি অনুপস্থিত মান পরিচালনা করতে পারে না ३. জটিলতা: বিভিন্ন অনুপস্থিত প্রক্রিয়া বিভিন্ন চিকিৎসা কৌশল প্রয়োজন
१. বড় কর্মক্ষমতা পার্থক্য: বিদ্যমান পদ্ধতিগুলি বিভিন্ন ডোমেন এবং ডেটাসেটে ব্যাপকভাবে পরিবর্তিত হয় २. হাইপারপ্যারামিটার টিউনিং: সময়সাপেক্ষ হাইপারপ্যারামিটার সমন্বয় প্রক্রিয়া প্রয়োজন ३. সর্বজনীন পদ্ধতির অভাব: সমস্ত পরিস্থিতিতে প্রযোজ্য কোনো ডিফল্ট ইমপিউটেশন পদ্ধতি নেই ४. নির্দিষ্ট পরিস্থিতির সীমাবদ্ধতা: প্রতিটি পদ্ধতি সাধারণত নির্দিষ্ট সেটিংসের জন্য ডিজাইন করা হয়
ট্যাবুলার তত্ত্বাবধানকৃত শিক্ষায় TabPFN এর সাফল্যের উপর ভিত্তি করে, লেখকরা এমন একটি মডেল বিকাশ করতে চান যা: १. শূন্য-শট ইমপিউটেশন বাস্তবায়ন করে (প্রশিক্ষণ বা টিউনিং ছাড়াই) २. একাধিক অনুপস্থিত প্যাটার্নে শক্তিশালী কর্মক্ষমতা প্রদান করে ३. দ্রুত নির্ভুল ইমপিউটেশন ফলাফল প্রদান করে ४. বিভিন্ন ডোমেনের ট্যাবুলার ডেটায় প্রযোজ্য
१. TabImpute মডেল প্রস্তাব: TabPFN আর্কিটেকচারের উপর ভিত্তি করে একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার, নির্ভুল দ্রুত শূন্য-শট অনুপস্থিত ডেটা ইমপিউটেশন বাস্তবায়ন করে
२. উদ্ভাবনী এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন (Entry-wise Featurization): TabPFN এর কলাম-স্তরের ইমপিউটেশন পদ্ধতির তুলনায় ১০০ গুণ ত্বরণ অর্জন করে
३. ব্যাপক সিন্থেটিক ডেটা জেনারেশন পাইপলাইন: ১३ ধরনের বাস্তব অনুপস্থিত প্যাটার্ন সহ প্রশিক্ষণ ডেটা জেনারেশন পদ্ধতি, মডেল সাধারণীকরণ ক্ষমতা উন্নত করে
४. MissBench বেঞ্চমার্ক নির্মাণ: ४२টি OpenML ডেটাসেট এবং १३ ধরনের অনুপস্থিত প্যাটার্ন সহ ব্যাপক মূল্যায়ন বেঞ্চমার্ক
५. TabImpute+ সমন্বয় পদ্ধতি: স্ব-অভিযোজিত ওজন মাধ্যমে TabImpute এবং EWF-TabPFN সমন্বয় করে সর্বোত্তম কর্মক্ষমতা অর্জন করে
অনুপস্থিত মান সহ ট্যাবুলার ডেটা ম্যাট্রিক্স X দেওয়া, যেখানে X* সম্পূর্ণ ম্যাট্রিক্স, Ω অনুপস্থিত এন্ট্রি সূচক সেট, লক্ষ্য হল সমস্ত অনুপস্থিত এন্ট্রির মান পূর্বাভাস দেওয়া।
ঐতিহ্যবাহী পদ্ধতি কলাম-স্তরের ইমপিউটেশন ব্যবহার করে, যখন এই পেপারটি এন্ট্রি-স্তরের পদ্ধতি প্রস্তাব করে:
TabPFN আর্কিটেকচারের উপর ভিত্তি করে, একটি মূল পরিবর্তন করা হয়েছে:
ডেটা জেনারেশন: রৈখিক ফ্যাক্টর মডেল ব্যবহার করুন (Linear Factor Models)
Y = UV^T
যেখানে U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m
অনুপস্থিত প্যাটার্ন: १३ ধরনের অনুপস্থিত প্যাটার্ন বাস্তবায়ন করুন
প্রতিটি ব্যাচে অনুপস্থিত প্যাটার্নের অনুপাত নির্ধারণ করতে স্ব-অভিযোজিত অ্যালগরিদম ব্যবহার করুন:
१. সমান্তরাল প্রক্রিয়াকরণ: এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন সমস্ত অনুপস্থিত মান সমান্তরালভাবে পূর্বাভাস দিতে সক্ষম করে, কলাম-দ্বারা-কলাম প্রক্রিয়াকরণের পরিবর্তে
२. শূন্য-শট ক্ষমতা: পূর্ব-প্রশিক্ষিত মডেল লক্ষ্য ডেটায় সূক্ষ্ম-সুর ছাড়াই সরাসরি ব্যবহার করা যায়
३. মাল্টি-প্যাটার্ন অভিযোজন: স্ব-অভিযোজিত প্রশিক্ষণ কৌশলের মাধ্যমে একাধিক অনুপস্থিত প্যাটার্ন পরিচালনা করুন
४. সমন্বয় কৌশল: TabImpute+ বিভিন্ন পদ্ধতির সুবিধা সর্বোত্তম ওজন মাধ্যমে সমন্বয় করে
MissBench বেঞ্চমার্ক অন্তর্ভুক্ত করে:
ইমপিউটেশন নির্ভুলতা: १. প্রতিটি পদ্ধতির RMSE গণনা করুন: २. প্রতিটি কাজের মধ্যে ন্যূনতম-সর্বোচ্চ স্বাভাবিকীকরণ সম্পাদন করুন ३. ইমপিউটেশন নির্ভুলতা = १ - স্বাভাবিকীকৃত RMSE
११ ধরনের পরিপক্ক ইমপিউটেশন পদ্ধতি:
সামগ্রিক কর্মক্ষমতা (টেবিল १):
চালানোর সময় (চিত্র १b):
TabImpute+ প্রায় সমস্ত অনুপস্থিত প্যাটার্নে সর্বোত্তম কর্মক্ষমতা অর্জন করে:
শূন্য-শট পদ্ধতি তুলনা (টেবিল २):
সমন্বয় কৌশলের কার্যকারিতা প্রদর্শন করে।
চিত্র ४ দেখায় যে MCAR প্যাটার্নে, অনুপস্থিত হার বৃদ্ধির সাথে সাথে, TabImpute+ এর সুবিধা আরও স্পষ্ট হয়ে ওঠে, কারণ জেনারেটিভ মডেল প্রসঙ্গ তথ্য আরও ভালভাবে ব্যবহার করতে পারে।
१. ঐতিহ্যবাহী পদ্ধতি: গড় পূরণ, রৈখিক মডেল, র্যান্ডম ফরেস্ট २. ম্যাট্রিক্স সম্পূর্ণতা: SoftImpute, USVT, নিকটতম প্রতিবেশী পদ্ধতি ३. গভীর শিক্ষা: GAIN (GAN), MIWAE (VAE) ४. সমন্বয় পদ্ধতি: HyperImpute
१. TabPFN: ট্যাবুলার তত্ত্বাবধানকৃত শিক্ষার ভিত্তি মডেল २. পরবর্তী উন্নয়ন: TabICL, MITRA, CausalFM ইত্যাদি ३. প্রযুক্তিগত বৈশিষ্ট্য: পূর্ব-ডেটা ফিটেড নেটওয়ার্ক (PFN), প্রসঙ্গ শিক্ষা
१. TabImpute নির্ভুল দ্রুত শূন্য-শট অনুপস্থিত ডেটা ইমপিউটেশন বাস্তবায়ন করে २. এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন দক্ষতা এবং নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করে ३. মাল্টি-প্যাটার্ন প্রশিক্ষণ কৌশল মডেল সাধারণীকরণ ক্ষমতা বৃদ্ধি করে ४. MissBench ইমপিউটেশন পদ্ধতি মূল্যায়নের জন্য একটি ব্যাপক বেঞ্চমার্ক প্রদান করে
१. স্কেলেবিলিটি: এন্ট্রি-স্তরের বৈশিষ্ট্যায়নের কারণে, মনোযোগ জটিলতা সারি মাত্রায় পুনরায় বর্গীয় २. CPU কর্মক্ষমতা: CPU তে চালানো ধীর, TabPFN এর মতো ३. ডেটা প্রকার: বর্তমানে শুধুমাত্র সংখ্যাসূচক ডেটা সমর্থন করে, বিভাগীয় ডেটা সমর্থন করে না ४. আর্কিটেকচার সীমাবদ্ধতা: TabPFN এর দ্বিঘাত সময় জটিলতা সীমাবদ্ধতা উত্তরাধিকার করে
१. আরও জটিল অনুপস্থিত প্যাটার্ন এবং ডেটা জেনারেশন প্রক্রিয়া অন্বেষণ করুন २. বিভাগীয় ডেটা সমর্থনের জন্য পদ্ধতি বৃদ্ধি করুন ३. কার্যকারণ অনুমান সেটিংসে মূল্যায়ন প্রসারিত করুন ४. বৃহত্তর ডেটাসেটে স্কেল করার জন্য আর্কিটেকচার উন্নত করুন ५. মাল্টিপল ইমপিউটেশনের জন্য পদ্ধতি ব্যবহার করুন
१. শক্তিশালী উদ্ভাবনী: এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন একটি চতুর উদ্ভাবন, উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে २. পর্যাপ্ত পরীক্ষা: MissBench ইমপিউটেশন পদ্ধতির এখন পর্যন্ত সবচেয়ে ব্যাপক মূল্যায়ন প্রদান করে ३. উচ্চ ব্যবহারিক মূল্য: শূন্য-শট বৈশিষ্ট্য পদ্ধতি স্থাপনা এবং ব্যবহার সহজ করে ४. দৃঢ় তাত্ত্বিক ভিত্তি: পরিপক্ক PFN ফ্রেমওয়ার্ক এবং বেয়েসিয়ান অনুমান তত্ত্বের উপর ভিত্তি করে
१. স্কেলেবিলিটি সমস্যা: দ্বিঘাত জটিলতা বৃহত্তর ডেটায় প্রয়োগ সীমিত করে २. ডেটা প্রকার সীমাবদ্ধতা: শুধুমাত্র সংখ্যাসূচক ডেটা সমর্থন ব্যবহারিক প্রয়োগ পরিসীমা সীমিত করে ३. সিন্থেটিক ডেটা নির্ভরতা: সম্পূর্ণ সিন্থেটিক ডেটা প্রশিক্ষণ নির্দিষ্ট বাস্তব পরিস্থিতিতে কর্মক্ষমতা প্রভাবিত করতে পারে ४. গণনা সম্পদ প্রয়োজন: প্রশিক্ষণ বিশাল GPU সম্পদ প্রয়োজন
१. একাডেমিক অবদান: ট্যাবুলার অনুপস্থিত ডেটা ইমপিউটেশন ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য: শূন্য-শট বৈশিষ্ট্য শিল্প প্রয়োগে বিশাল সম্ভাবনা রাখে ३. বেঞ্চমার্ক অবদান: MissBench এই ক্ষেত্রের একটি গুরুত্বপূর্ণ মূল্যায়ন মান হয়ে উঠবে ४. পুনরুৎপাদনযোগ্যতা: লেখকরা কোড এবং ওজন খোলা উৎস করার প্রতিশ্রুতি দিয়েছেন
१. মাঝারি আকারের ট্যাবুলার ডেটা: বিশেষত যুক্তিসঙ্গত পরিসরে সারি এবং কলাম সংখ্যা সহ ডেটার জন্য উপযুক্ত २. মাল্টি-ডোমেন প্রয়োগ: শূন্য-শট বৈশিষ্ট্যের কারণে ক্রস-ডোমেন ব্যবহারের জন্য উপযুক্ত ३. দ্রুত প্রোটোটাইপ উন্নয়ন: প্যারামিটার টিউনিং ছাড়া বৈশিষ্ট্য দ্রুত যাচাইকরণ এবং স্থাপনার জন্য উপযুক্ত ४. গবেষণা এবং বেঞ্চমার্ক পরীক্ষা: MissBench নতুন পদ্ধতির মূল্যায়ন মান হিসাবে উপযুক্ত
এই পেপারটি প্রধানত নিম্নলিখিত গুরুত্বপূর্ণ কাজের উপর ভিত্তি করে: १. Hollmann et al. (२०२३, २०२५) - TabPFN সিরিজ কাজ २. Müller et al. (२०२२) - পূর্ব-ডেটা ফিটেড নেটওয়ার্ক তাত্ত্বিক ভিত্তি ३. Jarrett et al. (२०२२) - HyperImpute সমন্বয় ইমপিউটেশন পদ্ধতি ४. Rubin (१९७६) - অনুপস্থিত ডেটা তাত্ত্বিক ভিত্তি
সারসংক্ষেপ: TabImpute প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ব্যবহারিক মূল্যের দিক থেকে উল্লেখযোগ্য অবদান সহ একটি উচ্চ মানের গবেষণা কাজ। স্কেলেবিলিটা সহ সীমাবদ্ধতা থাকলেও, এর শূন্য-শট ইমপিউটেশন ক্ষমতা এবং উৎকৃষ্ট কর্মক্ষমতা এটিকে এই ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি করে তোলে।