2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute: একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার সহ নির্ভুল এবং দ্রুত শূন্য-শট অনুপস্থিত-ডেটা ইমপিউটেশন

মৌলিক তথ্য

পেপার আইডি: 2510.02625
শিরোনাম: TabImpute: একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার সহ নির্ভুল এবং দ্রুত শূন্য-শট অনুপস্থিত-ডেটা ইমপিউটেশন
লেখক: জ্যাকব ফেইটেলবার্গ, ধ্বয়পায়ন সাহা, কিউসিওং চয়ই, জায়েদ আহমাদ, আনিশ আগরওয়াল, রাজ ডিভেদী
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর (প্রিপ্রিন্ট। পর্যালোচনাধীন)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.02625v2

সারসংক্ষেপ

অনুপস্থিত ডেটা ট্যাবুলার ডেটায় একটি সর্বব্যাপী সমস্যা। বিদ্যমান সমাধানগুলি সাধারণ গড় ইমপিউটেশন থেকে জটিল জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্ক পর্যন্ত বিস্তৃত। তবে বাস্তব-বিশ্বের ডোমেনে কর্মক্ষমতার বিশাল পার্থক্য এবং হাইপারপ্যারামিটার টিউনিং সময়সাপেক্ষ হওয়ার কারণে, বর্তমানে কোনো ডিফল্ট ইমপিউটেশন পদ্ধতি নেই। TabPFN (একটি অত্যাধুনিক ট্যাবুলার তত্ত্বাবধানকৃত শিক্ষার ভিত্তি মডেল) এর উপর ভিত্তি করে, এই পেপারটি TabImpute প্রস্তাব করে, যা একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার যা অনুমান সময়ে নির্ভুল এবং দ্রুত শূন্য-শট ইমপিউটেশন প্রদান করে, কোনো ফিটিং বা হাইপারপ্যারামিটার টিউনিং ছাড়াই। TabImpute প্রশিক্ষণ এবং মূল্যায়নের জন্য, লেখকরা প্রবর্তন করেছেন: (i) ট্যাবুলার সেটিংসের জন্য এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন, যা পূর্ববর্তী TabPFN ইমপিউটেশন পদ্ধতির তুলনায় ১০০ গুণ ত্বরণ অর্জন করে; (ii) বাস্তব অনুপস্থিত প্যাটার্ন সংমিশ্রণ করে সিন্থেটিক প্রশিক্ষণ ডেটা জেনারেশন পাইপলাইন, পরীক্ষা সময়ের কর্মক্ষমতা উন্নত করে; (iii) MissBench, একটি ব্যাপক ইমপিউটেশন পদ্ধতি মূল্যায়ন বেঞ্চমার্ক যাতে ৪২টি OpenML ডেটাসেট এবং ১৩ ধরনের অনুপস্থিত প্যাটার্ন রয়েছে। MissBench চিকিৎসা, আর্থিক এবং প্রকৌশল সহ বিভিন্ন ডোমেন জুড়ে বিস্তৃত, ১১টি পরিপক্ক ইমপিউটেশন পদ্ধতির তুলনায় TabImpute এর শক্তিশালী কর্মক্ষমতা প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

অনুপস্থিত ডেটা ট্যাবুলার ডেটায় সর্বত্র বিদ্যমান, যা পরিসংখ্যানবিদ, অর্থনীতিবিদ, স্বাস্থ্য কর্মচারী এবং ব্যবসায়িক সংস্থাগুলিকে প্রভাবিত করে। উদাহরণস্বরূপ, চিকিৎসা ডেটাসেটে রক্তচাপ পরিমাপের রেকর্ড অনুপস্থিত থাকতে পারে, অথবা একাধিক উৎস থেকে একীভূত ডেটাসেট শুধুমাত্র আংশিক বৈশিষ্ট্য ভাগ করতে পারে। উৎস যাই হোক না কেন, পরিসংখ্যানগত বা মেশিন লার্নিং মডেল ব্যবহার করার আগে অনুপস্থিত ডেটা অবশ্যই সংখ্যায় ইমপিউট করতে হবে।

সমস্যার গুরুত্ব

১. সর্বজনীনতা: অনুপস্থিত ডেটা সমস্ত ক্ষেত্রে একটি সাধারণ সমস্যা ২. প্রয়োজনীয়তা: বেশিরভাগ মেশিন লার্নিং অ্যালগরিদম সরাসরি অনুপস্থিত মান পরিচালনা করতে পারে না ३. জটিলতা: বিভিন্ন অনুপস্থিত প্রক্রিয়া বিভিন্ন চিকিৎসা কৌশল প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. বড় কর্মক্ষমতা পার্থক্য: বিদ্যমান পদ্ধতিগুলি বিভিন্ন ডোমেন এবং ডেটাসেটে ব্যাপকভাবে পরিবর্তিত হয় २. হাইপারপ্যারামিটার টিউনিং: সময়সাপেক্ষ হাইপারপ্যারামিটার সমন্বয় প্রক্রিয়া প্রয়োজন ३. সর্বজনীন পদ্ধতির অভাব: সমস্ত পরিস্থিতিতে প্রযোজ্য কোনো ডিফল্ট ইমপিউটেশন পদ্ধতি নেই ४. নির্দিষ্ট পরিস্থিতির সীমাবদ্ধতা: প্রতিটি পদ্ধতি সাধারণত নির্দিষ্ট সেটিংসের জন্য ডিজাইন করা হয়

গবেষণা প্রেরণা

ট্যাবুলার তত্ত্বাবধানকৃত শিক্ষায় TabPFN এর সাফল্যের উপর ভিত্তি করে, লেখকরা এমন একটি মডেল বিকাশ করতে চান যা: १. শূন্য-শট ইমপিউটেশন বাস্তবায়ন করে (প্রশিক্ষণ বা টিউনিং ছাড়াই) २. একাধিক অনুপস্থিত প্যাটার্নে শক্তিশালী কর্মক্ষমতা প্রদান করে ३. দ্রুত নির্ভুল ইমপিউটেশন ফলাফল প্রদান করে ४. বিভিন্ন ডোমেনের ট্যাবুলার ডেটায় প্রযোজ্য

মূল অবদান

१. TabImpute মডেল প্রস্তাব: TabPFN আর্কিটেকচারের উপর ভিত্তি করে একটি পূর্ব-প্রশিক্ষিত ট্রান্সফর্মার, নির্ভুল দ্রুত শূন্য-শট অনুপস্থিত ডেটা ইমপিউটেশন বাস্তবায়ন করে

२. উদ্ভাবনী এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন (Entry-wise Featurization): TabPFN এর কলাম-স্তরের ইমপিউটেশন পদ্ধতির তুলনায় ১০০ গুণ ত্বরণ অর্জন করে

३. ব্যাপক সিন্থেটিক ডেটা জেনারেশন পাইপলাইন: ১३ ধরনের বাস্তব অনুপস্থিত প্যাটার্ন সহ প্রশিক্ষণ ডেটা জেনারেশন পদ্ধতি, মডেল সাধারণীকরণ ক্ষমতা উন্নত করে

४. MissBench বেঞ্চমার্ক নির্মাণ: ४२টি OpenML ডেটাসেট এবং १३ ধরনের অনুপস্থিত প্যাটার্ন সহ ব্যাপক মূল্যায়ন বেঞ্চমার্ক

५. TabImpute+ সমন্বয় পদ্ধতি: স্ব-অভিযোজিত ওজন মাধ্যমে TabImpute এবং EWF-TabPFN সমন্বয় করে সর্বোত্তম কর্মক্ষমতা অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অনুপস্থিত মান সহ ট্যাবুলার ডেটা ম্যাট্রিক্স X দেওয়া, যেখানে X* সম্পূর্ণ ম্যাট্রিক্স, Ω অনুপস্থিত এন্ট্রি সূচক সেট, লক্ষ্য হল সমস্ত অনুপস্থিত এন্ট্রির মান পূর্বাভাস দেওয়া।

মডেল আর্কিটেকচার

१. এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন (Entry-wise Featurization, EWF)

ঐতিহ্যবাহী পদ্ধতি কলাম-স্তরের ইমপিউটেশন ব্যবহার করে, যখন এই পেপারটি এন্ট্রি-স্তরের পদ্ধতি প্রস্তাব করে:

প্রতিটি এন্ট্রি (i,j) এর জন্য, বৈশিষ্ট্য ভেক্টর নির্মাণ করুন: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
যেখানে Xi,: i-তম সারি প্রতিনিধিত্ব করে, X:,j j-তম কলাম প্রতিনিধিত্ব করে, ⊕ সংযোজন প্রতিনিধিত্ব করে
লক্ষ্য মান yij = X*ij
আকার nm × (n+m) এর বৈশিষ্ট্য ম্যাট্রিক্স তৈরি করুন

२. আর্কিটেকচার পরিবর্তন

TabPFN আর্কিটেকচারের উপর ভিত্তি করে, একটি মূল পরিবর্তন করা হয়েছে:

মনোযোগ মাস্ক সরান, প্রশিক্ষণ পয়েন্টগুলিকে পরীক্ষা পয়েন্টগুলিতে মনোযোগ দিতে অনুমতি দিন
এটি করার কারণ হল পরীক্ষা সেট পর্যবেক্ষণ করা ডেটা ব্যবহার করে তৈরি, কোনো ডেটা ফাঁস সমস্যা নেই

३. সিন্থেটিক প্রশিক্ষণ ডেটা জেনারেশন

ডেটা জেনারেশন: রৈখিক ফ্যাক্টর মডেল ব্যবহার করুন (Linear Factor Models)

Y = UV^T

যেখানে U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

অনুপস্থিত প্যাটার্ন: १३ ধরনের অনুপস্থিত প্যাটার্ন বাস্তবায়ন করুন

१ ধরনের MCAR (সম্পূর্ণভাবে এলোমেলোভাবে অনুপস্থিত)
१ ধরনের MAR (এলোমেলোভাবে অনুপস্থিত)
११ ধরনের MNAR (এলোমেলোভাবে অনুপস্থিত নয়)

४. মাল্টি-প্যাটার্ন প্রশিক্ষণ

প্রতিটি ব্যাচে অনুপস্থিত প্যাটার্নের অনুপাত নির্ধারণ করতে স্ব-অভিযোজিত অ্যালগরিদম ব্যবহার করুন:

প্রতিটি s গ্রেডিয়েন্ট ধাপে অনুপাত পুনর্গণনা করুন
প্রতিটি প্যাটার্নের ক্ষতি মূল্যে softmax প্রয়োগ করুন
ভাল কর্মক্ষমতা প্যাটার্নের ওজন অভিযোজিতভাবে হ্রাস করুন, খারাপ কর্মক্ষমতা প্যাটার্নের ওজন বৃদ্ধি করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. সমান্তরাল প্রক্রিয়াকরণ: এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন সমস্ত অনুপস্থিত মান সমান্তরালভাবে পূর্বাভাস দিতে সক্ষম করে, কলাম-দ্বারা-কলাম প্রক্রিয়াকরণের পরিবর্তে

२. শূন্য-শট ক্ষমতা: পূর্ব-প্রশিক্ষিত মডেল লক্ষ্য ডেটায় সূক্ষ্ম-সুর ছাড়াই সরাসরি ব্যবহার করা যায়

३. মাল্টি-প্যাটার্ন অভিযোজন: স্ব-অভিযোজিত প্রশিক্ষণ কৌশলের মাধ্যমে একাধিক অনুপস্থিত প্যাটার্ন পরিচালনা করুন

४. সমন্বয় কৌশল: TabImpute+ বিভিন্ন পদ্ধতির সুবিধা সর্বোত্তম ওজন মাধ্যমে সমন্বয় করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MissBench বেঞ্চমার্ক অন্তর্ভুক্ত করে:

४२টি OpenML ডেটাসেট
চিকিৎসা, প্রকৌশল, শিক্ষা সহ একাধিক ডোমেন জুড়ে বিস্তৃত
ডেটাসেট আকার ५०×५ থেকে १७०×५५ পর্যন্ত
শুধুমাত্র সংখ্যাসূচক বৈশিষ্ট্য এবং মূলত অনুপস্থিত মান ছাড়া ডেটাসেট অন্তর্ভুক্ত

মূল্যায়ন মেট্রিক্স

ইমপিউটেশন নির্ভুলতা: १. প্রতিটি পদ্ধতির RMSE গণনা করুন: $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$ २. প্রতিটি কাজের মধ্যে ন্যূনতম-সর্বোচ্চ স্বাভাবিকীকরণ সম্পাদন করুন ३. ইমপিউটেশন নির্ভুলতা = १ - স্বাভাবিকীকৃত RMSE

তুলনামূলক পদ্ধতি

११ ধরনের পরিপক্ক ইমপিউটেশন পদ্ধতি:

কলাম গড় ইমপিউটেশন
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
সর্বোত্তম পরিবহন পদ্ধতি
K নিকটতম প্রতিবেশী
HyperImpute
TabPFN মূল ইমপিউটেশন পদ্ধতি

বাস্তবায়ন বিবরণ

প্রশিক্ষণ: ८টি H200 GPU, প্রায় এক সপ্তাহ সময়
२५ মিলিয়ন সিন্থেটিক ট্যাবুলার প্রক্রিয়াকরণ
শেখার হার: ०.०००१, ব্যাচ আকার: ६४
স্ব-অভিযোজিত আপডেট ব্যবধান: s=५० ধাপ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সামগ্রিক কর্মক্ষমতা (টেবিল १):

TabImpute+: ०.८३३ ± ०.२१३ (সর্বোত্তম)
HyperImpute: ०.७६६ ± ०.२५९
সর্বোত্তম পরিবহন: ०.७६५ ± ०.२२७
MissForest: ०.७५४ ± ०.२४८

চালানোর সময় (চিত্র १b):

TabImpute GPU তে সবচেয়ে কম চালানোর সময় প্রদর্শন করে
TabPFN এর তুলনায় উল্লেখযোগ্য ত্বরণ অর্জন করে
CPU সংস্করণ এখনও প্রতিযোগিতামূলক থাকে

বিভিন্ন অনুপস্থিত প্যাটার্নে কর্মক্ষমতা

TabImpute+ প্রায় সমস্ত অনুপস্থিত প্যাটার্নে সর্বোত্তম কর্মক্ষমতা অর্জন করে:

NN-MNAR: ०.८८० ± ०.१२६
Block-MNAR: ०.९०८ ± ०.१६८
Seq-MNAR: ०.९०५ ± ०.०९४
Panel-MNAR: ०.७९१ ± ०.३२९ (অন্যান্য পদ্ধতির তুলনায় উল্লেখযোগ্যভাবে উন্নত)

বিলোপন পরীক্ষা

শূন্য-শট পদ্ধতি তুলনা (টেবিল २):

TabImpute+ সমন্বয় সামগ্রিক কর্মক্ষমতা সর্বোত্তম: ०.६१४ ± ०.४६८
EWF-TabPFN: ०.६०० ± ०.४७६
TabImpute: ०.३९३ ± ०.४८७

সমন্বয় কৌশলের কার্যকারিতা প্রদর্শন করে।

উচ্চ অনুপস্থিত হার পরিস্থিতি

চিত্র ४ দেখায় যে MCAR প্যাটার্নে, অনুপস্থিত হার বৃদ্ধির সাথে সাথে, TabImpute+ এর সুবিধা আরও স্পষ্ট হয়ে ওঠে, কারণ জেনারেটিভ মডেল প্রসঙ্গ তথ্য আরও ভালভাবে ব্যবহার করতে পারে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. TabImpute নির্ভুল দ্রুত শূন্য-শট অনুপস্থিত ডেটা ইমপিউটেশন বাস্তবায়ন করে २. এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন দক্ষতা এবং নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করে ३. মাল্টি-প্যাটার্ন প্রশিক্ষণ কৌশল মডেল সাধারণীকরণ ক্ষমতা বৃদ্ধি করে ४. MissBench ইমপিউটেশন পদ্ধতি মূল্যায়নের জন্য একটি ব্যাপক বেঞ্চমার্ক প্রদান করে

সীমাবদ্ধতা

१. স্কেলেবিলিটি: এন্ট্রি-স্তরের বৈশিষ্ট্যায়নের কারণে, মনোযোগ জটিলতা সারি মাত্রায় পুনরায় বর্গীয় २. CPU কর্মক্ষমতা: CPU তে চালানো ধীর, TabPFN এর মতো ३. ডেটা প্রকার: বর্তমানে শুধুমাত্র সংখ্যাসূচক ডেটা সমর্থন করে, বিভাগীয় ডেটা সমর্থন করে না ४. আর্কিটেকচার সীমাবদ্ধতা: TabPFN এর দ্বিঘাত সময় জটিলতা সীমাবদ্ধতা উত্তরাধিকার করে

ভবিষ্যত দিকনির্দেশনা

१. আরও জটিল অনুপস্থিত প্যাটার্ন এবং ডেটা জেনারেশন প্রক্রিয়া অন্বেষণ করুন २. বিভাগীয় ডেটা সমর্থনের জন্য পদ্ধতি বৃদ্ধি করুন ३. কার্যকারণ অনুমান সেটিংসে মূল্যায়ন প্রসারিত করুন ४. বৃহত্তর ডেটাসেটে স্কেল করার জন্য আর্কিটেকচার উন্নত করুন ५. মাল্টিপল ইমপিউটেশনের জন্য পদ্ধতি ব্যবহার করুন

গভীর মূল্যায়ন

সুবিধা

१. শক্তিশালী উদ্ভাবনী: এন্ট্রি-স্তরের বৈশিষ্ট্যায়ন একটি চতুর উদ্ভাবন, উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে २. পর্যাপ্ত পরীক্ষা: MissBench ইমপিউটেশন পদ্ধতির এখন পর্যন্ত সবচেয়ে ব্যাপক মূল্যায়ন প্রদান করে ३. উচ্চ ব্যবহারিক মূল্য: শূন্য-শট বৈশিষ্ট্য পদ্ধতি স্থাপনা এবং ব্যবহার সহজ করে ४. দৃঢ় তাত্ত্বিক ভিত্তি: পরিপক্ক PFN ফ্রেমওয়ার্ক এবং বেয়েসিয়ান অনুমান তত্ত্বের উপর ভিত্তি করে

অপূর্ণতা

१. স্কেলেবিলিটি সমস্যা: দ্বিঘাত জটিলতা বৃহত্তর ডেটায় প্রয়োগ সীমিত করে २. ডেটা প্রকার সীমাবদ্ধতা: শুধুমাত্র সংখ্যাসূচক ডেটা সমর্থন ব্যবহারিক প্রয়োগ পরিসীমা সীমিত করে ३. সিন্থেটিক ডেটা নির্ভরতা: সম্পূর্ণ সিন্থেটিক ডেটা প্রশিক্ষণ নির্দিষ্ট বাস্তব পরিস্থিতিতে কর্মক্ষমতা প্রভাবিত করতে পারে ४. গণনা সম্পদ প্রয়োজন: প্রশিক্ষণ বিশাল GPU সম্পদ প্রয়োজন

প্রভাব

१. একাডেমিক অবদান: ট্যাবুলার অনুপস্থিত ডেটা ইমপিউটেশন ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য: শূন্য-শট বৈশিষ্ট্য শিল্প প্রয়োগে বিশাল সম্ভাবনা রাখে ३. বেঞ্চমার্ক অবদান: MissBench এই ক্ষেত্রের একটি গুরুত্বপূর্ণ মূল্যায়ন মান হয়ে উঠবে ४. পুনরুৎপাদনযোগ্যতা: লেখকরা কোড এবং ওজন খোলা উৎস করার প্রতিশ্রুতি দিয়েছেন

প্রযোজ্য পরিস্থিতি

१. মাঝারি আকারের ট্যাবুলার ডেটা: বিশেষত যুক্তিসঙ্গত পরিসরে সারি এবং কলাম সংখ্যা সহ ডেটার জন্য উপযুক্ত २. মাল্টি-ডোমেন প্রয়োগ: শূন্য-শট বৈশিষ্ট্যের কারণে ক্রস-ডোমেন ব্যবহারের জন্য উপযুক্ত ३. দ্রুত প্রোটোটাইপ উন্নয়ন: প্যারামিটার টিউনিং ছাড়া বৈশিষ্ট্য দ্রুত যাচাইকরণ এবং স্থাপনার জন্য উপযুক্ত ४. গবেষণা এবং বেঞ্চমার্ক পরীক্ষা: MissBench নতুন পদ্ধতির মূল্যায়ন মান হিসাবে উপযুক্ত

সংদর্ভ

এই পেপারটি প্রধানত নিম্নলিখিত গুরুত্বপূর্ণ কাজের উপর ভিত্তি করে: १. Hollmann et al. (२०२३, २०२५) - TabPFN সিরিজ কাজ २. Müller et al. (२०२२) - পূর্ব-ডেটা ফিটেড নেটওয়ার্ক তাত্ত্বিক ভিত্তি ३. Jarrett et al. (२०२२) - HyperImpute সমন্বয় ইমপিউটেশন পদ্ধতি ४. Rubin (१९७६) - অনুপস্থিত ডেটা তাত্ত্বিক ভিত্তি

সারসংক্ষেপ: TabImpute প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ব্যবহারিক মূল্যের দিক থেকে উল্লেখযোগ্য অবদান সহ একটি উচ্চ মানের গবেষণা কাজ। স্কেলেবিলিটা সহ সীমাবদ্ধতা থাকলেও, এর শূন্য-শট ইমপিউটেশন ক্ষমতা এবং উৎকৃষ্ট কর্মক্ষমতা এটিকে এই ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি করে তোলে।