ট্রান্সফর্মার-ভিত্তিক পরিশোধিত সম্ভাব্যতামূলক অনুমান মডেল (যেমন নিউরাল প্রসেস, প্রাথমিক-ফিটেড নেটওয়ার্ক এবং ট্যাবুলার ভিত্তি মডেল) একক প্রান্তিক পূর্বাভাসে চমৎকার কর্মক্ষমতা প্রদর্শন করে। তবে, সংকেত ইন্টারপোলেশন থেকে শুরু করে বহু-স্তম্ভ ট্যাবুলার পূর্বাভাস পর্যন্ত অনেক ব্যবহারিক প্রয়োগের জন্য পূর্বাভাস-মধ্যস্থ নির্ভরতা ক্যাপচার করে এমন সুসংগত যৌথ বিতরণ প্রয়োজন। খাঁটি অটোরিগ্রেসিভ আর্কিটেকচার এই ধরনের বিতরণ দক্ষতার সাথে তৈরি করতে পারে, কিন্তু এই মডেলগুলিকে মেটা-লার্নিংয়ে শক্তিশালী করে এমন নমনীয় সেট শর্তযুক্তকরণ ক্ষমতা ত্যাগ করে। বিপরীতভাবে, সেট-ভিত্তিক মডেল থেকে যৌথ বিতরণ পাওয়ার মান পদ্ধতি প্রতিটি অটোরিগ্রেসিভ ধাপে সম্পূর্ণ বর্ধিত শর্তযুক্ত সেটের ব্যয়বহুল পুনঃএনকোডিং প্রয়োজন। এই পেপারটি কার্যকর অটোরিগ্রেসিভ বাফার প্রবর্তন করে যা উভয় প্যারাডাইমের সুবিধা ধরে রাখে। এই পদ্ধতি প্রসঙ্গ এনকোডিং এবং শর্তযুক্ত সেট আপডেটকে বিচ্ছিন্ন করে, মডেল প্রসঙ্গ একবার প্রক্রিয়া করে এবং ক্যাশ করে, গতিশীল বাফার লক্ষ্য নির্ভরতা ক্যাপচার করে। সিন্থেটিক ফাংশন, ইইজি সংকেত, জ্ঞানীয় মডেল এবং ট্যাবুলার ডেটায়, এই পদ্ধতি শক্তিশালী বেসলাইন পূর্বাভাস নির্ভুলতার সাথে মিলিত হওয়ার সময় যৌথ নমুনা গতি ২০ গুণ পর্যন্ত উন্নত করে।
বিদ্যমান ট্রান্সফর্মার-ভিত্তিক সম্ভাব্যতামূলক মডেলগুলি একটি মৌলিক দক্ষতা বাধার সম্মুখীন হয়: যখন যৌথ বিতরণ তৈরি করার প্রয়োজন হয়, তখন প্রতিটি অটোরিগ্রেসিভ ধাপে সম্পূর্ণ শর্তযুক্ত সেট পুনঃএনকোড করতে হবে। নির্দিষ্টভাবে:
১. সেট শর্তযুক্তকরণ মডেলের সীমাবদ্ধতা: নিউরাল প্রসেস (NPs), প্রাথমিক-ফিটেড নেটওয়ার্ক (PFNs) এবং অন্যান্য মডেল প্রান্তিক পূর্বাভাসে দক্ষ, কিন্তু অটোরিগ্রেসিভ স্থাপনায় প্রসঙ্গ বারবার পুনঃএনকোড করতে হয়, যা O(K(N+K)²) গণনামূলক জটিলতার দিকে পরিচালিত করে
২. খাঁটি অটোরিগ্রেসিভ মডেলের অপর্যাপ্ততা: যদিও গণনামূলকভাবে দক্ষ, তবে নমনীয় সেট শর্তযুক্তকরণ ক্ষমতার অভাব রয়েছে, যা মেটা-লার্নিং কাজে প্রয়োগ সীমিত করে
যৌথ বিতরণ পূর্বাভাস একাধিক গুরুত্বপূর্ণ প্রয়োগে অপরিহার্য:
১. TNP-D অটোরিগ্রেসিভ স্থাপনা: প্রতিটি ধাপে ক্রমবর্ধমান শর্তযুক্ত সেট পুনঃএনকোড করা প্রয়োজন २. TNP-A: প্রশিক্ষণ এবং অনুমান উভয়ই পুনরাবৃত্ত লক্ষ্য সেট পরিচালনা করতে হয়, বিশাল গণনামূলক ওভারহেড ३. TNP-ND: শুধুমাত্র বহুভিন্ন গাউসিয়ান বিতরণে সীমাবদ্ধ, প্রকাশক্ষমতা সীমিত
१. কার্যকর অটোরিগ্রেসিভ বাফার প্রক্রিয়া প্রস্তাব: সেট শর্তযুক্তকরণের প্রসঙ্গ এনকোডিং এবং ক্রমিক পূর্বাভাসকে বিচ্ছিন্ন করে, দক্ষ যৌথ নমুনা এবং সম্ভাবনা মূল্যায়ন সক্ষম করে
२. একীভূত প্রশিক্ষণ কৌশল ডিজাইন: মুখোশ মনোযোগ এবং বাফার আকার পাঠ্যক্রম শিক্ষা ব্যবহার করে, একক মডেল ন্যূনতম অতিরিক্ত খরচে দুটি অপারেশন মোড শিখতে সক্ষম করে
३. ব্যাপক প্রযোজ্যতা যাচাইকরণ: TNPs/PFNs এবং ট্যাবুলার ভিত্তি মডেলে ২০ গুণ পর্যন্ত যৌথ নমুনা ত্বরণ অর্জন করে, তুলনীয় পূর্বাভাস নির্ভুলতা বজায় রেখে
४. তাত্ত্বিক জটিলতা অপ্টিমাইজেশন: গণনামূলক জটিলতা O(K(N+K)²) থেকে O(N²+NK+K²) এ হ্রাস করে
প্রসঙ্গ সেট C = {(xₙ, yₙ)}ᴺₙ₌₁ এবং লক্ষ্য সেট T = {(xₘ, yₘ)}ᴹₘ₌₁ দেওয়া, লক্ষ্য হল পূর্বাভাস বিতরণ p_θ(y₁:ₘ|x₁:ₘ; C) শিখা, যেখানে θ মডেল পরামিতি।
१. প্রসঙ্গ এনকোডার rC: প্রসঙ্গ জোড় প্রক্রিয়া করে, দ্বিমুখী মাল্টি-হেড স্ব-মনোযোগ ব্যবহার করে, প্রতিটি স্তরে কী-মূল্য জোড়া ক্যাশ করে २. বাফার এনকোডার rB: কঠোর কার্যকর মাল্টি-হেড স্ব-মনোযোগ ব্যবহার করে বাফার উপসর্গে ३. লক্ষ্য ডিকোডার rtgt: ক্যাশ করা প্রসঙ্গ এবং দৃশ্যমান বাফার উপসর্গ জুড়ে ক্রস-মনোযোগের মাধ্যমে অনুসন্ধান করে
p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))
যেখানে bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)
চারটি মূল প্রয়োজনীয়তা বাস্তবায়ন করে:
१. সিন্থেটিক ফাংশন:
२. ইইজি ডেটা: ११,५२० ট্রায়াল, १२२ বিষয়, ७ প্রাসঙ্গিক চ্যানেল, २५६ সময় পয়েন্ট
३. মাল্টিসেন্সরি কার্যকারণ অনুমান মডেল: অডিও-ভিজ্যুয়াল স্থানীয়করণ পরীক্ষা ডেটা, १५ অংশগ্রহণকারী
४. ট্যাবুলার ডেটা: UCI ডেটাসেট (বিদ্যুৎ খরচ, গ্যাস টারবাইন নির্গমন, বাইক শেয়ারিং)
| ডেটাসেট | TNP-D-AR | TNP-A | এই পদ্ধতি(K=१६) | এই পদ্ধতি(K=१) |
|---|---|---|---|---|
| GP | २.५७ | ०.८० | २.५१ | २.५६ |
| সাঁতার কাটা | १.०५ | -०.४३ | १.०० | १.०९ |
| ইইজি-Int | ०.५१ | ०.४६ | ०.५२ | ०.५४ |
| ইইজি-For | १.०७ | -०.०४ | ०.८५ | १.२१ |
মাল্টিসেন্সরি কার্যকারণ অনুমান কাজে:
এই পদ্ধতি মডুলার উপাদান হিসাবে কাজ করে, বিদ্যমান NP/PFN আর্কিটেকচারে একীভূত করা যায়। প্রসঙ্গ সেট স্কেলেবিলিটিতে ফোকাস করা পূর্ববর্তী কাজের পরিপূরক, এই পেপার অটোরিগ্রেসিভ যৌথ নমুনা দক্ষতায় লক্ষ্য রাখে।
বেয়েসিয়ান অনুমান ফ্রেমওয়ার্ককে প্রসঙ্গ শিক্ষা কাজে রূপান্তরিত করার প্রবণতার উপর নির্মিত, ট্রান্সফর্মার-ভিত্তিক NP এবং PFN ভেরিয়েন্ট ব্যবহার করে।
TabPFN এবং TabICL এর মতো মডেলের সাথে স্বাভাবিকভাবে একীভূত হয়, দক্ষ যৌথ পূর্বাভাসের জন্য পরিপূরক মডিউল প্রদান করে।
TNP-A এর সাথে সম্পর্কিত কিন্তু মূল পার্থক্য সহ: TNP-A প্রশিক্ষণ এবং অনুমান উভয়ে লক্ষ্য পুনরাবৃত্তি ব্যবহার করে, যখন এই পদ্ধতি শুধুমাত্র সম্ভাবনা মূল্যায়নে প্রয়োজন।
१. দক্ষতা অগ্রগতি: অটোরিগ্রেসিভ ট্রান্সফর্মারের দক্ষতা সফলভাবে NP/PFN ফ্রেমওয়ার্কে প্রবর্তন করা २. কর্মক্ষমতা সংরক্ষণ: উল্লেখযোগ্য গতি বৃদ্ধির সময় পূর্বাভাস নির্ভুলতা বজায় রাখা ३. ব্যাপক প্রযোজ্যতা: একাধিক ডোমেইন এবং কাজে পদ্ধতির কার্যকারিতা যাচাই করা
१. বাফার দৈর্ঘ্য সম্প্রসারণ: K বৃদ্ধির সাথে এখনও O(K²) পদ রয়েছে, এবং বর্তমানে স্থির অবস্থান এম্বেডিং ব্যবহার করে २. দীর্ঘ বাফার গুণমান বিচ্যুতি: প্রতিটি ধাপে পুনঃএনকোডিং করা সঠিক অটোরিগ্রেসিভের তুলনায় সম্ভাব্য গুণমান হ্রাস ३. স্মৃতি দখল: প্রসঙ্গ ক্যাশ এবং বাফার অবস্থা বজায় রাখা প্রয়োজন
१. অবস্থান এনকোডিং উন্নতি: দীর্ঘ ক্রম সমর্থন করতে RoPE বা ALiBi ব্যবহার করা २. অনুমানমূলক ডিকোডিং: খসড়া-যাচাই প্রক্রিয়ার স্ব-অভিযোজিত অনুমান কৌশল ३. পরামিতি-দক্ষ সূক্ষ্ম-সুর: প্রাক-প্রশিক্ষিত মডেলে অ্যাডাপ্টার বা LoRA ব্যবহার করে বাফার কার্যকারিতা যোগ করা
१. শক্তিশালী উদ্ভাবনী: সেট শর্তযুক্তকরণ এবং অটোরিগ্রেসিভ দক্ষতার মধ্যে ট্রেড-অফ সমস্যা চতুরভাবে সমাধান করে २. দৃঢ় তত্ত্ব: স্পষ্ট জটিলতা বিশ্লেষণ এবং গাণিতিক ডেরিভেশন প্রদান করে ३. ব্যাপক পরীক্ষা: সিন্থেটিক ডেটা, বাস্তব ডেটা, একাধিক প্রয়োগ ডোমেইন কভার করে ४. প্রকৌশল অপ্টিমাইজেশন: কাস্টম CUDA কার্নেল ইত্যাদি নিম্ন-স্তরের অপ্টিমাইজেশন অন্তর্ভুক্ত করে ५. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা উৎস কোড প্রদান করবে
१. প্রযোজ্যতার পরিধি: প্রধানত মধ্যম দৈর্ঘ্যের লক্ষ্য ক্রমের জন্য উপযুক্ত, অতি-দীর্ঘ ক্রম এখনও চ্যালেঞ্জের সম্মুখীন २. তাত্ত্বিক বিশ্লেষণ: বাফার অনুমান ত্রুটির তাত্ত্বিক সীমানা বিশ্লেষণের অভাব ३. তুলনামূলক পরীক্ষা: সর্বশেষ দক্ষ মনোযোগ প্রক্রিয়া (যেমন রৈখিক মনোযোগ) এর সাথে তুলনা নেই
१. একাডেমিক মূল্য: সম্ভাব্যতামূলক মডেলের দক্ষ অনুমানের জন্য নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক মূল্য: যৌথ পূর্বাভাসের গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করে, ব্যবহারিক প্রয়োগ সম্ভব করে ३. স্কেলেবিলিটি: পদ্ধতি ভাল সাধারণত্ব রয়েছে, একাধিক ট্রান্সফর্মার ভেরিয়েন্টে প্রয়োগ করা যায়
প্রধান রেফারেন্সগুলির মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা তাত্ত্বিক উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং প্রকৌশল বাস্তবায়নে চমৎকার কর্মক্ষমতা প্রদর্শন করে। এই পদ্ধতি সম্ভাব্যতামূলক মডেলে একটি গুরুত্বপূর্ণ দক্ষতা বাধা সফলভাবে সমাধান করে, ব্যাপক প্রয়োগ সম্ভাবনা এবং একাডেমিক মূল্য সহ।