সংখ্যাসূচক সংযোজন নিয়ম খনন (Numerical Association Rule Mining, NARM) প্যারাডাইম সংখ্যাসূচক এবং বিভাগীয় উভয় বৈশিষ্ট্য একযোগে পরিচালনা করতে পারে, যা উভয় ধরনের বৈশিষ্ট্য সম্পন্ন ডেটাসেট থেকে সংযোজন সম্পর্ক আবিষ্কারের জন্য অত্যন্ত উপকারী। তবে এই প্রক্রিয়াটি সহজ নয়, কারণ এতে সম্পূর্ণ পাইপলাইন গঠনের জন্য ক্রমানুসারে সম্পাদিত একাধিক প্রক্রিয়াকরণ পদক্ষেপ রয়েছে, যেমন পূর্ব-প্রক্রিয়াকরণ, অ্যালগরিদম নির্বাচন, হাইপারপ্যারামিটার অপ্টিমাইজেশন এবং সংযোজন নিয়মের গুণমান মূল্যায়নের জন্য মেট্রিক্স সংজ্ঞায়িত করা। এই পেপারটি NiaAutoARM নামক একটি উপন্যাস স্বয়ংক্রিয় মেশিন লার্নিং পদ্ধতি প্রস্তাব করে, যা র্যান্ডম জনসংখ্যা মেটাহিউরিস্টিক অ্যালগরিদমের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে সম্পূর্ণ সংযোজন নিয়ম খনন পাইপলাইন তৈরি করে। পদ্ধতির তাত্ত্বিক উপস্থাপনা ছাড়াও, পেপারটি প্রস্তাবিত পদ্ধতির একটি ব্যাপক পরীক্ষামূলক মূল্যায়ন প্রদান করে।
সংযোজন নিয়ম খনন (ARM) হল লেনদেন ডেটাবেসে আইটেমগুলির মধ্যে সম্পর্ক আবিষ্কারের জন্য ব্যবহৃত একটি মেশিন লার্নিং পদ্ধতি। ঐতিহ্যবাহী ARM শুধুমাত্র বিভাগীয় বৈশিষ্ট্য পরিচালনার মধ্যে সীমাবদ্ধ, যখন সংখ্যাসূচক সংযোজন নিয়ম খনন (NARM) হল ARM এর একটি রূপান্তর যা সংখ্যাসূচক এবং বিভাগীয় উভয় বৈশিষ্ট্য একযোগে পরিচালনা করতে পারে, যা ঐতিহ্যবাহী ARM এর বাধা দূর করে।
NiaAML পদ্ধতির অনুপ্রেরণার উপর ভিত্তি করে, ARM পাইপলাইন নির্মাণ সমস্যাকে একটি ক্রমাগত অপ্টিমাইজেশন সমস্যা হিসাবে মডেল করা হয়েছে, জনসংখ্যা মেটাহিউরিস্টিক অ্যালগরিদম ব্যবহার করে সর্বোত্তম পাইপলাইন কনফিগারেশন স্বয়ংক্রিয়ভাবে অনুসন্ধান করা হয়।
১. প্রথমবারত্ব: ARM পাইপলাইন স্বয়ংক্রিয় অনুসন্ধানের জন্য প্রথম AutoML সমাধান প্রস্তাব করা, স্বয়ংক্রিয় অনুসন্ধানকে অপ্টিমাইজেশন সমস্যা হিসাবে উপস্থাপন করা २. পূর্ব-প্রক্রিয়াকরণ ফোকাস: ARM পূর্ব-প্রক্রিয়াকরণ পদক্ষেপে বিশেষ মনোযোগ, সাম্প্রতিক গবেষণা কাজের অভাব পূরণ করা ३. বাস্তবায়ন কাঠামো: NiaAutoARM নামক একটি Python প্যাকেজ বাস্তবায়ন, সম্পূর্ণ ব্যবহারিক সরঞ্জাম প্রদান করা ४. ব্যাপক মূল্যায়ন: একাধিক ডেটাসেটে প্রস্তাবিত পদ্ধতির কঠোর পরীক্ষামূলক মূল্যায়ন
ARM পাইপলাইন নির্মাণকে একটি ক্রমাগত অপ্টিমাইজেশন সমস্যা হিসাবে সংজ্ঞায়িত করা হয়েছে, যেখানে প্রতিটি ব্যক্তি একটি সম্ভাব্য ARM পাইপলাইন কনফিগারেশন প্রতিনিধিত্ব করে, যার মধ্যে রয়েছে:
প্রতিটি ব্যক্তি এভাবে প্রতিনিধিত্ব করা হয়:
যেখানে:
অ্যালগরিদম পুল: PSO, DE, GA, LSHADE, ILSHADE, jDE সহ ৬টি মেটাহিউরিস্টিক অ্যালগরিদম অন্তর্ভুক্ত
পূর্ব-প্রক্রিয়াকরণ পদ্ধতি:
মূল্যায়ন মেট্রিক্স: সমর্থন, আত্মবিশ্বাস, কভারেজ, প্রশস্ততা, অন্তর্ভুক্তি, বোধগম্যতা
NiaAutoARM একটি ন্যায্যতা ফিটনেস ফাংশন ব্যবহার করে:
যেখানে α এবং β বিভিন্ন ARM মেট্রিক্সের সমাধান গুণমানের উপর প্রভাব প্রতিনিধিত্ব করে।
१. দ্বি-স্তরীয় অপ্টিমাইজেশন কাঠামো: বাহ্যিক স্তরের মেটাহিউরিস্টিক অভ্যন্তরীণ স্তরের অ্যালগরিদমের আচরণ নিয়ন্ত্রণ করে, সর্বোত্তম কনফিগারেশন অনুসন্ধান করে २. স্ব-অভিযোজনশীল ওজন: ARM মেট্রিক্স ওজনের গতিশীল সমন্বয় সমর্থন করে ३. বহু-পূর্ব-প্রক্রিয়াকরণ সমন্বয়: একাধিক পূর্ব-প্রক্রিয়াকরণ পদ্ধতির সমন্বয় নির্বাচন অনুমতি দেয় ४. ক্রমাগত অপ্টিমাইজেশন মডেলিং: বিচ্ছিন্ন পাইপলাইন নির্মাণ সমস্যাকে ক্রমাগত অপ্টিমাইজেশন সমস্যায় রূপান্তরিত করে
মূল্যায়নের জন্য ১০টি UCI মেশিন লার্নিং ডেটাসেট ব্যবহার করা হয়েছে:
| ডেটাসেট | উদাহরণ সংখ্যা | বৈশিষ্ট্য সংখ্যা | বৈশিষ্ট্য প্রকার |
|---|---|---|---|
| Abalone | ৪,১৭৭ | ৯ | DN |
| Balance scale | ৬২৫ | ৫ | DN |
| Basketball | ৯৬ | ৫ | N |
| Bolts | ৪০ | ৮ | N |
| Buying | ১০০ | ৪০ | N |
| German | ১,০০০ | २० | DN |
| House | २२,७८४ | १७ | N |
| Ionosphere | ३५१ | ३५ | DN |
| Quake | २,१७८ | ४ | N |
| Wine | १७८ | १४ | N |
VARDE (Variable-length Association Rule mining using Differential Evolution) সর্বশেষ অ্যালগরিদমের সাথে পরোক্ষ তুলনা।
ARM মেট্রিক্স ওজন স্ব-অভিযোজন সক্ষম করার পরে:
একাধিক পূর্ব-প্রক্রিয়াকরণ পদ্ধতি নির্বাচনের অনুমতি দেওয়ার সময়:
Wilcoxon স্বাক্ষরিত র্যাঙ্ক পরীক্ষার ফলাফল দেখায়:
বিভিন্ন বৈশিষ্ট্য ধাপে সক্ষম করে প্রতিটি উপাদানের অবদান যাচাই করা হয়েছে: १. ভিত্তি কনফিগারেশন (একক পূর্ব-প্রক্রিয়াকরণ, কোনো ওজন স্ব-অভিযোজন নেই) २. ওজন স্ব-অভিযোজন সক্ষম করা ३. বহু-পূর্ব-প্রক্রিয়াকরণ পদ্ধতি নির্বাচন সক্ষম করা
গড় সম্পাদন সময় १५,०००-४०,००० সেকেন্ডের পরিসরে, যদিও গণনামূলক জটিলতা বেশি, তবে স্বয়ংক্রিয়করণ দ্বারা আনা সুবিধা বিবেচনা করে এটি একটি গ্রহণযোগ্য বিনিময়।
NiaAutoARM হল ARM পাইপলাইন স্বয়ংক্রিয় নির্মাণের জন্য প্রথম AutoML পদ্ধতি, যা এই ক্ষেত্রের শূন্যতা পূরণ করে।
१. NiaAutoARM কার্যকরভাবে উচ্চ মানের ARM পাইপলাইন স্বয়ংক্রিয়ভাবে নির্মাণ করতে পারে २. PSO অভ্যন্তরীণ অ্যালগরিদম হিসাবে সেরা পারফরম্যান্স প্রদর্শন করে, Min-Max স্বাভাবিকীকরণ সবচেয়ে পছন্দের পূর্ব-প্রক্রিয়াকরণ পদ্ধতি ३. সমর্থন এবং আত্মবিশ্বাস ARM এ মূল মেট্রিক্স ४. বিদ্যমান অত্যাধুনিক পদ্ধতির তুলনায়, এই ফ্রেমওয়ার্ক উচ্চতর কর্মক্ষমতা প্রদর্শন করে
१. গণনামূলক জটিলতা: পুনরাবৃত্তিমূলক অপ্টিমাইজেশন এবং একাধিক পূর্ব-প্রক্রিয়াকরণ সমন্বয় অন্বেষণের কারণে গণনামূলক খরচ বেশি २. মূল্যায়ন মেট্রিক্স: বর্তমানে প্রধানত সমর্থন এবং আত্মবিশ্বাসের সমন্বয়ের উপর ভিত্তি করে, সমস্ত প্রয়োগের জন্য উপযুক্ত নাও হতে পারে ३. ডেটাসেট স্কেল: পরীক্ষা প্রধানত মধ্য এবং ছোট স্কেলের ডেটাসেটে পরিচালিত হয়েছে, বড় স্কেলের ডেটাসেটের পারফরম্যান্স যাচাই করা বাকি রয়েছে ४. অ্যালগরিদম পুল সীমাবদ্ধতা: অভ্যন্তরীণ অ্যালগরিদম পুল তুলনামূলকভাবে সীমিত, অন্যান্য কার্যকর অ্যালগরিদম মিস করতে পারে
१. অ্যালগরিদম সম্প্রসারণ: স্ব-অভিযোজনশীল পরামিতি সমন্বয় সহ আরও প্রাকৃতিক অনুপ্রাণিত অ্যালগরিদম একীভূত করা २. পূর্ব-প্রক্রিয়াকরণ বৃদ্ধি: আরও উন্নত পূর্ব-প্রক্রিয়াকরণ কৌশল এবং ডোমেইন-নির্দিষ্ট মেট্রিক্স অন্তর্ভুক্ত করা ३. সমান্তরাল গণনা: গণনামূলক জটিলতা হ্রাস করতে সমান্তরাল এবং বিতরণকৃত গণনা কৌশল অন্বেষণ করা ४. বহু-উদ্দেশ্য অপ্টিমাইজেশন: ফ্রেমওয়ার্ক সম্প্রসারণ বহু-উদ্দেশ্য অপ্টিমাইজেশন সমর্থন করতে, বিরোধপূর্ণ মেট্রিক্সের মধ্যে বাণিজ্য-বন্ধ অন্বেষণ করা
१. শক্তিশালী উদ্ভাবনী: প্রথমবার AutoML কে ARM ক্ষেত্রে প্রয়োগ করা, গুরুত্বপূর্ণ শূন্যতা পূরণ করা २. সম্পূর্ণ পদ্ধতি: পূর্ব-প্রক্রিয়াকরণ থেকে মূল্যায়ন পর্যন্ত সম্পূর্ণ পাইপলাইন অপ্টিমাইজেশন অন্তর্ভুক্ত করা ३. পর্যাপ্ত পরীক্ষা: একাধিক ডেটাসেটে ব্যাপক পরীক্ষামূলক যাচাইকরণ পরিচালিত হয়েছে ४. উচ্চ ব্যবহারিক মূল্য: সম্পূর্ণ Python বাস্তবায়ন প্রদান করা, ব্যবহারিক প্রয়োগের জন্য সুবিধাজনক ५. দৃঢ় তাত্ত্বিক ভিত্তি: পরিপক্ক মেটাহিউরিস্টিক অপ্টিমাইজেশন তত্ত্বের উপর ভিত্তি করে
१. গণনামূলক দক্ষতা: দ্বি-স্তরীয় অপ্টিমাইজেশন কাঠামো উচ্চ গণনামূলক খরচের দিকে পরিচালিত করে २. স্কেলেবিলিটি: বড় স্কেলের ডেটাসেটে কর্মক্ষমতা পর্যাপ্তভাবে যাচাই করা হয়নি ३. তুলনা সীমাবদ্ধতা: VARDE এর সাথে তুলনা পরোক্ষ, আরও বেশি ভিত্তি পদ্ধতির তুলনার অভাব ४. প্যারামিটার সংবেদনশীলতা: বাহ্যিক অ্যালগরিদম প্যারামিটার সেটিংসের সংবেদনশীলতা বিশ্লেষণ অপর্যাপ্ত
१. একাডেমিক অবদান: AutoARM এর একটি নতুন গবেষণা দিক খোলা २. ব্যবহারিক মূল্য: ARM প্রয়োগের প্রযুক্তিগত বাধা হ্রাস করা, পদ্ধতি জনপ্রিয়করণ প্রচার করা ३. পুনরুৎপাদনযোগ্যতা: ওপেন সোর্স বাস্তবায়ন প্রদান করা, পরবর্তী গবেষণা সহজতর করা ४. সম্প্রসারণ সম্ভাবনা: সম্পর্কিত ক্ষেত্রের স্বয়ংক্রিয়করণ গবেষণার জন্য রেফারেন্স ফ্রেমওয়ার্ক প্রদান করা
१. মধ্য এবং ছোট স্কেলের ডেটাসেট: বিশেষ করে বৈশিষ্ট্য সংখ্যা এবং উদাহরণ সংখ্যা মধ্যম ডেটাসেটের জন্য উপযুক্ত २. মিশ্র বৈশিষ্ট্য ডেটা: সংখ্যাসূচক এবং বিভাগীয় উভয় বৈশিষ্ট্য সম্পন্ন ডেটাসেট ३. অ-বিশেষজ্ঞ ব্যবহারকারী: ARM বিশেষজ্ঞ জ্ঞান নেই কিন্তু সংযোজন বিশ্লেষণ পরিচালনা করতে প্রয়োজনীয় ব্যবহারকারী ४. দ্রুত প্রোটোটাইপিং: ARM পাইপলাইন দ্রুত নির্মাণ এবং পরীক্ষার প্রয়োজনীয় গবেষণা পরিস্থিতি
পেপারটি ২৫টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার, যা AutoML এবং ARM এর ক্রস-ডোমেইনে গুরুত্বপূর্ণ অবদান রেখেছে। যদিও গণনামূলক দক্ষতা এবং বড় স্কেলের ডেটা প্রক্রিয়াকরণে উন্নতির অবকাশ রয়েছে, তবে এর উদ্ভাবনী, সম্পূর্ণ এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ মাইলফলক কাজ করে তোলে।