ডেটা অগমেন্টেশন হল বিদ্যমান ডেটা নমুনা পরিচালনা করে উচ্চমানের কৃত্রিম ডেটা তৈরি করার একটি সিরিজ কৌশল। ডেটা অগমেন্টেশন কৌশল ব্যবহার করে, এআই মডেলগুলি বিরল বা অসম ডেটাসেট জড়িত কাজগুলিতে উল্লেখযোগ্যভাবে প্রযোজ্যতা উন্নত করতে পারে, যা এআই মডেলের সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করে। বিদ্যমান সাহিত্য পর্যালোচনা শুধুমাত্র নির্দিষ্ট ধরনের একক মোডেলিটি ডেটার উপর দৃষ্টি নিবদ্ধ করে এবং মোডেলিটি-নির্দিষ্ট এবং অপারেশন-কেন্দ্রিক দৃষ্টিকোণ থেকে এই পদ্ধতিগুলিকে শ্রেণীবদ্ধ করে, যা একাধিক মোডেলিটি জুড়ে ডেটা অগমেন্টেশন পদ্ধতির সামঞ্জস্যপূর্ণ সারসংক্ষেপের অভাব রয়েছে এবং বিদ্যমান ডেটা নমুনাগুলি কীভাবে ডেটা অগমেন্টেশন প্রক্রিয়ায় সেবা করে তা বোঝার সীমাবদ্ধতা রয়েছে। এই ব্যবধান পূরণের জন্য, এই সমীক্ষাটি একটি আরও অনুপ্রেরণামূলক শ্রেণীবিভাগ প্রস্তাব করে, যা উদাহরণ-মধ্যস্থ এবং উদাহরণ-অভ্যন্তরীণ অন্তর্নিহিত সম্পর্ক কীভাবে ব্যবহার করতে হয় তা অধ্যয়ন করে, বিভিন্ন সাধারণ ডেটা মোডেলিটির ডেটা অগমেন্টেশন কৌশলগুলি কভার করে। উপরন্তু, এটি পাঁচটি ডেটা মোডেলিটির ডেটা অগমেন্টেশন পদ্ধতিগুলিকে একটি একীভূত আবেগপ্রবণ পদ্ধতির মাধ্যমে শ্রেণীবদ্ধ করে।
এই গবেষণা বিদ্যমান ডেটা অগমেন্টেশন সমীক্ষা সাহিত্যের বেশ কয়েকটি মূল সমস্যা সমাধানের লক্ষ্য রাখে:
ডেটা অগমেন্টেশন এআই ক্ষেত্রে গুরুত্বপূর্ণ:
বিদ্যমান ১৭টি সম্পর্কিত সমীক্ষার বিশ্লেষণের মাধ্যমে, লেখক আবিষ্কার করেছেন:
মিক্সআপ এবং অন্যান্য পদ্ধতির বিভিন্ন মোডেলিটি জুড়ে সফল প্রয়োগের উপর ভিত্তি করে, লেখক বিশ্বাস করেন যে ডেটা অগমেন্টেশনের সারমর্ম প্রক্রিয়া বোঝার জন্য একটি মোডেলিটি-অজ্ঞেয়বাদী একীভূত কাঠামোর প্রয়োজন।
১. মোডেলিটি-অজ্ঞেয়বাদী ডেটা-কেন্দ্রিক শ্রেণীবিভাগ প্রস্তাব: প্রথমবারের মতো ডেটা-কেন্দ্রিক দৃষ্টিভঙ্গি থেকে একটি একীভূত শ্রেণীবিভাগ কাঠামো প্রস্তাব করা হয়েছে, যা সমস্ত ডেটা মোডেলিটিতে প্রযোজ্য ২. প্রথম পাঁচ-মোডেলিটি ব্যাপক সমীক্ষা: চিত্র, পাঠ্য, গ্রাফ, টেবিল এবং সময় সিরিজ ডেটার ডেটা অগমেন্টেশন কৌশল কভার করে ३. তথ্য ব্যবহার প্রক্রিয়া বিশ্লেষণ: বিভিন্ন মোডেলিটিতে তথ্যের সামঞ্জস্যপূর্ণ প্রতিনিধিত্ব এবং অগমেন্টেশন ব্যবহারের পদ্ধতি গভীরভাবে বিশ্লেষণ করা হয়েছে ४. সর্বশেষ সাহিত্য সংগঠন: সর্বশেষ ডেটা অগমেন্টেশন গবেষণা সংগ্রহ এবং শ্রেণীবদ্ধ করা হয়েছে, ভবিষ্যত উন্নয়ন দিকনির্দেশনা আলোচনা করা হয়েছে
ডেটা অগমেন্টেশন একটি ফাংশন ম্যাপিং প্রক্রিয়া হিসাবে আনুষ্ঠানিক করা হয়:
f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}
যেখানে D_L মন্তব্যকৃত ডেটাসেট, D̃_L অগমেন্টেড ডেটাসেট।
লেখক দুটি গবেষণা প্রশ্নের উপর ভিত্তি করে একটি দ্বি-স্তরীয় শ্রেণীবিভাগ পদ্ধতি প্রস্তাব করেন:
RQ1: প্রতিটি নতুন নমুনা তৈরি করতে কতটি নমুনা ব্যবহার করা হয়?
RQ2: নতুন ডেটা তৈরি করতে কোন তথ্য ব্যবহার করা হয়? প্রতিটি স্তরের জন্য, ব্যবহৃত তথ্যের ধরন আরও বিশ্লেষণ করা হয়:
গাণিতিক প্রতিনিধিত্ব: x̃ = x_i + ε(x_i), ỹ = y_i
উপ-বিভাগ:
গাণিতিক প্রতিনিধিত্ব: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j
উপ-বিভাগ:
গাণিতিক প্রতিনিধিত্ব: x̃ ~ P(X), ỹ ~ P(y|x̃)
উপ-বিভাগ:
१. একীভূত দৃষ্টিভঙ্গি: প্রথমবারের মতো তথ্য উৎস কোণ থেকে বিভিন্ন মোডেলিটির অগমেন্টেশন পদ্ধতি একীভূতভাবে বিশ্লেষণ করা হয়েছে २. ক্রস-মোডেলিটি সামঞ্জস্য: বিভিন্ন মোডেলিটি জুড়ে সাধারণ প্যাটার্ন চিহ্নিত করা (যেমন প্রতিটি মোডেলিটিতে মিক্সআপের প্রয়োগ) ३. সিস্টেমেটিক শ্রেণীবিভাগ: স্তরযুক্ত, আবেগপ্রবণ শ্রেণীবিভাগ ব্যবস্থা প্রতিষ্ঠা করা ४. ব্যবহারিক নির্দেশনা: উপযুক্ত অগমেন্টেশন পদ্ধতি নির্বাচনের জন্য তাত্ত্বিক নির্দেশনা প্রদান করা
পেপারটি একাধিক মাত্রা থেকে ডেটা অগমেন্টেশন পদ্ধতি মূল্যায়ন করে:
পেপারটি টেবিল II এর মাধ্যমে বিস্তারিত পদ্ধতি তুলনা প্রদান করে, যার মধ্যে রয়েছে:
লেখক ১৭টি সম্পর্কিত সমীক্ষা সিস্টেমেটিকভাবে বিশ্লেষণ করেছেন, আবিষ্কার করেছেন:
বিদ্যমান কাজের তুলনায়, এই পেপারের নিম্নলিখিত সুবিধা রয়েছে: १. সম্পূর্ণ কভারেজ: প্রথমবারের মতো পাঁচটি প্রধান ডেটা মোডেলিটি কভার করে २. একীভূত কাঠামো: মোডেলিটি-অজ্ঞেয়বাদী শ্রেণীবিভাগ ব্যবস্থা প্রদান করে ३. গভীর বিশ্লেষণ: তথ্য ব্যবহার কোণ থেকে প্রক্রিয়া গভীরভাবে বোঝে ४. ব্যবহারিক নির্দেশনা: পদ্ধতি নির্বাচনের জন্য নির্দিষ্ট পরামর্শ প্রদান করে
१. একীভূততা বিদ্যমান: বিভিন্ন মোডেলিটির ডেটা অগমেন্টেশন পদ্ধতি তথ্য ব্যবহার পদ্ধতিতে অন্তর্নিহিত সামঞ্জস্য রয়েছে २. স্তরযুক্ত কাঠামো স্পষ্ট: নমুনা সংখ্যা এবং তথ্য ধরনের উপর ভিত্তি করে দ্বি-স্তরীয় শ্রেণীবিভাগ পদ্ধতি ভাল ব্যাখ্যামূলক ক্ষমতা রয়েছে ३. উন্নয়ন প্রবণতা স্পষ্ট: জেনারেটিভ, বুদ্ধিমান দিকে উন্নয়ন ४. প্রয়োগ নির্দেশনা মূল্য: বাস্তব প্রয়োগের জন্য পদ্ধতি নির্বাচন কাঠামো প্রদান করে
१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: প্রধানত পদ্ধতি সারসংক্ষেপ, গভীর তাত্ত্বিক বিশ্লেষণের অভাব २. কর্মক্ষমতা তুলনা সীমিত: বিভিন্ন পদ্ধতির পরিমাণগত কর্মক্ষমতা তুলনা প্রদান করা হয়নি ३. নতুন প্রযুক্তি কভারেজ: সর্বশেষ বড় মডেল অগমেন্টেশন প্রযুক্তির কভারেজ সম্পূর্ণ নাও হতে পারে ४. ব্যবহারিক প্রয়োগ নির্দেশনা: নির্বাচন পরামর্শ প্রদান করা হয়েছে, কিন্তু নির্দিষ্ট প্রয়োগ কেস অভাব রয়েছে
१. ক্রস-মোডেলিটি স্থানান্তর: বিভিন্ন মোডেলিটি জুড়ে অগমেন্টেশন পদ্ধতির স্থানান্তর নিয়ম অন্বেষণ করা २. বুদ্ধিমান অগমেন্টেশন: শক্তিশালী শিক্ষা এবং বড় মডেল ব্যবহার করে স্ব-অভিযোজিত অগমেন্টেশন বাস্তবায়ন করা ३. তাত্ত্বিক ভিত্তি: ডেটা অগমেন্টেশনের তাত্ত্বিক বিশ্লেষণ কাঠামো প্রতিষ্ঠা করা ४. মূল্যায়ন ব্যবস্থা: অগমেন্টেশন প্রভাব মূল্যায়নের জন্য আরও নিখুঁত মেট্রিক্স বিকাশ করা ५. নতুন মোডেলিটি: অডিও, ভিডিও ইত্যাদি নতুন ডেটা মোডেলিটিতে সম্প্রসারণ করা
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো ক্রস-মোডেলিটি একীভূত শ্রেণীবিভাগ কাঠামো প্রস্তাব করা, দৃষ্টিভঙ্গি উদ্ভাবনী २. ভাল সিস্টেমেটিকতা: বিস্তৃত কভারেজ, স্পষ্ট শ্রেণীবিভাগ, কঠোর যুক্তি ३. উচ্চ ব্যবহারিক মূল্য: গবেষকদের এবং অনুশীলনকারীদের জন্য ভাল নির্দেশনা প্রদান করে ४. সমৃদ্ধ সাহিত্য: বৃহৎ পরিমাণে সর্বশেষ গবেষণা সংগ্রহ করা, তথ্য ব্যাপক ५. স্পষ্ট লেখা: যুক্তিসঙ্গত কাঠামো, নির্ভুল অভিব্যক্তি, বোঝা সহজ
१. পরিমাণগত বিশ্লেষণের অভাব: প্রধানত গুণগত বর্ণনা, কর্মক্ষমতা ডেটা সমর্থন অভাব २. সীমিত তাত্ত্বিক গভীরতা: আরও পদ্ধতি সারসংক্ষেপ, তাত্ত্বিক উদ্ভাবন তুলনামূলকভাবে অপর্যাপ্ত ३. পরীক্ষামূলক যাচাইকরণ অনুপস্থিত: শ্রেণীবিভাগ কাঠামোর কার্যকারিতা পরীক্ষার মাধ্যমে যাচাই করা হয়নি ४. নতুন প্রযুক্তি বিলম্ব: २०२४-२०२५ সালের সর্বশেষ প্রযুক্তির কভারেজ সময়োপযোগী নাও হতে পারে
१. একাডেমিক মূল্য: ডেটা অগমেন্টেশন ক্ষেত্রের জন্য গুরুত্বপূর্ণ তাত্ত্বিক কাঠামো প্রদান করে २. ব্যবহারিক মূল্য: গবেষকদের দ্রুত সম্পূর্ণ ডেটা অগমেন্টেশন বুঝতে এবং উপযুক্ত পদ্ধতি নির্বাচন করতে সাহায্য করে ३. নির্দেশনামূলক ভূমিকা: ক্রস-মোডেলিটি ডেটা অগমেন্টেশন পদ্ধতি উন্নয়ন প্রচার করতে পারে ४. শিক্ষামূলক মূল্য: এই ক্ষেত্রের প্রবেশ এবং রেফারেন্স উপাদান হিসাবে উপযুক্ত
१. গবেষণা প্রবেশ: নতুনদের জন্য ডেটা অগমেন্টেশন সম্পূর্ণ দৃশ্য দ্রুত বুঝতে উপযুক্ত २. পদ্ধতি নির্বাচন: বাস্তব প্রকল্পের জন্য পদ্ধতি নির্বাচন নির্দেশনা প্রদান করে ३. ক্রস-মোডেলিটি গবেষণা: ক্রস-মোডেলিটি পদ্ধতি স্থানান্তরের জন্য তাত্ত্বিক ভিত্তি প্রদান করে ४. শিক্ষা রেফারেন্স: সম্পর্কিত কোর্সের শিক্ষা উপাদান হিসাবে উপযুক্ত
পেপারটি ২४४টি সংদর্ভ উদ্ধৃত করেছে, যা ডেটা অগমেন্টেশন ক্ষেত্রের প্রধান কাজ কভার করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের সমীক্ষা পেপার, যা প্রথমবারের মতো ক্রস-মোডেলিটি একীভূত ডেটা অগমেন্টেশন শ্রেণীবিভাগ কাঠামো প্রস্তাব করে, যা গুরুত্বপূর্ণ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। যদিও তাত্ত্বিক গভীরতা এবং পরীক্ষামূলক যাচাইকরণ দিক থেকে উন্নতির অবকাশ রয়েছে, তবে এর উদ্ভাবনী দৃষ্টিভঙ্গি এবং সিস্টেমেটিক সারসংক্ষেপ এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।