এই পত্রটি বক্তৃতা আবেগ স্বীকৃতিতে আবেগের অস্পষ্টতার কারণে বৈশিষ্ট্য নিষ্কাশনের অসুবিধার সমস্যা মোকাবেলা করে। এটি সফটম্যাক্স ক্রস-এন্ট্রপি ক্ষতি এবং কেন্দ্র ক্ষতির সমন্বয় করে পরিবর্তনশীল দৈর্ঘ্যের বর্ণালীচিত্র থেকে বৈষম্যমূলক বৈশিষ্ট্য শিখার একটি নতুন পদ্ধতি প্রস্তাব করে। সফটম্যাক্স ক্রস-এন্ট্রপি ক্ষতি বিভিন্ন আবেগ শ্রেণীর বৈশিষ্ট্যগুলিকে বিচ্ছেদ্য করে তোলে, যখন কেন্দ্র ক্ষতি একই আবেগ শ্রেণীর বৈশিষ্ট্যগুলিকে কার্যকরভাবে তাদের কেন্দ্রের দিকে টানে। পরীক্ষামূলক ফলাফল দেখায় যে কেন্দ্র ক্ষতি প্রবর্তনের পরে, মেল বর্ণালীচিত্র ইনপুটে অওজনযুক্ত নির্ভুলতা এবং ওজনযুক্ত নির্ভুলতা উভয়ই ৩% এর বেশি বৃদ্ধি পায়, স্বল্পমেয়াদী ফুরিয়ার রূপান্তর (STFT) বর্ণালীচিত্র ইনপুটে ৪% এর বেশি বৃদ্ধি পায়।
বক্তৃতা আবেগ স্বীকৃতি (SER) প্রাকৃতিক মানব-কম্পিউটার মিথস্ক্রিয়ার একটি মূল প্রযুক্তি, যা বক্তৃতা তরঙ্গ থেকে বৈশিষ্ট্য নিষ্কাশন এবং সেগুলিকে সংশ্লিষ্ট আবেগ শ্রেণীতে শ্রেণীবদ্ধ করার প্রয়োজন। তবে আবেগের প্রাকৃতিক অস্পষ্টতা কার্যকর বৈশিষ্ট্য নিষ্কাশন করা কঠিন করে তোলে।
একটি প্রান্ত-থেকে-প্রান্ত পদ্ধতি প্রস্তাব করা যা যৌথ তত্ত্বাবধান ক্ষতি ফাংশন (সফটম্যাক্স ক্রস-এন্ট্রপি ক্ষতি + কেন্দ্র ক্ষতি) এর মাধ্যমে বৈষম্যমূলক বৈশিষ্ট্য শিখে, দুই-পদক্ষেপ কৌশলের অসামঞ্জস্যতা সমস্যা এড়ায়।
১. একটি নতুন যৌথ ক্ষতি ফাংশন পদ্ধতি প্রস্তাব করা: সফটম্যাক্স ক্রস-এন্ট্রপি ক্ষতি এবং কেন্দ্র ক্ষতি একত্রিত করে পরিবর্তনশীল দৈর্ঘ্যের বর্ণালীচিত্র থেকে বৈষম্যমূলক বৈশিষ্ট্য শিখতে २. প্রান্ত-থেকে-প্রান্ত বক্তৃতা আবেগ স্বীকৃতি বাস্তবায়ন: বিদ্যমান পদ্ধতির দুই-পদক্ষেপ কৌশল সমস্যা এড়ায়, নমুনা জোড়া বা ত্রিপক্ষীয় নির্মাণের প্রয়োজন নেই ३. IEMOCAP ডেটাসেটে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: মেল বর্ণালীচিত্র ইনপুটে ৩% এর বেশি উন্নতি, STFT বর্ণালীচিত্র ইনপুটে ৪% এর বেশি উন্নতি ४. বিস্তারিত ভিজ্যুয়ালাইজেশন বিশ্লেষণ প্রদান: PCA এম্বেডিং এর মাধ্যমে কেন্দ্র ক্ষতির বৈশিষ্ট্য বৈষম্যমূলকতা বৃদ্ধির প্রভাব প্রদর্শন করা
ইনপুট: পরিবর্তনশীল দৈর্ঘ্যের বর্ণালীচিত্র (LT × LF, যেখানে LT সময় মাত্রা, LF ফ্রিকোয়েন্সি মাত্রা) আউটপুট: আবেগ শ্রেণী লেবেল (নিরপেক্ষ, রাগী, সুখী, দুঃখী) লক্ষ্য: ছোট শ্রেণী-অভ্যন্তরীণ বৈচিত্র্য এবং বড় শ্রেণী-মধ্যবর্তী বৈচিত্র্য সহ বৈষম্যমূলক বৈশিষ্ট্য শিখা
মডেলে নিম্নলিখিত উপাদান রয়েছে:
१. CNN স্তর: বর্ণালীচিত্রের স্থানিক তথ্য নিষ্কাশন করে
२. দ্বিমুখী RNN স্তর (Bi-RNN):
३. সম্পূর্ণভাবে সংযুক্ত স্তর:
L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))
যেখানে ω_j শ্রেণী ওজন, শ্রেণী ভারসাম্যহীনতা সমস্যা মোকাবেলার জন্য ব্যবহৃত।
L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²
যেখানে c_j j-তম শ্রেণীর বৈশ্বিক কেন্দ্র, নিম্নলিখিত উপায়ে আপডেট করা হয়:
c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t (যখন মিনি-ব্যাচে j-তম শ্রেণী নমুনা থাকে)
c_j^(t+1) = c_j^t (যখন মিনি-ব্যাচে j-তম শ্রেণী নমুনা নেই)
L = L_s + λL_c
যেখানে λ দুটি ক্ষতি ভারসাম্য করার জন্য হাইপারপ্যারামিটার।
१. প্রান্ত-থেকে-প্রান্ত শিক্ষা: ঐতিহ্যবাহী বৈষম্যমূলক শিক্ষা পদ্ধতির দুই-পদক্ষেপ কৌশল সমস্যা এড়ায় २. প্রাকৃতিক একীকরণ: কেন্দ্র ক্ষতি সাধারণ SER মডেলে প্রাকৃতিকভাবে একীভূত করা যায় ३. নমুনা জোড়ার প্রয়োজন নেই: নমুনা জোড়া বা ত্রিপক্ষীয় নির্মাণের প্রয়োজন নেই, প্রশিক্ষণ প্রক্রিয়া সরল করে ४. শ্রেণী ভারসাম্য পরিচালনা: ওজনযুক্ত ক্ষতি ফাংশনের মাধ্যমে ডেটা ভারসাম্যহীনতা সমস্যা কার্যকরভাবে পরিচালনা করে
IEMOCAP ডেটাসেট:
PCA মাত্রা হ্রাসের মাধ্যমে ভিজ্যুয়ালাইজেশন দেখায়:
কেন্দ্র ক্ষতি প্রবর্তনের পরে, প্রতিটি আবেগ শ্রেণীর স্বীকৃতি নির্ভুলতা বিভিন্ন ডিগ্রিতে উন্নত হয়:
१. কেন্দ্র ক্ষতি শ্রেণী-অভ্যন্তরীণ বৈচিত্র্য কার্যকরভাবে হ্রাস করতে পারে এবং বৈশিষ্ট্য বৈষম্যমূলকতা উন্নত করতে পারে २. যৌথ ক্ষতি ফাংশন দুটি ধরনের বর্ণালীচিত্র ইনপুটে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে ३. এই পদ্ধতি বিদ্যমান SER মডেলে প্রাকৃতিকভাবে একীভূত করা যায়, অতিরিক্ত শ্রেণীবিভাগকারীর প্রয়োজন নেই
१. প্রধানত শ্রেণী-অভ্যন্তরীণ বৈচিত্র্য হ্রাসে মনোনিবেশ করে, শ্রেণী-মধ্যবর্তী বৈচিত্র্য বৃদ্ধির অন্বেষণ সীমিত २. শুধুমাত্র IEMOCAP ডেটাসেটে যাচাই করা হয়েছে, সাধারণীকরণ ক্ষমতা আরও যাচাইয়ের প্রয়োজন ३. অত্যন্ত ভারসাম্যহীন ডেটাসেটের জন্য, ওজনযুক্ত কৌশল আরও অপ্টিমাইজেশনের প্রয়োজন হতে পারে
লেখকরা আরও ক্ষতি ফাংশন ডিজাইন অন্বেষণ করার প্রস্তাব দেন, বিশেষত বৈশিষ্ট্য শ্রেণী-মধ্যবর্তী বৈচিত্র্য বৃদ্ধির পদ্ধতি, SER কর্মক্ষমতা আরও উন্নত করতে।
१. পদ্ধতি উদ্ভাবন শক্তিশালী: মুখ স্বীকৃতিতে কেন্দ্র ক্ষতি সফলভাবে বক্তৃতা আবেগ স্বীকৃতি ক্ষেত্রে স্থানান্তরিত করা হয়েছে २. পরীক্ষামূলক ডিজাইন কঠোর: হাইপারপ্যারামিটার সংবেদনশীলতা বিশ্লেষণ, ভিজ্যুয়ালাইজেশন যাচাইকরণ এবং বিস্তারিত ablation পরীক্ষা অন্তর্ভুক্ত করে ३. ফলাফল প্রভাবশালী: দুটি বিভিন্ন বর্ণালীচিত্র ইনপুটে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন করে ४. লেখা স্পষ্ট: প্রযুক্তিগত বিবরণ বিস্তারিত, গাণিতিক সূত্র সঠিকভাবে প্রকাশিত
१. ডেটাসেট একক: শুধুমাত্র IEMOCAP ডেটাসেটে যাচাই করা হয়েছে, ক্রস-ডেটাসেট সাধারণীকরণ যাচাইকরণের অভাব २. তুলনা পদ্ধতি সীমিত: প্রধানত নিজস্ব ভিত্তির সাথে তুলনা করে, অন্যান্য SOTA পদ্ধতির সাথে বিস্তারিত তুলনার অভাব ३. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কেন কেন্দ্র ক্ষতি SER কাজে কার্যকর তা সম্পর্কে গভীর তাত্ত্বিক বিশ্লেষণের অভাব ४. গণনামূলক জটিলতা বিশ্লেষণ অনুপস্থিত: কেন্দ্র ক্ষতি প্রবর্তনের প্রশিক্ষণ এবং অনুমান দক্ষতায় প্রভাব আলোচনা করা হয়নি
१. প্রযুক্তিগত অবদান: বক্তৃতা আবেগ স্বীকৃতির জন্য একটি সহজ এবং কার্যকর বৈশিষ্ট্য শিক্ষা পদ্ধতি প্রদান করে २. ব্যবহারিক মূল্য: পদ্ধতি বাস্তবায়ন এবং একীকরণ সহজ, ভাল ব্যবহারিকতা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: প্রযুক্তিগত বিবরণ যথেষ্ট বিস্তৃত, পুনরুৎপাদন সহজ করে
१. বর্ণালীচিত্র-ভিত্তিক বক্তৃতা আবেগ স্বীকৃতি কাজের বিভিন্ন ধরনের জন্য প্রযোজ্য २. বিশেষত শ্রেণী ভারসাম্যহীন আবেগ ডেটাসেট পরিচালনার জন্য উপযুক্ত ३. বিদ্যমান SER সিস্টেমের কর্মক্ষমতা উন্নতি মডিউল হিসাবে কাজ করতে পারে
পত্রটি ১९টি সম্পর্কিত তথ্যসূত্র উদ্ধৃত করে, যা বক্তৃতা আবেগ স্বীকৃতির ঐতিহ্যবাহী পদ্ধতি, গভীর শিক্ষা পদ্ধতি এবং বৈষম্যমূলক বৈশিষ্ট্য শিক্ষা সহ মূল ক্ষেত্রগুলি অন্তর্ভুক্ত করে, গবেষণার জন্য পর্যাপ্ত তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত তুলনা প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগতভাবে দৃঢ় এবং পরীক্ষামূলকভাবে সম্পূর্ণ পত্র, যা সফলভাবে কেন্দ্র ক্ষতি বক্তৃতা আবেগ স্বীকৃতি ক্ষেত্রে প্রবর্তন করে এবং উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। যদিও তাত্ত্বিক বিশ্লেষণ এবং ক্রস-ডেটাসেট যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর সহজ এবং কার্যকর পদ্ধতি এবং সামঞ্জস্যপূর্ণ পরীক্ষামূলক ফলাফল এটিকে ভাল একাডেমিক মূল্য এবং ব্যবহারিক মূল্য প্রদান করে।