2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

পারস্পরিক তথ্য নিয়মিতকৃত জেনারেটিভ মডেলের সাথে বক্তৃতা আবেগ স্বীকৃতি উন্নত করা

মৌলিক তথ্য

পেপার আইডি: 2510.10078
শিরোনাম: পারস্পরিক তথ্য নিয়মিতকৃত জেনারেটিভ মডেলের সাথে বক্তৃতা আবেগ স্বীকৃতি উন্নত করা
লেখক: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
শ্রেণীবিভাগ: cs.SD (সাউন্ড), cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ (Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021 ফরম্যাট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10078

সারসংক্ষেপ

যদিও গভীর শিক্ষার পদ্ধতি বক্তৃতা আবেগ স্বীকৃতি (SER) গবেষণায় অগ্রগতি এনেছে, তবুও এই ক্ষেত্রটি উচ্চ মানের টীকাযুক্ত প্রশিক্ষণ ডেটার অভাবের সমস্যার সম্মুখীন। এই সমস্যা প্রশমিত করতে, গবেষকরা ডেটা বর্ধন পদ্ধতি পরীক্ষা করেছেন, যেখানে জেনারেটিভ মডেলগুলি সম্প্রতি চমৎকার কর্মক্ষমতা প্রদর্শন করেছে। এই পেপারটি ক্রস-মোডাল তথ্য স্থানান্তর এবং পারস্পরিক তথ্য নিয়মিতকরণের উপর ভিত্তি করে একটি ডেটা বর্ধন কাঠামো প্রস্তাব করে। পারস্পরিক তথ্য পরিমাপ উৎপন্ন ডেটার গুণমানের একটি সূচক হিসাবে কাজ করতে পারে। অধিকন্তু, পারস্পরিক তথ্য মোডাল মধ্যে নির্ভরতা নিশ্চিত করার বৈশিষ্ট্যের কারণে, এই কাঠামোটি বহু-মোডাল ইনপুটে প্রসারিত হয়। তিনটি মানদণ্ড ডেটাসেট (IEMOCAP, MSP-IMPROV এবং MSP-Podcast) এ পরীক্ষা আবেগ পূর্বাভাস কর্মক্ষমতায় বিদ্যমান কাজকে অতিক্রম করে, এবং এই কাঠামোটি ক্রস-মোডাল তথ্য ছাড়াই নতুন ইনপুট বৈশিষ্ট্য উৎপন্ন করতে সক্ষম তা আবিষ্কার করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বক্তৃতা আবেগ স্বীকৃতি ক্ষেত্রের মুখোমুখি প্রধান চ্যালেঞ্জ হল উচ্চ মানের টীকাযুক্ত ডেটার বিরলতা। কম্পিউটার দৃষ্টিভঙ্গি ক্ষেত্রের বড় আকারের ডেটাসেটের (যেমন MNIST) তুলনায়, SER ডেটাসেটগুলি আকারে ছোট, যা গভীর শিক্ষার মডেলের সাধারণীকরণ ক্ষমতাকে গুরুতরভাবে প্রভাবিত করে।

সমস্যার গুরুত্ব

ডেটা বিরলতা সমস্যা সরাসরি SER মডেলের কর্মক্ষমতা এবং ব্যবহারযোগ্যতাকে প্রভাবিত করে, বিশেষ করে বড় পরিমাণে প্রশিক্ষণ ডেটা প্রয়োজনীয় গভীর শিক্ষার যুগে। কার্যকর ডেটা বর্ধন পদ্ধতি মডেল কর্মক্ষমতা উন্নত করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ঐতিহ্যবাহী ডেটা বর্ধন: সাধারণ সংকেত রূপান্তর এবং শব্দ যোগ করা শুধুমাত্র মূল ডেটার বিঘ্নিত অনুলিপি, সীমিত তথ্য সামগ্রী
শর্তসাপেক্ষ জেনারেটিভ মডেল: আবেগ লেবেল থেকে উৎপন্ন নমুনায় নির্ধারণমূলক ম্যাপিং অনুমান করে, এই অনুমান অবাস্তব এবং উৎপন্ন নমুনার গুণমান নিশ্চিত করতে পারে না
ক্রস-মোডাল পদ্ধতি: বিদ্যমান কাজ প্রধানত অনুপস্থিত মোডাল পরিপূরক বা পুনরুদ্ধারের উপর দৃষ্টি নিবদ্ধ করে, বহু-মোডাল আবেগ স্বীকৃতি উন্নত করার জন্য স্পষ্ট বর্ধন কাঠামোর অভাব

গবেষণা প্রেরণা

এই পেপারটি অনুমান করে যে শর্তসাপেক্ষ জেনারেটিভ মডেল আবেগ লেবেল থেকে উৎপন্ন নমুনায় নির্ধারণমূলক ম্যাপিং অনুমান অযুক্তিসঙ্গত, এবং পারস্পরিক তথ্য নিয়মিতকরণ ব্যবহার করার প্রস্তাব দেয় বিকল্প হিসাবে, উৎপন্ন নমুনা এবং শ্রেণী লেবেলের মধ্যে নির্ভরতা পরিমাণ করে ডেটা বর্ধন গুণমান নিশ্চিত করতে।

মূল অবদান

SER এবং বহু-মোডাল SER এর জন্য প্রযোজ্য জেনারেটিভ মডেল ডেটা বর্ধন কাঠামো প্রস্তাব করা, ক্রস-মোডাল তথ্য স্থানান্তর এবং পারস্পরিক তথ্য নিয়মিতকরণ একত্রিত করে
ক্রস-মোডাল স্থানান্তর এবং পারস্পরিক তথ্য একত্রিত SER ডেটা বর্ধন পদ্ধতি প্রবর্তন করা, InfoGAN স্থাপত্য ব্যবহার করে বাস্তবায়িত
পারস্পরিক তথ্য নিয়মিতকারী পর্যবেক্ষণযোগ্য পরিমাণ প্রদান করতে পারে আবিষ্কার করা উৎপন্ন ডেটা এবং আবেগ এবং পাঠ্য তথ্যের মধ্যে নির্ভরতা যাচাই করতে
বহু-মোডাল বর্ধনে প্রসারিত করা, অডিও এবং পাঠ্য বৈশিষ্ট্যের সমস্ত সমন্বয় উৎপন্ন করে ডেটা স্কেল চার গুণ বৃদ্ধি অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: অডিও সংকেত xa এবং সংশ্লিষ্ট পাঠ্য প্রতিলিপি xt
আউটপুট: আবেগ শ্রেণী পূর্বাভাস ŷ
লক্ষ্য: উৎপন্ন বর্ধিত ডেটার মাধ্যমে আবেগ শ্রেণীবিভাগ কর্মক্ষমতা উন্নত করা

মডেল স্থাপত্য

প্রথম পর্যায়: মূল মডেল প্রস্তুতি

অডিও বৈশিষ্ট্য নিষ্কাশন:
```
h = fa(xa)
```
প্রাক-প্রশিক্ষিত অডিও ট্রান্সফরমার (AST বা Wav2Vec2) ব্যবহার করে অডিও বৈশিষ্ট্য নিষ্কাশন করা
পাঠ্য বৈশিষ্ট্য নিষ্কাশন:
```
t = ft(xt)
```
প্রাক-প্রশিক্ষিত পাঠ্য ট্রান্সফরমার (BERT/RoBERTa) ব্যবহার করে পাঠ্য বৈশিষ্ট্য নিষ্কাশন করা
ক্রস-মোডাল সংযোজন:
- বৈপরীত্য শিক্ষা ক্ষতি: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE ক্ষতি: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

দ্বিতীয় পর্যায়: InfoGAN প্রশিক্ষণ

জেনারেটর উদ্দেশ্য:
```
min max V(D,G) - λI(c;G(z,c))
```
যেখানে c আবেগ লেবেল এবং পাঠ্য এম্বেডিং অন্তর্ভুক্ত করে
পারস্পরিক তথ্য সর্বাধিকীকরণ:
- আবেগ পারস্পরিক তথ্য: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- পাঠ্য পারস্পরিক তথ্য: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

তৃতীয় পর্যায়: ডেটা বর্ধন প্রশিক্ষণ

SER পরিস্থিতি: মূল বৈশিষ্ট্য h এবং উৎপন্ন বৈশিষ্ট্য ĥ ব্যবহার করে শ্রেণীবিভাগকারী প্রশিক্ষণ
বহু-মোডাল SER: (h,t), (h,t'), (ĥ,t), (ĥ,t') চার ধরনের সমন্বয় ব্যবহার করে প্রশিক্ষণ

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

পারস্পরিক তথ্য গুণমান সূচক: উৎপন্ন নমুনার গুণমানের পর্যবেক্ষণযোগ্য সূচক হিসাবে পারস্পরিক তথ্য ক্ষতি ব্যবহার করা
ক্রস-মোডাল তথ্য স্থানান্তর: অডিও বৈশিষ্ট্য উৎপাদন পরিচালনা করতে পাঠ্য তথ্য ব্যবহার করে, উৎপাদন গুণমান উন্নত করা
বহু-মোডাল সম্প্রসারণ: একই সাথে অডিও এবং পাঠ্য বৈশিষ্ট্য উৎপাদন করে, সত্যিকারের বহু-মোডাল ডেটা বর্ধন অর্জন করা
বৈশিষ্ট্য-স্তর উৎপাদন: মূল সংকেত স্থানের পরিবর্তে বৈশিষ্ট্য স্থানে উৎপাদন করা, জটিলতা হ্রাস করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

IEMOCAP: ১২ ঘন্টা রেকর্ডিং, ৫ জোড়া পুরুষ-মহিলা অভিনেতা সংলাপ, চার শ্রেণীর আবেগ (নিরপেক্ষ, আনন্দ, দুঃখ, ক্রোধ)
MSP-IMPROV: ৯ ঘন্টা রেকর্ডিং, ১২ জন অভিনেতা মিথস্ক্রিয়া, চার মৌলিক আবেগ
MSP-Podcast: পডকাস্ট থেকে "বন্য" বক্তৃতা ডেটা, প্রকৃত প্রয়োগের দৃশ্যের কাছাকাছি

মূল্যায়ন মেট্রিক্স

ওজনহীন গড় স্মরণ (UAR): অসম ডেটাসেটের জন্য আরও ন্যায্য মূল্যায়ন মেট্রিক
Leave-one-speaker-out ক্রস-যাচাইকরণ: মডেল সাধারণীকরণ কর্মক্ষমতা নিশ্চিত করা

তুলনামূলক পদ্ধতি

Sahu et al., Bao et al., Latif et al., Malik et al. এবং অন্যান্য বিদ্যমান ডেটা বর্ধন পদ্ধতি অন্তর্ভুক্ত, সেইসাথে MMIN, CIF-MMIN এবং অন্যান্য বহু-মোডাল পদ্ধতি।

বাস্তবায়ন বিবরণ

অডিও মডেল: AST (SER), Wav2Vec2 (বহু-মোডাল SER)
পাঠ্য মডেল: BERT, RoBERTa, Llama 3.0
InfoGAN স্থাপত্য: সাধারণ রৈখিক স্তর জেনারেটর এবং বিচারক বাস্তবায়ন
প্রশিক্ষণ কৌশল: জেনারেটর প্রশিক্ষণ স্থিতিশীল করতে mix-up কৌশল গ্রহণ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

SER পরীক্ষা (IEMOCAP)

পদ্ধতি	বর্ধন ছাড়া	বর্ধন সহ	উন্নতি
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
এই পেপার পদ্ধতি	60.81±4.83%	63.40±2.52%	2.59%

বহু-মোডাল SER পরীক্ষা

IEMOCAP ডেটাসেটে, এই পেপারের পদ্ধতি অডিও + পাঠ্য মোডাল সমন্বয়ে 76.54% UAR অর্জন করে, বিদ্যমান CIF-MMIN (75.65%) এবং অন্যান্য পদ্ধতি অতিক্রম করে।

বিলোপন পরীক্ষা

কনফিগারেশন	UAR
সম্পূর্ণ মডেল	63.40±2.52%
ক্রস-মোডাল সংযোজন ছাড়া	62.31±3.65%
ক্রস-মোডাল সংযোজন এবং পাঠ্য এম্বেডিং ছাড়া	61.07±2.45%
ক্রস-মোডাল সংযোজন এবং পারস্পরিক তথ্য সর্বাধিকীকরণ ছাড়া	61.70±2.58%

বিলোপন পরীক্ষা দেখায় যে প্রতিটি উপাদান চূড়ান্ত কর্মক্ষমতায় গুরুত্বপূর্ণ অবদান রাখে।

পরীক্ষামূলক আবিষ্কার

পারস্পরিক তথ্য নিয়মিতকরণ কার্যকারিতা: পারস্পরিক তথ্য ক্ষতি সত্যিই উৎপন্ন নমুনার গুণমানের সূচক হিসাবে কাজ করতে পারে
ক্রস-মোডাল তথ্যের গুরুত্ব: পাঠ্য তথ্য উল্লেখযোগ্যভাবে অডিও বৈশিষ্ট্য উৎপাদন গুণমান উন্নত করে
শ্রেণী অসম্ভাবনা পরিচালনা: MSP-Podcast ডেটাসেটে, এই পদ্ধতি কার্যকরভাবে শ্রেণী অসম্ভাবনা সমস্যা প্রশমিত করে
ক্রস-মোডাল তথ্য ছাড়া উৎপাদন ক্ষমতা: এই কাঠামো অন্যান্য মোডাল তথ্য ছাড়াই নতুন ইনপুট উৎপাদন করতে সক্ষম তা আবিষ্কার করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

পারস্পরিক তথ্য নিয়মিতকৃত জেনারেটিভ মডেল কার্যকরভাবে SER কর্মক্ষমতা উন্নত করতে পারে
ক্রস-মোডাল তথ্য স্থানান্তর উৎপন্ন নমুনার গুণমান উল্লেখযোগ্যভাবে উন্নত করে
বহু-মোডাল ডেটা বর্ধন কাঠামো একাধিক মানদণ্ড ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে
এই পদ্ধতি শ্রেণী অসম্ভাবনা সমস্যা পরিচালনার সম্ভাবনা রাখে

সীমাবদ্ধতা

গণনামূলক জটিলতা: একাধিক মডেল পর্যায় প্রশিক্ষণের প্রয়োজন, গণনামূলক খরচ বেশি
বৈশিষ্ট্য স্থান সীমাবদ্ধতা: মূল সংকেত স্থানের পরিবর্তে বৈশিষ্ট্য স্থানে উৎপাদন, কিছু তথ্য হারানোর সম্ভাবনা
ডেটাসেট নির্ভরতা: পদ্ধতির কর্মক্ষমতা নির্দিষ্ট ডেটাসেট বৈশিষ্ট্যের উপর নির্ভর করতে পারে
হাইপারপ্যারামিটার সংবেদনশীলতা: পারস্পরিক তথ্য ওজন λ এবং অন্যান্য হাইপারপ্যারামিটার সাবধানে সামঞ্জস্য করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

শেষ থেকে শেষ মূল সংকেত উৎপাদন পদ্ধতি অন্বেষণ করা
আরও দক্ষ প্রশিক্ষণ কৌশল গবেষণা করা
আরও বেশি মোডাল এবং আবেগ শ্রেণীতে প্রসারিত করা
পারস্পরিক তথ্য নিয়মিতকরণের সংমিশ্রণ বৈশিষ্ট্য তাত্ত্বিক বিশ্লেষণ

গভীর মূল্যায়ন

সুবিধা

পদ্ধতি উদ্ভাবন শক্তিশালী: প্রথমবারের মতো পারস্পরিক তথ্য নিয়মিতকরণ এবং ক্রস-মোডাল তথ্য স্থানান্তর SER ডেটা বর্ধনে একত্রিত করা
পরীক্ষা ব্যাপক: একাধিক মানদণ্ড ডেটাসেটে সম্পূর্ণ মূল্যায়ন, বিলোপন পরীক্ষা অন্তর্ভুক্ত
তাত্ত্বিক ভিত্তি দৃঢ়: পারস্পরিক তথ্য তত্ত্ব উৎপন্ন নমুনার গুণমানের জন্য তাত্ত্বিক গ্যারান্টি প্রদান করে
ব্যবহারিক মূল্য উচ্চ: পদ্ধতি প্রকৃত প্রয়োগে ভাল স্কেলেবিলিটি রাখে

অপূর্ণতা

স্থাপত্য জটিলতা: তিন-পর্যায় প্রশিক্ষণ প্রবাহ অপেক্ষাকৃত জটিল, প্রকৃত স্থাপনা চ্যালেঞ্জের সম্মুখীন হতে পারে
গণনামূলক দক্ষতা: সাধারণ ডেটা বর্ধন পদ্ধতির তুলনায় গণনামূলক খরচ উল্লেখযোগ্যভাবে বৃদ্ধি পায়
সাধারণীকরণ বিশ্লেষণ অপূর্ণ: ডেটাসেট জুড়ে সাধারণীকরণ কর্মক্ষমতার গভীর বিশ্লেষণের অভাব
তাত্ত্বিক বিশ্লেষণ সীমিত: পারস্পরিক তথ্য নিয়মিতকরণের সংমিশ্রণ বৈশিষ্ট্যের জন্য তাত্ত্বিক গ্যারান্টির অভাব

প্রভাব

একাডেমিক অবদান: SER ডেটা বর্ধনের জন্য নতুন গবেষণা চিন্তাভাবনা এবং পদ্ধতি কাঠামো প্রদান করে
ব্যবহারিক মূল্য: ডেটা বিরল পরিস্থিতিতে গুরুত্বপূর্ণ প্রয়োগ মূল্য রাখে
পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক সেটআপ বিস্তারিত, ভাল পুনরুৎপাদনযোগ্যতা রাখে
অনুপ্রেরণামূলক: পারস্পরিক তথ্য নিয়মিতকরণ চিন্তাভাবনা অন্যান্য জেনারেটিভ কাজে প্রসারিত করা যায়

প্রযোজ্য পরিস্থিতি

ডেটা বিরল পরিস্থিতি: বিশেষ করে উচ্চ মানের টীকাযুক্ত ডেটা সীমিত আবেগ স্বীকৃতি কাজের জন্য উপযুক্ত
বহু-মোডাল প্রয়োগ: অডিও এবং পাঠ্য তথ্য একই সাথে পরিচালনা করা প্রয়োজন এমন প্রয়োগে চমৎকার কর্মক্ষমতা
শ্রেণী অসম্ভাবনা সমস্যা: আবেগ শ্রেণী বিতরণ অসম ডেটাসেটের জন্য প্রশমন প্রভাব রাখে
গবেষণা প্রোটোটাইপ উন্নয়ন: SER গবেষণার জন্য কার্যকর ডেটা বর্ধন মূলভিত্তি পদ্ধতি প্রদান করে

রেফারেন্স

পেপারটি ৪৮টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা SER, জেনারেটিভ মডেল, বহু-মোডাল শিক্ষা এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং তুলনামূলক মানদণ্ড প্রদান করে।