This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
- معرّف الورقة: 2506.19887
- العنوان: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- المؤلفون: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- التصنيف: eess.AS cs.AI cs.SD
- وقت النشر/المؤتمر: Interspeech 2025
- رابط الورقة: https://arxiv.org/abs/2506.19887
تقترح هذه الورقة MATER (تمثيل الانفعال الصوتي والنصي متعدد المستويات)، وهو إطار عمل هرمي متعدد المستويات للتعرف على الانفعالات في الكلام في الظروف الطبيعية. يدمج هذا الأسلوب الميزات الصوتية والنصية على ثلاثة مستويات: مستوى الكلمة، ومستوى الجملة، ومستوى التضمين، من خلال دمج الإشارات المعجمية والصوتية منخفضة المستوى مع التمثيلات السياقية عالية المستوى، مما يلتقط بفعالية التغييرات الإيقاعية الدقيقة والفروقات الدلالية. بالإضافة إلى ذلك، يتم تقديم استراتيجية تجميع تدرك عدم اليقين لتخفيف مشكلة عدم اتساق المُعلِّمين وتحسين المتانة في التعبيرات الانفعالية الغامضة. حقق MATER المرتبة الرابعة في كلا المهمتين، مع Macro-F1 بنسبة 41.01% ومتوسط CCC بقيمة 0.5928، وحقق المرتبة الثانية في التنبؤ بقيمة الانفعال مع CCC بقيمة 0.6941.
- تعقيد التعرف على الانفعالات في الكلام الطبيعي: معظم مجموعات بيانات SER الحالية لا تتمكن من التقاط التعبيرات الانفعالية في العالم الحقيقي بشكل كامل، وعادة ما تتكون من تسجيلات مؤداة أو مستحثة، مما يفتقر إلى القدرة على التعميم.
- التباين داخل المتحدث وبين المتحدثين: يوجد تباين فردي كبير وتعقيد في التعبير الانفعالي في الكلام الطبيعي.
- مشكلة عدم اتساق التعليقات التوضيحية: التعبيرات الانفعالية المتداخلة والغامضة والمتغيرة بشكل كبير تؤدي إلى نقص الإجماع بين المُعلِّمين، مما يؤدي إلى إدخال اختلافات في الثقة والانحيازات الفئوية.
الانفعال هو أساس التجربة الإنسانية، ويؤثر على صنع القرار والتواصل والصحة النفسية. يعتبر الكلام أكثر أشكال التواصل شيوعاً، ويحمل إشارات انفعالية غنية، بما في ذلك هوية المتحدث وحالته الانفعالية والتركيز اللغوي.
- معظم مجموعات البيانات تحتوي على عدد محدود من المشاركين، مما يقلل من القدرة على التعميم على السيناريوهات الحقيقية المتنوعة
- نقص في التكامل الفعال للميزات متعددة المستويات
- عدم القدرة على التعامل بفعالية مع الانحيازات الناجمة عن عدم اتساق التعليقات التوضيحية
- اقتراح إطار عمل MATER: إطار عمل هرمي جديد يدمج الميزات الصوتية والنصية على ثلاثة مستويات: مستوى الكلمة، ومستوى الجملة، ومستوى التضمين
- دمج الميزات متعددة المستويات: نمذجة منهجية للانفعالات من الإشارات النحوية والإيقاعية منخفضة المستوى إلى التمثيلات السياقية عالية المستوى
- استراتيجية التجميع التي تدرك عدم اليقين: تحسين المتانة من خلال اختيار التنبؤات الانفعالية ذات أقل عدم يقين، مما يخفف من الانحيازات في التعليقات التوضيحية
- تحقيق نتائج ممتازة في تحدي SERNC: المرتبة الرابعة في كلا المهمتين، والمرتبة الثانية في التنبؤ بقيمة الانفعال
يركز البحث على مهمتين:
- المهمة 1: التعرف على الانفعالات الفئوية: تصنيف مقاطع الكلام إلى 8 فئات انفعالية (الغضب، الازدراء، الاشمئزاز، الخوف، السعادة، الحياد، الحزن، المفاجأة)
- المهمة 2: التنبؤ بخصائص الانفعالات: تقييم على مقياس ليكرت من 7 نقاط على ثلاثة أبعاد انفعالية (الاستثارة، السيطرة، قيمة الانفعال)
يستخرج MATER الميزات الصوتية والنصية على ثلاثة مستويات مختلفة:
الميزات على مستوى الكلمة (Word-level):
- الميزات النحوية: استخدام محلل BERTweet النحوي لاستخراج الأنماط اللغوية، بما في ذلك معلومات الشخص النحوي للضمائر، مما يشكل متجه ميزات نحوية بحجم 20 بُعد
- الميزات الإيقاعية: استخدام مكتبة openSMILE لاستخراج متجه ميزات بحجم 22 بُعد، يتضمن الصوت والرجفة والرعشة ونسبة ألفا وإحصائيات المقاطع المجهورة/المهموسة
- تشكيل تمثيل إيقاعي يدرك النحو من خلال الربط
الميزات على مستوى الجملة (Utterance-level):
- الميزات الانفعالية: مشتقة من مجموعة ميزات SEANCE، تنتج تمثيلاً بحجم 517 بُعد، يلتقط الميل الانفعالي للنص المكتوب بالكامل
- الميزات الإيقاعية: تحليل سلاسة الكلام والشدة والفروقات الدقيقة، بما في ذلك الصوت والرجفة والرعشة ونسبة التوافقيات إلى الضوضاء (HNR) والفترات الصامتة وإحصائيات المقاطع المجهورة/المهموسة، مما يشكل متجه ميزات بحجم 34 بُعد
الميزات على مستوى التضمين (Embedding-level):
- مشفر الصوت: WavLM و HuBERT يلتقطان معلومات صوتية وإيقاعية غنية
- مشفر النص: BERT و T5 يوفران تمثيل معلومات دلالية
- إعادة التدريب اللاحق على مجموعة بيانات MSP-Podcast لتحسين التكيف مع المجال
- مستوى الكلمة: المعالجة من خلال طبقتي LSTM، مع استخدام الحالة المخفية النهائية كتضمين على مستوى الكلمة
- مستوى الجملة: المعالجة أولاً من خلال طبقة التضمين الخطي المقسم (PLE)، ثم من خلال طبقة خطية لإنتاج تمثيل بحجم ثابت
- مستوى التضمين: عند استخدام مصادر تضمين متعددة، استخدام معمارية Perceiver للدمج؛ وإلا استخدام ميزات التجميع مباشرة
- الدمج النهائي: إدخال التضمينات متعددة المستويات المربوطة إلى طبقة خطية للتنبؤ
- نمذجة الميزات متعددة المستويات: التقاط منهجي للمعلومات الانفعالية الكاملة من الإشارات النحوية والإيقاعية الدقيقة إلى التمثيلات الدلالية عالية المستوى
- تمثيل إيقاعي يدرك النحو: نمذجة التفاعل بين البنية اللغوية والنبرة، والتي تلعب دوراً حاسماً في التعبير الانفعالي
- استراتيجية التكيف مع المجال: إعادة تدريب لاحق للمشفرات المدربة مسبقاً على مجموعة البيانات المستهدفة
- التجميع الذي يدرك عدم اليقين: تقدير عدم اليقين المعرفي من خلال ترتيب احتمالات التنبؤ، مع إعطاء الأولوية للتنبؤات عالية الثقة
استخدام مجموعة بيانات MSP-Podcast:
- مجموعة التدريب: 84,260 عينة من 2,112 متحدثاً
- مجموعة التطوير: 31,961 عينة من 714 متحدثاً
- مجموعة الاختبار: 3,200 عينة متوازنة تغطي 8 فئات انفعالية
- استخدام Whisper-large-v3 لإنشاء النصوص والمحاذاة القسرية
- المهمة 1: Macro-F1 والدقة
- المهمة 2: معامل الارتباط المتسق (CCC)
- طريقة WavLM الأساسية
- تجارب الاستبعاد لمختلف مجموعات الميزات
- مقارنة استراتيجيات التجميع المختلفة
- إسقاط الميزات على مستوى الكلمة والجملة إلى متجهات بحجم 128 بُعد
- إنتاج Perceiver بحجم 768 بُعد، باستخدام مصفوفة كامنة بحجم 64×768
- دوال الخسارة الخاصة بالمهام: استخدام الإنتروبيا المتقاطعة المرجحة للمهمة 1، وخسارة CCC للمهمة 2
- التدريب لمدة 50 حقبة، معدل التعلم من 1×10^-5 إلى 5×10^-7، حجم الدفعة 128-2048
المهمة 1 (التعرف على الانفعالات الفئوية):
- نتائج الإرسال النهائي: Macro-F1 = 41.01%، الدقة = 40.97%
- تحسن كبير مقارنة بخط الأساس WavLM (32.93% Macro-F1)
- المرتبة الرابعة في تحدي SERNC
المهمة 2 (التنبؤ بخصائص الانفعالات):
- متوسط CCC = 0.5928
- CCC للتنبؤ بقيمة الانفعال = 0.6941 (المرتبة الثانية)
- CCC للاستثارة = 0.6119
- CCC للسيطرة = 0.4775
- مساهمة مستويات الميزات: ميزات مستوى الكلمة تساهم أكثر من ميزات مستوى الجملة، مما يشير إلى أن الإيقاع الذي يدرك النحو أكثر إفادة للتعرف على الانفعالات الفئوية
- تأثير العلامات الناعمة: فعالة في النماذج المضبوطة بدقة، لكن الفائدة الهامشية محدودة في MATER
- مقارنة استراتيجيات التجميع: التجميع الذي يدرك عدم اليقين يتفوق على المتوسط والتصويت بالأغلبية
التحليل بعد التحدي:
- الميزات الصوتية تتفوق على الميزات النصية في كلا المهمتين
- المشفرات المثلى تختلف حسب المهمة، مما يؤكد ضرورة اختيار المشفر الخاص بالمهمة
- الدمج متعدد الأنماط في MATER يعزز الأداء على مستويات الكلمة والجملة
- قيمة الانفعال تعتمد أكثر على النص، بينما الاستثارة والسيطرة تعتمد أكثر على الإشارات الصوتية
- طرق SER التقليدية: تستخدم بشكل أساسي مجموعات بيانات مؤداة أو مستحثة
- SER في الكلام الطبيعي: ظهور مجموعات بيانات مثل MSP-Podcast
- التعرف على الانفعالات متعدد الأنماط: دمج الميزات الصوتية والنصية
- معالجة عدم اليقين: طرق للتعامل مع عدم اتساق التعليقات التوضيحية
- نمذجة منهجية للميزات متعددة المستويات
- استراتيجية تجميع جديدة تدرك عدم اليقين
- التحقق على مجموعة بيانات كلام طبيعية واسعة النطاق
يحسن MATER بفعالية أداء التعرف على الانفعالات في الكلام في الظروف الطبيعية من خلال دمج الميزات متعددة المستويات والتجميع الذي يدرك عدم اليقين، خاصة في التنبؤ بقيمة الانفعال.
- التنبؤ بالاستثارة والسيطرة: لا تزال تشكل تحديات، قد يكون السبب استراتيجية الدمج الموجهة نحو النص التي لا تستفيد بشكل كافٍ من التغييرات الصوتية
- التعقيد الحسابي: استخراج الميزات متعددة المستويات ومعمارية Perceiver تزيد من النفقات الحسابية
- التكيف مع المجال: التحقق الأساسي على بيانات البودكاست، مع القدرة المحدودة على التعميم على المجالات الأخرى
- اختيار الميزات الخاص بالانفعالات: استخدام أوزان ميزات تكيفية لأبعاد انفعالية مختلفة
- استراتيجية الدمج الديناميكي: دمج ديناميكي يوازن بين التكامل الصوتي والنصي
- التوسع إلى مجموعات بيانات متنوعة: التحقق من أداء MATER على مجموعات بيانات SER المختلفة
- ابتكار الطريقة: نمذجة الميزات متعددة المستويات والتجميع الذي يدرك عدم اليقين يتمتعان بالجدة
- التصميم المنهجي: تصميم كامل لمستويات الميزات من مستوى الكلمة إلى مستوى التضمين معقول
- كفاية التجارب: تجارب استبعاد مفصلة وتحليل لاحق توفر رؤى عميقة
- القيمة العملية: الأداء الممتازة في تحدي عملي يثبت فعالية الطريقة
- نقص التحليل النظري: افتقار إلى شرح نظري لسبب فعالية الدمج متعدد المستويات
- تحليل الكفاءة الحسابية: عدم توفير تحليل مفصل للتعقيد الحسابي وزمن الاستدلال
- التعميم عبر المجالات: التحقق فقط على بيانات البودكاست، مع نقص التجارب عبر المجالات
- القابلية للتفسير: على الرغم من ذكر القابلية للتفسير في العنوان، تفتقد الورقة إلى التحليل ذي الصلة
- المساهمة الأكاديمية: توفير أفكار إطار عمل جديدة للتعرف على الانفعالات في الكلام الطبيعي
- القيمة العملية: الأداء الممتازة في تحدي عملي تثبت الجدوى العملية للطريقة
- القابلية للتكرار: توفير تفاصيل تنفيذ مفصلة تسهل التكرار
- أنظمة التعرف على الانفعالات في الكلام الطبيعي
- تطبيقات تحليل الانفعالات متعددة الأنماط
- مهام حساب الانفعالات التي تتطلب التعامل مع عدم اليقين في التعليقات التوضيحية
- سيناريوهات الكلام الطبيعي مثل البودكاست وأنظمة الحوار
تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات حساب الانفعالات ومعالجة الكلام والتعلم العميق، مما يوفر أساساً نظرياً متيناً للبحث.