Multimodal data fusion is essential for applications requiring the integration of diverse data sources, especially in the presence of incomplete or sparsely available modalities. This paper presents a comparative study of three multimodal embedding techniques, Modal Channel Attention (MCA), Zorro, and Everything at Once (EAO), to evaluate their performance on sparsely multimodal data. MCA introduces fusion embeddings for all combinations of input modalities and uses attention masking to create distinct attention channels, enabling flexible and efficient data fusion. Experiments on two datasets with four modalities each, CMU-MOSEI and TCGA, demonstrate that MCA outperforms Zorro across ranking, recall, regression, and classification tasks and outperforms EAO across regression and classification tasks. MCA achieves superior performance by maintaining robust uniformity across unimodal and fusion embeddings. While EAO performs best in ranking metrics due to its approach of forming fusion embeddings post-inference, it underperforms in downstream tasks requiring multimodal interactions. These results highlight the importance of contrasting all modality combinations in constructing embedding spaces and offers insights into the design of multimodal architectures for real-world applications with incomplete data.
- معرّف الورقة: 2403.20280
- العنوان: دمج البيانات متعددة الأنماط المتفرقة
- المؤلف: Josiah A. Bjorgaard (Syntensor, Inc.)
- التصنيف: cs.LG cs.AI
- وقت النشر: مارس 2024 (arXiv v2: يناير 2025)
- رابط الورقة: https://arxiv.org/abs/2403.20280
تبحث هذه الورقة في مشكلة دمج البيانات متعددة الأنماط المتفرقة، وتقترح طريقة اهتمام قناة النمط (MCA)، وتجري مقارنة منهجية مع طريقتين موجودتين هما Zorro و Everything at Once (EAO). تحقق MCA دمجاً مرناً وفعالاً للبيانات من خلال إنشاء تضمينات دمج لجميع مجموعات الأنماط واستخدام أقنعة الاهتمام لإنشاء قنوات اهتمام مختلفة. تُظهر التجارب على مجموعتي بيانات رباعية الأنماط CMU-MOSEI و TCGA أن MCA تتفوق على Zorro في مهام الترتيب والاستدعاء والانحدار والتصنيف، وتتفوق على EAO في مهام الانحدار والتصنيف.
مع تطور التعلم العميق متعدد الأنماط، تواجه التطبيقات الواقعية بشكل متكرر تحدي عدم اكتمال النمط (modal-incomplete). عندما تحتوي مجموعة البيانات على 3 أو أكثر من الأنماط، تصبح العينات ذات الأنماط الناقصة أكثر شيوعاً، مما يشكل مجموعات بيانات متعددة الأنماط المتفرقة (sparsely multimodal).
- الاحتياجات العملية: تواجه مجالات مثل دمج المستشعرات المتعددة والمعلوماتية الحيوية وأنظمة المراقبة المنزلية مشاكل فقدان البيانات متعددة الأنماط بشكل متكرر
- التحديات التقنية: غالباً ما تفشل نماذج الدمج متعددة الأنماط الموجودة في التعامل الفعال مع العينات غير المكتملة
- القيمة التطبيقية: تحسين قوة النموذج وعمليته في السيناريوهات الحقيقية
- على الرغم من أن طرقاً مثل FLAVA يمكنها التعامل مع الأنماط الناقصة، إلا أنها لا تستطيع إنشاء فضاء تضمين دمج متعدد الأنماط
- تتطلب EAO عمليات انتشار أمامي متعددة، مما يقلل الكفاءة الحسابية
- تستخدم Zorro قناة دمج واحدة فقط، مما لا يسمح بالاستفادة الكاملة من معلومات مجموعات الأنماط المختلفة
- اقتراح طريقة MCA: إدخال آلية اهتمام قناة النمط، وإنشاء تضمينات دمج لجميع مجموعات الأنماط الممكنة
- دراسة مقارنة منهجية: تقييم شامل لثلاث طرق (MCA و Zorro و EAO) على بيانات متعددة الأنماط المتفرقة
- تحسن الأداء: تتفوق MCA على الطرق الموجودة في معظم المهام، خاصة في المهام اللاحقة
- رؤى نظرية: الكشف عن أهمية مقارنة جميع مجموعات الأنماط في بناء فضاء التضمين
الإدخال: مجموعة بيانات تحتوي على 4 أنماط، مع درجات متفاوتة من تفرق الأنماط (0-0.8)
الإخراج: فضاء تضمين دمج موحد، يدعم المهام اللاحقة والاسترجاع
القيود: التعامل مع العينات غير المكتملة، الحفاظ على الكفاءة الحسابية
- إنشاء تضمينات الدمج: إنشاء تضمينات دمج لجميع مجموعات الأنماط الممكنة (كما هو موضح في الشكل 3a)
- قناع اهتمام قناة النمط: استخدام أقنعة اهتمام الكتل لإنشاء قنوات اهتمام مختلفة (كما هو موضح في الشكل 3b)
- انتشار أمامي واحد: معالجة جميع مجموعات الأنماط في انتشار أمامي واحد
لمجموعة بيانات رباعية الأنماط، تنشئ MCA 11 قناة اهتمام:
- 4 قنوات أحادية النمط: (1), (2), (3), (4)
- 6 قنوات ثنائية النمط: (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)
- قناة كاملة النمط واحدة: (1,2,3,4)
اعتماد استراتيجية قناع العينة والخسارة:
- استبدال الأنماط الناقصة برموز الحشو
- حساب الخسارة لرمز الدمج المقابل طالما يوجد نمط واحد على الأقل
- استخدام خسارة التقدير対比ي الضوضائي (NCE)
- الدمج متعدد القنوات: بالمقارنة مع قناة Zorro الواحدة، تدعم MCA دمج جميع مجموعات الأنماط
- الكفاءة الحسابية: بالمقارنة مع عمليات الانتشار الأمامي المتعددة في EAO، تتطلب MCA واحدة فقط
- المرونة: القدرة على التعامل مع فقدان أي مجموعة من الأنماط
- إطار عمل موحد: تحقيق مقارنة عادلة بين الطرق الثلاث في إطار واحد
- الحجم: 23,248 عينة، مجموعة الاختبار 2,324 عينة
- الأنماط: 4 أنماط معالجة مسبقاً (متجهات Glove و OpenFace و COVAREP و ترميزات FACET)
- المهمة: انحدار تحليل المشاعر (نطاق 0-1)
- المعالجة المسبقة: تحويل الطبقة الخطية + تطبيع الطبقة + تضمين الموضع
- الحجم: 7,017 عينة، مجموعة الاختبار 707 عينات
- الأنماط: التعبير الجيني (800 جين)، مصفوفة البروتين (198 بروتين)، ميثيلة الحمض النووي (800 موقع)، miRNA (662)
- المهمة: تصنيف 32 نوع سرطان
- المعالجة المسبقة: ترميز MLP بطبقتين + تضمين قابل للتعلم
S=NS1∑i=1NSMi/MT
حيث NS هو عدد العينات، Mi هو عدد الأنماط في العينة i، و MT هو إجمالي عدد الأنماط. تم تعيين التجارب على S = 0, 0.2, 0.4, 0.6, 0.8.
- المحاذاة (Alignment): La=Ex,y[∣∣f(x)−f(y)∣∣22]
- التوحيد (Uniformity): Lu=Ex,y[e−2∣∣f(x)−f(y)∣∣22]
- الترتيب الوسيط: الترتيب الوسيط للمطابقة الصحيحة
- معدل الاستدعاء: R@1, R@5, R@10
- الانحدار: معامل الارتباط (CMU-MOSEI)
- التصنيف: متوسط AUPR (TCGA)
- معاملات النموذج: حجم مخفي 512، 8 رؤوس اهتمام، نسبة تغذية أمامية 4 أضعاف
- إعدادات التدريب: حجم الدفعة 32، معدل التعلم 1e-4، جدولة جيب التمام
- الأجهزة: تستخدم MCA/Zorro 4×A10G GPU (17GB)، تستخدم EAO 4×A100 GPU (41GB)
- التوحيد: تحافظ MCA على أفضل توحيد تضمين دمج في معظم الحالات
- المحاذاة: تتمتع EAO بأفضل محاذاة، لكن توحيدها أقل
- تأثير التفرق: عندما يتجاوز تفرق النمط 0.4، ينخفض التوحيد لجميع الطرق
- EAO الأمثل: تُظهر أفضل أداء في مقاييس الترتيب، بفضل استراتيجية الدمج اللاحق
- MCA تتفوق على Zorro: في معظم الحالات، يتفوق الترتيب الوسيط ومعدل الاستدعاء في MCA على Zorro
- اختلاف مجموعة البيانات: الفروقات أكثر وضوحاً على مجموعة البيانات الأكبر CMU-MOSEI
- مهام الانحدار: تحقق MCA خط أساس 0.54 على مهمة تحليل المشاعر CMU-MOSEI، متفوقة على Zorro و EAO
- مهام التصنيف: تُظهر MCA أفضل أداء على مهمة تصنيف السرطان TCGA
- قوة التفرق: تحافظ MCA على أداء نسبياً مستقرة حتى عند التفرق العالي
- مقايضة التوحيد مقابل المحاذاة: يفضل التوحيد الأفضل المهام اللاحقة، بينما تفضل المحاذاة الأفضل مهام الاسترجاع
- مزايا القنوات المتعددة: مقارنة جميع مجموعات الأنماط تحسن بشكل كبير من جودة التضمين
- الكفاءة الحسابية: تقلل MCA بشكل كبير من التكاليف الحسابية مع الحفاظ على الأداء
- طرق البيانات المتشابكة: مثل Flamingo، استخدام أهداف لغة انحدارية أو مقنعة
- قناع الدمج المتأخر: التعامل مع الأنماط غير المكتملة من خلال تمثيلات مقنعة
- FLAVA: نموذج خسائر متعددة، لكن لا يمكنه إنشاء فضاء تضمين دمج
- LORRETA: التنبؤ بالنمط الثالث، يتطلب أزواج ثنائية النمط
- EAO: عمليات انتشار أمامي متعددة، خسائر متقابلة مركبة
- Zorro: قناع اهتمام الكتل، انتشار أمامي واحد
- فعالية MCA: على بيانات متعددة الأنماط المتفرقة، تحقق MCA أفضل أداء عامة
- خصوصية المهمة: لكل طريقة مزايا في أنواع مهام مختلفة
- أهمية التصميم: مقارنة جميع مجموعات الأنماط حاسمة لبناء فضاء تضمين قوي
- التعقيد الحسابي: على الرغم من أنها أكثر كفاءة من EAO، إلا أنها أكثر تعقيداً من الطرق أحادية القناة
- حساسية المعاملات الفائقة: تتطلب ضبطاً دقيقاً لعدد قنوات الاهتمام
- حجم مجموعة البيانات: المزايا ليست واضحة جداً على مجموعات البيانات الأصغر
- اختيار القنوات التكيفية: ضبط قنوات الاهتمام ديناميكياً بناءً على خصائص البيانات
- التوسع إلى أنماط أكثر: التحقق من الأداء على أنماط أكثر (>4)
- التحليل النظري: فهم أعمق للعلاقة النظرية بين التوحيد والمحاذاة
- أهمية المشكلة: حل مشكلة رئيسية في التطبيقات العملية
- ابتكار الطريقة: دمج ماهر لمزايا EAO و Zorro
- كفاية التجارب: تجارب مقارنة منهجية وتحليل استئصالي
- الرؤى النظرية: توفير تحليل قيم لجودة التضمين
- قيود مجموعة البيانات: التحقق على مجموعتي بيانات فقط، القابلية للتعميم قيد الاختبار
- نقص التحليل النظري: افتقار إلى تفسير نظري لفعالية الطريقة
- تحليل التكاليف الحسابية: لم يتم تحليل تعقيد الحساب لطرق مختلفة بالتفصيل
- المساهمة الأكاديمية: توفير حل جديد لمشكلة التعلم متعدد الأنماط المتفرق
- القيمة العملية: قابلة للتطبيق مباشرة على دمج المستشعرات المتعددة والمعلوماتية الطبية
- قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات فائقة
- أنظمة المستشعرات المتعددة: أجهزة IoT، إدراك الروبوتات
- المعلوماتية الطبية: دمج بيانات متعددة الجينومات
- استرجاع الوسائط المتعددة: استرجاع المحتوى للأنماط غير المكتملة
- المراقبة الصناعية: تحليل دمج البيانات متعددة المصادر
تستشهد الورقة بأعمال متعددة الأنماط مهمة، بما في ذلك:
- CLIP (Radford et al., 2021): عمل تأسيسي في التعلم المتقابل متعدد الأنماط
- EAO (Shvetsova et al., 2022): طريقة مهمة في استرجاع متعدد الأنماط
- Zorro (Recasens et al., 2023): محول متعدد الأنماط المقنع
- Wang & Isola (2020): نظرية التوحيد والمحاذاة في التعلم المتقابل
تقدم هذه الورقة مساهمة مهمة في مجال دمج البيانات متعددة الأنماط المتفرقة. تحسن طريقة MCA المقترحة الأداء بشكل كبير مع الحفاظ على الكفاءة الحسابية، مما يوفر حلاً فعالاً للتعامل مع البيانات متعددة الأنماط غير المكتملة في العالم الحقيقي.