2025-11-19T16:19:13.919719

Sparsely Multimodal Data Fusion

Bjorgaard

Multimodal data fusion is essential for applications requiring the integration of diverse data sources, especially in the presence of incomplete or sparsely available modalities. This paper presents a comparative study of three multimodal embedding techniques, Modal Channel Attention (MCA), Zorro, and Everything at Once (EAO), to evaluate their performance on sparsely multimodal data. MCA introduces fusion embeddings for all combinations of input modalities and uses attention masking to create distinct attention channels, enabling flexible and efficient data fusion. Experiments on two datasets with four modalities each, CMU-MOSEI and TCGA, demonstrate that MCA outperforms Zorro across ranking, recall, regression, and classification tasks and outperforms EAO across regression and classification tasks. MCA achieves superior performance by maintaining robust uniformity across unimodal and fusion embeddings. While EAO performs best in ranking metrics due to its approach of forming fusion embeddings post-inference, it underperforms in downstream tasks requiring multimodal interactions. These results highlight the importance of contrasting all modality combinations in constructing embedding spaces and offers insights into the design of multimodal architectures for real-world applications with incomplete data.

academic

Sparsely Multimodal Data Fusion

基本信息

论文ID: 2403.20280
标题: Sparsely Multimodal Data Fusion
作者: Josiah A. Bjorgaard (Syntensor, Inc.)
分类: cs.LG cs.AI
发表时间: 2024年3月 (arXiv v2: 2025年1月)
论文链接: https://arxiv.org/abs/2403.20280

摘要

本文研究了稀疏多模态数据融合问题，提出了Modal Channel Attention (MCA)方法，并与Zorro和Everything at Once (EAO)两种现有方法进行了系统比较。MCA通过为所有模态组合创建融合嵌入并使用注意力掩码创建不同的注意力通道，实现了灵活高效的数据融合。在CMU-MOSEI和TCGA两个四模态数据集上的实验表明，MCA在排序、召回、回归和分类任务上优于Zorro，在回归和分类任务上优于EAO。

研究背景与动机

问题定义

随着多模态深度学习的发展，现实应用中经常面临模态不完整（modal-incomplete）的挑战。当数据集包含3个或更多模态时，缺失模态的样本更容易出现，形成稀疏多模态（sparsely multimodal）数据集。

研究重要性

实际需求：多传感器融合、生物信息学、家庭监控系统等领域经常遇到多模态数据缺失问题
技术挑战：现有多模态融合模型往往无法有效处理模态不完整的样本
应用价值：提高模型在真实场景下的鲁棒性和实用性

现有方法局限性

FLAVA等方法虽能处理缺失模态，但无法生成多模态融合嵌入空间
EAO需要多次前向传播，计算效率低
Zorro仅使用单一融合通道，无法充分利用不同模态组合的信息

核心贡献

提出MCA方法：引入模态通道注意力机制，为所有可能的模态组合创建融合嵌入
系统性比较研究：在稀疏多模态数据上全面评估MCA、Zorro和EAO三种方法
性能提升：MCA在多数任务上优于现有方法，特别是在下游任务中表现突出
理论洞察：揭示了对比所有模态组合在构建嵌入空间中的重要性

方法详解

任务定义

输入：包含4个模态的数据集，存在不同程度的模态稀疏性（0-0.8）输出：统一的融合嵌入空间，支持检索和下游任务约束：处理模态不完整样本，保持计算效率

模型架构

MCA核心设计

融合嵌入生成：为所有可能的模态组合创建融合嵌入（如图3a所示）
模态通道注意力掩码：使用块注意力掩码创建不同的注意力通道（如图3b所示）
单次前向传播：在一次前向传播中处理所有模态组合

注意力掩码设计

对于4模态数据集，MCA创建11个注意力通道：

4个单模态通道：(1), (2), (3), (4)
6个双模态通道：(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)
1个全模态通道：(1,2,3,4)

损失函数策略

采用样本和损失掩码策略：

缺失模态用填充token替代
只要至少一个模态存在，就计算相应融合token的损失
使用噪声对比估计(NCE)损失

技术创新点

多通道融合：相比Zorro的单通道，MCA支持所有模态组合的融合
计算效率：相比EAO的多次前向传播，MCA仅需一次
灵活性：能够处理任意模态组合的缺失情况
统一框架：在同一框架下实现三种方法的公平比较

实验设置

数据集

CMU-MOSEI

规模：23,248个样本，测试集2,324个样本
模态：4个预处理模态（Glove向量、OpenFace、COVAREP、FACET编码器）
任务：情感分析回归（0-1范围）
预处理：线性层变换+层归一化+位置嵌入

TCGA (The Cancer Genome Atlas)

规模：7,017个样本，测试集707个样本
模态：基因表达（800个基因）、蛋白质阵列（198个蛋白）、DNA甲基化（800个位点）、miRNA（662个）
任务：32类癌症类型分类
预处理：2层MLP编码+可学习嵌入

模态稀疏性定义

$S = \frac{1}{N_S}\sum_{i=1}^{N_S} M_i/M_T$

其中 $N_S$ 为样本数， $M_i$ 为样本i的模态数， $M_T$ 为总模态数。实验设置S = 0, 0.2, 0.4, 0.6, 0.8。

评价指标

嵌入质量指标

一致性(Alignment)： $L_a = E_{x,y}[||f(x)-f(y)||_2^2]$
均匀性(Uniformity)： $L_u = E_{x,y}[e^{-2||f(x)-f(y)||_2^2}]$

检索任务指标

中位排序：正确匹配的中位排名
召回率：R@1, R@5, R@10

下游任务指标

回归：相关系数（CMU-MOSEI）
分类：平均AUPR（TCGA）

实现细节

模型参数：隐藏大小512，8个注意力头，4倍前馈倍数
训练设置：批大小32，学习率1e-4，余弦调度
硬件：MCA/Zorro使用4×A10G GPU（17GB），EAO使用4×A100 GPU（41GB）

实验结果

主要结果

嵌入质量分析（图4）

均匀性：MCA在大多数情况下保持最佳的融合嵌入均匀性
一致性：EAO具有最好的一致性，但均匀性较差
稀疏性影响：当模态稀疏性超过0.4时，所有方法的均匀性都有所下降

排序和召回性能（图5）

EAO最优：在排序指标上表现最佳，得益于其后推理融合策略
MCA优于Zorro：在大多数情况下，MCA的中位排序和召回率优于Zorro
数据集差异：在较大的CMU-MOSEI数据集上差异更明显

下游任务性能（图6）

回归任务：MCA在CMU-MOSEI情感分析任务上达到0.54基线，优于Zorro和EAO
分类任务：MCA在TCGA癌症分类任务上表现最佳
稀疏性鲁棒性：MCA在高稀疏性下仍保持相对稳定的性能

关键发现

均匀性vs一致性权衡：更好的均匀性有利于下游任务，更好的一致性有利于检索任务
多通道优势：对比所有模态组合显著提升了嵌入质量
计算效率：MCA在保持性能的同时大幅降低了计算成本

相关工作

无对比学习方法

交错数据方法：如Flamingo，使用自回归或掩码语言目标
后期融合掩码：通过掩码表示处理不完整模态

包含对比学习方法

FLAVA：多损失模型，但无法生成融合嵌入空间
LORRETA：预测第三模态，需要双模态对

纯对比学习方法

EAO：多次前向传播，组合对比损失
Zorro：块注意力掩码，单次前向传播

结论与讨论

主要结论

MCA有效性：在稀疏多模态数据上，MCA整体性能最佳
任务特异性：不同方法在不同任务类型上各有优势
设计重要性：对比所有模态组合对构建鲁棒嵌入空间至关重要

局限性

计算复杂度：虽然比EAO效率高，但仍比单通道方法复杂
超参数敏感性：需要仔细调整注意力通道数量
数据集规模：在较小数据集上优势不够明显

未来方向

自适应通道选择：根据数据特性动态调整注意力通道
更多模态扩展：验证在更多模态（>4）上的性能
理论分析：深入理解均匀性和一致性的理论关系

深度评价

优点

问题重要性：解决了实际应用中的关键问题
方法创新性：巧妙结合了EAO和Zorro的优势
实验充分性：系统的对比实验和消融分析
理论洞察：提供了有价值的嵌入质量分析

不足

数据集限制：仅在两个数据集上验证，泛化性有待验证
理论分析不足：缺乏对方法有效性的理论解释
计算开销分析：未详细分析不同方法的计算复杂度

影响力

学术贡献：为稀疏多模态学习提供了新的解决方案
实用价值：直接适用于多传感器融合、医疗信息学等领域
可复现性：提供了详细的实现细节和超参数设置

适用场景

多传感器系统：IoT设备、机器人感知
医疗信息学：多组学数据融合
多媒体检索：不完整模态的内容检索
工业监控：多源数据融合分析

参考文献

论文引用了多个重要的多模态学习工作，包括：

CLIP (Radford et al., 2021)：多模态对比学习的奠基性工作
EAO (Shvetsova et al., 2022)：多模态检索的重要方法
Zorro (Recasens et al., 2023)：掩码多模态Transformer
Wang & Isola (2020)：对比学习的一致性和均匀性理论

本论文在稀疏多模态数据融合领域做出了重要贡献，提出的MCA方法在保持计算效率的同时显著提升了性能，为处理现实世界中的不完整多模态数据提供了有效解决方案。