2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Scaling Language-Centric Omnimodal Representation Learning

基本信息

  • 论文ID: 2510.11693
  • 标题: Scaling Language-Centric Omnimodal Representation Learning
  • 作者: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • 分类: cs.CL cs.AI cs.CV
  • 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2510.11693
  • 代码链接: https://github.com/LCO-Embedding/LCO-Embedding

摘要

本文探讨了基于多模态大语言模型(MLLMs)的嵌入方法优越性的根本原因,发现其关键优势源于生成式预训练过程中实现的隐式跨模态对齐。作者提出了语言中心的全模态嵌入框架LCO-EMB,并发现了生成-表示缩放定律(GRSL),表明通过对比学习获得的表示能力与MLLM的生成能力呈正相关。该工作在多个基准测试中达到了最先进的性能,并提供了理论解释。

研究背景与动机

问题背景

传统的跨模态表示对齐主要依赖于大规模对比学习,如CLIP风格的模型。然而,这些方法在复杂任务上的性能趋于平稳,特别是在需要深度跨模态理解的任务上,如多语言图像检索、视觉文本表示和交错多模态编码等。

研究动机

  1. 性能瓶颈:CLIP风格模型通过扩大模型规模、数据集体积和批次大小获得的性能提升已经趋于平稳
  2. 理论缺失:基于MLLM的嵌入方法虽然表现出色,但其优越性的根本原因尚未被深入探索
  3. 效率问题:传统对比学习需要大量跨模态配对数据,计算成本高昂

关键洞察

作者发现MLLM在生成式预训练过程中已经实现了隐式的跨模态对齐,语言解码器学会在共享表示空间中利用多模态信号来生成单模态输出。

核心贡献

  1. 理论发现:通过各向异性和核相似性结构分析,实证确认MLLM表示中存在潜在的跨模态对齐
  2. 方法创新:提出语言中心的全模态嵌入框架LCO-EMB,将对比学习作为轻量级的精细化阶段
  3. 缩放定律:发现生成-表示缩放定律(GRSL),建立了生成能力与表示能力之间的正相关关系
  4. 理论支撑:通过PAC-Bayesian泛化界限提供了GRSL的理论解释
  5. 实验验证:在多个基准测试中达到SOTA性能,并在低资源视觉文档检索任务上验证了理论

方法详解

潜在跨模态对齐分析

各向异性度分析

作者使用各向异性度来衡量嵌入空间的退化程度:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

实验发现,仅使用文本对比学习后,非文本模态的各向异性也得到改善,证明了MLLM中存在潜在的跨模态对齐。

核级相似性分析

采用互k近邻(mutual kNN)来量化不同模态间相似性结构的重叠:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

其中S(ϕi)S(\phi_i)S(ψi)S(\psi_i)分别是特征ϕi\phi_iψi\psi_i的k近邻集合。

LCO-EMB框架

架构设计

LCO-EMB基于标准MLLM架构:

  • 模态特定编码器:处理不同模态输入
  • 投影器:将模态特定表示对齐到解码器嵌入空间
  • 语言解码器:LLM作为核心组件

训练策略

  1. 文本专用变体:仅使用LoRA微调语言解码器,冻结其他参数
  2. 多模态变体:在文本训练基础上加入少量多模态配对数据
  3. 参数高效:使用LoRA保持对预训练模型的最小扰动

数据设置

  • all-NLI:结合MNLI和SNLI,约276k三元组
  • Scale-1M:从20M多语言平行语料中采样的1M句子对
  • 多模态数据:约94k合成多模态样本

生成-表示缩放定律(GRSL)

理论框架

定义生成先验的质量: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

其中Lg(P)L_g(P)是生成损失,H(Y)H(Y)是目标数据的熵。

主要定理

定理1:在假设1下,以至少1δ1-\delta的概率,期望总体对比风险被界限为:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

这表明生成能力直接决定了表示性能的上界。

实验设置

数据集

  • MIEB-Lite:51个任务,涵盖8个类别的图像-文本嵌入评估
  • 音频-文本:AudioCaps和Clotho数据集
  • 视频-文本:MSR-VTT和ActivityNet数据集
  • SeaDoc:新构建的低资源东南亚语言视觉文档检索基准

模型配置

  • 骨干模型:LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni
  • 优化器:AdamW,余弦学习率调度
  • LoRA设置:rank=64, α=16(文本)/128(多模态)
  • 批次大小:768(可根据数据集比例调整)

评价指标

  • 检索任务:nDCG@5/10, Recall@1
  • 分类任务:准确率
  • 相似性任务:Spearman相关系数
  • 聚类任务:标准化互信息(NMI)

实验结果

主要结果

MIEB-Lite基准测试

在51个任务的MIEB-Lite基准上,LCO-EMB取得了显著的性能提升:

模型数据集规模平均性能(47任务)平均性能(51任务)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

关键发现

  1. 数据效率:LCO-EMB使用仅约0.37M训练对(比GME少21倍)就达到了SOTA性能
  2. 跨模态泛化:文本专用变体就能在多模态任务上超越高级基线
  3. 一致性提升:在所有任务类别上都表现出色,特别是在多语言对齐、组合性和文档理解任务上

消融实验

训练策略对比

训练策略训练时间多语言图像检索视觉STS文档理解线性探测平均
CLIP风格CL~550小时18.2473.9244.8938.9350.02
线性投影~8.8小时40.2972.0535.6952.9656.22
全量微调~17.3小时44.0583.1558.0253.3466.49
LoRA~9.3小时56.6485.0567.4953.9171.98

数据集影响

  • all-NLI训练:在视觉STS和文档理解上表现突出
  • Scale-1M训练:在线性探测和多语言图像检索上领先
  • 模型融合:结合两种训练数据的优势,获得最佳整体性能

生成-表示缩放定律验证

跨模态验证

在OCR相关、视频-文本、音频-文本三类任务上都观察到生成能力与表示能力的正相关关系:

  • OCR任务:生成性能从65-80,表示性能从66-74
  • 视频-文本:生成性能从66-72,检索性能从38-46
  • 音频-文本:生成性能从65-71,检索性能从23.6-24.3

SeaDoc验证

在低资源东南亚语言视觉文档检索任务上:

  • 基线模型:nDCG@10 = 24.2
  • 持续生成训练后:nDCG@10 = 35.8 (+47.5%提升)

相关工作

全模态表示学习

现有方法主要依赖大规模跨模态配对数据训练模态特定编码器,如ImageBind等。本文探索了利用MLLM潜在对齐的新范式。

模态中心表示学习

  • 视觉中心:DINOv2等通过扩大数据规模实现与CLIP相当的OCR性能
  • 语言中心:E5-V等利用纯文本学习泛化到图像和组合检索任务

表示能力研究

MIEB基准显示CLIP的性能提升已趋于平稳,MLLM基础的嵌入模型成为有前景的替代方案。

结论与讨论

主要结论

  1. 理论贡献:发现并验证了MLLM中存在的隐式跨模态对齐
  2. 方法创新:提出了高效的语言中心全模态嵌入框架
  3. 缩放定律:建立了生成能力与表示能力之间的理论联系
  4. 实际应用:在多个基准上达到SOTA,证明了方法的有效性

局限性

  1. 计算成本:虽然比传统方法更高效,但仍需要MLLM作为骨干网络
  2. 联合训练:由于计算成本限制,未探索生成损失和对比损失的联合训练
  3. 理论假设:GRSL的理论分析基于特定假设,需要更广泛的验证

未来方向

  1. 联合优化:探索生成损失和对比损失的联合训练策略
  2. 理论扩展:进一步完善GRSL的理论框架
  3. 应用拓展:将方法扩展到更多模态和任务场景

深度评价

优点

  1. 理论深度:提供了MLLM嵌入方法优越性的深层理解
  2. 方法创新:语言中心的训练范式具有很强的创新性
  3. 实验全面:涵盖多种模态、多个基准的广泛实验验证
  4. 理论支撑:PAC-Bayesian框架为GRSL提供了严格的理论基础
  5. 实用价值:显著的数据效率提升具有重要的实际意义

不足

  1. 假设依赖:理论分析依赖于特定的假设条件
  2. 计算资源:仍需要大规模MLLM作为基础,对计算资源要求较高
  3. 泛化能力:在某些传统强项任务(如聚类、线性探测)上的提升有限

影响力

  1. 学术贡献:为多模态表示学习提供了新的理论视角
  2. 实用价值:显著提高了训练效率,降低了数据需求
  3. 可复现性:提供了完整的代码和资源,便于复现和扩展

适用场景

  1. 资源受限环境:适合数据或计算资源有限的场景
  2. 多语言应用:在多语言多模态任务中表现突出
  3. 文档理解:在视觉文档理解任务中具有显著优势

参考文献

本文引用了85篇相关文献,涵盖了多模态学习、对比学习、大语言模型等多个研究领域的重要工作,为研究提供了坚实的理论基础。


总结:本文通过深入分析MLLM的潜在跨模态对齐能力,提出了高效的语言中心全模态嵌入框架,并发现了具有重要理论意义的生成-表示缩放定律。该工作不仅在多个基准上取得了优异性能,更重要的是为多模态表示学习提供了新的理论洞察和实践范式。