2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

Scaling Language-Centric Omnimodal Representation Learning

基本信息

论文ID: 2510.11693
标题: Scaling Language-Centric Omnimodal Representation Learning
作者: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
分类: cs.CL cs.AI cs.CV
发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2510.11693
代码链接: https://github.com/LCO-Embedding/LCO-Embedding

摘要

本文探讨了基于多模态大语言模型(MLLMs)的嵌入方法优越性的根本原因，发现其关键优势源于生成式预训练过程中实现的隐式跨模态对齐。作者提出了语言中心的全模态嵌入框架LCO-EMB，并发现了生成-表示缩放定律(GRSL)，表明通过对比学习获得的表示能力与MLLM的生成能力呈正相关。该工作在多个基准测试中达到了最先进的性能，并提供了理论解释。

研究背景与动机

问题背景

传统的跨模态表示对齐主要依赖于大规模对比学习，如CLIP风格的模型。然而，这些方法在复杂任务上的性能趋于平稳，特别是在需要深度跨模态理解的任务上，如多语言图像检索、视觉文本表示和交错多模态编码等。

研究动机

性能瓶颈：CLIP风格模型通过扩大模型规模、数据集体积和批次大小获得的性能提升已经趋于平稳
理论缺失：基于MLLM的嵌入方法虽然表现出色，但其优越性的根本原因尚未被深入探索
效率问题：传统对比学习需要大量跨模态配对数据，计算成本高昂

关键洞察

作者发现MLLM在生成式预训练过程中已经实现了隐式的跨模态对齐，语言解码器学会在共享表示空间中利用多模态信号来生成单模态输出。

核心贡献

理论发现：通过各向异性和核相似性结构分析，实证确认MLLM表示中存在潜在的跨模态对齐
方法创新：提出语言中心的全模态嵌入框架LCO-EMB，将对比学习作为轻量级的精细化阶段
缩放定律：发现生成-表示缩放定律(GRSL)，建立了生成能力与表示能力之间的正相关关系
理论支撑：通过PAC-Bayesian泛化界限提供了GRSL的理论解释
实验验证：在多个基准测试中达到SOTA性能，并在低资源视觉文档检索任务上验证了理论

方法详解

潜在跨模态对齐分析

各向异性度分析

作者使用各向异性度来衡量嵌入空间的退化程度：

$\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

实验发现，仅使用文本对比学习后，非文本模态的各向异性也得到改善，证明了MLLM中存在潜在的跨模态对齐。

核级相似性分析

采用互k近邻(mutual kNN)来量化不同模态间相似性结构的重叠：

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

其中 $S(\phi_i)$ 和 $S(\psi_i)$ 分别是特征 $\phi_i$ 和 $\psi_i$ 的k近邻集合。

LCO-EMB框架

架构设计

LCO-EMB基于标准MLLM架构：

模态特定编码器：处理不同模态输入
投影器：将模态特定表示对齐到解码器嵌入空间
语言解码器：LLM作为核心组件

训练策略

文本专用变体：仅使用LoRA微调语言解码器，冻结其他参数
多模态变体：在文本训练基础上加入少量多模态配对数据
参数高效：使用LoRA保持对预训练模型的最小扰动

数据设置

all-NLI：结合MNLI和SNLI，约276k三元组
Scale-1M：从20M多语言平行语料中采样的1M句子对
多模态数据：约94k合成多模态样本

生成-表示缩放定律(GRSL)

理论框架

定义生成先验的质量： $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

其中 $L_g(P)$ 是生成损失， $H(Y)$ 是目标数据的熵。

主要定理

定理1：在假设1下，以至少 $1-\delta$ 的概率，期望总体对比风险被界限为：

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

这表明生成能力直接决定了表示性能的上界。

实验设置

数据集

MIEB-Lite：51个任务，涵盖8个类别的图像-文本嵌入评估
音频-文本：AudioCaps和Clotho数据集
视频-文本：MSR-VTT和ActivityNet数据集
SeaDoc：新构建的低资源东南亚语言视觉文档检索基准

模型配置

骨干模型：LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni
优化器：AdamW，余弦学习率调度
LoRA设置：rank=64, α=16(文本)/128(多模态)
批次大小：768(可根据数据集比例调整)

评价指标

检索任务：nDCG@5/10, Recall@1
分类任务：准确率
相似性任务：Spearman相关系数
聚类任务：标准化互信息(NMI)

实验结果

主要结果

MIEB-Lite基准测试

在51个任务的MIEB-Lite基准上，LCO-EMB取得了显著的性能提升：

模型	数据集规模	平均性能(47任务)	平均性能(51任务)
CLIP-ViT-bigG	2B	56.5	51.3
SigLIP-so400m	9B	57.3	53.5
Voyage Multimodal 3	-	57.7	58.1
mmE5 (11B)	2.1M	57.7	61.8
GME (7B)	8.0M	63.4	64.5
LCO-EMB-VL (7B)	370k	66.2	67.6
LCO-EMB-Omni (7B)	370k	67.6	68.8

关键发现

数据效率：LCO-EMB使用仅约0.37M训练对(比GME少21倍)就达到了SOTA性能
跨模态泛化：文本专用变体就能在多模态任务上超越高级基线
一致性提升：在所有任务类别上都表现出色，特别是在多语言对齐、组合性和文档理解任务上

消融实验

训练策略对比

训练策略	训练时间	多语言图像检索	视觉STS	文档理解	线性探测	平均
CLIP风格CL	~550小时	18.24	73.92	44.89	38.93	50.02
线性投影	~8.8小时	40.29	72.05	35.69	52.96	56.22
全量微调	~17.3小时	44.05	83.15	58.02	53.34	66.49
LoRA	~9.3小时	56.64	85.05	67.49	53.91	71.98