Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
본 논문은 다중모달 대규모 언어 모델(MLLM) 기반 임베딩 방법의 우월성의 근본적 원인을 탐구하며, 생성식 사전학습 과정에서 달성된 암묵적 교차모달 정렬이 핵심 장점임을 발견했습니다. 저자들은 언어 중심의 전방식 임베딩 프레임워크 LCO-EMB를 제안하고, 대조 학습으로 획득한 표현 능력이 MLLM의 생성 능력과 양의 상관관계를 보이는 생성-표현 스케일링 법칙(GRSL)을 발견했습니다. 본 연구는 여러 벤치마크에서 최첨단 성능을 달성하고 이론적 설명을 제공합니다.
기존의 교차모달 표현 정렬은 주로 CLIP 스타일 모델과 같은 대규모 대조 학습에 의존합니다. 그러나 이러한 방법들은 복잡한 작업, 특히 다국어 이미지 검색, 시각-텍스트 표현, 인터리빙 다중모달 인코딩과 같이 깊이 있는 교차모달 이해가 필요한 작업에서 성능 향상이 정체되는 경향을 보입니다.
본 논문은 다중모달 학습, 대조 학습, 대규모 언어 모델 등 여러 연구 분야의 중요한 작업을 포함한 85편의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.
요약: 본 논문은 MLLM의 잠재적 교차모달 정렬 능력을 심층 분석하여 효율적인 언어 중심 전방식 임베딩 프레임워크를 제안하고, 중요한 이론적 의미를 가진 생성-표현 스케일링 법칙을 발견했습니다. 본 연구는 여러 벤치마크에서 우수한 성능을 달성할 뿐만 아니라, 다중모달 표현 학습을 위한 새로운 이론적 통찰과 실제 패러다임을 제공합니다.