2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

언어 중심 전방식 표현 학습의 확장

기본 정보

  • 논문 ID: 2510.11693
  • 제목: Scaling Language-Centric Omnimodal Representation Learning
  • 저자: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • 분류: cs.CL cs.AI cs.CV
  • 발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
  • 논문 링크: https://arxiv.org/abs/2510.11693
  • 코드 링크: https://github.com/LCO-Embedding/LCO-Embedding

초록

본 논문은 다중모달 대규모 언어 모델(MLLM) 기반 임베딩 방법의 우월성의 근본적 원인을 탐구하며, 생성식 사전학습 과정에서 달성된 암묵적 교차모달 정렬이 핵심 장점임을 발견했습니다. 저자들은 언어 중심의 전방식 임베딩 프레임워크 LCO-EMB를 제안하고, 대조 학습으로 획득한 표현 능력이 MLLM의 생성 능력과 양의 상관관계를 보이는 생성-표현 스케일링 법칙(GRSL)을 발견했습니다. 본 연구는 여러 벤치마크에서 최첨단 성능을 달성하고 이론적 설명을 제공합니다.

연구 배경 및 동기

문제 배경

기존의 교차모달 표현 정렬은 주로 CLIP 스타일 모델과 같은 대규모 대조 학습에 의존합니다. 그러나 이러한 방법들은 복잡한 작업, 특히 다국어 이미지 검색, 시각-텍스트 표현, 인터리빙 다중모달 인코딩과 같이 깊이 있는 교차모달 이해가 필요한 작업에서 성능 향상이 정체되는 경향을 보입니다.

연구 동기

  1. 성능 병목: CLIP 스타일 모델이 모델 규모, 데이터셋 크기, 배치 크기 확대로 얻은 성능 향상이 정체됨
  2. 이론 부재: MLLM 기반 임베딩 방법이 우수한 성능을 보이지만, 그 우월성의 근본 원인이 충분히 탐구되지 않음
  3. 효율성 문제: 기존 대조 학습은 대량의 교차모달 쌍 데이터가 필요하여 계산 비용이 높음

핵심 통찰

저자들은 MLLM이 생성식 사전학습 과정에서 이미 암묵적인 교차모달 정렬을 달성했으며, 언어 디코더가 공유 표현 공간에서 다중모달 신호를 활용하여 단일모달 출력을 생성하는 방법을 학습했음을 발견했습니다.

핵심 기여

  1. 이론적 발견: 이방성 및 핵 유사성 구조 분석을 통해 MLLM 표현에 존재하는 잠재적 교차모달 정렬을 실증적으로 확인
  2. 방법론 혁신: 대조 학습을 경량 미세조정 단계로 활용하는 언어 중심의 전방식 임베딩 프레임워크 LCO-EMB 제안
  3. 스케일링 법칙: 생성 능력과 표현 능력 간의 양의 상관관계를 보이는 생성-표현 스케일링 법칙(GRSL) 발견
  4. 이론적 지원: PAC-베이지안 일반화 한계를 통해 GRSL의 이론적 설명 제공
  5. 실험 검증: 여러 벤치마크에서 최첨단 성능 달성 및 저자원 시각 문서 검색 작업에서 이론 검증

방법론 상세

잠재적 교차모달 정렬 분석

이방성도 분석

저자들은 이방성도를 사용하여 임베딩 공간의 퇴화 정도를 측정합니다:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

실험 결과, 텍스트 대조 학습만 사용한 후에도 비텍스트 모달의 이방성도가 개선되어 MLLM에 잠재적 교차모달 정렬이 존재함을 증명했습니다.

핵 수준 유사성 분석

상호 k-최근접 이웃(mutual kNN)을 사용하여 서로 다른 모달 간 유사성 구조의 중복을 정량화합니다:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

여기서 S(ϕi)S(\phi_i)S(ψi)S(\psi_i)는 각각 특성 ϕi\phi_iψi\psi_i의 k-최근접 이웃 집합입니다.

LCO-EMB 프레임워크

아키텍처 설계

LCO-EMB는 표준 MLLM 아키텍처를 기반으로 합니다:

  • 모달 특정 인코더: 서로 다른 모달 입력 처리
  • 프로젝터: 모달 특정 표현을 디코더 임베딩 공간으로 정렬
  • 언어 디코더: 핵심 구성 요소로서의 LLM

학습 전략

  1. 텍스트 전용 변형: LoRA 미세조정을 사용하여 언어 디코더만 조정, 다른 매개변수는 고정
  2. 다중모달 변형: 텍스트 학습 기반에 소량의 다중모달 쌍 데이터 추가
  3. 매개변수 효율성: LoRA를 사용하여 사전학습 모델에 대한 최소한의 교란 유지

데이터 설정

  • all-NLI: MNLI와 SNLI 결합, 약 276k 삼중쌍
  • Scale-1M: 20M 다국어 병렬 말뭉치에서 샘플링한 1M 문장 쌍
  • 다중모달 데이터: 약 94k 합성 다중모달 샘플

생성-표현 스케일링 법칙(GRSL)

이론적 프레임워크

생성 사전의 품질을 정의합니다: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

여기서 Lg(P)L_g(P)는 생성 손실이고 H(Y)H(Y)는 목표 데이터의 엔트로피입니다.

주요 정리

정리 1: 가정 1 하에서, 최소 1δ1-\delta의 확률로 기댓값 전체 대조 위험은 다음과 같이 한계지어집니다:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

이는 생성 능력이 표현 성능의 상한을 직접 결정함을 나타냅니다.

실험 설정

데이터셋

  • MIEB-Lite: 51개 작업, 8개 범주의 이미지-텍스트 임베딩 평가
  • 오디오-텍스트: AudioCaps 및 Clotho 데이터셋
  • 비디오-텍스트: MSR-VTT 및 ActivityNet 데이터셋
  • SeaDoc: 새로 구축된 저자원 동남아시아 언어 시각 문서 검색 벤치마크

모델 구성

  • 백본 모델: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • 최적화기: AdamW, 코사인 학습률 스케줄
  • LoRA 설정: rank=64, α=16(텍스트)/128(다중모달)
  • 배치 크기: 768(데이터셋 비율에 따라 조정 가능)

평가 지표

  • 검색 작업: nDCG@5/10, Recall@1
  • 분류 작업: 정확도
  • 유사성 작업: 스피어만 상관계수
  • 클러스터링 작업: 정규화 상호정보(NMI)

실험 결과

주요 결과

MIEB-Lite 벤치마크

51개 작업의 MIEB-Lite 벤치마크에서 LCO-EMB는 현저한 성능 향상을 달성했습니다:

모델데이터셋 규모평균 성능(47개 작업)평균 성능(51개 작업)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

주요 발견

  1. 데이터 효율성: LCO-EMB는 약 0.37M 학습 쌍(GME보다 21배 적음)만 사용하여 최첨단 성능 달성
  2. 교차모달 일반화: 텍스트 전용 변형만으로도 고급 기준선을 다중모달 작업에서 초과
  3. 일관된 향상: 모든 작업 범주에서 우수한 성능, 특히 다국어 정렬, 합성성, 문서 이해 작업에서 두드러짐

절제 실험

학습 전략 비교

학습 전략학습 시간다국어 이미지 검색시각 STS문서 이해선형 탐사평균
CLIP 스타일 CL~550시간18.2473.9244.8938.9350.02
선형 프로젝션~8.8시간40.2972.0535.6952.9656.22
전체 미세조정~17.3시간44.0583.1558.0253.3466.49
LoRA~9.3시간56.6485.0567.4953.9171.98

데이터셋 영향

  • all-NLI 학습: 시각 STS 및 문서 이해에서 우수한 성능
  • Scale-1M 학습: 선형 탐사 및 다국어 이미지 검색에서 선도
  • 모델 융합: 두 학습 데이터의 장점을 결합하여 최적의 전체 성능 달성

생성-표현 스케일링 법칙 검증

교차모달 검증

OCR 관련, 비디오-텍스트, 오디오-텍스트 세 가지 작업 범주에서 생성 능력과 표현 능력의 양의 상관관계 관찰:

  • OCR 작업: 생성 성능 65-80, 표현 성능 66-74
  • 비디오-텍스트: 생성 성능 66-72, 검색 성능 38-46
  • 오디오-텍스트: 생성 성능 65-71, 검색 성능 23.6-24.3

SeaDoc 검증

저자원 동남아시아 언어 시각 문서 검색 작업에서:

  • 기준선 모델: nDCG@10 = 24.2
  • 지속적 생성 학습 후: nDCG@10 = 35.8 (+47.5% 향상)

관련 연구

전방식 표현 학습

기존 방법들은 주로 ImageBind와 같이 모달 특정 인코더를 학습하기 위해 대규모 교차모달 쌍 데이터에 의존합니다. 본 논문은 MLLM의 잠재적 정렬을 활용하는 새로운 패러다임을 탐구합니다.

모달 중심 표현 학습

  • 시각 중심: DINOv2 등이 데이터 규모 확대를 통해 CLIP과 동등한 OCR 성능 달성
  • 언어 중심: E5-V 등이 순수 텍스트 학습을 이미지 및 합성 검색 작업으로 일반화

표현 능력 연구

MIEB 벤치마크는 CLIP의 성능 향상이 정체되었음을 보여주며, MLLM 기반 임베딩 모델이 유망한 대안이 됨을 나타냅니다.

결론 및 논의

주요 결론

  1. 이론적 기여: MLLM에 존재하는 암묵적 교차모달 정렬 발견 및 검증
  2. 방법론 혁신: 효율적인 언어 중심 전방식 임베딩 프레임워크 제안
  3. 스케일링 법칙: 생성 능력과 표현 능력 간의 이론적 연결 수립
  4. 실제 응용: 여러 벤치마크에서 최첨단 성능 달성으로 방법의 효과성 증명

제한사항

  1. 계산 비용: 기존 방법보다 효율적이지만 여전히 MLLM을 백본 네트워크로 필요
  2. 결합 학습: 계산 비용 제한으로 인해 생성 손실과 대조 손실의 결합 학습 미탐구
  3. 이론적 가정: GRSL의 이론 분석이 특정 가정에 기반하여 더 광범위한 검증 필요

향후 방향

  1. 결합 최적화: 생성 손실과 대조 손실의 결합 학습 전략 탐구
  2. 이론 확장: GRSL의 이론적 프레임워크 추가 개선
  3. 응용 확장: 방법을 더 많은 모달 및 작업 시나리오로 확장

심층 평가

장점

  1. 이론적 깊이: MLLM 임베딩 방법 우월성에 대한 깊이 있는 이해 제공
  2. 방법론 혁신: 언어 중심 학습 패러다임이 매우 혁신적
  3. 포괄적 실험: 다양한 모달, 여러 벤치마크를 포함한 광범위한 실험 검증
  4. 이론적 지원: PAC-베이지안 프레임워크가 GRSL에 엄격한 이론적 기초 제공
  5. 실용적 가치: 현저한 데이터 효율성 향상이 중요한 실제 의미 보유

부족한 점

  1. 가정 의존성: 이론 분석이 특정 가정 조건에 의존
  2. 계산 자원: 여전히 대규모 MLLM을 기초로 필요하여 계산 자원 요구도 높음
  3. 일반화 능력: 일부 전통적 강점 작업(클러스터링, 선형 탐사)에서의 향상이 제한적

영향력

  1. 학술적 기여: 다중모달 표현 학습에 새로운 이론적 관점 제공
  2. 실용적 가치: 학습 효율성 현저히 향상, 데이터 요구 감소
  3. 재현성: 완전한 코드 및 자원 제공으로 재현 및 확장 용이

적용 시나리오

  1. 자원 제약 환경: 데이터 또는 계산 자원이 제한된 시나리오에 적합
  2. 다국어 응용: 다국어 다중모달 작업에서 우수한 성능
  3. 문서 이해: 시각 문서 이해 작업에서 현저한 장점

참고문헌

본 논문은 다중모달 학습, 대조 학습, 대규모 언어 모델 등 여러 연구 분야의 중요한 작업을 포함한 85편의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.


요약: 본 논문은 MLLM의 잠재적 교차모달 정렬 능력을 심층 분석하여 효율적인 언어 중심 전방식 임베딩 프레임워크를 제안하고, 중요한 이론적 의미를 가진 생성-표현 스케일링 법칙을 발견했습니다. 본 연구는 여러 벤치마크에서 우수한 성능을 달성할 뿐만 아니라, 다중모달 표현 학습을 위한 새로운 이론적 통찰과 실제 패러다임을 제공합니다.