2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Scaling Language-Centric Omnimodal Representation Learning

Informazioni Fondamentali

  • ID Articolo: 2510.11693
  • Titolo: Scaling Language-Centric Omnimodal Representation Learning
  • Autori: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • Classificazione: cs.CL cs.AI cs.CV
  • Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
  • Link Articolo: https://arxiv.org/abs/2510.11693
  • Link Codice: https://github.com/LCO-Embedding/LCO-Embedding

Riassunto

Questo articolo esamina le ragioni fondamentali della superiorità dei metodi di embedding basati su modelli linguistici multimodali (MLLM), scoprendo che il vantaggio chiave deriva dall'allineamento implicito cross-modale realizzato durante il processo di preaddestramento generativo. Gli autori propongono il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB e scoprono la legge di scaling generativo-rappresentazionale (GRSL), che dimostra una correlazione positiva tra la capacità rappresentazionale acquisita attraverso l'apprendimento contrastivo e la capacità generativa dell'MLLM. Questo lavoro raggiunge prestazioni all'avanguardia su più benchmark e fornisce spiegazioni teoriche.

Contesto di Ricerca e Motivazione

Contesto del Problema

L'allineamento tradizionale della rappresentazione cross-modale si basa principalmente su apprendimento contrastivo su larga scala, come i modelli di stile CLIP. Tuttavia, questi metodi raggiungono un plateau di prestazioni su compiti complessi, in particolare su compiti che richiedono una profonda comprensione cross-modale, come il recupero di immagini multilingue, la rappresentazione visivo-testuale e la codifica multimodale intercalata.

Motivazione della Ricerca

  1. Collo di bottiglia delle prestazioni: I modelli di stile CLIP hanno raggiunto un plateau nei miglioramenti di prestazioni ottenuti attraverso l'aumento della dimensione del modello, del volume del dataset e della dimensione del batch
  2. Mancanza di teoria: Sebbene i metodi di embedding basati su MLLM mostrino prestazioni eccellenti, le ragioni fondamentali della loro superiorità non sono state ancora profondamente esplorate
  3. Problemi di efficienza: L'apprendimento contrastivo tradizionale richiede grandi quantità di dati accoppiati cross-modali, con costi computazionali elevati

Intuizioni Chiave

Gli autori scoprono che gli MLLM hanno già realizzato un allineamento implicito cross-modale durante il processo di preaddestramento generativo, con il decodificatore linguistico che impara a sfruttare i segnali multimodali nello spazio di rappresentazione condiviso per generare output monomodali.

Contributi Fondamentali

  1. Scoperta Teorica: Attraverso l'analisi della struttura dell'anisotropia e della similarità nucleare, si conferma empiricamente l'esistenza di un allineamento cross-modale latente nelle rappresentazioni MLLM
  2. Innovazione Metodologica: Propone il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB, utilizzando l'apprendimento contrastivo come fase di raffinamento leggera
  3. Legge di Scaling: Scopre la legge di scaling generativo-rappresentazionale (GRSL), stabilendo una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale
  4. Supporto Teorico: Fornisce spiegazione teorica della GRSL attraverso il limite di generalizzazione PAC-Bayesian
  5. Verifica Sperimentale: Raggiunge prestazioni SOTA su più benchmark e verifica la teoria su compiti di recupero di documenti visivi a basse risorse

Dettagli Metodologici

Analisi dell'Allineamento Cross-Modale Latente

Analisi del Grado di Anisotropia

Gli autori utilizzano il grado di anisotropia per misurare il livello di degenerazione dello spazio di embedding:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

Gli esperimenti rivelano che dopo l'apprendimento contrastivo solo testuale, anche l'anisotropia delle modalità non testuali migliora, provando l'esistenza di un allineamento cross-modale latente negli MLLM.

Analisi della Similarità a Livello Nucleare

Adotta i k-vicini reciproci (mutual kNN) per quantificare la sovrapposizione della struttura di similarità tra diverse modalità:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

dove S(ϕi)S(\phi_i) e S(ψi)S(\psi_i) sono rispettivamente gli insiemi dei k-vicini delle caratteristiche ϕi\phi_i e ψi\psi_i.

Framework LCO-EMB

Progettazione dell'Architettura

LCO-EMB si basa sull'architettura MLLM standard:

  • Codificatori specifici per modalità: Elaborano input di diverse modalità
  • Proiettori: Allineano le rappresentazioni specifiche per modalità allo spazio di embedding del decodificatore
  • Decodificatore linguistico: LLM come componente centrale

Strategia di Addestramento

  1. Variante solo testuale: Microtuning solo del decodificatore linguistico utilizzando LoRA, congelando altri parametri
  2. Variante multimodale: Aggiunta di una piccola quantità di dati accoppiati multimodali all'addestramento testuale
  3. Efficienza parametrica: Utilizzo di LoRA per mantenere perturbazione minima al modello preaddestrato

Configurazione dei Dati

  • all-NLI: Combinazione di MNLI e SNLI, circa 276k triple
  • Scale-1M: 1M coppie di frasi campionate da 20M corpora paralleli multilingue
  • Dati multimodali: Circa 94k campioni multimodali sintetici

Legge di Scaling Generativo-Rappresentazionale (GRSL)

Framework Teorico

Definisce la qualità del priore generativo: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

dove Lg(P)L_g(P) è la perdita generativa e H(Y)H(Y) è l'entropia dei dati target.

Teorema Principale

Teorema 1: Sotto l'Assunzione 1, con probabilità almeno 1δ1-\delta, il rischio di contrasto della popolazione atteso è limitato da:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

Questo dimostra che la capacità generativa determina direttamente il limite superiore delle prestazioni rappresentazionali.

Configurazione Sperimentale

Dataset

  • MIEB-Lite: 51 compiti, coprendo 8 categorie di valutazione di embedding immagine-testo
  • Audio-Testo: Dataset AudioCaps e Clotho
  • Video-Testo: Dataset MSR-VTT e ActivityNet
  • SeaDoc: Nuovo benchmark di recupero di documenti visivi per lingue del Sud-Est asiatico a basse risorse

Configurazione del Modello

  • Modelli backbone: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • Ottimizzatore: AdamW, pianificazione del tasso di apprendimento cosinusoidale
  • Impostazioni LoRA: rank=64, α=16(testo)/128(multimodale)
  • Dimensione batch: 768 (regolabile in base al rapporto dei dataset)

Metriche di Valutazione

  • Compiti di recupero: nDCG@5/10, Recall@1
  • Compiti di classificazione: Accuratezza
  • Compiti di similarità: Coefficiente di correlazione di Spearman
  • Compiti di clustering: Informazione mutua normalizzata (NMI)

Risultati Sperimentali

Risultati Principali

Benchmark MIEB-Lite

Su 51 compiti del benchmark MIEB-Lite, LCO-EMB raggiunge significativi miglioramenti di prestazioni:

ModelloDimensione DatasetPrestazione Media (47 compiti)Prestazione Media (51 compiti)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

Scoperte Chiave

  1. Efficienza dei dati: LCO-EMB raggiunge prestazioni SOTA utilizzando solo circa 0.37M coppie di addestramento (21 volte meno di GME)
  2. Generalizzazione cross-modale: La variante solo testuale supera i baseline avanzati su compiti multimodali
  3. Miglioramento coerente: Prestazioni eccellenti su tutte le categorie di compiti, in particolare su allineamento multilingue, composizionalità e comprensione di documenti

Esperimenti di Ablazione

Confronto delle Strategie di Addestramento

Strategia di AddestramentoTempo di AddestramentoRecupero Immagini MultilingueSTS VisivoComprensione DocumentiSonda LineareMedia
CL Stile CLIP~550 ore18.2473.9244.8938.9350.02
Proiezione Lineare~8.8 ore40.2972.0535.6952.9656.22
Microtuning Completo~17.3 ore44.0583.1558.0253.3466.49
LoRA~9.3 ore56.6485.0567.4953.9171.98

Impatto del Dataset

  • Addestramento all-NLI: Prestazioni eccellenti su STS visivo e comprensione di documenti
  • Addestramento Scale-1M: Leadership su sonda lineare e recupero di immagini multilingue
  • Fusione di modelli: Combinazione dei vantaggi di entrambi i dati di addestramento, ottenendo le migliori prestazioni complessive

Verifica della Legge di Scaling Generativo-Rappresentazionale

Verifica Cross-Modale

Si osserva una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale su tre categorie di compiti: OCR correlati, video-testo e audio-testo:

  • Compiti OCR: Prestazioni generative da 65-80, prestazioni rappresentazionali da 66-74
  • Video-Testo: Prestazioni generative da 66-72, prestazioni di recupero da 38-46
  • Audio-Testo: Prestazioni generative da 65-71, prestazioni di recupero da 23.6-24.3

Verifica SeaDoc

Su compiti di recupero di documenti visivi per lingue del Sud-Est asiatico a basse risorse:

  • Modello baseline: nDCG@10 = 24.2
  • Dopo addestramento generativo continuo: nDCG@10 = 35.8 (+47.5% miglioramento)

Lavori Correlati

Apprendimento di Rappresentazione Omnimodale

I metodi esistenti si basano principalmente sull'addestramento di codificatori specifici per modalità con dati accoppiati cross-modali su larga scala, come ImageBind. Questo articolo esplora un nuovo paradigma che sfrutta l'allineamento latente degli MLLM.

Apprendimento di Rappresentazione Incentrato su Modalità

  • Incentrato sulla visione: DINOv2 e altri raggiungono prestazioni OCR comparabili a CLIP attraverso l'aumento della scala dei dati
  • Incentrato sul linguaggio: E5-V e altri sfruttano l'apprendimento da testo puro per generalizzare a recupero di immagini e compiti composizionali

Ricerca sulla Capacità Rappresentazionale

Il benchmark MIEB mostra che i miglioramenti di prestazioni di CLIP hanno raggiunto un plateau, rendendo i modelli di embedding basati su MLLM un'alternativa promettente.

Conclusioni e Discussione

Conclusioni Principali

  1. Contributo teorico: Scoperta e verifica dell'allineamento cross-modale implicito negli MLLM
  2. Innovazione metodologica: Proposta di un framework di embedding omnimodale incentrato sul linguaggio efficiente
  3. Legge di scaling: Stabilimento del collegamento teorico tra capacità generativa e capacità rappresentazionale
  4. Applicazione pratica: Raggiungimento di SOTA su più benchmark, provando l'efficacia del metodo

Limitazioni

  1. Costo computazionale: Sebbene più efficiente dei metodi tradizionali, richiede comunque MLLM come rete backbone
  2. Addestramento congiunto: A causa dei vincoli computazionali, non esplora l'addestramento congiunto di perdita generativa e perdita contrastiva
  3. Assunzioni teoriche: L'analisi teorica della GRSL si basa su assunzioni specifiche, richiedendo verifica più ampia

Direzioni Future

  1. Ottimizzazione congiunta: Esplorazione di strategie di addestramento congiunto di perdita generativa e perdita contrastiva
  2. Estensione teorica: Ulteriore perfezionamento del framework teorico della GRSL
  3. Estensione dell'applicazione: Estensione del metodo a più modalità e scenari di compiti

Valutazione Approfondita

Punti di Forza

  1. Profondità teorica: Fornisce una comprensione profonda della superiorità dei metodi di embedding MLLM
  2. Innovazione metodologica: Il paradigma di addestramento incentrato sul linguaggio possiede forte innovatività
  3. Esperimenti completi: Verifica sperimentale ampia coprendo multiple modalità e benchmark
  4. Supporto teorico: Il framework PAC-Bayesian fornisce base teorica rigorosa per la GRSL
  5. Valore pratico: Il significativo miglioramento dell'efficienza dei dati ha importante significato pratico

Insufficienze

  1. Dipendenza da assunzioni: L'analisi teorica dipende da condizioni di assunzione specifiche
  2. Risorse computazionali: Richiede comunque MLLM su larga scala come base, con elevate richieste di risorse computazionali
  3. Capacità di generalizzazione: Il miglioramento su alcuni compiti tradizionali forti (come clustering, sonda lineare) è limitato

Impatto

  1. Contributo accademico: Fornisce nuova prospettiva teorica per l'apprendimento di rappresentazione multimodale
  2. Valore pratico: Significativamente aumenta l'efficienza di addestramento, riducendo i requisiti di dati
  3. Riproducibilità: Fornisce codice e risorse complete, facilitando riproduzione ed estensione

Scenari Applicabili

  1. Ambienti con risorse limitate: Adatto a scenari con risorse di dati o computazionali limitate
  2. Applicazioni multilingue: Prestazioni eccellenti su compiti multimodali multilingue
  3. Comprensione di documenti: Vantaggi significativi su compiti di comprensione di documenti visivi

Bibliografia

Questo articolo cita 85 articoli correlati, coprendo importanti lavori in più campi di ricerca inclusi apprendimento multimodale, apprendimento contrastivo e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per la ricerca.


Sintesi: Attraverso l'analisi approfondita della capacità di allineamento cross-modale latente degli MLLM, questo articolo propone un framework di embedding omnimodale incentrato sul linguaggio efficiente e scopre la legge di scaling generativo-rappresentazionale di importante significato teorico. Questo lavoro non solo raggiunge prestazioni eccellenti su più benchmark, ma più importantemente fornisce nuove intuizioni teoriche e paradigmi pratici per l'apprendimento di rappresentazione multimodale.