Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
Questo articolo esamina le ragioni fondamentali della superiorità dei metodi di embedding basati su modelli linguistici multimodali (MLLM), scoprendo che il vantaggio chiave deriva dall'allineamento implicito cross-modale realizzato durante il processo di preaddestramento generativo. Gli autori propongono il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB e scoprono la legge di scaling generativo-rappresentazionale (GRSL), che dimostra una correlazione positiva tra la capacità rappresentazionale acquisita attraverso l'apprendimento contrastivo e la capacità generativa dell'MLLM. Questo lavoro raggiunge prestazioni all'avanguardia su più benchmark e fornisce spiegazioni teoriche.
L'allineamento tradizionale della rappresentazione cross-modale si basa principalmente su apprendimento contrastivo su larga scala, come i modelli di stile CLIP. Tuttavia, questi metodi raggiungono un plateau di prestazioni su compiti complessi, in particolare su compiti che richiedono una profonda comprensione cross-modale, come il recupero di immagini multilingue, la rappresentazione visivo-testuale e la codifica multimodale intercalata.
Collo di bottiglia delle prestazioni: I modelli di stile CLIP hanno raggiunto un plateau nei miglioramenti di prestazioni ottenuti attraverso l'aumento della dimensione del modello, del volume del dataset e della dimensione del batch
Mancanza di teoria: Sebbene i metodi di embedding basati su MLLM mostrino prestazioni eccellenti, le ragioni fondamentali della loro superiorità non sono state ancora profondamente esplorate
Problemi di efficienza: L'apprendimento contrastivo tradizionale richiede grandi quantità di dati accoppiati cross-modali, con costi computazionali elevati
Gli autori scoprono che gli MLLM hanno già realizzato un allineamento implicito cross-modale durante il processo di preaddestramento generativo, con il decodificatore linguistico che impara a sfruttare i segnali multimodali nello spazio di rappresentazione condiviso per generare output monomodali.
Scoperta Teorica: Attraverso l'analisi della struttura dell'anisotropia e della similarità nucleare, si conferma empiricamente l'esistenza di un allineamento cross-modale latente nelle rappresentazioni MLLM
Innovazione Metodologica: Propone il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB, utilizzando l'apprendimento contrastivo come fase di raffinamento leggera
Legge di Scaling: Scopre la legge di scaling generativo-rappresentazionale (GRSL), stabilendo una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale
Supporto Teorico: Fornisce spiegazione teorica della GRSL attraverso il limite di generalizzazione PAC-Bayesian
Verifica Sperimentale: Raggiunge prestazioni SOTA su più benchmark e verifica la teoria su compiti di recupero di documenti visivi a basse risorse
Gli esperimenti rivelano che dopo l'apprendimento contrastivo solo testuale, anche l'anisotropia delle modalità non testuali migliora, provando l'esistenza di un allineamento cross-modale latente negli MLLM.
Efficienza dei dati: LCO-EMB raggiunge prestazioni SOTA utilizzando solo circa 0.37M coppie di addestramento (21 volte meno di GME)
Generalizzazione cross-modale: La variante solo testuale supera i baseline avanzati su compiti multimodali
Miglioramento coerente: Prestazioni eccellenti su tutte le categorie di compiti, in particolare su allineamento multilingue, composizionalità e comprensione di documenti
Si osserva una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale su tre categorie di compiti: OCR correlati, video-testo e audio-testo:
Compiti OCR: Prestazioni generative da 65-80, prestazioni rappresentazionali da 66-74
Video-Testo: Prestazioni generative da 66-72, prestazioni di recupero da 38-46
Audio-Testo: Prestazioni generative da 65-71, prestazioni di recupero da 23.6-24.3
I metodi esistenti si basano principalmente sull'addestramento di codificatori specifici per modalità con dati accoppiati cross-modali su larga scala, come ImageBind. Questo articolo esplora un nuovo paradigma che sfrutta l'allineamento latente degli MLLM.
Il benchmark MIEB mostra che i miglioramenti di prestazioni di CLIP hanno raggiunto un plateau, rendendo i modelli di embedding basati su MLLM un'alternativa promettente.
Questo articolo cita 85 articoli correlati, coprendo importanti lavori in più campi di ricerca inclusi apprendimento multimodale, apprendimento contrastivo e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per la ricerca.
Sintesi: Attraverso l'analisi approfondita della capacità di allineamento cross-modale latente degli MLLM, questo articolo propone un framework di embedding omnimodale incentrato sul linguaggio efficiente e scopre la legge di scaling generativo-rappresentazionale di importante significato teorico. Questo lavoro non solo raggiunge prestazioni eccellenti su più benchmark, ma più importantemente fornisce nuove intuizioni teoriche e paradigmi pratici per l'apprendimento di rappresentazione multimodale.