2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

Scaling Language-Centric Omnimodal Representation Learning

Informazioni Fondamentali

ID Articolo: 2510.11693
Titolo: Scaling Language-Centric Omnimodal Representation Learning
Autori: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
Classificazione: cs.CL cs.AI cs.CV
Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2510.11693
Link Codice: https://github.com/LCO-Embedding/LCO-Embedding

Riassunto

Questo articolo esamina le ragioni fondamentali della superiorità dei metodi di embedding basati su modelli linguistici multimodali (MLLM), scoprendo che il vantaggio chiave deriva dall'allineamento implicito cross-modale realizzato durante il processo di preaddestramento generativo. Gli autori propongono il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB e scoprono la legge di scaling generativo-rappresentazionale (GRSL), che dimostra una correlazione positiva tra la capacità rappresentazionale acquisita attraverso l'apprendimento contrastivo e la capacità generativa dell'MLLM. Questo lavoro raggiunge prestazioni all'avanguardia su più benchmark e fornisce spiegazioni teoriche.

Contesto di Ricerca e Motivazione

Contesto del Problema

L'allineamento tradizionale della rappresentazione cross-modale si basa principalmente su apprendimento contrastivo su larga scala, come i modelli di stile CLIP. Tuttavia, questi metodi raggiungono un plateau di prestazioni su compiti complessi, in particolare su compiti che richiedono una profonda comprensione cross-modale, come il recupero di immagini multilingue, la rappresentazione visivo-testuale e la codifica multimodale intercalata.

Motivazione della Ricerca

Collo di bottiglia delle prestazioni: I modelli di stile CLIP hanno raggiunto un plateau nei miglioramenti di prestazioni ottenuti attraverso l'aumento della dimensione del modello, del volume del dataset e della dimensione del batch
Mancanza di teoria: Sebbene i metodi di embedding basati su MLLM mostrino prestazioni eccellenti, le ragioni fondamentali della loro superiorità non sono state ancora profondamente esplorate
Problemi di efficienza: L'apprendimento contrastivo tradizionale richiede grandi quantità di dati accoppiati cross-modali, con costi computazionali elevati

Intuizioni Chiave

Gli autori scoprono che gli MLLM hanno già realizzato un allineamento implicito cross-modale durante il processo di preaddestramento generativo, con il decodificatore linguistico che impara a sfruttare i segnali multimodali nello spazio di rappresentazione condiviso per generare output monomodali.

Contributi Fondamentali

Scoperta Teorica: Attraverso l'analisi della struttura dell'anisotropia e della similarità nucleare, si conferma empiricamente l'esistenza di un allineamento cross-modale latente nelle rappresentazioni MLLM
Innovazione Metodologica: Propone il framework di embedding omnimodale incentrato sul linguaggio LCO-EMB, utilizzando l'apprendimento contrastivo come fase di raffinamento leggera
Legge di Scaling: Scopre la legge di scaling generativo-rappresentazionale (GRSL), stabilendo una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale
Supporto Teorico: Fornisce spiegazione teorica della GRSL attraverso il limite di generalizzazione PAC-Bayesian
Verifica Sperimentale: Raggiunge prestazioni SOTA su più benchmark e verifica la teoria su compiti di recupero di documenti visivi a basse risorse

Dettagli Metodologici

Analisi dell'Allineamento Cross-Modale Latente

Analisi del Grado di Anisotropia

Gli autori utilizzano il grado di anisotropia per misurare il livello di degenerazione dello spazio di embedding:

$\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

Gli esperimenti rivelano che dopo l'apprendimento contrastivo solo testuale, anche l'anisotropia delle modalità non testuali migliora, provando l'esistenza di un allineamento cross-modale latente negli MLLM.

Analisi della Similarità a Livello Nucleare

Adotta i k-vicini reciproci (mutual kNN) per quantificare la sovrapposizione della struttura di similarità tra diverse modalità:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

dove $S(\phi_i)$ e $S(\psi_i)$ sono rispettivamente gli insiemi dei k-vicini delle caratteristiche $\phi_i$ e $\psi_i$ .

Framework LCO-EMB

Progettazione dell'Architettura

LCO-EMB si basa sull'architettura MLLM standard:

Codificatori specifici per modalità: Elaborano input di diverse modalità
Proiettori: Allineano le rappresentazioni specifiche per modalità allo spazio di embedding del decodificatore
Decodificatore linguistico: LLM come componente centrale

Strategia di Addestramento

Variante solo testuale: Microtuning solo del decodificatore linguistico utilizzando LoRA, congelando altri parametri
Variante multimodale: Aggiunta di una piccola quantità di dati accoppiati multimodali all'addestramento testuale
Efficienza parametrica: Utilizzo di LoRA per mantenere perturbazione minima al modello preaddestrato

Configurazione dei Dati

all-NLI: Combinazione di MNLI e SNLI, circa 276k triple
Scale-1M: 1M coppie di frasi campionate da 20M corpora paralleli multilingue
Dati multimodali: Circa 94k campioni multimodali sintetici

Legge di Scaling Generativo-Rappresentazionale (GRSL)

Framework Teorico

Definisce la qualità del priore generativo: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

dove $L_g(P)$ è la perdita generativa e $H(Y)$ è l'entropia dei dati target.

Teorema Principale

Teorema 1: Sotto l'Assunzione 1, con probabilità almeno $1-\delta$ , il rischio di contrasto della popolazione atteso è limitato da:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

Questo dimostra che la capacità generativa determina direttamente il limite superiore delle prestazioni rappresentazionali.

Configurazione Sperimentale

Dataset

MIEB-Lite: 51 compiti, coprendo 8 categorie di valutazione di embedding immagine-testo
Audio-Testo: Dataset AudioCaps e Clotho
Video-Testo: Dataset MSR-VTT e ActivityNet
SeaDoc: Nuovo benchmark di recupero di documenti visivi per lingue del Sud-Est asiatico a basse risorse

Configurazione del Modello

Modelli backbone: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
Ottimizzatore: AdamW, pianificazione del tasso di apprendimento cosinusoidale
Impostazioni LoRA: rank=64, α=16(testo)/128(multimodale)
Dimensione batch: 768 (regolabile in base al rapporto dei dataset)

Metriche di Valutazione

Compiti di recupero: nDCG@5/10, Recall@1
Compiti di classificazione: Accuratezza
Compiti di similarità: Coefficiente di correlazione di Spearman
Compiti di clustering: Informazione mutua normalizzata (NMI)

Risultati Sperimentali

Risultati Principali

Benchmark MIEB-Lite

Su 51 compiti del benchmark MIEB-Lite, LCO-EMB raggiunge significativi miglioramenti di prestazioni:

Modello	Dimensione Dataset	Prestazione Media (47 compiti)	Prestazione Media (51 compiti)
CLIP-ViT-bigG	2B	56.5	51.3
SigLIP-so400m	9B	57.3	53.5
Voyage Multimodal 3	-	57.7	58.1
mmE5 (11B)	2.1M	57.7	61.8
GME (7B)	8.0M	63.4	64.5
LCO-EMB-VL (7B)	370k	66.2	67.6
LCO-EMB-Omni (7B)	370k	67.6	68.8

Scoperte Chiave

Efficienza dei dati: LCO-EMB raggiunge prestazioni SOTA utilizzando solo circa 0.37M coppie di addestramento (21 volte meno di GME)
Generalizzazione cross-modale: La variante solo testuale supera i baseline avanzati su compiti multimodali
Miglioramento coerente: Prestazioni eccellenti su tutte le categorie di compiti, in particolare su allineamento multilingue, composizionalità e comprensione di documenti

Esperimenti di Ablazione

Confronto delle Strategie di Addestramento

Strategia di Addestramento	Tempo di Addestramento	Recupero Immagini Multilingue	STS Visivo	Comprensione Documenti	Sonda Lineare	Media
CL Stile CLIP	~550 ore	18.24	73.92	44.89	38.93	50.02
Proiezione Lineare	~8.8 ore	40.29	72.05	35.69	52.96	56.22
Microtuning Completo	~17.3 ore	44.05	83.15	58.02	53.34	66.49
LoRA	~9.3 ore	56.64	85.05	67.49	53.91	71.98

Impatto del Dataset

Addestramento all-NLI: Prestazioni eccellenti su STS visivo e comprensione di documenti
Addestramento Scale-1M: Leadership su sonda lineare e recupero di immagini multilingue
Fusione di modelli: Combinazione dei vantaggi di entrambi i dati di addestramento, ottenendo le migliori prestazioni complessive

Verifica della Legge di Scaling Generativo-Rappresentazionale

Verifica Cross-Modale

Si osserva una relazione di correlazione positiva tra capacità generativa e capacità rappresentazionale su tre categorie di compiti: OCR correlati, video-testo e audio-testo:

Compiti OCR: Prestazioni generative da 65-80, prestazioni rappresentazionali da 66-74
Video-Testo: Prestazioni generative da 66-72, prestazioni di recupero da 38-46
Audio-Testo: Prestazioni generative da 65-71, prestazioni di recupero da 23.6-24.3

Verifica SeaDoc

Su compiti di recupero di documenti visivi per lingue del Sud-Est asiatico a basse risorse:

Modello baseline: nDCG@10 = 24.2
Dopo addestramento generativo continuo: nDCG@10 = 35.8 (+47.5% miglioramento)

Lavori Correlati

Apprendimento di Rappresentazione Omnimodale

I metodi esistenti si basano principalmente sull'addestramento di codificatori specifici per modalità con dati accoppiati cross-modali su larga scala, come ImageBind. Questo articolo esplora un nuovo paradigma che sfrutta l'allineamento latente degli MLLM.

Apprendimento di Rappresentazione Incentrato su Modalità

Incentrato sulla visione: DINOv2 e altri raggiungono prestazioni OCR comparabili a CLIP attraverso l'aumento della scala dei dati
Incentrato sul linguaggio: E5-V e altri sfruttano l'apprendimento da testo puro per generalizzare a recupero di immagini e compiti composizionali

Ricerca sulla Capacità Rappresentazionale

Il benchmark MIEB mostra che i miglioramenti di prestazioni di CLIP hanno raggiunto un plateau, rendendo i modelli di embedding basati su MLLM un'alternativa promettente.

Conclusioni e Discussione

Conclusioni Principali

Contributo teorico: Scoperta e verifica dell'allineamento cross-modale implicito negli MLLM
Innovazione metodologica: Proposta di un framework di embedding omnimodale incentrato sul linguaggio efficiente
Legge di scaling: Stabilimento del collegamento teorico tra capacità generativa e capacità rappresentazionale
Applicazione pratica: Raggiungimento di SOTA su più benchmark, provando l'efficacia del metodo

Limitazioni

Costo computazionale: Sebbene più efficiente dei metodi tradizionali, richiede comunque MLLM come rete backbone
Addestramento congiunto: A causa dei vincoli computazionali, non esplora l'addestramento congiunto di perdita generativa e perdita contrastiva
Assunzioni teoriche: L'analisi teorica della GRSL si basa su assunzioni specifiche, richiedendo verifica più ampia

Direzioni Future

Ottimizzazione congiunta: Esplorazione di strategie di addestramento congiunto di perdita generativa e perdita contrastiva
Estensione teorica: Ulteriore perfezionamento del framework teorico della GRSL
Estensione dell'applicazione: Estensione del metodo a più modalità e scenari di compiti

Valutazione Approfondita

Punti di Forza

Profondità teorica: Fornisce una comprensione profonda della superiorità dei metodi di embedding MLLM
Innovazione metodologica: Il paradigma di addestramento incentrato sul linguaggio possiede forte innovatività
Esperimenti completi: Verifica sperimentale ampia coprendo multiple modalità e benchmark
Supporto teorico: Il framework PAC-Bayesian fornisce base teorica rigorosa per la GRSL
Valore pratico: Il significativo miglioramento dell'efficienza dei dati ha importante significato pratico

Insufficienze

Dipendenza da assunzioni: L'analisi teorica dipende da condizioni di assunzione specifiche
Risorse computazionali: Richiede comunque MLLM su larga scala come base, con elevate richieste di risorse computazionali
Capacità di generalizzazione: Il miglioramento su alcuni compiti tradizionali forti (come clustering, sonda lineare) è limitato

Impatto

Contributo accademico: Fornisce nuova prospettiva teorica per l'apprendimento di rappresentazione multimodale
Valore pratico: Significativamente aumenta l'efficienza di addestramento, riducendo i requisiti di dati
Riproducibilità: Fornisce codice e risorse complete, facilitando riproduzione ed estensione

Scenari Applicabili

Ambienti con risorse limitate: Adatto a scenari con risorse di dati o computazionali limitate
Applicazioni multilingue: Prestazioni eccellenti su compiti multimodali multilingue
Comprensione di documenti: Vantaggi significativi su compiti di comprensione di documenti visivi

Bibliografia

Questo articolo cita 85 articoli correlati, coprendo importanti lavori in più campi di ricerca inclusi apprendimento multimodale, apprendimento contrastivo e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per la ricerca.

Sintesi: Attraverso l'analisi approfondita della capacità di allineamento cross-modale latente degli MLLM, questo articolo propone un framework di embedding omnimodale incentrato sul linguaggio efficiente e scopre la legge di scaling generativo-rappresentazionale di importante significato teorico. Questo lavoro non solo raggiunge prestazioni eccellenti su più benchmark, ma più importantemente fornisce nuove intuizioni teoriche e paradigmi pratici per l'apprendimento di rappresentazione multimodale.