2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

Skalierung sprachenzentriertes omnimodes Repräsentationslernens

Grundinformationen

Paper-ID: 2510.11693
Titel: Scaling Language-Centric Omnimodal Representation Learning
Autoren: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
Klassifizierung: cs.CL cs.AI cs.CV
Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neural Information Processing Systems)
Paper-Link: https://arxiv.org/abs/2510.11693
Code-Link: https://github.com/LCO-Embedding/LCO-Embedding

Zusammenfassung

Dieses Paper untersucht die grundlegenden Ursachen der Überlegenheit von Einbettungsmethoden, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, und stellt fest, dass der Schlüsselvorteil aus der impliziten Cross-Modal-Ausrichtung während des generativen Vortrainings stammt. Die Autoren schlagen das sprachenzentrierte omnimodes Einbettungs-Framework LCO-EMB vor und entdecken das Generativ-Repräsentations-Skalierungsgesetz (GRSL), das zeigt, dass die Repräsentationsfähigkeit, die durch kontrastives Lernen erworben wird, positiv mit der generativen Fähigkeit des MLLM korreliert. Diese Arbeit erreicht modernste Leistung in mehreren Benchmarks und bietet theoretische Erklärungen.

Forschungshintergrund und Motivation

Problemhintergrund

Die traditionelle Cross-Modal-Repräsentationsausrichtung beruht hauptsächlich auf großflächigem kontrastivem Lernen, wie CLIP-ähnliche Modelle. Diese Methoden zeigen jedoch Leistungsplateaus bei komplexen Aufgaben, besonders bei Aufgaben, die tiefes Cross-Modal-Verständnis erfordern, wie mehrsprachige Bildabfrage, visuell-textuelle Repräsentation und verschachtelte multimodale Kodierung.

Forschungsmotivation

Leistungsengpässe: Die Leistungssteigerungen von CLIP-ähnlichen Modellen durch Vergrößerung der Modellgröße, Datensatzvolumen und Batch-Größe haben sich abgeflacht
Theoretische Lücken: Obwohl MLLM-basierte Einbettungsmethoden hervorragende Ergebnisse zeigen, wurden die grundlegenden Ursachen ihrer Überlegenheit noch nicht tiefgehend erforscht
Effizienzprobleme: Traditionelles kontrastives Lernen erfordert große Mengen an Cross-Modal-Paardaten mit hohen Rechenkosten

Wichtige Erkenntnisse

Die Autoren stellen fest, dass MLLMs während des generativen Vortrainings bereits implizite Cross-Modal-Ausrichtung erreicht haben, wobei der Sprachdekoder gelernt hat, multimodale Signale im gemeinsamen Repräsentationsraum zu nutzen, um unimodale Ausgaben zu generieren.

Kernbeiträge

Theoretische Erkenntnisse: Durch Analyse der Anisotropie und Kernähnlichkeitsstruktur wird empirisch bestätigt, dass latente Cross-Modal-Ausrichtung in MLLM-Repräsentationen existiert
Methodische Innovation: Vorschlag des sprachenzentrierten omnimodes Einbettungs-Frameworks LCO-EMB, das kontrastives Lernen als leichte Verfeinerungsphase nutzt
Skalierungsgesetz: Entdeckung des Generativ-Repräsentations-Skalierungsgesetzes (GRSL), das eine positive Korrelation zwischen generativer und repräsentativer Fähigkeit etabliert
Theoretische Unterstützung: Bereitstellung theoretischer Erklärung für GRSL durch PAC-Bayesian-Verallgemeinerungsgrenzen
Experimentelle Validierung: Erreichen von SOTA-Leistung in mehreren Benchmarks und Validierung der Theorie bei Low-Resource-Aufgaben zur visuellen Dokumentabfrage

Methodische Details

Anisotropie-Analyse

Die Autoren verwenden Anisotropie zur Messung des Degenerationsgrades des Einbettungsraums:

$\text{Anisotropie} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

Experimente zeigen, dass sich die Anisotropie nicht-textueller Modalitäten auch nach reinem Textkontrast-Lernen verbessert, was die Existenz latenter Cross-Modal-Ausrichtung in MLLMs beweist.

Kern-Ähnlichkeitsanalyse

Verwendung gegenseitiger k-Nachbarn (mutual kNN) zur Quantifizierung der Überlappung von Ähnlichkeitsstrukturen zwischen verschiedenen Modalitäten:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

wobei $S(\phi_i)$ und $S(\psi_i)$ jeweils die k-Nachbarn-Mengen der Merkmale $\phi_i$ und $\psi_i$ sind.

LCO-EMB-Framework

Architektur-Design

LCO-EMB basiert auf Standard-MLLM-Architektur:

Modalitätsspezifische Encoder: Verarbeitung verschiedener Modalitätseingaben
Projektoren: Ausrichtung modalitätsspezifischer Repräsentationen zum Dekoder-Einbettungsraum
Sprachdekoder: LLM als Kernkomponente

Trainings-Strategie

Textspezifische Variante: Nur LoRA-Feinabstimmung des Sprachdekoders, Einfrieren anderer Parameter
Multimodale Variante: Hinzufügen einer kleinen Menge multimodaler Paardaten zum Texttraining
Parametereffizient: Verwendung von LoRA zur Minimierung von Störungen des vortrainierten Modells

Datenkonfiguration

all-NLI: Kombination von MNLI und SNLI, ca. 276k Tripel
Scale-1M: 1M Satzpaare, die aus 20M mehrsprachigen parallelen Korpora entnommen wurden
Multimodale Daten: Ca. 94k synthetische multimodale Samples

Generativ-Repräsentations-Skalierungsgesetz (GRSL)

Theoretischer Rahmen

Definition der Qualität des generativen Prior: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

wobei $L_g(P)$ der generative Verlust und $H(Y)$ die Entropie der Zieldaten ist.

Hauptsatz

Satz 1: Unter Annahme 1 wird das erwartete Populationskontrastrisiko mit mindestens $1-\delta$ Wahrscheinlichkeit begrenzt durch:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

Dies zeigt, dass die generative Fähigkeit direkt die Obergrenze der Repräsentationsleistung bestimmt.

Experimentelles Setup

Datensätze

MIEB-Lite: 51 Aufgaben, umfassend 8 Kategorien der Bild-Text-Einbettungsbewertung
Audio-Text: AudioCaps- und Clotho-Datensätze
Video-Text: MSR-VTT- und ActivityNet-Datensätze
SeaDoc: Neu konstruierter Low-Resource-Benchmark für visuelle Dokumentabfrage in südostasiatischen Sprachen

Modellkonfiguration

Backbone-Modelle: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
Optimierer: AdamW, kosinusförmige Lernratenplanung
LoRA-Einstellungen: rank=64, α=16(Text)/128(Multimodal)
Batch-Größe: 768 (anpassbar nach Datensatzverhältnis)

Bewertungsmetriken

Abfrage-Aufgaben: nDCG@5/10, Recall@1
Klassifizierungs-Aufgaben: Genauigkeit
Ähnlichkeits-Aufgaben: Spearman-Korrelationskoeffizient
Clustering-Aufgaben: Normalisierte gegenseitige Information (NMI)

Experimentelle Ergebnisse

Hauptergebnisse

MIEB-Lite-Benchmark

Auf dem MIEB-Lite-Benchmark mit 51 Aufgaben erreicht LCO-EMB signifikante Leistungssteigerungen:

Modell	Datensatzgröße	Durchschnittliche Leistung (47 Aufgaben)	Durchschnittliche Leistung (51 Aufgaben)
CLIP-ViT-bigG	2B	56,5	51,3
SigLIP-so400m	9B	57,3	53,5
Voyage Multimodal 3	-	57,7	58,1
mmE5 (11B)	2,1M	57,7	61,8
GME (7B)	8,0M	63,4	64,5
LCO-EMB-VL (7B)	370k	66,2	67,6
LCO-EMB-Omni (7B)	370k	67,6	68,8

Wichtige Erkenntnisse

Dateneffizienz: LCO-EMB erreicht SOTA-Leistung mit nur ca. 0,37M Trainingspaaren (21-mal weniger als GME)
Cross-Modal-Verallgemeinerung: Die textspezifische Variante übertrifft fortgeschrittene Baselines bei multimodalen Aufgaben
Konsistente Verbesserung: Hervorragende Leistung in allen Aufgabenkategorien, besonders bei mehrsprachiger Ausrichtung, Kompositionabilität und Dokumentverständnis

Ablationsstudien

Vergleich von Trainingsstrategien

Trainings-Strategie	Trainingszeit	Mehrsprachige Bildabfrage	Visuelles STS	Dokumentverständnis	Lineare Sonde	Durchschnitt
CLIP-ähnliches KL	~550 Stunden	18,24	73,92	44,89	38,93	50,02
Lineare Projektion	~8,8 Stunden	40,29	72,05	35,69	52,96	56,22
Vollständige Feinabstimmung	~17,3 Stunden	44,05	83,15	58,02	53,34	66,49
LoRA	~9,3 Stunden	56,64	85,05	67,49	53,91	71,98

Datensatz-Auswirkungen

all-NLI-Training: Hervorragende Leistung bei visuellen STS und Dokumentverständnis
Scale-1M-Training: Führend bei linearer Sonde und mehrsprachiger Bildabfrage
Modell-Fusion: Kombination beider Trainingsdaten für optimale Gesamtleistung

Validierung des Generativ-Repräsentations-Skalierungsgesetzes

Positive Korrelation zwischen generativer und repräsentativer Fähigkeit wird bei OCR-bezogenen, Video-Text- und Audio-Text-Aufgaben beobachtet:

OCR-Aufgaben: Generative Leistung von 65-80, Repräsentationsleistung von 66-74
Video-Text: Generative Leistung von 66-72, Abfrage-Leistung von 38-46
Audio-Text: Generative Leistung von 65-71, Abfrage-Leistung von 23,6-24,3

SeaDoc-Validierung

Bei Low-Resource-Aufgaben zur visuellen Dokumentabfrage in südostasiatischen Sprachen:

Baseline-Modell: nDCG@10 = 24,2
Nach kontinuierlichem generativem Training: nDCG@10 = 35,8 (+47,5% Verbesserung)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Entdeckung und Validierung der impliziten Cross-Modal-Ausrichtung in MLLMs
Methodische Innovation: Vorschlag eines effizienten sprachenzentrierten omnimodes Einbettungs-Frameworks
Skalierungsgesetz: Etablierung theoretischer Verbindung zwischen generativer und repräsentativer Fähigkeit
Praktische Anwendung: Erreichen von SOTA-Leistung in mehreren Benchmarks, Nachweis der Methodeneffektivität

Einschränkungen

Rechenkosten: Obwohl effizienter als traditionelle Methoden, erfordert immer noch MLLM als Backbone-Netzwerk
Gemeinsames Training: Aufgrund von Rechenkosten-Einschränkungen wurde gemeinsames Training von generativem und kontrastivem Verlust nicht erforscht
Theoretische Annahmen: Die theoretische Analyse von GRSL basiert auf spezifischen Annahmen und erfordert breitere Validierung

Zukünftige Richtungen

Gemeinsame Optimierung: Erforschung gemeinsamer Trainingsstrategien für generativen und kontrastiven Verlust
Theoretische Erweiterung: Weitere Verfeinerung des theoretischen Rahmens von GRSL
Anwendungserweiterung: Erweiterung der Methode auf weitere Modalitäten und Aufgabenszenarios

Tiefgehende Bewertung

Stärken

Theoretische Tiefe: Bietet tieferes Verständnis der Überlegenheit von MLLM-Einbettungsmethoden
Methodische Innovation: Das sprachenzentrierte Trainingsparadigma ist hochgradig innovativ
Umfassende Experimente: Breite experimentelle Validierung über mehrere Modalitäten und Benchmarks
Theoretische Unterstützung: PAC-Bayesian-Framework bietet strenge theoretische Grundlage für GRSL
Praktischer Wert: Signifikante Verbesserung der Dateneffizienz mit wichtiger praktischer Bedeutung

Schwächen

Annahmeabhängigkeit: Theoretische Analyse hängt von spezifischen Annahmebedingungen ab
Rechenressourcen: Erfordert immer noch großflächige MLLMs als Grundlage mit hohen Rechenressourcen-Anforderungen
Verallgemeinerungsfähigkeit: Begrenzte Verbesserungen bei einigen traditionellen Stärkeaufgaben (wie Clustering, lineare Sonde)

Auswirkungen

Akademischer Beitrag: Bietet neue theoretische Perspektive für multimodales Repräsentationslernens
Praktischer Wert: Signifikante Verbesserung der Trainingseffizienz und Reduzierung von Datenanforderungen
Reproduzierbarkeit: Bereitstellung vollständiger Code und Ressourcen für einfache Reproduktion und Erweiterung

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Geeignet für Szenarien mit begrenzten Daten- oder Rechenressourcen
Mehrsprachige Anwendungen: Hervorragende Leistung bei mehrsprachigen multimodalen Aufgaben
Dokumentverständnis: Signifikante Vorteile bei Aufgaben zum visuellen Dokumentverständnis

Literaturverzeichnis

Dieses Paper zitiert 85 relevante Referenzen, die wichtige Arbeiten in mehreren Forschungsbereichen wie multimodales Lernen, kontrastives Lernen und große Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Zusammenfassung: Durch tiefgehende Analyse der latenten Cross-Modal-Ausrichtungsfähigkeit von MLLMs schlägt dieses Paper ein effizientes sprachenzentriertes omnimodes Einbettungs-Framework vor und entdeckt das theoretisch bedeutsame Generativ-Repräsentations-Skalierungsgesetz. Diese Arbeit erreicht nicht nur hervorragende Leistung in mehreren Benchmarks, sondern bietet vor allem neue theoretische Erkenntnisse und praktische Paradigmen für multimodales Repräsentationslernens.