2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Skalierung sprachenzentriertes omnimodes Repräsentationslernens

Grundinformationen

  • Paper-ID: 2510.11693
  • Titel: Scaling Language-Centric Omnimodal Representation Learning
  • Autoren: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • Klassifizierung: cs.CL cs.AI cs.CV
  • Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2510.11693
  • Code-Link: https://github.com/LCO-Embedding/LCO-Embedding

Zusammenfassung

Dieses Paper untersucht die grundlegenden Ursachen der Überlegenheit von Einbettungsmethoden, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, und stellt fest, dass der Schlüsselvorteil aus der impliziten Cross-Modal-Ausrichtung während des generativen Vortrainings stammt. Die Autoren schlagen das sprachenzentrierte omnimodes Einbettungs-Framework LCO-EMB vor und entdecken das Generativ-Repräsentations-Skalierungsgesetz (GRSL), das zeigt, dass die Repräsentationsfähigkeit, die durch kontrastives Lernen erworben wird, positiv mit der generativen Fähigkeit des MLLM korreliert. Diese Arbeit erreicht modernste Leistung in mehreren Benchmarks und bietet theoretische Erklärungen.

Forschungshintergrund und Motivation

Problemhintergrund

Die traditionelle Cross-Modal-Repräsentationsausrichtung beruht hauptsächlich auf großflächigem kontrastivem Lernen, wie CLIP-ähnliche Modelle. Diese Methoden zeigen jedoch Leistungsplateaus bei komplexen Aufgaben, besonders bei Aufgaben, die tiefes Cross-Modal-Verständnis erfordern, wie mehrsprachige Bildabfrage, visuell-textuelle Repräsentation und verschachtelte multimodale Kodierung.

Forschungsmotivation

  1. Leistungsengpässe: Die Leistungssteigerungen von CLIP-ähnlichen Modellen durch Vergrößerung der Modellgröße, Datensatzvolumen und Batch-Größe haben sich abgeflacht
  2. Theoretische Lücken: Obwohl MLLM-basierte Einbettungsmethoden hervorragende Ergebnisse zeigen, wurden die grundlegenden Ursachen ihrer Überlegenheit noch nicht tiefgehend erforscht
  3. Effizienzprobleme: Traditionelles kontrastives Lernen erfordert große Mengen an Cross-Modal-Paardaten mit hohen Rechenkosten

Wichtige Erkenntnisse

Die Autoren stellen fest, dass MLLMs während des generativen Vortrainings bereits implizite Cross-Modal-Ausrichtung erreicht haben, wobei der Sprachdekoder gelernt hat, multimodale Signale im gemeinsamen Repräsentationsraum zu nutzen, um unimodale Ausgaben zu generieren.

Kernbeiträge

  1. Theoretische Erkenntnisse: Durch Analyse der Anisotropie und Kernähnlichkeitsstruktur wird empirisch bestätigt, dass latente Cross-Modal-Ausrichtung in MLLM-Repräsentationen existiert
  2. Methodische Innovation: Vorschlag des sprachenzentrierten omnimodes Einbettungs-Frameworks LCO-EMB, das kontrastives Lernen als leichte Verfeinerungsphase nutzt
  3. Skalierungsgesetz: Entdeckung des Generativ-Repräsentations-Skalierungsgesetzes (GRSL), das eine positive Korrelation zwischen generativer und repräsentativer Fähigkeit etabliert
  4. Theoretische Unterstützung: Bereitstellung theoretischer Erklärung für GRSL durch PAC-Bayesian-Verallgemeinerungsgrenzen
  5. Experimentelle Validierung: Erreichen von SOTA-Leistung in mehreren Benchmarks und Validierung der Theorie bei Low-Resource-Aufgaben zur visuellen Dokumentabfrage

Methodische Details

Analyse der latenten Cross-Modal-Ausrichtung

Anisotropie-Analyse

Die Autoren verwenden Anisotropie zur Messung des Degenerationsgrades des Einbettungsraums:

Anisotropie:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropie} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

Experimente zeigen, dass sich die Anisotropie nicht-textueller Modalitäten auch nach reinem Textkontrast-Lernen verbessert, was die Existenz latenter Cross-Modal-Ausrichtung in MLLMs beweist.

Kern-Ähnlichkeitsanalyse

Verwendung gegenseitiger k-Nachbarn (mutual kNN) zur Quantifizierung der Überlappung von Ähnlichkeitsstrukturen zwischen verschiedenen Modalitäten:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

wobei S(ϕi)S(\phi_i) und S(ψi)S(\psi_i) jeweils die k-Nachbarn-Mengen der Merkmale ϕi\phi_i und ψi\psi_i sind.

LCO-EMB-Framework

Architektur-Design

LCO-EMB basiert auf Standard-MLLM-Architektur:

  • Modalitätsspezifische Encoder: Verarbeitung verschiedener Modalitätseingaben
  • Projektoren: Ausrichtung modalitätsspezifischer Repräsentationen zum Dekoder-Einbettungsraum
  • Sprachdekoder: LLM als Kernkomponente

Trainings-Strategie

  1. Textspezifische Variante: Nur LoRA-Feinabstimmung des Sprachdekoders, Einfrieren anderer Parameter
  2. Multimodale Variante: Hinzufügen einer kleinen Menge multimodaler Paardaten zum Texttraining
  3. Parametereffizient: Verwendung von LoRA zur Minimierung von Störungen des vortrainierten Modells

Datenkonfiguration

  • all-NLI: Kombination von MNLI und SNLI, ca. 276k Tripel
  • Scale-1M: 1M Satzpaare, die aus 20M mehrsprachigen parallelen Korpora entnommen wurden
  • Multimodale Daten: Ca. 94k synthetische multimodale Samples

Generativ-Repräsentations-Skalierungsgesetz (GRSL)

Theoretischer Rahmen

Definition der Qualität des generativen Prior: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

wobei Lg(P)L_g(P) der generative Verlust und H(Y)H(Y) die Entropie der Zieldaten ist.

Hauptsatz

Satz 1: Unter Annahme 1 wird das erwartete Populationskontrastrisiko mit mindestens 1δ1-\delta Wahrscheinlichkeit begrenzt durch:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

Dies zeigt, dass die generative Fähigkeit direkt die Obergrenze der Repräsentationsleistung bestimmt.

Experimentelles Setup

Datensätze

  • MIEB-Lite: 51 Aufgaben, umfassend 8 Kategorien der Bild-Text-Einbettungsbewertung
  • Audio-Text: AudioCaps- und Clotho-Datensätze
  • Video-Text: MSR-VTT- und ActivityNet-Datensätze
  • SeaDoc: Neu konstruierter Low-Resource-Benchmark für visuelle Dokumentabfrage in südostasiatischen Sprachen

Modellkonfiguration

  • Backbone-Modelle: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • Optimierer: AdamW, kosinusförmige Lernratenplanung
  • LoRA-Einstellungen: rank=64, α=16(Text)/128(Multimodal)
  • Batch-Größe: 768 (anpassbar nach Datensatzverhältnis)

Bewertungsmetriken

  • Abfrage-Aufgaben: nDCG@5/10, Recall@1
  • Klassifizierungs-Aufgaben: Genauigkeit
  • Ähnlichkeits-Aufgaben: Spearman-Korrelationskoeffizient
  • Clustering-Aufgaben: Normalisierte gegenseitige Information (NMI)

Experimentelle Ergebnisse

Hauptergebnisse

MIEB-Lite-Benchmark

Auf dem MIEB-Lite-Benchmark mit 51 Aufgaben erreicht LCO-EMB signifikante Leistungssteigerungen:

ModellDatensatzgrößeDurchschnittliche Leistung (47 Aufgaben)Durchschnittliche Leistung (51 Aufgaben)
CLIP-ViT-bigG2B56,551,3
SigLIP-so400m9B57,353,5
Voyage Multimodal 3-57,758,1
mmE5 (11B)2,1M57,761,8
GME (7B)8,0M63,464,5
LCO-EMB-VL (7B)370k66,267,6
LCO-EMB-Omni (7B)370k67,668,8

Wichtige Erkenntnisse

  1. Dateneffizienz: LCO-EMB erreicht SOTA-Leistung mit nur ca. 0,37M Trainingspaaren (21-mal weniger als GME)
  2. Cross-Modal-Verallgemeinerung: Die textspezifische Variante übertrifft fortgeschrittene Baselines bei multimodalen Aufgaben
  3. Konsistente Verbesserung: Hervorragende Leistung in allen Aufgabenkategorien, besonders bei mehrsprachiger Ausrichtung, Kompositionabilität und Dokumentverständnis

Ablationsstudien

Vergleich von Trainingsstrategien

Trainings-StrategieTrainingszeitMehrsprachige BildabfrageVisuelles STSDokumentverständnisLineare SondeDurchschnitt
CLIP-ähnliches KL~550 Stunden18,2473,9244,8938,9350,02
Lineare Projektion~8,8 Stunden40,2972,0535,6952,9656,22
Vollständige Feinabstimmung~17,3 Stunden44,0583,1558,0253,3466,49
LoRA~9,3 Stunden56,6485,0567,4953,9171,98

Datensatz-Auswirkungen

  • all-NLI-Training: Hervorragende Leistung bei visuellen STS und Dokumentverständnis
  • Scale-1M-Training: Führend bei linearer Sonde und mehrsprachiger Bildabfrage
  • Modell-Fusion: Kombination beider Trainingsdaten für optimale Gesamtleistung

Validierung des Generativ-Repräsentations-Skalierungsgesetzes

Cross-Modal-Validierung

Positive Korrelation zwischen generativer und repräsentativer Fähigkeit wird bei OCR-bezogenen, Video-Text- und Audio-Text-Aufgaben beobachtet:

  • OCR-Aufgaben: Generative Leistung von 65-80, Repräsentationsleistung von 66-74
  • Video-Text: Generative Leistung von 66-72, Abfrage-Leistung von 38-46
  • Audio-Text: Generative Leistung von 65-71, Abfrage-Leistung von 23,6-24,3

SeaDoc-Validierung

Bei Low-Resource-Aufgaben zur visuellen Dokumentabfrage in südostasiatischen Sprachen:

  • Baseline-Modell: nDCG@10 = 24,2
  • Nach kontinuierlichem generativem Training: nDCG@10 = 35,8 (+47,5% Verbesserung)

Verwandte Arbeiten

Omnimodes Repräsentationslernens

Bestehende Methoden beruhen hauptsächlich auf Training modalitätsspezifischer Encoder mit großflächigen Cross-Modal-Paardaten, wie ImageBind. Dieses Paper erforscht ein neues Paradigma, das die latente Ausrichtung von MLLMs nutzt.

Modalitätszentriertes Repräsentationslernens

  • Visuell-zentriert: DINOv2 erreicht durch Datensatzskalierung OCR-Leistung vergleichbar mit CLIP
  • Sprachenzentriert: E5-V nutzt reines Textlernen zur Verallgemeinerung auf Bild- und Kompositions-Abfrage-Aufgaben

Repräsentationsfähigkeitsforschung

Der MIEB-Benchmark zeigt, dass die Leistungssteigerung von CLIP abgeflacht hat, wodurch MLLM-basierte Einbettungsmodelle zu einer vielversprechenden Alternative werden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Entdeckung und Validierung der impliziten Cross-Modal-Ausrichtung in MLLMs
  2. Methodische Innovation: Vorschlag eines effizienten sprachenzentrierten omnimodes Einbettungs-Frameworks
  3. Skalierungsgesetz: Etablierung theoretischer Verbindung zwischen generativer und repräsentativer Fähigkeit
  4. Praktische Anwendung: Erreichen von SOTA-Leistung in mehreren Benchmarks, Nachweis der Methodeneffektivität

Einschränkungen

  1. Rechenkosten: Obwohl effizienter als traditionelle Methoden, erfordert immer noch MLLM als Backbone-Netzwerk
  2. Gemeinsames Training: Aufgrund von Rechenkosten-Einschränkungen wurde gemeinsames Training von generativem und kontrastivem Verlust nicht erforscht
  3. Theoretische Annahmen: Die theoretische Analyse von GRSL basiert auf spezifischen Annahmen und erfordert breitere Validierung

Zukünftige Richtungen

  1. Gemeinsame Optimierung: Erforschung gemeinsamer Trainingsstrategien für generativen und kontrastiven Verlust
  2. Theoretische Erweiterung: Weitere Verfeinerung des theoretischen Rahmens von GRSL
  3. Anwendungserweiterung: Erweiterung der Methode auf weitere Modalitäten und Aufgabenszenarios

Tiefgehende Bewertung

Stärken

  1. Theoretische Tiefe: Bietet tieferes Verständnis der Überlegenheit von MLLM-Einbettungsmethoden
  2. Methodische Innovation: Das sprachenzentrierte Trainingsparadigma ist hochgradig innovativ
  3. Umfassende Experimente: Breite experimentelle Validierung über mehrere Modalitäten und Benchmarks
  4. Theoretische Unterstützung: PAC-Bayesian-Framework bietet strenge theoretische Grundlage für GRSL
  5. Praktischer Wert: Signifikante Verbesserung der Dateneffizienz mit wichtiger praktischer Bedeutung

Schwächen

  1. Annahmeabhängigkeit: Theoretische Analyse hängt von spezifischen Annahmebedingungen ab
  2. Rechenressourcen: Erfordert immer noch großflächige MLLMs als Grundlage mit hohen Rechenressourcen-Anforderungen
  3. Verallgemeinerungsfähigkeit: Begrenzte Verbesserungen bei einigen traditionellen Stärkeaufgaben (wie Clustering, lineare Sonde)

Auswirkungen

  1. Akademischer Beitrag: Bietet neue theoretische Perspektive für multimodales Repräsentationslernens
  2. Praktischer Wert: Signifikante Verbesserung der Trainingseffizienz und Reduzierung von Datenanforderungen
  3. Reproduzierbarkeit: Bereitstellung vollständiger Code und Ressourcen für einfache Reproduktion und Erweiterung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Geeignet für Szenarien mit begrenzten Daten- oder Rechenressourcen
  2. Mehrsprachige Anwendungen: Hervorragende Leistung bei mehrsprachigen multimodalen Aufgaben
  3. Dokumentverständnis: Signifikante Vorteile bei Aufgaben zum visuellen Dokumentverständnis

Literaturverzeichnis

Dieses Paper zitiert 85 relevante Referenzen, die wichtige Arbeiten in mehreren Forschungsbereichen wie multimodales Lernen, kontrastives Lernen und große Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Zusammenfassung: Durch tiefgehende Analyse der latenten Cross-Modal-Ausrichtungsfähigkeit von MLLMs schlägt dieses Paper ein effizientes sprachenzentriertes omnimodes Einbettungs-Framework vor und entdeckt das theoretisch bedeutsame Generativ-Repräsentations-Skalierungsgesetz. Diese Arbeit erreicht nicht nur hervorragende Leistung in mehreren Benchmarks, sondern bietet vor allem neue theoretische Erkenntnisse und praktische Paradigmen für multimodales Repräsentationslernens.