Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
Dieses Paper untersucht die grundlegenden Ursachen der Überlegenheit von Einbettungsmethoden, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, und stellt fest, dass der Schlüsselvorteil aus der impliziten Cross-Modal-Ausrichtung während des generativen Vortrainings stammt. Die Autoren schlagen das sprachenzentrierte omnimodes Einbettungs-Framework LCO-EMB vor und entdecken das Generativ-Repräsentations-Skalierungsgesetz (GRSL), das zeigt, dass die Repräsentationsfähigkeit, die durch kontrastives Lernen erworben wird, positiv mit der generativen Fähigkeit des MLLM korreliert. Diese Arbeit erreicht modernste Leistung in mehreren Benchmarks und bietet theoretische Erklärungen.
Die traditionelle Cross-Modal-Repräsentationsausrichtung beruht hauptsächlich auf großflächigem kontrastivem Lernen, wie CLIP-ähnliche Modelle. Diese Methoden zeigen jedoch Leistungsplateaus bei komplexen Aufgaben, besonders bei Aufgaben, die tiefes Cross-Modal-Verständnis erfordern, wie mehrsprachige Bildabfrage, visuell-textuelle Repräsentation und verschachtelte multimodale Kodierung.
Leistungsengpässe: Die Leistungssteigerungen von CLIP-ähnlichen Modellen durch Vergrößerung der Modellgröße, Datensatzvolumen und Batch-Größe haben sich abgeflacht
Theoretische Lücken: Obwohl MLLM-basierte Einbettungsmethoden hervorragende Ergebnisse zeigen, wurden die grundlegenden Ursachen ihrer Überlegenheit noch nicht tiefgehend erforscht
Effizienzprobleme: Traditionelles kontrastives Lernen erfordert große Mengen an Cross-Modal-Paardaten mit hohen Rechenkosten
Die Autoren stellen fest, dass MLLMs während des generativen Vortrainings bereits implizite Cross-Modal-Ausrichtung erreicht haben, wobei der Sprachdekoder gelernt hat, multimodale Signale im gemeinsamen Repräsentationsraum zu nutzen, um unimodale Ausgaben zu generieren.
Theoretische Erkenntnisse: Durch Analyse der Anisotropie und Kernähnlichkeitsstruktur wird empirisch bestätigt, dass latente Cross-Modal-Ausrichtung in MLLM-Repräsentationen existiert
Methodische Innovation: Vorschlag des sprachenzentrierten omnimodes Einbettungs-Frameworks LCO-EMB, das kontrastives Lernen als leichte Verfeinerungsphase nutzt
Skalierungsgesetz: Entdeckung des Generativ-Repräsentations-Skalierungsgesetzes (GRSL), das eine positive Korrelation zwischen generativer und repräsentativer Fähigkeit etabliert
Theoretische Unterstützung: Bereitstellung theoretischer Erklärung für GRSL durch PAC-Bayesian-Verallgemeinerungsgrenzen
Experimentelle Validierung: Erreichen von SOTA-Leistung in mehreren Benchmarks und Validierung der Theorie bei Low-Resource-Aufgaben zur visuellen Dokumentabfrage
Experimente zeigen, dass sich die Anisotropie nicht-textueller Modalitäten auch nach reinem Textkontrast-Lernen verbessert, was die Existenz latenter Cross-Modal-Ausrichtung in MLLMs beweist.
Dateneffizienz: LCO-EMB erreicht SOTA-Leistung mit nur ca. 0,37M Trainingspaaren (21-mal weniger als GME)
Cross-Modal-Verallgemeinerung: Die textspezifische Variante übertrifft fortgeschrittene Baselines bei multimodalen Aufgaben
Konsistente Verbesserung: Hervorragende Leistung in allen Aufgabenkategorien, besonders bei mehrsprachiger Ausrichtung, Kompositionabilität und Dokumentverständnis
Bestehende Methoden beruhen hauptsächlich auf Training modalitätsspezifischer Encoder mit großflächigen Cross-Modal-Paardaten, wie ImageBind. Dieses Paper erforscht ein neues Paradigma, das die latente Ausrichtung von MLLMs nutzt.
Der MIEB-Benchmark zeigt, dass die Leistungssteigerung von CLIP abgeflacht hat, wodurch MLLM-basierte Einbettungsmodelle zu einer vielversprechenden Alternative werden.
Dieses Paper zitiert 85 relevante Referenzen, die wichtige Arbeiten in mehreren Forschungsbereichen wie multimodales Lernen, kontrastives Lernen und große Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Zusammenfassung: Durch tiefgehende Analyse der latenten Cross-Modal-Ausrichtungsfähigkeit von MLLMs schlägt dieses Paper ein effizientes sprachenzentriertes omnimodes Einbettungs-Framework vor und entdeckt das theoretisch bedeutsame Generativ-Repräsentations-Skalierungsgesetz. Diese Arbeit erreicht nicht nur hervorragende Leistung in mehreren Benchmarks, sondern bietet vor allem neue theoretische Erkenntnisse und praktische Paradigmen für multimodales Repräsentationslernens.