Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic
Mise à l'échelle de l'apprentissage de représentation omnimodale centré sur le langage
Cet article explore les raisons fondamentales de la supériorité des méthodes d'intégration basées sur les modèles de langage multimodaux de grande taille (MLLMs), découvrant que leur avantage clé provient de l'alignement implicite intermodal réalisé lors du préentraînement génératif. Les auteurs proposent le cadre d'intégration omnimodale centré sur le langage LCO-EMB et découvrent la loi d'échelle génération-représentation (GRSL), indiquant que la capacité de représentation acquise par l'apprentissage contrastif est positivement corrélée à la capacité générative du MLLM. Ce travail atteint les performances de pointe sur plusieurs benchmarks et fournit une explication théorique.
L'alignement traditionnel des représentations intermodales s'appuie principalement sur l'apprentissage contrastif à grande échelle, comme les modèles de style CLIP. Cependant, ces méthodes plafonnent en performance sur les tâches complexes, en particulier sur celles nécessitant une compréhension intermodale approfondie, telles que la récupération d'images multilingues, la représentation texte-visuel et l'encodage multimodal entrelacé.
Goulot d'étranglement des performances: Les gains de performance des modèles de style CLIP obtenus en augmentant la taille du modèle, le volume des ensembles de données et la taille des lots ont plafonné
Absence de théorie: Bien que les méthodes d'intégration basées sur les MLLMs se révèlent excellentes, les raisons fondamentales de leur supériorité n'ont pas été profondément explorées
Problèmes d'efficacité: L'apprentissage contrastif traditionnel nécessite une grande quantité de données appariées intermodales, avec des coûts de calcul élevés
Les auteurs découvrent que les MLLMs ont déjà réalisé un alignement intermodal implicite lors du préentraînement génératif, le décodeur de langage apprenant à exploiter les signaux multimodaux dans un espace de représentation partagé pour générer des sorties unimodales.
Découverte théorique: Confirmation empirique de l'existence d'un alignement intermodal latent dans les représentations des MLLMs par analyse de l'anisotropie et de la structure de similarité du noyau
Innovation méthodologique: Proposition du cadre d'intégration omnimodale centré sur le langage LCO-EMB, utilisant l'apprentissage contrastif comme phase d'affinage léger
Loi d'échelle: Découverte de la loi d'échelle génération-représentation (GRSL), établissant une relation positive entre la capacité générative et la capacité de représentation
Support théorique: Fourniture d'une explication théorique de la GRSL par le biais de la limite de généralisation PAC-Bayésienne
Vérification expérimentale: Atteinte des performances SOTA sur plusieurs benchmarks et vérification de la théorie sur les tâches de récupération de documents visuels à faibles ressources
Les expériences révèlent que l'anisotropie des modalités non textuelles s'améliore également après l'apprentissage contrastif textuel uniquement, prouvant l'existence d'un alignement intermodal latent dans les MLLMs.
Efficacité des données: LCO-EMB atteint les performances SOTA avec seulement environ 0,37M paires d'entraînement (21 fois moins que GME)
Généralisation intermodale: La variante textuelle seule surpasse les baselines avancés sur les tâches multimodales
Amélioration cohérente: Excellentes performances sur toutes les catégories de tâches, en particulier sur l'alignement multilingue, la compositionnalité et les tâches de compréhension de documents
Une relation positive entre la capacité générative et la capacité de représentation est observée sur trois catégories de tâches: OCR, vidéo-texte et audio-texte:
Tâches OCR: Performance générative de 65-80, performance de représentation de 66-74
Vidéo-texte: Performance générative de 66-72, performance de récupération de 38-46
Audio-texte: Performance générative de 65-71, performance de récupération de 23,6-24,3
Les méthodes existantes s'appuient principalement sur l'entraînement d'encodeurs spécifiques aux modalités avec des données appariées intermodales à grande échelle, comme ImageBind. Cet article explore un nouveau paradigme exploitant l'alignement latent des MLLMs.
Le benchmark MIEB montre que les gains de performance de CLIP ont plafonné, les modèles d'intégration basés sur les MLLMs devenant une alternative prometteuse.
Cet article cite 85 références pertinentes, couvrant plusieurs domaines de recherche importants incluant l'apprentissage multimodal, l'apprentissage contrastif et les grands modèles de langage, fournissant une base théorique solide pour la recherche.
Résumé: Cet article, par l'analyse approfondie de la capacité d'alignement intermodal latent des MLLMs, propose un cadre d'intégration omnimodale centré sur le langage efficace et découvre la loi d'échelle génération-représentation d'importance théorique significative. Ce travail non seulement atteint d'excellentes performances sur plusieurs benchmarks, mais fournit plus important encore une nouvelle perspective théorique et un nouveau paradigme pratique pour l'apprentissage de représentation multimodale.