2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Mise à l'échelle de l'apprentissage de représentation omnimodale centré sur le langage

Informations de base

  • ID de l'article: 2510.11693
  • Titre: Scaling Language-Centric Omnimodal Representation Learning
  • Auteurs: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • Classification: cs.CL cs.AI cs.CV
  • Conférence de publication: NeurIPS 2025 (39e Conférence sur les systèmes de traitement de l'information neuronale)
  • Lien de l'article: https://arxiv.org/abs/2510.11693
  • Lien du code: https://github.com/LCO-Embedding/LCO-Embedding

Résumé

Cet article explore les raisons fondamentales de la supériorité des méthodes d'intégration basées sur les modèles de langage multimodaux de grande taille (MLLMs), découvrant que leur avantage clé provient de l'alignement implicite intermodal réalisé lors du préentraînement génératif. Les auteurs proposent le cadre d'intégration omnimodale centré sur le langage LCO-EMB et découvrent la loi d'échelle génération-représentation (GRSL), indiquant que la capacité de représentation acquise par l'apprentissage contrastif est positivement corrélée à la capacité générative du MLLM. Ce travail atteint les performances de pointe sur plusieurs benchmarks et fournit une explication théorique.

Contexte et motivation de la recherche

Contexte du problème

L'alignement traditionnel des représentations intermodales s'appuie principalement sur l'apprentissage contrastif à grande échelle, comme les modèles de style CLIP. Cependant, ces méthodes plafonnent en performance sur les tâches complexes, en particulier sur celles nécessitant une compréhension intermodale approfondie, telles que la récupération d'images multilingues, la représentation texte-visuel et l'encodage multimodal entrelacé.

Motivation de la recherche

  1. Goulot d'étranglement des performances: Les gains de performance des modèles de style CLIP obtenus en augmentant la taille du modèle, le volume des ensembles de données et la taille des lots ont plafonné
  2. Absence de théorie: Bien que les méthodes d'intégration basées sur les MLLMs se révèlent excellentes, les raisons fondamentales de leur supériorité n'ont pas été profondément explorées
  3. Problèmes d'efficacité: L'apprentissage contrastif traditionnel nécessite une grande quantité de données appariées intermodales, avec des coûts de calcul élevés

Intuitions clés

Les auteurs découvrent que les MLLMs ont déjà réalisé un alignement intermodal implicite lors du préentraînement génératif, le décodeur de langage apprenant à exploiter les signaux multimodaux dans un espace de représentation partagé pour générer des sorties unimodales.

Contributions principales

  1. Découverte théorique: Confirmation empirique de l'existence d'un alignement intermodal latent dans les représentations des MLLMs par analyse de l'anisotropie et de la structure de similarité du noyau
  2. Innovation méthodologique: Proposition du cadre d'intégration omnimodale centré sur le langage LCO-EMB, utilisant l'apprentissage contrastif comme phase d'affinage léger
  3. Loi d'échelle: Découverte de la loi d'échelle génération-représentation (GRSL), établissant une relation positive entre la capacité générative et la capacité de représentation
  4. Support théorique: Fourniture d'une explication théorique de la GRSL par le biais de la limite de généralisation PAC-Bayésienne
  5. Vérification expérimentale: Atteinte des performances SOTA sur plusieurs benchmarks et vérification de la théorie sur les tâches de récupération de documents visuels à faibles ressources

Détails de la méthode

Analyse de l'alignement intermodal latent

Analyse du degré d'anisotropie

Les auteurs utilisent le degré d'anisotropie pour mesurer le degré de dégénérescence de l'espace d'intégration:

Anisotropie:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropie} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

Les expériences révèlent que l'anisotropie des modalités non textuelles s'améliore également après l'apprentissage contrastif textuel uniquement, prouvant l'existence d'un alignement intermodal latent dans les MLLMs.

Analyse de la similarité au niveau du noyau

Utilisation des k-plus proches voisins mutuels (mutual kNN) pour quantifier le chevauchement des structures de similarité entre différentes modalités:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

S(ϕi)S(\phi_i) et S(ψi)S(\psi_i) sont respectivement les ensembles des k-plus proches voisins des caractéristiques ϕi\phi_i et ψi\psi_i.

Cadre LCO-EMB

Conception de l'architecture

LCO-EMB est basé sur l'architecture MLLM standard:

  • Encodeurs spécifiques aux modalités: Traitement des entrées de différentes modalités
  • Projecteurs: Alignement des représentations spécifiques aux modalités vers l'espace d'intégration du décodeur
  • Décodeur de langage: LLM comme composant central

Stratégie d'entraînement

  1. Variante textuelle dédiée: Affinage LoRA uniquement du décodeur de langage, gel des autres paramètres
  2. Variante multimodale: Ajout d'une petite quantité de données appariées multimodales à l'entraînement textuel
  3. Efficacité des paramètres: Utilisation de LoRA pour maintenir une perturbation minimale du modèle préentraîné

Configuration des données

  • all-NLI: Combinaison de MNLI et SNLI, environ 276k triplets
  • Scale-1M: 1M paires de phrases échantillonnées à partir de 20M corpus parallèles multilingues
  • Données multimodales: Environ 94k échantillons multimodaux synthétiques

Loi d'échelle génération-représentation (GRSL)

Cadre théorique

Définition de la qualité du prior génératif: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

Lg(P)L_g(P) est la perte générative et H(Y)H(Y) est l'entropie des données cibles.

Théorème principal

Théorème 1: Sous l'hypothèse 1, avec une probabilité d'au moins 1δ1-\delta, le risque de contraste de population attendu est borné par:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

Ceci indique que la capacité générative détermine directement la limite supérieure de la performance de représentation.

Configuration expérimentale

Ensembles de données

  • MIEB-Lite: 51 tâches, couvrant 8 catégories d'évaluation d'intégration image-texte
  • Audio-texte: Ensembles de données AudioCaps et Clotho
  • Vidéo-texte: Ensembles de données MSR-VTT et ActivityNet
  • SeaDoc: Nouveau benchmark de récupération de documents visuels en langues d'Asie du Sud-Est à faibles ressources

Configuration des modèles

  • Modèles de base: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • Optimiseur: AdamW, planification du taux d'apprentissage en cosinus
  • Configuration LoRA: rank=64, α=16(texte)/128(multimodal)
  • Taille des lots: 768 (ajustable selon le ratio des ensembles de données)

Métriques d'évaluation

  • Tâches de récupération: nDCG@5/10, Recall@1
  • Tâches de classification: Précision
  • Tâches de similarité: Coefficient de corrélation de Spearman
  • Tâches de clustering: Information mutuelle normalisée (NMI)

Résultats expérimentaux

Résultats principaux

Benchmark MIEB-Lite

Sur le benchmark MIEB-Lite de 51 tâches, LCO-EMB a obtenu des améliorations de performance significatives:

ModèleTaille des donnéesPerformance moyenne (47 tâches)Performance moyenne (51 tâches)
CLIP-ViT-bigG2B56,551,3
SigLIP-so400m9B57,353,5
Voyage Multimodal 3-57,758,1
mmE5 (11B)2,1M57,761,8
GME (7B)8,0M63,464,5
LCO-EMB-VL (7B)370k66,267,6
LCO-EMB-Omni (7B)370k67,668,8

Découvertes clés

  1. Efficacité des données: LCO-EMB atteint les performances SOTA avec seulement environ 0,37M paires d'entraînement (21 fois moins que GME)
  2. Généralisation intermodale: La variante textuelle seule surpasse les baselines avancés sur les tâches multimodales
  3. Amélioration cohérente: Excellentes performances sur toutes les catégories de tâches, en particulier sur l'alignement multilingue, la compositionnalité et les tâches de compréhension de documents

Études d'ablation

Comparaison des stratégies d'entraînement

Stratégie d'entraînementTemps d'entraînementRécupération d'images multilinguesSTS visuelCompréhension de documentsSonde linéaireMoyenne
CL de style CLIP~550 heures18,2473,9244,8938,9350,02
Projection linéaire~8,8 heures40,2972,0535,6952,9656,22
Affinage complet~17,3 heures44,0583,1558,0253,3466,49
LoRA~9,3 heures56,6485,0567,4953,9171,98

Impact des ensembles de données

  • Entraînement all-NLI: Performances exceptionnelles sur STS visuel et compréhension de documents
  • Entraînement Scale-1M: Leadership sur la sonde linéaire et la récupération d'images multilingues
  • Fusion de modèles: Combinaison des avantages des deux ensembles de données d'entraînement, obtenant les meilleures performances globales

Vérification de la loi d'échelle génération-représentation

Vérification intermodale

Une relation positive entre la capacité générative et la capacité de représentation est observée sur trois catégories de tâches: OCR, vidéo-texte et audio-texte:

  • Tâches OCR: Performance générative de 65-80, performance de représentation de 66-74
  • Vidéo-texte: Performance générative de 66-72, performance de récupération de 38-46
  • Audio-texte: Performance générative de 65-71, performance de récupération de 23,6-24,3

Vérification SeaDoc

Sur les tâches de récupération de documents visuels en langues d'Asie du Sud-Est à faibles ressources:

  • Modèle de base: nDCG@10 = 24,2
  • Après entraînement génératif continu: nDCG@10 = 35,8 (+47,5% d'amélioration)

Travaux connexes

Apprentissage de représentation omnimodale

Les méthodes existantes s'appuient principalement sur l'entraînement d'encodeurs spécifiques aux modalités avec des données appariées intermodales à grande échelle, comme ImageBind. Cet article explore un nouveau paradigme exploitant l'alignement latent des MLLMs.

Apprentissage de représentation centré sur les modalités

  • Centré sur la vision: DINOv2 et autres réalisent des performances OCR comparables à CLIP en augmentant la taille des données
  • Centré sur le langage: E5-V et autres exploitent l'apprentissage textuel pur pour généraliser aux tâches de récupération d'images et compositionnelles

Recherche sur la capacité de représentation

Le benchmark MIEB montre que les gains de performance de CLIP ont plafonné, les modèles d'intégration basés sur les MLLMs devenant une alternative prometteuse.

Conclusion et discussion

Conclusions principales

  1. Contribution théorique: Découverte et vérification de l'alignement intermodal implicite existant dans les MLLMs
  2. Innovation méthodologique: Proposition d'un cadre d'intégration omnimodale centré sur le langage efficace
  3. Loi d'échelle: Établissement d'une connexion théorique entre la capacité générative et la capacité de représentation
  4. Application pratique: Atteinte des performances SOTA sur plusieurs benchmarks, prouvant l'efficacité de la méthode

Limitations

  1. Coûts de calcul: Bien que plus efficace que les méthodes traditionnelles, nécessite toujours un MLLM comme réseau de base
  2. Entraînement conjoint: En raison des limitations de calcul, l'entraînement conjoint des pertes générative et contrastive n'a pas été exploré
  3. Hypothèses théoriques: L'analyse théorique de la GRSL repose sur des hypothèses spécifiques, nécessitant une vérification plus large

Directions futures

  1. Optimisation conjointe: Exploration des stratégies d'entraînement conjoint des pertes générative et contrastive
  2. Extension théorique: Perfectionnement supplémentaire du cadre théorique de la GRSL
  3. Extension d'application: Extension de la méthode à davantage de modalités et de scénarios de tâches

Évaluation approfondie

Avantages

  1. Profondeur théorique: Fourniture d'une compréhension approfondie de la supériorité des méthodes d'intégration basées sur les MLLMs
  2. Innovation méthodologique: Le paradigme d'entraînement centré sur le langage possède une forte innovativité
  3. Expériences complètes: Vérification expérimentale étendue couvrant plusieurs modalités et benchmarks
  4. Support théorique: Le cadre PAC-Bayésien fournit une base théorique rigoureuse pour la GRSL
  5. Valeur pratique: L'amélioration significative de l'efficacité des données possède une importance pratique considérable

Insuffisances

  1. Dépendance aux hypothèses: L'analyse théorique dépend de conditions d'hypothèse spécifiques
  2. Ressources de calcul: Nécessite toujours un MLLM de grande taille comme fondation, avec des exigences élevées en ressources de calcul
  3. Capacité de généralisation: L'amélioration sur certaines tâches traditionnellement fortes (comme le clustering et la sonde linéaire) est limitée

Impact

  1. Contribution académique: Fourniture d'une nouvelle perspective théorique pour l'apprentissage de représentation multimodale
  2. Valeur pratique: Amélioration significative de l'efficacité d'entraînement, réduction des besoins en données
  3. Reproductibilité: Fourniture de code et de ressources complets, facilitant la reproduction et l'extension

Scénarios d'application

  1. Environnements à ressources limitées: Approprié pour les scénarios avec des ressources de données ou de calcul limitées
  2. Applications multilingues: Performances exceptionnelles sur les tâches multimodales multilingues
  3. Compréhension de documents: Avantages significatifs sur les tâches de compréhension de documents visuels

Références

Cet article cite 85 références pertinentes, couvrant plusieurs domaines de recherche importants incluant l'apprentissage multimodal, l'apprentissage contrastif et les grands modèles de langage, fournissant une base théorique solide pour la recherche.


Résumé: Cet article, par l'analyse approfondie de la capacité d'alignement intermodal latent des MLLMs, propose un cadre d'intégration omnimodale centré sur le langage efficace et découvre la loi d'échelle génération-représentation d'importance théorique significative. Ce travail non seulement atteint d'excellentes performances sur plusieurs benchmarks, mais fournit plus important encore une nouvelle perspective théorique et un nouveau paradigme pratique pour l'apprentissage de représentation multimodale.