2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

Mise à l'échelle de l'apprentissage de représentation omnimodale centré sur le langage

Informations de base

ID de l'article: 2510.11693
Titre: Scaling Language-Centric Omnimodal Representation Learning
Auteurs: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
Classification: cs.CL cs.AI cs.CV
Conférence de publication: NeurIPS 2025 (39e Conférence sur les systèmes de traitement de l'information neuronale)
Lien de l'article: https://arxiv.org/abs/2510.11693
Lien du code: https://github.com/LCO-Embedding/LCO-Embedding

Résumé

Cet article explore les raisons fondamentales de la supériorité des méthodes d'intégration basées sur les modèles de langage multimodaux de grande taille (MLLMs), découvrant que leur avantage clé provient de l'alignement implicite intermodal réalisé lors du préentraînement génératif. Les auteurs proposent le cadre d'intégration omnimodale centré sur le langage LCO-EMB et découvrent la loi d'échelle génération-représentation (GRSL), indiquant que la capacité de représentation acquise par l'apprentissage contrastif est positivement corrélée à la capacité générative du MLLM. Ce travail atteint les performances de pointe sur plusieurs benchmarks et fournit une explication théorique.

Contexte et motivation de la recherche

Contexte du problème

L'alignement traditionnel des représentations intermodales s'appuie principalement sur l'apprentissage contrastif à grande échelle, comme les modèles de style CLIP. Cependant, ces méthodes plafonnent en performance sur les tâches complexes, en particulier sur celles nécessitant une compréhension intermodale approfondie, telles que la récupération d'images multilingues, la représentation texte-visuel et l'encodage multimodal entrelacé.

Motivation de la recherche

Goulot d'étranglement des performances: Les gains de performance des modèles de style CLIP obtenus en augmentant la taille du modèle, le volume des ensembles de données et la taille des lots ont plafonné
Absence de théorie: Bien que les méthodes d'intégration basées sur les MLLMs se révèlent excellentes, les raisons fondamentales de leur supériorité n'ont pas été profondément explorées
Problèmes d'efficacité: L'apprentissage contrastif traditionnel nécessite une grande quantité de données appariées intermodales, avec des coûts de calcul élevés

Intuitions clés

Les auteurs découvrent que les MLLMs ont déjà réalisé un alignement intermodal implicite lors du préentraînement génératif, le décodeur de langage apprenant à exploiter les signaux multimodaux dans un espace de représentation partagé pour générer des sorties unimodales.

Contributions principales

Découverte théorique: Confirmation empirique de l'existence d'un alignement intermodal latent dans les représentations des MLLMs par analyse de l'anisotropie et de la structure de similarité du noyau
Innovation méthodologique: Proposition du cadre d'intégration omnimodale centré sur le langage LCO-EMB, utilisant l'apprentissage contrastif comme phase d'affinage léger
Loi d'échelle: Découverte de la loi d'échelle génération-représentation (GRSL), établissant une relation positive entre la capacité générative et la capacité de représentation
Support théorique: Fourniture d'une explication théorique de la GRSL par le biais de la limite de généralisation PAC-Bayésienne
Vérification expérimentale: Atteinte des performances SOTA sur plusieurs benchmarks et vérification de la théorie sur les tâches de récupération de documents visuels à faibles ressources

Détails de la méthode

Analyse de l'alignement intermodal latent

Analyse du degré d'anisotropie

Les auteurs utilisent le degré d'anisotropie pour mesurer le degré de dégénérescence de l'espace d'intégration:

$\text{Anisotropie} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

Les expériences révèlent que l'anisotropie des modalités non textuelles s'améliore également après l'apprentissage contrastif textuel uniquement, prouvant l'existence d'un alignement intermodal latent dans les MLLMs.

Analyse de la similarité au niveau du noyau

Utilisation des k-plus proches voisins mutuels (mutual kNN) pour quantifier le chevauchement des structures de similarité entre différentes modalités:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

où $S(\phi_i)$ et $S(\psi_i)$ sont respectivement les ensembles des k-plus proches voisins des caractéristiques $\phi_i$ et $\psi_i$ .

Cadre LCO-EMB

Conception de l'architecture

LCO-EMB est basé sur l'architecture MLLM standard:

Encodeurs spécifiques aux modalités: Traitement des entrées de différentes modalités
Projecteurs: Alignement des représentations spécifiques aux modalités vers l'espace d'intégration du décodeur
Décodeur de langage: LLM comme composant central

Stratégie d'entraînement

Variante textuelle dédiée: Affinage LoRA uniquement du décodeur de langage, gel des autres paramètres
Variante multimodale: Ajout d'une petite quantité de données appariées multimodales à l'entraînement textuel
Efficacité des paramètres: Utilisation de LoRA pour maintenir une perturbation minimale du modèle préentraîné

Configuration des données

all-NLI: Combinaison de MNLI et SNLI, environ 276k triplets
Scale-1M: 1M paires de phrases échantillonnées à partir de 20M corpus parallèles multilingues
Données multimodales: Environ 94k échantillons multimodaux synthétiques

Loi d'échelle génération-représentation (GRSL)

Cadre théorique

Définition de la qualité du prior génératif: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

où $L_g(P)$ est la perte générative et $H(Y)$ est l'entropie des données cibles.

Théorème principal

Théorème 1: Sous l'hypothèse 1, avec une probabilité d'au moins $1-\delta$ , le risque de contraste de population attendu est borné par:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

Ceci indique que la capacité générative détermine directement la limite supérieure de la performance de représentation.

Configuration expérimentale

Ensembles de données

MIEB-Lite: 51 tâches, couvrant 8 catégories d'évaluation d'intégration image-texte
Audio-texte: Ensembles de données AudioCaps et Clotho
Vidéo-texte: Ensembles de données MSR-VTT et ActivityNet
SeaDoc: Nouveau benchmark de récupération de documents visuels en langues d'Asie du Sud-Est à faibles ressources

Configuration des modèles

Modèles de base: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
Optimiseur: AdamW, planification du taux d'apprentissage en cosinus
Configuration LoRA: rank=64, α=16(texte)/128(multimodal)
Taille des lots: 768 (ajustable selon le ratio des ensembles de données)

Métriques d'évaluation

Tâches de récupération: nDCG@5/10, Recall@1
Tâches de classification: Précision
Tâches de similarité: Coefficient de corrélation de Spearman
Tâches de clustering: Information mutuelle normalisée (NMI)

Résultats expérimentaux

Résultats principaux

Benchmark MIEB-Lite

Sur le benchmark MIEB-Lite de 51 tâches, LCO-EMB a obtenu des améliorations de performance significatives:

Modèle	Taille des données	Performance moyenne (47 tâches)	Performance moyenne (51 tâches)
CLIP-ViT-bigG	2B	56,5	51,3
SigLIP-so400m	9B	57,3	53,5
Voyage Multimodal 3	-	57,7	58,1
mmE5 (11B)	2,1M	57,7	61,8
GME (7B)	8,0M	63,4	64,5
LCO-EMB-VL (7B)	370k	66,2	67,6
LCO-EMB-Omni (7B)	370k	67,6	68,8

Découvertes clés

Efficacité des données: LCO-EMB atteint les performances SOTA avec seulement environ 0,37M paires d'entraînement (21 fois moins que GME)
Généralisation intermodale: La variante textuelle seule surpasse les baselines avancés sur les tâches multimodales
Amélioration cohérente: Excellentes performances sur toutes les catégories de tâches, en particulier sur l'alignement multilingue, la compositionnalité et les tâches de compréhension de documents

Études d'ablation

Comparaison des stratégies d'entraînement

Stratégie d'entraînement	Temps d'entraînement	Récupération d'images multilingues	STS visuel	Compréhension de documents	Sonde linéaire	Moyenne
CL de style CLIP	~550 heures	18,24	73,92	44,89	38,93	50,02
Projection linéaire	~8,8 heures	40,29	72,05	35,69	52,96	56,22
Affinage complet	~17,3 heures	44,05	83,15	58,02	53,34	66,49
LoRA	~9,3 heures	56,64	85,05	67,49	53,91	71,98

Impact des ensembles de données

Entraînement all-NLI: Performances exceptionnelles sur STS visuel et compréhension de documents
Entraînement Scale-1M: Leadership sur la sonde linéaire et la récupération d'images multilingues
Fusion de modèles: Combinaison des avantages des deux ensembles de données d'entraînement, obtenant les meilleures performances globales

Vérification de la loi d'échelle génération-représentation

Vérification intermodale

Une relation positive entre la capacité générative et la capacité de représentation est observée sur trois catégories de tâches: OCR, vidéo-texte et audio-texte:

Tâches OCR: Performance générative de 65-80, performance de représentation de 66-74
Vidéo-texte: Performance générative de 66-72, performance de récupération de 38-46
Audio-texte: Performance générative de 65-71, performance de récupération de 23,6-24,3

Vérification SeaDoc

Sur les tâches de récupération de documents visuels en langues d'Asie du Sud-Est à faibles ressources:

Modèle de base: nDCG@10 = 24,2
Après entraînement génératif continu: nDCG@10 = 35,8 (+47,5% d'amélioration)

Travaux connexes

Apprentissage de représentation omnimodale

Les méthodes existantes s'appuient principalement sur l'entraînement d'encodeurs spécifiques aux modalités avec des données appariées intermodales à grande échelle, comme ImageBind. Cet article explore un nouveau paradigme exploitant l'alignement latent des MLLMs.

Apprentissage de représentation centré sur les modalités

Centré sur la vision: DINOv2 et autres réalisent des performances OCR comparables à CLIP en augmentant la taille des données
Centré sur le langage: E5-V et autres exploitent l'apprentissage textuel pur pour généraliser aux tâches de récupération d'images et compositionnelles

Recherche sur la capacité de représentation

Le benchmark MIEB montre que les gains de performance de CLIP ont plafonné, les modèles d'intégration basés sur les MLLMs devenant une alternative prometteuse.

Conclusion et discussion

Conclusions principales

Contribution théorique: Découverte et vérification de l'alignement intermodal implicite existant dans les MLLMs
Innovation méthodologique: Proposition d'un cadre d'intégration omnimodale centré sur le langage efficace
Loi d'échelle: Établissement d'une connexion théorique entre la capacité générative et la capacité de représentation
Application pratique: Atteinte des performances SOTA sur plusieurs benchmarks, prouvant l'efficacité de la méthode

Limitations

Coûts de calcul: Bien que plus efficace que les méthodes traditionnelles, nécessite toujours un MLLM comme réseau de base
Entraînement conjoint: En raison des limitations de calcul, l'entraînement conjoint des pertes générative et contrastive n'a pas été exploré
Hypothèses théoriques: L'analyse théorique de la GRSL repose sur des hypothèses spécifiques, nécessitant une vérification plus large

Directions futures

Optimisation conjointe: Exploration des stratégies d'entraînement conjoint des pertes générative et contrastive
Extension théorique: Perfectionnement supplémentaire du cadre théorique de la GRSL
Extension d'application: Extension de la méthode à davantage de modalités et de scénarios de tâches

Évaluation approfondie

Avantages

Profondeur théorique: Fourniture d'une compréhension approfondie de la supériorité des méthodes d'intégration basées sur les MLLMs
Innovation méthodologique: Le paradigme d'entraînement centré sur le langage possède une forte innovativité
Expériences complètes: Vérification expérimentale étendue couvrant plusieurs modalités et benchmarks
Support théorique: Le cadre PAC-Bayésien fournit une base théorique rigoureuse pour la GRSL
Valeur pratique: L'amélioration significative de l'efficacité des données possède une importance pratique considérable

Insuffisances

Dépendance aux hypothèses: L'analyse théorique dépend de conditions d'hypothèse spécifiques
Ressources de calcul: Nécessite toujours un MLLM de grande taille comme fondation, avec des exigences élevées en ressources de calcul
Capacité de généralisation: L'amélioration sur certaines tâches traditionnellement fortes (comme le clustering et la sonde linéaire) est limitée

Impact

Contribution académique: Fourniture d'une nouvelle perspective théorique pour l'apprentissage de représentation multimodale
Valeur pratique: Amélioration significative de l'efficacité d'entraînement, réduction des besoins en données
Reproductibilité: Fourniture de code et de ressources complets, facilitant la reproduction et l'extension

Scénarios d'application

Environnements à ressources limitées: Approprié pour les scénarios avec des ressources de données ou de calcul limitées
Applications multilingues: Performances exceptionnelles sur les tâches multimodales multilingues
Compréhension de documents: Avantages significatifs sur les tâches de compréhension de documents visuels

Références

Cet article cite 85 références pertinentes, couvrant plusieurs domaines de recherche importants incluant l'apprentissage multimodal, l'apprentissage contrastif et les grands modèles de langage, fournissant une base théorique solide pour la recherche.

Résumé: Cet article, par l'analyse approfondie de la capacité d'alignement intermodal latent des MLLMs, propose un cadre d'intégration omnimodale centré sur le langage efficace et découvre la loi d'échelle génération-représentation d'importance théorique significative. Ce travail non seulement atteint d'excellentes performances sur plusieurs benchmarks, mais fournit plus important encore une nouvelle perspective théorique et un nouveau paradigme pratique pour l'apprentissage de représentation multimodale.