2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Escalado del Aprendizaje de Representación Omnimodal Centrado en el Lenguaje

Información Básica

  • ID del Artículo: 2510.11693
  • Título: Scaling Language-Centric Omnimodal Representation Learning
  • Autores: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • Clasificación: cs.CL cs.AI cs.CV
  • Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11693
  • Enlace del Código: https://github.com/LCO-Embedding/LCO-Embedding

Resumen

Este artículo investiga las razones fundamentales de la superioridad de los métodos de incrustación basados en modelos de lenguaje multimodales grandes (MLLMs). Se descubre que su ventaja clave proviene de la alineación implícita entre modalidades lograda durante el preentrenamiento generativo. Los autores proponen el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB y descubren la ley de escalado generativo-representacional (GRSL), que indica una correlación positiva entre la capacidad representacional obtenida mediante aprendizaje contrastivo y la capacidad generativa del MLLM. Este trabajo logra rendimiento de última generación en múltiples puntos de referencia y proporciona explicaciones teóricas.

Contexto de Investigación y Motivación

Contexto del Problema

La alineación tradicional de representaciones entre modalidades se basa principalmente en aprendizaje contrastivo a gran escala, como modelos de estilo CLIP. Sin embargo, estos métodos muestran un rendimiento estancado en tareas complejas, particularmente en aquellas que requieren comprensión profunda entre modalidades, como recuperación de imágenes multilingües, representación de texto visual y codificación multimodal intercalada.

Motivación de la Investigación

  1. Cuello de botella de rendimiento: Las mejoras de rendimiento obtenidas por modelos de estilo CLIP mediante ampliación de tamaño de modelo, volumen de conjunto de datos y tamaño de lote se han estancado
  2. Ausencia de teoría: Aunque los métodos de incrustación basados en MLLM muestran un desempeño excelente, las razones fundamentales de su superioridad aún no se han explorado profundamente
  3. Problemas de eficiencia: El aprendizaje contrastivo tradicional requiere grandes cantidades de datos emparejados entre modalidades, con costos computacionales elevados

Perspectivas Clave

Los autores descubren que los MLLMs ya han logrado una alineación implícita entre modalidades durante el preentrenamiento generativo, donde el decodificador de lenguaje aprende a utilizar señales multimodales en un espacio de representación compartido para generar salidas unimodales.

Contribuciones Principales

  1. Descubrimiento Teórico: Mediante análisis de anisotropía y estructura de similitud de núcleo, se confirma empíricamente la existencia de alineación latente entre modalidades en representaciones de MLLM
  2. Innovación Metodológica: Se propone el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB, utilizando aprendizaje contrastivo como fase de refinamiento ligera
  3. Ley de Escalado: Se descubre la ley de escalado generativo-representacional (GRSL), estableciendo una relación de correlación positiva entre capacidad generativa y capacidad representacional
  4. Apoyo Teórico: Se proporciona explicación teórica de GRSL mediante límites de generalización PAC-Bayesianos
  5. Verificación Experimental: Se logra rendimiento SOTA en múltiples puntos de referencia y se verifica la teoría en tareas de recuperación de documentos visuales con pocos recursos

Explicación Detallada del Método

Análisis de Alineación Latente entre Modalidades

Análisis de Anisotropía

Los autores utilizan la anisotropía para medir el grado de degeneración del espacio de incrustación:

Anisotropıˊa:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropía} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

Los experimentos revelan que después del aprendizaje contrastivo solo con texto, la anisotropía de modalidades no textuales también mejora, demostrando la existencia de alineación latente entre modalidades en MLLMs.

Análisis de Similitud de Núcleo

Se adopta k-vecinos mutuos (mutual kNN) para cuantificar la superposición de estructuras de similitud entre diferentes modalidades:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

donde S(ϕi)S(\phi_i) y S(ψi)S(\psi_i) son respectivamente los conjuntos de k-vecinos más cercanos de las características ϕi\phi_i y ψi\psi_i.

Marco LCO-EMB

Diseño de Arquitectura

LCO-EMB se basa en la arquitectura estándar de MLLM:

  • Codificadores específicos de modalidad: Procesan entradas de diferentes modalidades
  • Proyectores: Alinean representaciones específicas de modalidad al espacio de incrustación del decodificador
  • Decodificador de lenguaje: LLM como componente central

Estrategia de Entrenamiento

  1. Variante exclusiva de texto: Microajuste solo del decodificador de lenguaje mediante LoRA, congelando otros parámetros
  2. Variante multimodal: Adición de pequeña cantidad de datos emparejados multimodales sobre la base del entrenamiento de texto
  3. Eficiencia de parámetros: Uso de LoRA para mantener perturbación mínima del modelo preentrenado

Configuración de Datos

  • all-NLI: Combinación de MNLI y SNLI, aproximadamente 276k tripletas
  • Scale-1M: 1M pares de oraciones muestreados de 20M corpus paralelos multilingües
  • Datos multimodales: Aproximadamente 94k muestras multimodales sintéticas

Ley de Escalado Generativo-Representacional (GRSL)

Marco Teórico

Se define la calidad del prior generativo: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

donde Lg(P)L_g(P) es la pérdida generativa y H(Y)H(Y) es la entropía de los datos objetivo.

Teorema Principal

Teorema 1: Bajo la Suposición 1, con probabilidad al menos 1δ1-\delta, el riesgo contrastivo poblacional esperado está acotado por:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

Esto indica que la capacidad generativa determina directamente el límite superior del rendimiento representacional.

Configuración Experimental

Conjuntos de Datos

  • MIEB-Lite: 51 tareas, cubriendo 8 categorías de evaluación de incrustación imagen-texto
  • Audio-texto: Conjuntos de datos AudioCaps y Clotho
  • Video-texto: Conjuntos de datos MSR-VTT y ActivityNet
  • SeaDoc: Punto de referencia de recuperación de documentos visuales en idiomas del sudeste asiático de bajo recurso recién construido

Configuración del Modelo

  • Modelo base: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • Optimizador: AdamW, programación de tasa de aprendizaje coseno
  • Configuración LoRA: rank=64, α=16(texto)/128(multimodal)
  • Tamaño de lote: 768 (ajustable según proporción de conjunto de datos)

Métricas de Evaluación

  • Tareas de recuperación: nDCG@5/10, Recall@1
  • Tareas de clasificación: Precisión
  • Tareas de similitud: Coeficiente de correlación de Spearman
  • Tareas de agrupamiento: Información mutua normalizada (NMI)

Resultados Experimentales

Resultados Principales

Punto de Referencia MIEB-Lite

En el punto de referencia MIEB-Lite de 51 tareas, LCO-EMB logra mejoras significativas de rendimiento:

ModeloTamaño de DatosRendimiento Promedio (47 tareas)Rendimiento Promedio (51 tareas)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

Hallazgos Clave

  1. Eficiencia de datos: LCO-EMB logra rendimiento SOTA utilizando solo aproximadamente 0.37M pares de entrenamiento (21 veces menos que GME)
  2. Generalización entre modalidades: La variante exclusiva de texto supera a líneas base avanzadas en tareas multimodales
  3. Mejora consistente: Desempeño excelente en todas las categorías de tareas, particularmente en alineación multilingüe, composicionalidad y tareas de comprensión de documentos

Experimentos de Ablación

Comparación de Estrategias de Entrenamiento

Estrategia de EntrenamientoTiempo de EntrenamientoRecuperación de Imágenes MultilingüesSTS VisualComprensión de DocumentosSondeo LinealPromedio
CL de estilo CLIP~550 horas18.2473.9244.8938.9350.02
Proyección lineal~8.8 horas40.2972.0535.6952.9656.22
Microajuste completo~17.3 horas44.0583.1558.0253.3466.49
LoRA~9.3 horas56.6485.0567.4953.9171.98

Impacto del Conjunto de Datos

  • Entrenamiento all-NLI: Desempeño destacado en STS visual y comprensión de documentos
  • Entrenamiento Scale-1M: Liderazgo en sondeo lineal y recuperación de imágenes multilingües
  • Fusión de modelos: Combinación de ventajas de ambos datos de entrenamiento, logrando rendimiento general óptimo

Verificación de la Ley de Escalado Generativo-Representacional

Verificación Entre Modalidades

Se observa correlación positiva entre capacidad generativa y capacidad representacional en tres categorías de tareas: OCR relacionado, video-texto y audio-texto:

  • Tareas OCR: Rendimiento generativo de 65-80, rendimiento representacional de 66-74
  • Video-texto: Rendimiento generativo de 66-72, rendimiento de recuperación de 38-46
  • Audio-texto: Rendimiento generativo de 65-71, rendimiento de recuperación de 23.6-24.3

Verificación SeaDoc

En tareas de recuperación de documentos visuales en idiomas del sudeste asiático con pocos recursos:

  • Modelo base: nDCG@10 = 24.2
  • Después de entrenamiento generativo continuo: nDCG@10 = 35.8 (+47.5% de mejora)

Trabajo Relacionado

Aprendizaje de Representación Omnimodal

Los métodos existentes se basan principalmente en entrenar codificadores específicos de modalidad con datos emparejados entre modalidades a gran escala, como ImageBind. Este trabajo explora un nuevo paradigma que aprovecha la alineación latente de MLLMs.

Aprendizaje de Representación Centrado en Modalidad

  • Centrado en visión: DINOv2 y otros logran rendimiento OCR comparable a CLIP mediante ampliación de escala de datos
  • Centrado en lenguaje: E5-V y otros utilizan aprendizaje de texto puro que generaliza a tareas de imagen y recuperación composicional

Investigación de Capacidad Representacional

El punto de referencia MIEB muestra que las mejoras de rendimiento de CLIP se han estancado, haciendo que los modelos de incrustación basados en MLLM sean una alternativa prometedora.

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución teórica: Se descubre y verifica la existencia de alineación implícita entre modalidades en MLLMs
  2. Innovación metodológica: Se propone un marco de incrustación omnimodal centrado en el lenguaje eficiente
  3. Ley de escalado: Se establece conexión teórica entre capacidad generativa y capacidad representacional
  4. Aplicación práctica: Se logra SOTA en múltiples puntos de referencia, demostrando la efectividad del método

Limitaciones

  1. Costo computacional: Aunque más eficiente que métodos tradicionales, aún requiere MLLM como red base
  2. Entrenamiento conjunto: Debido a limitaciones computacionales, no se explora entrenamiento conjunto de pérdida generativa y contrastiva
  3. Suposiciones teóricas: El análisis teórico de GRSL se basa en suposiciones específicas que requieren verificación más amplia

Direcciones Futuras

  1. Optimización conjunta: Exploración de estrategias de entrenamiento conjunto de pérdida generativa y contrastiva
  2. Extensión teórica: Perfeccionamiento adicional del marco teórico de GRSL
  3. Extensión de aplicaciones: Extensión del método a más modalidades y escenarios de tareas

Evaluación Profunda

Fortalezas

  1. Profundidad teórica: Proporciona comprensión profunda de la superioridad de métodos de incrustación basados en MLLM
  2. Innovación metodológica: El paradigma de entrenamiento centrado en el lenguaje posee fuerte innovación
  3. Experimentación integral: Verificación experimental amplia cubriendo múltiples modalidades y puntos de referencia
  4. Apoyo teórico: Marco PAC-Bayesiano proporciona base teórica rigurosa para GRSL
  5. Valor práctico: Mejora significativa de eficiencia de datos con importante significado práctico

Deficiencias

  1. Dependencia de suposiciones: El análisis teórico depende de condiciones de suposición específicas
  2. Recursos computacionales: Aún requiere MLLM a gran escala como base, con altos requisitos de recursos computacionales
  3. Capacidad de generalización: Mejora limitada en algunas tareas de fortaleza tradicional (como agrupamiento, sondeo lineal)

Impacto

  1. Contribución académica: Proporciona nueva perspectiva teórica para aprendizaje de representación multimodal
  2. Valor práctico: Mejora significativa de eficiencia de entrenamiento, reducción de requisitos de datos
  3. Reproducibilidad: Proporciona código y recursos completos, facilitando reproducción y extensión

Escenarios Aplicables

  1. Entornos con recursos limitados: Adecuado para escenarios con datos o recursos computacionales limitados
  2. Aplicaciones multilingües: Desempeño destacado en tareas multimodales multilingües
  3. Comprensión de documentos: Ventajas significativas en tareas de comprensión de documentos visuales

Referencias

Este artículo cita 85 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo aprendizaje multimodal, aprendizaje contrastivo y modelos de lenguaje grande, proporcionando base teórica sólida para la investigación.


Resumen: Mediante análisis profundo de la capacidad de alineación latente entre modalidades de MLLMs, este artículo propone un marco eficiente de incrustación omnimodal centrado en el lenguaje y descubre la ley de escalado generativo-representacional con importante significado teórico. Este trabajo no solo logra rendimiento excelente en múltiples puntos de referencia, sino que más importantemente proporciona nuevas perspectivas teóricas y paradigmas prácticos para aprendizaje de representación multimodal.