2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

Escalado del Aprendizaje de Representación Omnimodal Centrado en el Lenguaje

Información Básica

ID del Artículo: 2510.11693
Título: Scaling Language-Centric Omnimodal Representation Learning
Autores: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
Clasificación: cs.CL cs.AI cs.CV
Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2510.11693
Enlace del Código: https://github.com/LCO-Embedding/LCO-Embedding

Resumen

Este artículo investiga las razones fundamentales de la superioridad de los métodos de incrustación basados en modelos de lenguaje multimodales grandes (MLLMs). Se descubre que su ventaja clave proviene de la alineación implícita entre modalidades lograda durante el preentrenamiento generativo. Los autores proponen el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB y descubren la ley de escalado generativo-representacional (GRSL), que indica una correlación positiva entre la capacidad representacional obtenida mediante aprendizaje contrastivo y la capacidad generativa del MLLM. Este trabajo logra rendimiento de última generación en múltiples puntos de referencia y proporciona explicaciones teóricas.

Contexto de Investigación y Motivación

Contexto del Problema

La alineación tradicional de representaciones entre modalidades se basa principalmente en aprendizaje contrastivo a gran escala, como modelos de estilo CLIP. Sin embargo, estos métodos muestran un rendimiento estancado en tareas complejas, particularmente en aquellas que requieren comprensión profunda entre modalidades, como recuperación de imágenes multilingües, representación de texto visual y codificación multimodal intercalada.

Motivación de la Investigación

Cuello de botella de rendimiento: Las mejoras de rendimiento obtenidas por modelos de estilo CLIP mediante ampliación de tamaño de modelo, volumen de conjunto de datos y tamaño de lote se han estancado
Ausencia de teoría: Aunque los métodos de incrustación basados en MLLM muestran un desempeño excelente, las razones fundamentales de su superioridad aún no se han explorado profundamente
Problemas de eficiencia: El aprendizaje contrastivo tradicional requiere grandes cantidades de datos emparejados entre modalidades, con costos computacionales elevados

Perspectivas Clave

Los autores descubren que los MLLMs ya han logrado una alineación implícita entre modalidades durante el preentrenamiento generativo, donde el decodificador de lenguaje aprende a utilizar señales multimodales en un espacio de representación compartido para generar salidas unimodales.

Contribuciones Principales

Descubrimiento Teórico: Mediante análisis de anisotropía y estructura de similitud de núcleo, se confirma empíricamente la existencia de alineación latente entre modalidades en representaciones de MLLM
Innovación Metodológica: Se propone el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB, utilizando aprendizaje contrastivo como fase de refinamiento ligera
Ley de Escalado: Se descubre la ley de escalado generativo-representacional (GRSL), estableciendo una relación de correlación positiva entre capacidad generativa y capacidad representacional
Apoyo Teórico: Se proporciona explicación teórica de GRSL mediante límites de generalización PAC-Bayesianos
Verificación Experimental: Se logra rendimiento SOTA en múltiples puntos de referencia y se verifica la teoría en tareas de recuperación de documentos visuales con pocos recursos

Explicación Detallada del Método

Análisis de Alineación Latente entre Modalidades

Análisis de Anisotropía

Los autores utilizan la anisotropía para medir el grado de degeneración del espacio de incrustación:

$\text{Anisotropía} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

Los experimentos revelan que después del aprendizaje contrastivo solo con texto, la anisotropía de modalidades no textuales también mejora, demostrando la existencia de alineación latente entre modalidades en MLLMs.

Análisis de Similitud de Núcleo

Se adopta k-vecinos mutuos (mutual kNN) para cuantificar la superposición de estructuras de similitud entre diferentes modalidades:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

donde $S(\phi_i)$ y $S(\psi_i)$ son respectivamente los conjuntos de k-vecinos más cercanos de las características $\phi_i$ y $\psi_i$ .

Marco LCO-EMB

Diseño de Arquitectura

LCO-EMB se basa en la arquitectura estándar de MLLM:

Codificadores específicos de modalidad: Procesan entradas de diferentes modalidades
Proyectores: Alinean representaciones específicas de modalidad al espacio de incrustación del decodificador
Decodificador de lenguaje: LLM como componente central

Estrategia de Entrenamiento

Variante exclusiva de texto: Microajuste solo del decodificador de lenguaje mediante LoRA, congelando otros parámetros
Variante multimodal: Adición de pequeña cantidad de datos emparejados multimodales sobre la base del entrenamiento de texto
Eficiencia de parámetros: Uso de LoRA para mantener perturbación mínima del modelo preentrenado

Configuración de Datos

all-NLI: Combinación de MNLI y SNLI, aproximadamente 276k tripletas
Scale-1M: 1M pares de oraciones muestreados de 20M corpus paralelos multilingües
Datos multimodales: Aproximadamente 94k muestras multimodales sintéticas

Ley de Escalado Generativo-Representacional (GRSL)

Marco Teórico

Se define la calidad del prior generativo: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

donde $L_g(P)$ es la pérdida generativa y $H(Y)$ es la entropía de los datos objetivo.

Teorema Principal

Teorema 1: Bajo la Suposición 1, con probabilidad al menos $1-\delta$ , el riesgo contrastivo poblacional esperado está acotado por:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

Esto indica que la capacidad generativa determina directamente el límite superior del rendimiento representacional.

Configuración Experimental

Conjuntos de Datos

MIEB-Lite: 51 tareas, cubriendo 8 categorías de evaluación de incrustación imagen-texto
Audio-texto: Conjuntos de datos AudioCaps y Clotho
Video-texto: Conjuntos de datos MSR-VTT y ActivityNet
SeaDoc: Punto de referencia de recuperación de documentos visuales en idiomas del sudeste asiático de bajo recurso recién construido

Configuración del Modelo

Modelo base: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
Optimizador: AdamW, programación de tasa de aprendizaje coseno
Configuración LoRA: rank=64, α=16(texto)/128(multimodal)
Tamaño de lote: 768 (ajustable según proporción de conjunto de datos)

Métricas de Evaluación

Tareas de recuperación: nDCG@5/10, Recall@1
Tareas de clasificación: Precisión
Tareas de similitud: Coeficiente de correlación de Spearman
Tareas de agrupamiento: Información mutua normalizada (NMI)

Resultados Experimentales

Resultados Principales

Punto de Referencia MIEB-Lite

En el punto de referencia MIEB-Lite de 51 tareas, LCO-EMB logra mejoras significativas de rendimiento:

Modelo	Tamaño de Datos	Rendimiento Promedio (47 tareas)	Rendimiento Promedio (51 tareas)
CLIP-ViT-bigG	2B	56.5	51.3
SigLIP-so400m	9B	57.3	53.5
Voyage Multimodal 3	-	57.7	58.1
mmE5 (11B)	2.1M	57.7	61.8
GME (7B)	8.0M	63.4	64.5
LCO-EMB-VL (7B)	370k	66.2	67.6
LCO-EMB-Omni (7B)	370k	67.6	68.8

Hallazgos Clave

Eficiencia de datos: LCO-EMB logra rendimiento SOTA utilizando solo aproximadamente 0.37M pares de entrenamiento (21 veces menos que GME)
Generalización entre modalidades: La variante exclusiva de texto supera a líneas base avanzadas en tareas multimodales
Mejora consistente: Desempeño excelente en todas las categorías de tareas, particularmente en alineación multilingüe, composicionalidad y tareas de comprensión de documentos

Experimentos de Ablación

Comparación de Estrategias de Entrenamiento

Estrategia de Entrenamiento	Tiempo de Entrenamiento	Recuperación de Imágenes Multilingües	STS Visual	Comprensión de Documentos	Sondeo Lineal	Promedio
CL de estilo CLIP	~550 horas	18.24	73.92	44.89	38.93	50.02
Proyección lineal	~8.8 horas	40.29	72.05	35.69	52.96	56.22
Microajuste completo	~17.3 horas	44.05	83.15	58.02	53.34	66.49
LoRA	~9.3 horas	56.64	85.05	67.49	53.91	71.98

Impacto del Conjunto de Datos

Entrenamiento all-NLI: Desempeño destacado en STS visual y comprensión de documentos
Entrenamiento Scale-1M: Liderazgo en sondeo lineal y recuperación de imágenes multilingües
Fusión de modelos: Combinación de ventajas de ambos datos de entrenamiento, logrando rendimiento general óptimo

Verificación de la Ley de Escalado Generativo-Representacional

Verificación Entre Modalidades

Se observa correlación positiva entre capacidad generativa y capacidad representacional en tres categorías de tareas: OCR relacionado, video-texto y audio-texto:

Tareas OCR: Rendimiento generativo de 65-80, rendimiento representacional de 66-74
Video-texto: Rendimiento generativo de 66-72, rendimiento de recuperación de 38-46
Audio-texto: Rendimiento generativo de 65-71, rendimiento de recuperación de 23.6-24.3

Verificación SeaDoc

En tareas de recuperación de documentos visuales en idiomas del sudeste asiático con pocos recursos:

Modelo base: nDCG@10 = 24.2
Después de entrenamiento generativo continuo: nDCG@10 = 35.8 (+47.5% de mejora)

Trabajo Relacionado

Aprendizaje de Representación Omnimodal

Los métodos existentes se basan principalmente en entrenar codificadores específicos de modalidad con datos emparejados entre modalidades a gran escala, como ImageBind. Este trabajo explora un nuevo paradigma que aprovecha la alineación latente de MLLMs.

Aprendizaje de Representación Centrado en Modalidad

Centrado en visión: DINOv2 y otros logran rendimiento OCR comparable a CLIP mediante ampliación de escala de datos
Centrado en lenguaje: E5-V y otros utilizan aprendizaje de texto puro que generaliza a tareas de imagen y recuperación composicional

Investigación de Capacidad Representacional

El punto de referencia MIEB muestra que las mejoras de rendimiento de CLIP se han estancado, haciendo que los modelos de incrustación basados en MLLM sean una alternativa prometedora.

Conclusiones y Discusión

Conclusiones Principales

Contribución teórica: Se descubre y verifica la existencia de alineación implícita entre modalidades en MLLMs
Innovación metodológica: Se propone un marco de incrustación omnimodal centrado en el lenguaje eficiente
Ley de escalado: Se establece conexión teórica entre capacidad generativa y capacidad representacional
Aplicación práctica: Se logra SOTA en múltiples puntos de referencia, demostrando la efectividad del método

Limitaciones

Costo computacional: Aunque más eficiente que métodos tradicionales, aún requiere MLLM como red base
Entrenamiento conjunto: Debido a limitaciones computacionales, no se explora entrenamiento conjunto de pérdida generativa y contrastiva
Suposiciones teóricas: El análisis teórico de GRSL se basa en suposiciones específicas que requieren verificación más amplia

Direcciones Futuras

Optimización conjunta: Exploración de estrategias de entrenamiento conjunto de pérdida generativa y contrastiva
Extensión teórica: Perfeccionamiento adicional del marco teórico de GRSL
Extensión de aplicaciones: Extensión del método a más modalidades y escenarios de tareas

Evaluación Profunda

Fortalezas

Profundidad teórica: Proporciona comprensión profunda de la superioridad de métodos de incrustación basados en MLLM
Innovación metodológica: El paradigma de entrenamiento centrado en el lenguaje posee fuerte innovación
Experimentación integral: Verificación experimental amplia cubriendo múltiples modalidades y puntos de referencia
Apoyo teórico: Marco PAC-Bayesiano proporciona base teórica rigurosa para GRSL
Valor práctico: Mejora significativa de eficiencia de datos con importante significado práctico

Deficiencias

Dependencia de suposiciones: El análisis teórico depende de condiciones de suposición específicas
Recursos computacionales: Aún requiere MLLM a gran escala como base, con altos requisitos de recursos computacionales
Capacidad de generalización: Mejora limitada en algunas tareas de fortaleza tradicional (como agrupamiento, sondeo lineal)

Impacto

Contribución académica: Proporciona nueva perspectiva teórica para aprendizaje de representación multimodal
Valor práctico: Mejora significativa de eficiencia de entrenamiento, reducción de requisitos de datos
Reproducibilidad: Proporciona código y recursos completos, facilitando reproducción y extensión

Escenarios Aplicables

Entornos con recursos limitados: Adecuado para escenarios con datos o recursos computacionales limitados
Aplicaciones multilingües: Desempeño destacado en tareas multimodales multilingües
Comprensión de documentos: Ventajas significativas en tareas de comprensión de documentos visuales

Referencias

Este artículo cita 85 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo aprendizaje multimodal, aprendizaje contrastivo y modelos de lenguaje grande, proporcionando base teórica sólida para la investigación.

Resumen: Mediante análisis profundo de la capacidad de alineación latente entre modalidades de MLLMs, este artículo propone un marco eficiente de incrustación omnimodal centrado en el lenguaje y descubre la ley de escalado generativo-representacional con importante significado teórico. Este trabajo no solo logra rendimiento excelente en múltiples puntos de referencia, sino que más importantemente proporciona nuevas perspectivas teóricas y paradigmas prácticos para aprendizaje de representación multimodal.