Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic
Escalado del Aprendizaje de Representación Omnimodal Centrado en el Lenguaje
Este artículo investiga las razones fundamentales de la superioridad de los métodos de incrustación basados en modelos de lenguaje multimodales grandes (MLLMs). Se descubre que su ventaja clave proviene de la alineación implícita entre modalidades lograda durante el preentrenamiento generativo. Los autores proponen el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB y descubren la ley de escalado generativo-representacional (GRSL), que indica una correlación positiva entre la capacidad representacional obtenida mediante aprendizaje contrastivo y la capacidad generativa del MLLM. Este trabajo logra rendimiento de última generación en múltiples puntos de referencia y proporciona explicaciones teóricas.
La alineación tradicional de representaciones entre modalidades se basa principalmente en aprendizaje contrastivo a gran escala, como modelos de estilo CLIP. Sin embargo, estos métodos muestran un rendimiento estancado en tareas complejas, particularmente en aquellas que requieren comprensión profunda entre modalidades, como recuperación de imágenes multilingües, representación de texto visual y codificación multimodal intercalada.
Cuello de botella de rendimiento: Las mejoras de rendimiento obtenidas por modelos de estilo CLIP mediante ampliación de tamaño de modelo, volumen de conjunto de datos y tamaño de lote se han estancado
Ausencia de teoría: Aunque los métodos de incrustación basados en MLLM muestran un desempeño excelente, las razones fundamentales de su superioridad aún no se han explorado profundamente
Problemas de eficiencia: El aprendizaje contrastivo tradicional requiere grandes cantidades de datos emparejados entre modalidades, con costos computacionales elevados
Los autores descubren que los MLLMs ya han logrado una alineación implícita entre modalidades durante el preentrenamiento generativo, donde el decodificador de lenguaje aprende a utilizar señales multimodales en un espacio de representación compartido para generar salidas unimodales.
Descubrimiento Teórico: Mediante análisis de anisotropía y estructura de similitud de núcleo, se confirma empíricamente la existencia de alineación latente entre modalidades en representaciones de MLLM
Innovación Metodológica: Se propone el marco de incrustación omnimodal centrado en el lenguaje LCO-EMB, utilizando aprendizaje contrastivo como fase de refinamiento ligera
Ley de Escalado: Se descubre la ley de escalado generativo-representacional (GRSL), estableciendo una relación de correlación positiva entre capacidad generativa y capacidad representacional
Apoyo Teórico: Se proporciona explicación teórica de GRSL mediante límites de generalización PAC-Bayesianos
Verificación Experimental: Se logra rendimiento SOTA en múltiples puntos de referencia y se verifica la teoría en tareas de recuperación de documentos visuales con pocos recursos
Los experimentos revelan que después del aprendizaje contrastivo solo con texto, la anisotropía de modalidades no textuales también mejora, demostrando la existencia de alineación latente entre modalidades en MLLMs.
Eficiencia de datos: LCO-EMB logra rendimiento SOTA utilizando solo aproximadamente 0.37M pares de entrenamiento (21 veces menos que GME)
Generalización entre modalidades: La variante exclusiva de texto supera a líneas base avanzadas en tareas multimodales
Mejora consistente: Desempeño excelente en todas las categorías de tareas, particularmente en alineación multilingüe, composicionalidad y tareas de comprensión de documentos
Se observa correlación positiva entre capacidad generativa y capacidad representacional en tres categorías de tareas: OCR relacionado, video-texto y audio-texto:
Tareas OCR: Rendimiento generativo de 65-80, rendimiento representacional de 66-74
Video-texto: Rendimiento generativo de 66-72, rendimiento de recuperación de 38-46
Audio-texto: Rendimiento generativo de 65-71, rendimiento de recuperación de 23.6-24.3
Los métodos existentes se basan principalmente en entrenar codificadores específicos de modalidad con datos emparejados entre modalidades a gran escala, como ImageBind. Este trabajo explora un nuevo paradigma que aprovecha la alineación latente de MLLMs.
El punto de referencia MIEB muestra que las mejoras de rendimiento de CLIP se han estancado, haciendo que los modelos de incrustación basados en MLLM sean una alternativa prometedora.
Este artículo cita 85 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo aprendizaje multimodal, aprendizaje contrastivo y modelos de lenguaje grande, proporcionando base teórica sólida para la investigación.
Resumen: Mediante análisis profundo de la capacidad de alineación latente entre modalidades de MLLMs, este artículo propone un marco eficiente de incrustación omnimodal centrado en el lenguaje y descubre la ley de escalado generativo-representacional con importante significado teórico. Este trabajo no solo logra rendimiento excelente en múltiples puntos de referencia, sino que más importantemente proporciona nuevas perspectivas teóricas y paradigmas prácticos para aprendizaje de representación multimodal.