Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic
تحسين تعلم التمثيل متعدد الأنماط المركزي على اللغة
تستكشف هذه الورقة الأسباب الجوهرية لتفوق طرق التضمين القائمة على نماذج اللغة الكبيرة متعددة الأنماط (MLLMs)، وتكتشف أن مزاياها الرئيسية تنبع من المحاذاة الضمنية بين الأنماط المحققة خلال عملية التدريب التوليدي. يقترح المؤلفون إطار عمل التضمين متعدد الأنماط المركزي على اللغة (LCO-EMB)، ويكتشفون قانون التحجيم التوليدي-التمثيلي (GRSL)، الذي يشير إلى وجود ارتباط إيجابي بين القدرة التمثيلية المكتسبة من خلال التعلم التباعدي وقدرة MLLM التوليدية. يحقق هذا العمل أداءً متقدماً على عدة معايير ويوفر تفسيراً نظرياً.
يعتمد محاذاة التمثيل بين الأنماط التقليدية بشكل أساسي على التعلم التباعدي واسع النطاق، مثل نماذج نمط CLIP. ومع ذلك، فإن أداء هذه الطرق تميل إلى الاستقرار في المهام المعقدة، خاصة في المهام التي تتطلب فهماً عميقاً بين الأنماط، مثل استرجاع الصور متعددة اللغات وتمثيل النص البصري والترميز متعدد الأنماط المتشابك.
يكتشف المؤلفون أن MLLM قد حقق بالفعل محاذاة ضمنية بين الأنماط خلال عملية التدريب التوليدي، حيث تعلم فك التشفير اللغوي الاستفادة من الإشارات متعددة الأنماط في فضاء التمثيل المشترك لإنتاج مخرجات أحادية النمط.
تعتمد الطرق الموجودة بشكل أساسي على تدريب المشفرات الخاصة بالنمط على بيانات أزواج بين الأنماط واسعة النطاق، مثل ImageBind. تستكشف هذه الورقة نموذجاً جديداً يستفيد من المحاذاة الكامنة في MLLM.
تستشهد هذه الورقة بـ 85 مرجعاً ذا صلة، تغطي عدة مجالات بحثية مهمة بما في ذلك التعلم متعدد الأنماط والتعلم التباعدي ونماذج اللغة الكبيرة، مما يوفر أساساً نظرياً متيناً للبحث.
الملخص: من خلال التحليل العميق لقدرة المحاذاة الضمنية بين الأنماط في MLLM، تقترح هذه الورقة إطار عمل فعال للتضمين متعدد الأنماط المركزي على اللغة، واكتشفت قانون التحجيم التوليدي-التمثيلي ذي الأهمية النظرية الكبيرة. لا يحقق هذا العمل أداءً ممتازة على عدة معايير فحسب، بل يوفر أيضاً رؤى نظرية جديدة ونموذجاً عملياً لتعلم التمثيل متعدد الأنماط.