2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

تحسين تعلم التمثيل متعدد الأنماط المركزي على اللغة

المعلومات الأساسية

  • معرّف الورقة: 2510.11693
  • العنوان: Scaling Language-Centric Omnimodal Representation Learning
  • المؤلفون: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (أكاديمية DAMO، مجموعة علي بابا)
  • التصنيف: cs.CL cs.AI cs.CV
  • المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
  • رابط الورقة: https://arxiv.org/abs/2510.11693
  • رابط الكود: https://github.com/LCO-Embedding/LCO-Embedding

الملخص

تستكشف هذه الورقة الأسباب الجوهرية لتفوق طرق التضمين القائمة على نماذج اللغة الكبيرة متعددة الأنماط (MLLMs)، وتكتشف أن مزاياها الرئيسية تنبع من المحاذاة الضمنية بين الأنماط المحققة خلال عملية التدريب التوليدي. يقترح المؤلفون إطار عمل التضمين متعدد الأنماط المركزي على اللغة (LCO-EMB)، ويكتشفون قانون التحجيم التوليدي-التمثيلي (GRSL)، الذي يشير إلى وجود ارتباط إيجابي بين القدرة التمثيلية المكتسبة من خلال التعلم التباعدي وقدرة MLLM التوليدية. يحقق هذا العمل أداءً متقدماً على عدة معايير ويوفر تفسيراً نظرياً.

خلفية البحث والدافع

خلفية المشكلة

يعتمد محاذاة التمثيل بين الأنماط التقليدية بشكل أساسي على التعلم التباعدي واسع النطاق، مثل نماذج نمط CLIP. ومع ذلك، فإن أداء هذه الطرق تميل إلى الاستقرار في المهام المعقدة، خاصة في المهام التي تتطلب فهماً عميقاً بين الأنماط، مثل استرجاع الصور متعددة اللغات وتمثيل النص البصري والترميز متعدد الأنماط المتشابك.

دافع البحث

  1. اختناق الأداء: نماذج نمط CLIP التي تحقق تحسينات في الأداء من خلال توسيع حجم النموذج وحجم مجموعة البيانات وحجم الدفعة قد وصلت إلى مرحلة الاستقرار
  2. نقص نظري: بينما تُظهر طرق التضمين القائمة على MLLM أداءً ممتازاً، لم يتم استكشاف الأسباب الجوهرية لتفوقها بعمق
  3. مشاكل الكفاءة: يتطلب التعلم التباعدي التقليدي كمية كبيرة من بيانات الأزواج بين الأنماط، مما يؤدي إلى تكاليف حسابية عالية

الرؤى الرئيسية

يكتشف المؤلفون أن MLLM قد حقق بالفعل محاذاة ضمنية بين الأنماط خلال عملية التدريب التوليدي، حيث تعلم فك التشفير اللغوي الاستفادة من الإشارات متعددة الأنماط في فضاء التمثيل المشترك لإنتاج مخرجات أحادية النمط.

المساهمات الأساسية

  1. الاكتشاف النظري: من خلال تحليل البنية الخواصية والتشابه النواة، يؤكد تجريبياً وجود محاذاة ضمنية بين الأنماط في تمثيلات MLLM
  2. الابتكار المنهجي: اقتراح إطار عمل التضمين متعدد الأنماط المركزي على اللغة (LCO-EMB)، مع استخدام التعلم التباعدي كمرحلة تحسين خفيفة الوزن
  3. قانون التحجيم: اكتشاف قانون التحجيم التوليدي-التمثيلي (GRSL)، الذي يؤسس علاقة ارتباط إيجابية بين القدرة التوليدية والقدرة التمثيلية
  4. الدعم النظري: توفير تفسير نظري لـ GRSL من خلال حدود التعميم PAC-Bayesian
  5. التحقق التجريبي: تحقيق أداء متقدمة على عدة معايير، والتحقق من النظرية على مهام استرجاع المستندات البصرية منخفضة الموارد

شرح الطريقة

تحليل محاذاة الأنماط الكامنة

تحليل درجة الخواصية

يستخدم المؤلفون درجة الخواصية لقياس درجة التدهور في فضاء التضمين:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

يكتشف التجريب أنه بعد استخدام التعلم التباعدي النصي فقط، تتحسن خواصية الأنماط غير النصية أيضاً، مما يثبت وجود محاذاة ضمنية بين الأنماط في MLLM.

تحليل تشابه النواة

يتم استخدام الجيران k المتبادلين (mutual kNN) لقياس تداخل بنى التشابه بين الأنماط المختلفة:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

حيث S(ϕi)S(\phi_i) و S(ψi)S(\psi_i) هما مجموعات الجيران k للميزات ϕi\phi_i و ψi\psi_i على التوالي.

إطار عمل LCO-EMB

تصميم البنية

يعتمد LCO-EMB على بنية MLLM القياسية:

  • المشفرات الخاصة بالنمط: معالجة مدخلات مختلفة الأنماط
  • المسقطات: محاذاة التمثيلات الخاصة بالنمط إلى فضاء تضمين فك التشفير
  • فك التشفير اللغوي: نموذج اللغة الكبير كمكون أساسي

استراتيجية التدريب

  1. المتغير النصي الحصري: استخدام ضبط LoRA فقط على فك التشفير اللغوي، مع تجميد المعاملات الأخرى
  2. المتغير متعدد الأنماط: إضافة كمية صغيرة من بيانات الأزواج متعددة الأنماط على أساس التدريب النصي
  3. كفاءة المعاملات: استخدام LoRA للحفاظ على الحد الأدنى من الاضطراب للنموذج المدرب مسبقاً

إعدادات البيانات

  • all-NLI: دمج MNLI و SNLI، حوالي 276k ثلاثية
  • Scale-1M: عينة من 1M زوج جملة من 20M مادة متوازية متعددة اللغات
  • البيانات متعددة الأنماط: حوالي 94k عينة متعددة الأنماط مركبة

قانون التحجيم التوليدي-التمثيلي (GRSL)

الإطار النظري

تعريف جودة الأولوية التوليدية: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

حيث Lg(P)L_g(P) هي خسارة التوليد و H(Y)H(Y) هي إنتروبيا بيانات الهدف.

النظرية الرئيسية

النظرية 1: تحت الافتراض 1، باحتمالية لا تقل عن 1δ1-\delta، يتم تحديد خطر التباعد المتوقع للسكان بـ:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

يشير هذا إلى أن القدرة التوليدية تحدد مباشرة الحد الأعلى لأداء التمثيل.

إعدادات التجريب

مجموعات البيانات

  • MIEB-Lite: 51 مهمة، تغطي 8 فئات لتقييم التضمين الصورة-النص
  • الصوت-النص: مجموعات بيانات AudioCaps و Clotho
  • الفيديو-النص: مجموعات بيانات MSR-VTT و ActivityNet
  • SeaDoc: معيار استرجاع المستندات البصرية لغات جنوب شرق آسيا منخفضة الموارد المُنشأ حديثاً

تكوين النموذج

  • نموذج العمود الفقري: LLaVA-Next و Qwen2.5-VL و Qwen2.5-Omni
  • المحسّن: AdamW مع جدولة معدل التعلم بالجيب
  • إعدادات LoRA: rank=64, α=16 (نص)/128 (متعدد الأنماط)
  • حجم الدفعة: 768 (قابل للتعديل حسب نسبة مجموعة البيانات)

مقاييس التقييم

  • مهام الاسترجاع: nDCG@5/10, Recall@1
  • مهام التصنيف: الدقة
  • مهام التشابه: معامل ارتباط سبيرمان
  • مهام التجميع: المعلومات المتبادلة المعيارية (NMI)

نتائج التجريب

النتائج الرئيسية

معيار MIEB-Lite

حقق LCO-EMB تحسينات أداء كبيرة على معيار MIEB-Lite مع 51 مهمة:

النموذجحجم مجموعة البياناتمتوسط الأداء (47 مهمة)متوسط الأداء (51 مهمة)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

النتائج الرئيسية

  1. كفاءة البيانات: حقق LCO-EMB أداءً متقدماً باستخدام حوالي 0.37M زوج تدريب فقط (أقل بـ 21 مرة من GME)
  2. التعميم بين الأنماط: المتغير النصي الحصري يتفوق على خطوط الأساس المتقدمة في مهام متعددة الأنماط
  3. التحسين المتسق: أداء ممتازة في جميع فئات المهام، خاصة في مهام المحاذاة متعددة اللغات والتركيب وفهم المستندات

تجارب الاستئصال

مقارنة استراتيجيات التدريب

استراتيجية التدريبوقت التدريباسترجاع الصور متعددة اللغاتSTS البصريفهم المستنداتالاستكشاف الخطيالمتوسط
التعلم التباعدي نمط CLIP~550 ساعة18.2473.9244.8938.9350.02
الإسقاط الخطي~8.8 ساعات40.2972.0535.6952.9656.22
الضبط الكامل~17.3 ساعة44.0583.1558.0253.3466.49
LoRA~9.3 ساعات56.6485.0567.4953.9171.98

تأثير مجموعة البيانات

  • تدريب all-NLI: أداء متميزة في STS البصري وفهم المستندات
  • تدريب Scale-1M: متقدمة في الاستكشاف الخطي واسترجاع الصور متعددة اللغات
  • دمج النموذج: الجمع بين مزايا كلا نوعي بيانات التدريب لتحقيق أفضل أداء شاملة

التحقق من قانون التحجيم التوليدي-التمثيلي

التحقق بين الأنماط

تم ملاحظة علاقة ارتباط إيجابية بين القدرة التوليدية والقدرة التمثيلية في ثلاث فئات مهام:

  • مهام OCR: الأداء التوليدي من 65-80، الأداء التمثيلي من 66-74
  • الفيديو-النص: الأداء التوليدي من 66-72، أداء الاسترجاع من 38-46
  • الصوت-النص: الأداء التوليدي من 65-71، أداء الاسترجاع من 23.6-24.3

التحقق من SeaDoc

على مهام استرجاع المستندات البصرية لغات جنوب شرق آسيا منخفضة الموارد:

  • نموذج الأساس: nDCG@10 = 24.2
  • بعد التدريب التوليدي المستمر: nDCG@10 = 35.8 (تحسن بنسبة +47.5%)

الأعمال ذات الصلة

تعلم التمثيل متعدد الأنماط

تعتمد الطرق الموجودة بشكل أساسي على تدريب المشفرات الخاصة بالنمط على بيانات أزواج بين الأنماط واسعة النطاق، مثل ImageBind. تستكشف هذه الورقة نموذجاً جديداً يستفيد من المحاذاة الكامنة في MLLM.

تعلم التمثيل المركزي على النمط

  • المركزي على الرؤية: DINOv2 وغيرها تحقق أداءً في OCR مماثلة لـ CLIP من خلال توسيع حجم البيانات
  • المركزي على اللغة: E5-V وغيرها تستفيد من التعلم النصي البحت للتعميم على المهام الصورية والاسترجاع المركب

أبحاث القدرة التمثيلية

يُظهر معيار MIEB أن تحسينات أداء CLIP قد استقرت، مما يجعل نماذج التضمين القائمة على MLLM بديلاً واعداً.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. المساهمة النظرية: اكتشاف والتحقق من وجود محاذاة ضمنية بين الأنماط في MLLM
  2. الابتكار المنهجي: اقتراح إطار عمل فعال للتضمين متعدد الأنماط المركزي على اللغة
  3. قانون التحجيم: إنشاء ارتباط نظري بين القدرة التوليدية والقدرة التمثيلية
  4. التطبيق العملي: تحقيق أداء متقدمة على عدة معايير، مما يثبت فعالية الطريقة

القيود

  1. التكلفة الحسابية: بينما أكثر كفاءة من الطرق التقليدية، لا تزال تتطلب MLLM كشبكة عمود فقري
  2. التدريب المشترك: لم يتم استكشاف التدريب المشترك لخسارة التوليد والخسارة التباعدية بسبب قيود التكلفة الحسابية
  3. الافتراضات النظرية: يعتمد التحليل النظري لـ GRSL على افتراضات محددة، مما يتطلب تحققاً أوسع

الاتجاهات المستقبلية

  1. التحسين المشترك: استكشاف استراتيجيات التدريب المشترك لخسارة التوليد والخسارة التباعدية
  2. توسيع النظرية: تحسين الإطار النظري لـ GRSL بشكل أكبر
  3. توسيع التطبيقات: توسيع الطريقة لتشمل أنماطاً ومهام أكثر

التقييم المتعمق

المزايا

  1. العمق النظري: توفير فهم عميق للأسباب الجوهرية لتفوق طرق التضمين القائمة على MLLM
  2. الابتكار المنهجي: نموذج التدريب المركزي على اللغة يتمتع بابتكارية قوية
  3. شمول التجريب: تجارب واسعة النطاق تغطي أنماطاً متعددة ومعايير متعددة
  4. الدعم النظري: يوفر إطار عمل PAC-Bayesian أساساً نظرياً صارماً لـ GRSL
  5. القيمة العملية: تحسينات كفاءة البيانات الكبيرة لها أهمية عملية كبيرة

أوجه القصور

  1. الاعتماد على الافتراضات: يعتمد التحليل النظري على شروط افتراضية محددة
  2. موارد الحوسبة: لا تزال تتطلب MLLM واسع النطاق كأساس، مع متطلبات عالية من موارد الحوسبة
  3. القدرة على التعميم: التحسينات محدودة في بعض مهام نقاط القوة التقليدية (مثل التجميع والاستكشاف الخطي)

التأثير

  1. المساهمة الأكاديمية: توفير منظور نظري جديد لتعلم التمثيل متعدد الأنماط
  2. القيمة العملية: تحسين كبير في كفاءة التدريب وتقليل متطلبات البيانات
  3. قابلية الاستنساخ: توفير كود وموارد كاملة لتسهيل الاستنساخ والتوسع

السيناريوهات المناسبة

  1. بيئات الموارد المحدودة: مناسبة للسيناريوهات التي تكون فيها موارد البيانات أو الحوسبة محدودة
  2. التطبيقات متعددة اللغات: أداء متميزة في مهام متعددة اللغات متعددة الأنماط
  3. فهم المستندات: مزايا واضحة في مهام فهم المستندات البصرية

المراجع

تستشهد هذه الورقة بـ 85 مرجعاً ذا صلة، تغطي عدة مجالات بحثية مهمة بما في ذلك التعلم متعدد الأنماط والتعلم التباعدي ونماذج اللغة الكبيرة، مما يوفر أساساً نظرياً متيناً للبحث.


الملخص: من خلال التحليل العميق لقدرة المحاذاة الضمنية بين الأنماط في MLLM، تقترح هذه الورقة إطار عمل فعال للتضمين متعدد الأنماط المركزي على اللغة، واكتشفت قانون التحجيم التوليدي-التمثيلي ذي الأهمية النظرية الكبيرة. لا يحقق هذا العمل أداءً ممتازة على عدة معايير فحسب، بل يوفر أيضاً رؤى نظرية جديدة ونموذجاً عملياً لتعلم التمثيل متعدد الأنماط.