2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

भाषा-केंद्रित सर्वमोडल प्रतिनिधित्व सीखने को स्केल करना

मूल जानकारी

पेपर ID: 2510.11693
शीर्षक: Scaling Language-Centric Omnimodal Representation Learning
लेखक: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
वर्गीकरण: cs.CL cs.AI cs.CV
प्रकाशन सम्मेलन: NeurIPS 2025 (39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन)
पेपर लिंक: https://arxiv.org/abs/2510.11693
कोड लिंक: https://github.com/LCO-Embedding/LCO-Embedding

सारांश

यह पेपर बहु-मोडल बड़े भाषा मॉडल (MLLMs) पर आधारित एम्बेडिंग विधियों की श्रेष्ठता के मूल कारणों की जांच करता है, जिससे पता चलता है कि इसके मुख्य लाभ जनरेटिव प्रशिक्षण प्रक्रिया में प्राप्त निहित क्रॉस-मोडल संरेखण से आते हैं। लेखकों ने भाषा-केंद्रित सर्वमोडल एम्बेडिंग फ्रेमवर्क LCO-EMB प्रस्तावित किया है और जनरेटिव-प्रतिनिधित्व स्केलिंग कानून (GRSL) की खोज की है, जो दर्शाता है कि विपरीत सीखने के माध्यम से प्राप्त प्रतिनिधित्व क्षमता MLLM की जनरेटिव क्षमता के साथ सकारात्मक रूप से संबंधित है। यह कार्य कई बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करता है और सैद्धांतिक व्याख्या प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

पारंपरिक क्रॉस-मोडल प्रतिनिधित्व संरेखण मुख्य रूप से बड़े पैमाने पर विपरीत सीखने पर निर्भर करता है, जैसे CLIP-शैली के मॉडल। हालांकि, ये विधियां जटिल कार्यों पर प्रदर्शन में पठार दिखाती हैं, विशेष रूप से गहन क्रॉस-मोडल समझ की आवश्यकता वाले कार्यों पर, जैसे बहु-भाषीय छवि पुनर्प्राप्ति, दृश्य-पाठ प्रतिनिधित्व और इंटरलीव्ड बहु-मोडल एन्कोडिंग।

अनुसंधान प्रेरणा

प्रदर्शन बाधा: CLIP-शैली के मॉडल मॉडल आकार, डेटासेट आकार और बैच आकार बढ़ाकर प्राप्त प्रदर्शन लाभ पठार पर पहुंच गए हैं
सैद्धांतिक अंतराल: MLLM-आधारित एम्बेडिंग विधियां उत्कृष्ट प्रदर्शन दिखाती हैं, लेकिन उनकी श्रेष्ठता के मूल कारणों की गहराई से अभी तक खोज नहीं की गई है
दक्षता समस्या: पारंपरिक विपरीत सीखने को बड़ी मात्रा में क्रॉस-मोडल युग्मित डेटा की आवश्यकता होती है, जिससे कम्प्यूटेशनल लागत अधिक होती है

मुख्य अंतर्दृष्टि

लेखकों ने पाया कि MLLM ने जनरेटिव प्रशिक्षण प्रक्रिया में पहले से ही निहित क्रॉस-मोडल संरेखण प्राप्त किया है, भाषा डिकोडर साझा प्रतिनिधित्व स्थान में बहु-मोडल संकेतों का उपयोग करके एकल-मोडल आउटपुट उत्पन्न करना सीखता है।

मुख्य योगदान

सैद्धांतिक खोज: विषमदिशात्मकता और कर्नल समानता संरचना विश्लेषण के माध्यम से, MLLM प्रतिनिधित्व में अंतर्निहित क्रॉस-मोडल संरेखण की अनुभवजन्य पुष्टि
विधि नवाचार: भाषा-केंद्रित सर्वमोडल एम्बेडिंग फ्रेमवर्क LCO-EMB प्रस्तावित करना, विपरीत सीखन को हल्के-फुल्के परिशोधन चरण के रूप में उपयोग करना
स्केलिंग कानून: जनरेटिव-प्रतिनिधित्व स्केलिंग कानून (GRSL) की खोज, जनरेटिव क्षमता और प्रतिनिधित्व क्षमता के बीच सकारात्मक संबंध स्थापित करना
सैद्धांतिक समर्थन: PAC-Bayesian सामान्यीकरण सीमा के माध्यम से GRSL के लिए सैद्धांतिक व्याख्या प्रदान करना
प्रायोगिक सत्यापन: कई बेंचमार्क में SOTA प्रदर्शन प्राप्त करना और कम-संसाधन दृश्य दस्तावेज़ पुनर्प्राप्ति कार्यों पर सिद्धांत को सत्यापित करना

विधि विवरण

अंतर्निहित क्रॉस-मोडल संरेखण विश्लेषण

विषमदिशात्मकता विश्लेषण

लेखकों ने एम्बेडिंग स्थान के अध: पतन की डिग्री को मापने के लिए विषमदिशात्मकता का उपयोग करते हैं:

$\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

प्रयोगों से पता चलता है कि केवल पाठ विपरीत सीखने के बाद, गैर-पाठ मोडल की विषमदिशात्मकता में भी सुधार होता है, जो MLLM में अंतर्निहित क्रॉस-मोडल संरेखण को साबित करता है।

कर्नल-स्तरीय समानता विश्लेषण

विभिन्न मोडल के बीच समानता संरचना के ओवरलैप को मापने के लिए पारस्परिक k-निकटतम पड़ोसी (mutual kNN) का उपयोग करना:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

जहां $S(\phi_i)$ और $S(\psi_i)$ क्रमशः विशेषताओं $\phi_i$ और $\psi_i$ के k-निकटतम पड़ोसी समुच्चय हैं।

LCO-EMB फ्रेमवर्क

आर्किटेक्चर डिज़ाइन

LCO-EMB मानक MLLM आर्किटेक्चर पर आधारित है:

मोडल-विशिष्ट एन्कोडर: विभिन्न मोडल इनपुट को संसाधित करना
प्रोजेक्टर: मोडल-विशिष्ट प्रतिनिधित्व को डिकोडर एम्बेडिंग स्थान में संरेखित करना
भाषा डिकोडर: मुख्य घटक के रूप में LLM

प्रशिक्षण रणनीति

पाठ-विशिष्ट वेरिएंट: केवल LoRA माइक्रो-ट्यूनिंग का उपयोग करके भाषा डिकोडर को समायोजित करना, अन्य पैरामीटर को फ्रीज करना
बहु-मोडल वेरिएंट: पाठ प्रशिक्षण के आधार पर कम मात्रा में बहु-मोडल युग्मित डेटा जोड़ना
पैरामीटर-कुशल: LoRA का उपयोग करके पूर्व-प्रशिक्षित मॉडल में न्यूनतम व्यवधान बनाए रखना

डेटा सेटिंग

all-NLI: MNLI और SNLI का संयोजन, लगभग 276k त्रिपद
Scale-1M: 20M बहु-भाषीय समानांतर कॉर्पस से नमूना किए गए 1M वाक्य जोड़े
बहु-मोडल डेटा: लगभग 94k संश्लेषित बहु-मोडल नमूने

जनरेटिव-प्रतिनिधित्व स्केलिंग कानून (GRSL)

सैद्धांतिक ढांचा

जनरेटिव पूर्व की गुणवत्ता को परिभाषित करना: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

जहां $L_g(P)$ जनरेटिव हानि है, $H(Y)$ लक्ष्य डेटा की एन्ट्रॉपी है।

मुख्य प्रमेय

प्रमेय 1: धारणा 1 के तहत, कम से कम $1-\delta$ की संभावना के साथ, अपेक्षित कुल विपरीत जोखिम को सीमित किया जाता है:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

यह दर्शाता है कि जनरेटिव क्षमता सीधे प्रतिनिधित्व प्रदर्शन की ऊपरी सीमा को निर्धारित करती है।

प्रायोगिक सेटअप

डेटासेट

MIEB-Lite: 51 कार्य, 8 श्रेणियों को कवर करते हुए छवि-पाठ एम्बेडिंग मूल्यांकन
ऑडियो-पाठ: AudioCaps और Clotho डेटासेट
वीडियो-पाठ: MSR-VTT और ActivityNet डेटासेट
SeaDoc: नई निर्मित कम-संसाधन दक्षिण-पूर्व एशियाई भाषा दृश्य दस्तावेज़ पुनर्प्राप्ति बेंचमार्क

मॉडल कॉन्फ़िगरेशन

बैकबोन मॉडल: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
ऑप्टिमाइज़र: AdamW, कोसाइन लर्निंग रेट शेड्यूलिंग
LoRA सेटिंग: rank=64, α=16(पाठ)/128(बहु-मोडल)
बैच आकार: 768(डेटासेट अनुपात के अनुसार समायोजित किया जा सकता है)

मूल्यांकन मेट्रिक्स

पुनर्प्राप्ति कार्य: nDCG@5/10, Recall@1
वर्गीकरण कार्य: सटीकता
समानता कार्य: Spearman सहसंबंध गुणांक
क्लस्टरिंग कार्य: सामान्यीकृत पारस्परिक सूचना (NMI)

प्रायोगिक परिणाम

मुख्य परिणाम

MIEB-Lite बेंचमार्क परीक्षण

51 कार्यों के MIEB-Lite बेंचमार्क पर, LCO-EMB ने महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए:

मॉडल	डेटासेट आकार	औसत प्रदर्शन(47 कार्य)	औसत प्रदर्शन(51 कार्य)
CLIP-ViT-bigG	2B	56.5	51.3
SigLIP-so400m	9B	57.3	53.5
Voyage Multimodal 3	-	57.7	58.1
mmE5 (11B)	2.1M	57.7	61.8
GME (7B)	8.0M	63.4	64.5
LCO-EMB-VL (7B)	370k	66.2	67.6
LCO-EMB-Omni (7B)	370k	67.6	68.8

मुख्य निष्कर्ष

डेटा दक्षता: LCO-EMB केवल लगभग 0.37M प्रशिक्षण जोड़े (GME से 21 गुना कम) का उपयोग करके SOTA प्रदर्शन प्राप्त करता है
क्रॉस-मोडल सामान्यीकरण: पाठ-विशिष्ट वेरिएंट उन्नत बेसलाइन को बहु-मोडल कार्यों पर पार करता है
सुसंगत सुधार: सभी कार्य श्रेणियों पर उत्कृष्ट प्रदर्शन, विशेष रूप से बहु-भाषीय संरेखण, रचनात्मकता और दस्तावेज़ समझ कार्यों पर

विलोपन प्रयोग

प्रशिक्षण रणनीति तुलना

प्रशिक्षण रणनीति	प्रशिक्षण समय	बहु-भाषीय छवि पुनर्प्राप्ति	दृश्य STS	दस्तावेज़ समझ	रैखिक जांच	औसत
CLIP-शैली CL	~550 घंटे	18.24	73.92	44.89	38.93	50.02
रैखिक प्रक्षेपण	~8.8 घंटे	40.29	72.05	35.69	52.96	56.22
पूर्ण माइक्रो-ट्यूनिंग	~17.3 घंटे	44.05	83.15	58.02	53.34	66.49
LoRA	~9.3 घंटे	56.64	85.05	67.49	53.91	71.98

डेटासेट प्रभाव

all-NLI प्रशिक्षण: दृश्य STS और दस्तावेज़ समझ पर उत्कृष्ट प्रदर्शन
Scale-1M प्रशिक्षण: रैखिक जांच और बहु-भाषीय छवि पुनर्प्राप्ति में अग्रणी
मॉडल संलयन: दोनों प्रशिक्षण डेटा के लाभों को जोड़ते हुए, सर्वोत्तम समग्र प्रदर्शन प्राप्त करना

जनरेटिव-प्रतिनिधित्व स्केलिंग कानून सत्यापन

क्रॉस-मोडल सत्यापन

OCR संबंधित, वीडियो-पाठ, ऑडियो-पाठ तीन श्रेणियों के कार्यों पर जनरेटिव क्षमता और प्रतिनिधित्व क्षमता के बीच सकारात्मक संबंध देखा गया:

OCR कार्य: जनरेटिव प्रदर्शन 65-80, प्रतिनिधित्व प्रदर्शन 66-74
वीडियो-पाठ: जनरेटिव प्रदर्शन 66-72, पुनर्प्राप्ति प्रदर्शन 38-46
ऑडियो-पाठ: जनरेटिव प्रदर्शन 65-71, पुनर्प्राप्ति प्रदर्शन 23.6-24.3

SeaDoc सत्यापन

कम-संसाधन दक्षिण-पूर्व एशियाई भाषा दृश्य दस्तावेज़ पुनर्प्राप्ति कार्यों पर:

बेसलाइन मॉडल: nDCG@10 = 24.2
निरंतर जनरेटिव प्रशिक्षण के बाद: nDCG@10 = 35.8 (+47.5% सुधार)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक योगदान: MLLM में मौजूद निहित क्रॉस-मोडल संरेखण की खोज और सत्यापन
विधि नवाचार: कुशल भाषा-केंद्रित सर्वमोडल एम्बेडिंग फ्रेमवर्क प्रस्तावित करना
स्केलिंग कानून: जनरेटिव क्षमता और प्रतिनिधित्व क्षमता के बीच सैद्धांतिक संबंध स्थापित करना
व्यावहारिक अनुप्रयोग: कई बेंचमार्क पर SOTA प्राप्त करना, विधि की प्रभावशीलता को साबित करना

सीमाएं

कम्प्यूटेशनल लागत: पारंपरिक विधियों की तुलना में अधिक कुशल होने के बावजूद, अभी भी MLLM को बैकबोन नेटवर्क के रूप में आवश्यकता है
संयुक्त प्रशिक्षण: कम्प्यूटेशनल लागत सीमाओं के कारण, जनरेटिव हानि और विपरीत हानि के संयुक्त प्रशिक्षण की खोज नहीं की गई
सैद्धांतिक धारणाएं: GRSL का सैद्धांतिक विश्लेषण विशिष्ट धारणाओं पर आधारित है, व्यापक सत्यापन की आवश्यकता है

भविष्य की दिशाएं

संयुक्त अनुकूलन: जनरेटिव हानि और विपरीत हानि के संयुक्त प्रशिक्षण रणनीति की खोज
सैद्धांतिक विस्तार: GRSL के सैद्धांतिक ढांचे को और परिष्कृत करना
अनुप्रयोग विस्तार: विधि को अधिक मोडल और कार्य परिदृश्यों तक विस्तारित करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक गहराई: MLLM एम्बेडिंग विधियों की श्रेष्ठता की गहन समझ प्रदान करता है
विधि नवाचार: भाषा-केंद्रित प्रशिक्षण दृष्टिकोण में बहुत मजबूत नवाचार है
व्यापक प्रयोग: कई मोडल, कई बेंचमार्क को कवर करने वाले व्यापक प्रायोगिक सत्यापन
सैद्धांतिक समर्थन: PAC-Bayesian ढांचा GRSL के लिए कठोर सैद्धांतिक आधार प्रदान करता है
व्यावहारिक मूल्य: डेटा दक्षता में महत्वपूर्ण सुधार महत्वपूर्ण व्यावहारिक महत्व रखता है

कमियां

धारणा निर्भरता: सैद्धांतिक विश्लेषण विशिष्ट धारणा शर्तों पर निर्भर करता है
कम्प्यूटेशनल संसाधन: अभी भी बड़े पैमाने पर MLLM को आधार के रूप में आवश्यकता है, कम्प्यूटेशनल संसाधनों की उच्च मांग
सामान्यीकरण क्षमता: कुछ पारंपरिक मजबूत कार्यों (जैसे क्लस्टरिंग, रैखिक जांच) पर सुधार सीमित है

प्रभाव

शैक्षणिक योगदान: बहु-मोडल प्रतिनिधित्व सीखने के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: प्रशिक्षण दक्षता में महत्वपूर्ण सुधार, डेटा आवश्यकताओं को कम करता है
पुनरुत्पादनीयता: पूर्ण कोड और संसाधन प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

संसाधन-सीमित वातावरण: डेटा या कम्प्यूटेशनल संसाधन सीमित परिदृश्यों के लिए उपयुक्त
बहु-भाषीय अनुप्रयोग: बहु-भाषीय बहु-मोडल कार्यों में उत्कृष्ट प्रदर्शन
दस्तावेज़ समझ: दृश्य दस्तावेज़ समझ कार्यों में महत्वपूर्ण लाभ

संदर्भ

यह पेपर 85 संबंधित संदर्भों का हवाला देता है, जो बहु-मोडल सीखना, विपरीत सीखना, बड़े भाषा मॉडल और अन्य अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।

सारांश: यह पेपर MLLM की अंतर्निहित क्रॉस-मोडल संरेखण क्षमता का गहन विश्लेषण करके, एक कुशल भाषा-केंद्रित सर्वमोडल एम्बेडिंग फ्रेमवर्क प्रस्तावित करता है, और महत्वपूर्ण सैद्धांतिक महत्व के साथ जनरेटिव-प्रतिनिधित्व स्केलिंग कानून की खोज करता है। यह कार्य न केवल कई बेंचमार्क पर उत्कृष्ट प्रदर्शन प्राप्त करता है, बल्कि अधिक महत्वपूर्ण रूप से, बहु-मोडल प्रतिनिधित्व सीखने के लिए नया सैद्धांतिक अंतर्दृष्टि और व्यावहारिक दृष्टिकोण प्रदान करता है।