2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

academic

ভাষা-কেন্দ্রিক সর্বমোডাল প্রতিনিধিত্ব শিক্ষার স্কেলিং

মৌলিক তথ্য

পেপার আইডি: 2510.11693
শিরোনাম: Scaling Language-Centric Omnimodal Representation Learning
লেখক: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
শ্রেণীবিভাগ: cs.CL cs.AI cs.CV
প্রকাশনা সম্মেলন: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
পেপার লিংক: https://arxiv.org/abs/2510.11693
কোড লিংক: https://github.com/LCO-Embedding/LCO-Embedding

সারসংক্ষেপ

এই পেপারটি বহুমোডাল বৃহৎ ভাষা মডেল (MLLMs) ভিত্তিক এম্বেডিং পদ্ধতির উৎকর্ষতার মূল কারণ অন্বেষণ করে। লেখকরা আবিষ্কার করেছেন যে এর মূল সুবিধা উৎপাদনশীল প্রাক-প্রশিক্ষণ প্রক্রিয়ায় অর্জিত অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতা থেকে উদ্ভূত। লেখকরা ভাষা-কেন্দ্রিক সর্বমোডাল এম্বেডিং ফ্রেমওয়ার্ক LCO-EMB প্রস্তাব করেছেন এবং উৎপাদনশীল-প্রতিনিধিত্ব স্কেলিং আইন (GRSL) আবিষ্কার করেছেন, যা নির্দেশ করে যে বৈপরীত্যমূলক শিক্ষার মাধ্যমে অর্জিত প্রতিনিধিত্ব ক্ষমতা MLLM এর উৎপাদনশীল ক্ষমতার সাথে ইতিবাচক সম্পর্কযুক্ত। এই কাজটি একাধিক বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে এবং তাত্ত্বিক ব্যাখ্যা প্রদান করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

ঐতিহ্যবাহী ক্রস-মোডাল প্রতিনিধিত্ব সারিবদ্ধতা প্রধানত বৃহৎ-স্কেল বৈপরীত্যমূলক শিক্ষার উপর নির্ভর করে, যেমন CLIP-শৈলীর মডেল। তবে, এই পদ্ধতিগুলি জটিল কাজে কর্মক্ষমতা প্ল্যাটফর্ম করে, বিশেষত গভীর ক্রস-মোডাল বোঝার প্রয়োজন এমন কাজে, যেমন বহুভাষিক ছবি পুনরুদ্ধার, ভিজ্যুয়াল পাঠ্য প্রতিনিধিত্ব এবং ইন্টারলিভড বহুমোডাল এনকোডিং।

গবেষণা প্রেরণা

কর্মক্ষমতা বাধা: CLIP-শৈলীর মডেলগুলি মডেল আকার, ডেটাসেট ভলিউম এবং ব্যাচ আকার বৃদ্ধির মাধ্যমে অর্জিত কর্মক্ষমতা লাভ ইতিমধ্যে প্ল্যাটফর্ম করেছে
তাত্ত্বিক ঘাটতি: MLLM-ভিত্তিক এম্বেডিং পদ্ধতি উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে, তবে এর উৎকর্ষতার মূল কারণ এখনও গভীরভাবে অন্বেষণ করা হয়নি
দক্ষতা সমস্যা: ঐতিহ্যবাহী বৈপরীত্যমূলক শিক্ষা প্রচুর ক্রস-মোডাল যুক্ত ডেটা প্রয়োজন, যা উচ্চ গণনামূলক খরচ।

মূল অন্তর্দৃষ্টি

লেখকরা আবিষ্কার করেছেন যে MLLM উৎপাদনশীল প্রাক-প্রশিক্ষণ প্রক্রিয়ায় ইতিমধ্যে অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতা অর্জন করেছে, যেখানে ভাষা ডিকোডার একক-মোডাল আউটপুট উৎপন্ন করতে ভাগ করা প্রতিনিধিত্ব স্থানে বহুমোডাল সংকেত ব্যবহার করতে শিখেছে।

মূল অবদান

তাত্ত্বিক আবিষ্কার: অ্যানিসোট্রপি এবং কার্নেল সাদৃশ্য কাঠামো বিশ্লেষণের মাধ্যমে, MLLM প্রতিনিধিত্বে অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতার অস্তিত্ব অভিজ্ঞতামূলকভাবে নিশ্চিত করা হয়েছে
পদ্ধতিগত উদ্ভাবন: ভাষা-কেন্দ্রিক সর্বমোডাল এম্বেডিং ফ্রেমওয়ার্ক LCO-EMB প্রস্তাব করা হয়েছে, যা বৈপরীত্যমূলক শিক্ষাকে হালকা-ওজনের সূক্ষ্ম-সুর পর্যায় হিসাবে ব্যবহার করে
স্কেলিং আইন: উৎপাদনশীল-প্রতিনিধিত্ব স্কেলিং আইন (GRSL) আবিষ্কার করা হয়েছে, যা উৎপাদনশীল ক্ষমতা এবং প্রতিনিধিত্ব ক্ষমতার মধ্যে ইতিবাচক সম্পর্ক স্থাপন করে
তাত্ত্বিক সমর্থন: PAC-Bayesian সাধারণীকরণ সীমানা মাধ্যমে GRSL এর তাত্ত্বিক ব্যাখ্যা প্রদান করা হয়েছে
পরীক্ষামূলক যাচাইকরণ: একাধিক বেঞ্চমার্কে SOTA কর্মক্ষমতা অর্জন করা হয়েছে এবং নিম্ন-সম্পদ ভিজ্যুয়াল ডকুমেন্ট পুনরুদ্ধার কাজে তত্ত্ব যাচাই করা হয়েছে।

পদ্ধতি বিবরণ

অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতা বিশ্লেষণ

অ্যানিসোট্রপি বিশ্লেষণ

লেখকরা এম্বেডিং স্থানের অবক্ষয়ের মাত্রা পরিমাপ করতে অ্যানিসোট্রপি ব্যবহার করেন:

$\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]$

পরীক্ষা-নিরীক্ষায় দেখা গেছে যে শুধুমাত্র পাঠ্য বৈপরীত্যমূলক শিক্ষা ব্যবহার করার পরেও, অ-পাঠ্য মোডালের অ্যানিসোট্রপি উন্নত হয়, যা MLLM-এ অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতার প্রমাণ দেয়।

কার্নেল-স্তরের সাদৃশ্য বিশ্লেষণ

বিভিন্ন মোডাল জুড়ে সাদৃশ্য কাঠামোর ওভারল্যাপ পরিমাপ করতে পারস্পরিক k-নিকটতম প্রতিবেশী (mutual kNN) ব্যবহার করা হয়:

$m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|$

যেখানে $S(\phi_i)$ এবং $S(\psi_i)$ যথাক্রমে বৈশিষ্ট্য $\phi_i$ এবং $\psi_i$ এর k-নিকটতম প্রতিবেশী সেট।

LCO-EMB ফ্রেমওয়ার্ক

স্থাপত্য ডিজাইন

LCO-EMB মান MLLM স্থাপত্যের উপর ভিত্তি করে:

মোডাল-নির্দিষ্ট এনকোডার: বিভিন্ন মোডাল ইনপুট প্রক্রিয়া করে
প্রজেক্টর: মোডাল-নির্দিষ্ট প্রতিনিধিত্ব ডিকোডার এম্বেডিং স্থানে সারিবদ্ধ করে
ভাষা ডিকোডার: মূল উপাদান হিসাবে LLM

প্রশিক্ষণ কৌশল

পাঠ্য-নির্দিষ্ট রূপান্তর: শুধুমাত্র LoRA মাইক্রোফাইনটিউনিং ভাষা ডিকোডার ব্যবহার করে, অন্যান্য পরামিতি হিমায়িত করে
বহুমোডাল রূপান্তর: পাঠ্য প্রশিক্ষণের ভিত্তিতে অল্প পরিমাণ বহুমোডাল যুক্ত ডেটা যোগ করে
পরামিতি-দক্ষ: LoRA ব্যবহার করে প্রাক-প্রশিক্ষিত মডেলে ন্যূনতম বিঘ্ন বজায় রাখে

ডেটা সেটআপ

all-NLI: MNLI এবং SNLI সংমিশ্রণ, প্রায় 276k ত্রিপদ
Scale-1M: 20M বহুভাষিক সমান্তরাল কর্পাস থেকে নমুনা করা 1M বাক্য জোড়া
বহুমোডাল ডেটা: প্রায় 94k সংশ্লেষিত বহুমোডাল নমুনা

উৎপাদনশীল-প্রতিনিধিত্ব স্কেলিং আইন (GRSL)

তাত্ত্বিক কাঠামো

উৎপাদনশীল পূর্বাভাসের গুণমান সংজ্ঞায়িত করা হয়: $I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)$

যেখানে $L_g(P)$ উৎপাদনশীল ক্ষতি এবং $H(Y)$ লক্ষ্য ডেটার এন্ট্রপি।

প্রধান উপপাদ্য

উপপাদ্য 1: অনুমান 1 এর অধীনে, কমপক্ষে $1-\delta$ সম্ভাবনার সাথে, প্রত্যাশিত মোট বৈপরীত্যমূলক ঝুঁকি সীমাবদ্ধ:

$E_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}$

এটি নির্দেশ করে যে উৎপাদনশীল ক্ষমতা সরাসরি প্রতিনিধিত্ব কর্মক্ষমতার উপরের সীমা নির্ধারণ করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

MIEB-Lite: 51টি কাজ, 8টি বিভাগ জুড়ে ছবি-পাঠ্য এম্বেডিং মূল্যায়ন
অডিও-পাঠ্য: AudioCaps এবং Clotho ডেটাসেট
ভিডিও-পাঠ্য: MSR-VTT এবং ActivityNet ডেটাসেট
SeaDoc: নতুন নির্মিত নিম্ন-সম্পদ দক্ষিণ-পূর্ব এশিয়ান ভাষা ভিজ্যুয়াল ডকুমেন্ট পুনরুদ্ধার বেঞ্চমার্ক

মডেল কনফিগারেশন

মেরুদণ্ড মডেল: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
অপ্টিমাইজার: AdamW, কোসাইন শিক্ষার হার সময়সূচী
LoRA সেটিংস: rank=64, α=16(পাঠ্য)/128(বহুমোডাল)
ব্যাচ আকার: 768(ডেটাসেট অনুপাত অনুযায়ী সামঞ্জস্যযোগ্য)

মূল্যায়ন মেট্রিক্স

পুনরুদ্ধার কাজ: nDCG@5/10, Recall@1
শ্রেণীবিভাগ কাজ: নির্ভুলতা
সাদৃশ্য কাজ: Spearman সহসম্বন্ধ সহগ
ক্লাস্টারিং কাজ: স্বাভাবিকৃত পারস্পরিক তথ্য (NMI)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

MIEB-Lite বেঞ্চমার্ক পরীক্ষা

51টি কাজের MIEB-Lite বেঞ্চমার্কে, LCO-EMB উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করেছে:

মডেল	ডেটাসেট আকার	গড় কর্মক্ষমতা(47 কাজ)	গড় কর্মক্ষমতা(51 কাজ)
CLIP-ViT-bigG	2B	56.5	51.3
SigLIP-so400m	9B	57.3	53.5
Voyage Multimodal 3	-	57.7	58.1
mmE5 (11B)	2.1M	57.7	61.8
GME (7B)	8.0M	63.4	64.5
LCO-EMB-VL (7B)	370k	66.2	67.6
LCO-EMB-Omni (7B)	370k	67.6	68.8

মূল আবিষ্কার

ডেটা দক্ষতা: LCO-EMB মাত্র প্রায় 0.37M প্রশিক্ষণ জোড়া ব্যবহার করে (GME এর চেয়ে 21 গুণ কম) SOTA কর্মক্ষমতা অর্জন করেছে
ক্রস-মোডাল সাধারণীকরণ: পাঠ্য-নির্দিষ্ট রূপান্তর উন্নত বেসলাইনকে বহুমোডাল কাজে অতিক্রম করতে পারে
সামঞ্জস্যপূর্ণ উন্নতি: সমস্ত কাজ বিভাগে উৎকৃষ্ট কর্মক্ষমতা, বিশেষত বহুভাষিক সারিবদ্ধতা, সংমিশ্রণশীলতা এবং ডকুমেন্ট বোঝার কাজে

বিলোপ পরীক্ষা

প্রশিক্ষণ কৌশল তুলনা

প্রশিক্ষণ কৌশল	প্রশিক্ষণ সময়	বহুভাষিক ছবি পুনরুদ্ধার	ভিজ্যুয়াল STS	ডকুমেন্ট বোঝা	রৈখিক অনুসন্ধান	গড়
CLIP-শৈলী CL	~550 ঘন্টা	18.24	73.92	44.89	38.93	50.02
রৈখিক প্রজেকশন	~8.8 ঘন্টা	40.29	72.05	35.69	52.96	56.22
সম্পূর্ণ সূক্ষ্ম-সুর	~17.3 ঘন্টা	44.05	83.15	58.02	53.34	66.49
LoRA	~9.3 ঘন্টা	56.64	85.05	67.49	53.91	71.98

ডেটাসেট প্রভাব

all-NLI প্রশিক্ষণ: ভিজ্যুয়াল STS এবং ডকুমেন্ট বোঝার কাজে উৎকৃষ্ট কর্মক্ষমতা
Scale-1M প্রশিক্ষণ: রৈখিক অনুসন্ধান এবং বহুভাষিক ছবি পুনরুদ্ধারে নেতৃত্ব
মডেল সংমিশ্রণ: উভয় প্রশিক্ষণ ডেটার সুবিধা একত্রিত করে সর্বোত্তম সামগ্রিক কর্মক্ষমতা অর্জন করে

উৎপাদনশীল-প্রতিনিধিত্ব স্কেলিং আইন যাচাইকরণ

ক্রস-মোডাল যাচাইকরণ

OCR সম্পর্কিত, ভিডিও-পাঠ্য, অডিও-পাঠ্য তিনটি কাজ বিভাগে উৎপাদনশীল ক্ষমতা এবং প্রতিনিধিত্ব ক্ষমতার মধ্যে ইতিবাচক সম্পর্ক পর্যবেক্ষণ করা হয়েছে:

OCR কাজ: উৎপাদনশীল কর্মক্ষমতা 65-80, প্রতিনিধিত্ব কর্মক্ষমতা 66-74
ভিডিও-পাঠ্য: উৎপাদনশীল কর্মক্ষমতা 66-72, পুনরুদ্ধার কর্মক্ষমতা 38-46
অডিও-পাঠ্য: উৎপাদনশীল কর্মক্ষমতা 65-71, পুনরুদ্ধার কর্মক্ষমতা 23.6-24.3

SeaDoc যাচাইকরণ

নিম্ন-সম্পদ দক্ষিণ-পূর্ব এশিয়ান ভাষা ভিজ্যুয়াল ডকুমেন্ট পুনরুদ্ধার কাজে:

বেসলাইন মডেল: nDCG@10 = 24.2
অব্যাহত উৎপাদনশীল প্রশিক্ষণের পরে: nDCG@10 = 35.8 (+47.5% উন্নতি)

উপসংহার এবং আলোচনা

প্রধান উপসংহার

তাত্ত্বিক অবদান: MLLM-এ বিদ্যমান অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতা আবিষ্কার এবং যাচাই করা হয়েছে
পদ্ধতিগত উদ্ভাবন: দক্ষ ভাষা-কেন্দ্রিক সর্বমোডাল এম্বেডিং ফ্রেমওয়ার্ক প্রস্তাব করা হয়েছে
স্কেলিং আইন: উৎপাদনশীল ক্ষমতা এবং প্রতিনিধিত্ব ক্ষমতার মধ্যে তাত্ত্বিক সংযোগ স্থাপন করা হয়েছে
ব্যবহারিক প্রয়োগ: একাধিক বেঞ্চমার্কে SOTA অর্জন করে পদ্ধতির কার্যকারিতা প্রমাণ করা হয়েছে

সীমাবদ্ধতা

গণনামূলক খরচ: ঐতিহ্যবাহী পদ্ধতির চেয়ে বেশি দক্ষ হলেও, এখনও MLLM কে মেরুদণ্ড নেটওয়ার্ক হিসাবে প্রয়োজন
যৌথ প্রশিক্ষণ: গণনামূলক খরচের সীমাবদ্ধতার কারণে, উৎপাদনশীল ক্ষতি এবং বৈপরীত্যমূলক ক্ষতির যৌথ প্রশিক্ষণ অন্বেষণ করা হয়নি
তাত্ত্বিক অনুমান: GRSL এর তাত্ত্বিক বিশ্লেষণ নির্দিষ্ট অনুমানের উপর ভিত্তি করে, আরও ব্যাপক যাচাইকরণের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

যৌথ অপ্টিমাইজেশন: উৎপাদনশীল ক্ষতি এবং বৈপরীত্যমূলক ক্ষতির যৌথ প্রশিক্ষণ কৌশল অন্বেষণ করা
তাত্ত্বিক সম্প্রসারণ: GRSL এর তাত্ত্বিক কাঠামো আরও উন্নত করা
প্রয়োগ সম্প্রসারণ: পদ্ধতিটি আরও বেশি মোডাল এবং কাজের দৃশ্যে প্রসারিত করা

গভীর মূল্যায়ন

শক্তি

তাত্ত্বিক গভীরতা: MLLM এম্বেডিং পদ্ধতির উৎকর্ষতার গভীর বোঝাপড়া প্রদান করে
পদ্ধতিগত উদ্ভাবন: ভাষা-কেন্দ্রিক প্রশিক্ষণ প্যারাডাইম অত্যন্ত উদ্ভাবনী
ব্যাপক পরীক্ষা: একাধিক মোডাল, একাধিক বেঞ্চমার্ক জুড়ে ব্যাপক পরীক্ষামূলক যাচাইকরণ
তাত্ত্বিক সমর্থন: PAC-Bayesian কাঠামো GRSL এর জন্য কঠোর তাত্ত্বিক ভিত্তি প্রদান করে
ব্যবহারিক মূল্য: উল্লেখযোগ্য ডেটা দক্ষতা উন্নতি গুরুত্বপূর্ণ ব্যবহারিক তাৎপর্য রয়েছে

অপূর্ণতা

অনুমান নির্ভরতা: তাত্ত্বিক বিশ্লেষণ নির্দিষ্ট অনুমান শর্তের উপর নির্ভর করে
গণনামূলক সম্পদ: এখনও বৃহৎ-স্কেল MLLM কে ভিত্তি হিসাবে প্রয়োজন, গণনামূলক সম্পদের উচ্চ প্রয়োজনীয়তা
সাধারণীকরণ ক্ষমতা: কিছু ঐতিহ্যবাহী শক্তিশালী কাজে (যেমন ক্লাস্টারিং, রৈখিক অনুসন্ধান) উন্নতি সীমিত

প্রভাব

একাডেমিক অবদান: বহুমোডাল প্রতিনিধিত্ব শিক্ষার জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে
ব্যবহারিক মূল্য: প্রশিক্ষণ দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে, ডেটা প্রয়োজনীয়তা হ্রাস করে
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং সম্পদ প্রদান করে, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

প্রযোজ্য দৃশ্য

সম্পদ-সীমিত পরিবেশ: ডেটা বা গণনামূলক সম্পদ সীমিত দৃশ্যের জন্য উপযুক্ত
বহুভাষিক প্রয়োগ: বহুভাষিক বহুমোডাল কাজে উৎকৃষ্ট কর্মক্ষমতা
ডকুমেন্ট বোঝা: ভিজ্যুয়াল ডকুমেন্ট বোঝার কাজে উল্লেখযোগ্য সুবিধা

রেফারেন্স

এই পেপারটি 85টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা বহুমোডাল শিক্ষা, বৈপরীত্যমূলক শিক্ষা, বৃহৎ ভাষা মডেল এবং অন্যান্য গবেষণা ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে।

সারসংক্ষেপ: এই পেপারটি MLLM এর অন্তর্নিহিত ক্রস-মোডাল সারিবদ্ধতা ক্ষমতার গভীর বিশ্লেষণের মাধ্যমে, দক্ষ ভাষা-কেন্দ্রিক সর্বমোডাল এম্বেডিং ফ্রেমওয়ার্ক প্রস্তাব করে এবং গুরুত্বপূর্ণ তাত্ত্বিক তাৎপর্য সহ উৎপাদনশীল-প্রতিনিধিত্ব স্কেলিং আইন আবিষ্কার করে। এই কাজটি শুধুমাত্র একাধিক বেঞ্চমার্কে উৎকৃষ্ট কর্মক্ষমতা অর্জন করে না, বরং বহুমোডাল প্রতিনিধিত্ব শিক্ষার জন্য নতুন তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক প্যারাডাইম প্রদান করে।