2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

言語中心のオムニモーダル表現学習のスケーリング

基本情報

  • 論文ID: 2510.11693
  • タイトル: Scaling Language-Centric Omnimodal Representation Learning
  • 著者: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • 分類: cs.CL cs.AI cs.CV
  • 発表会議: NeurIPS 2025 (第39回ニューラル情報処理システム会議)
  • 論文リンク: https://arxiv.org/abs/2510.11693
  • コードリンク: https://github.com/LCO-Embedding/LCO-Embedding

要旨

本論文は、マルチモーダル大規模言語モデル(MLLM)に基づく埋め込み手法の優位性の根本的な原因を探究し、その主要な利点は生成的事前学習プロセスで実現される暗黙的なクロスモーダル対齢に由来することを発見しました。著者は言語中心のオムニモーダル埋め込みフレームワークLCO-EMBを提案し、生成-表現スケーリング則(GRSL)を発見しました。これは対比学習によって得られた表現能力がMLLMの生成能力と正の相関を示すことを示しています。本研究は複数のベンチマークで最先端の性能を達成し、理論的説明を提供しています。

研究背景と動機

問題背景

従来のクロスモーダル表現対齢は主に大規模対比学習(CLIPスタイルのモデルなど)に依存しています。しかし、これらの手法は複雑なタスク、特に多言語画像検索、視覚テキスト表現、インターリーブされたマルチモーダルエンコーディングなど、深いクロスモーダル理解が必要なタスクでは性能が停滞する傾向があります。

研究動機

  1. 性能ボトルネック: CLIPスタイルのモデルは、モデル規模、データセットサイズ、バッチサイズの拡大による性能向上が既に停滞している
  2. 理論の欠落: MLLMベースの埋め込み手法は優れた性能を示していますが、その優位性の根本的な原因はまだ深く探究されていない
  3. 効率の問題: 従来の対比学習は大量のクロスモーダルペアデータを必要とし、計算コストが高い

主要な洞察

著者は、MLLMが生成的事前学習プロセスで既に暗黙的なクロスモーダル対齢を実現していることを発見しました。言語デコーダは共有表現空間でマルチモーダル信号を利用して単一モーダル出力を生成することを学習しています。

主要な貢献

  1. 理論的発見: 異方性と核相似性構造分析を通じて、MLLM表現に潜在的なクロスモーダル対齢が存在することを実証的に確認
  2. 方法の革新: 対比学習を軽量な微調整段階として機能させる言語中心のオムニモーダル埋め込みフレームワークLCO-EMBを提案
  3. スケーリング則: 生成-表現スケーリング則(GRSL)を発見し、生成能力と表現能力の間の正の相関関係を確立
  4. 理論的支援: PAC-ベイズ汎化限界を通じてGRSLの理論的説明を提供
  5. 実験的検証: 複数のベンチマークでSOTA性能を達成し、低リソース視覚文書検索タスクで理論を検証

方法の詳細

潜在的クロスモーダル対齢の分析

異方性度分析

著者は異方性度を使用して埋め込み空間の退化程度を測定しています:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

実験では、テキスト対比学習のみを使用した後でも、非テキストモーダルの異方性が改善されることが発見され、MLLMに潜在的なクロスモーダル対齢が存在することが証明されました。

核k近傍相似性分析

相互k最近傍(mutual kNN)を採用して、異なるモーダル間の相似性構造の重複を定量化しています:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

ここで、S(ϕi)S(\phi_i)S(ψi)S(\psi_i)はそれぞれ特徴ϕi\phi_iψi\psi_iのk最近傍集合です。

LCO-EMBフレームワーク

アーキテクチャ設計

LCO-EMBは標準的なMLLMアーキテクチャに基づいています:

  • モーダル固有エンコーダ: 異なるモーダル入力を処理
  • プロジェクタ: モーダル固有表現をデコーダ埋め込み空間に対齢
  • 言語デコーダ: コアコンポーネントとしてのLLM

訓練戦略

  1. テキスト専用バリアント: LoRA微調整を言語デコーダのみに適用し、他のパラメータを凍結
  2. マルチモーダルバリアント: テキスト訓練に少量のマルチモーダルペアデータを追加
  3. パラメータ効率: LoRAを使用して事前学習モデルへの最小限の摂動を維持

データ設定

  • all-NLI: MNLIとSNLIの組み合わせ、約276k三つ組
  • Scale-1M: 20M多言語並列コーパスからサンプリングされた1M文ペア
  • マルチモーダルデータ: 約94k合成マルチモーダルサンプル

生成-表現スケーリング則(GRSL)

理論的フレームワーク

生成先行の品質を定義: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

ここで、Lg(P)L_g(P)は生成損失、H(Y)H(Y)は目標データのエントロピーです。

主要定理

定理1: 仮定1の下で、少なくとも1δ1-\deltaの確率で、期待される全体対比リスクは以下で制限されます:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

これは生成能力が表現性能の上限を直接決定することを示しています。

実験設定

データセット

  • MIEB-Lite: 51タスク、8カテゴリーにわたる画像-テキスト埋め込み評価
  • 音声-テキスト: AudioCapsおよびClothoデータセット
  • ビデオ-テキスト: MSR-VTTおよびActivityNetデータセット
  • SeaDoc: 新たに構築された低リソース東南アジア言語視覚文書検索ベンチマーク

モデル設定

  • バックボーンモデル: LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni
  • オプティマイザ: AdamW、コサイン学習率スケジューリング
  • LoRA設定: rank=64、α=16(テキスト)/128(マルチモーダル)
  • バッチサイズ: 768(データセット比率に応じて調整可能)

評価指標

  • 検索タスク: nDCG@5/10、Recall@1
  • 分類タスク: 精度
  • 相似性タスク: スピアマン相関係数
  • クラスタリングタスク: 正規化相互情報(NMI)

実験結果

主要な結果

MIEB-Liteベンチマーク

51タスクのMIEB-Liteベンチマークで、LCO-EMBは顕著な性能向上を達成しました:

モデルデータセットサイズ平均性能(47タスク)平均性能(51タスク)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

主要な発見

  1. データ効率: LCO-EMBはGMEより21倍少ない約0.37M訓練ペアを使用してSOTA性能を達成
  2. クロスモーダル汎化: テキスト専用バリアントだけで、高度なベースラインをマルチモーダルタスクで上回る
  3. 一貫した改善: すべてのタスクカテゴリーで優れた性能を示し、特に多言語対齢、合成性、文書理解タスクで顕著

アブレーション実験

訓練戦略の比較

訓練戦略訓練時間多言語画像検索視覚STS文書理解線形探査平均
CLIPスタイルCL~550時間18.2473.9244.8938.9350.02
線形投影~8.8時間40.2972.0535.6952.9656.22
全量微調整~17.3時間44.0583.1558.0253.3466.49
LoRA~9.3時間56.6485.0567.4953.9171.98

データセットの影響

  • all-NLI訓練: 視覚STSと文書理解で優れた性能
  • Scale-1M訓練: 線形探査と多言語画像検索で先導
  • モデル融合: 両方の訓練データの利点を組み合わせ、最適な全体性能を達成

生成-表現スケーリング則の検証

クロスモーダル検証

OCR関連、ビデオ-テキスト、音声-テキストの3つのタスククラスで、生成能力と表現能力の正の相関関係が観察されました:

  • OCRタスク: 生成性能65-80、表現性能66-74
  • ビデオ-テキスト: 生成性能66-72、検索性能38-46
  • 音声-テキスト: 生成性能65-71、検索性能23.6-24.3

SeaDoc検証

低リソース東南アジア言語視覚文書検索タスクで:

  • ベースラインモデル: nDCG@10 = 24.2
  • 継続的生成訓練後: nDCG@10 = 35.8 (+47.5%改善)

関連研究

オムニモーダル表現学習

既存の手法は主に大規模クロスモーダルペアデータを使用してモーダル固有エンコーダを訓練しており、ImageBindなどが例です。本論文はMLLMの潜在的対齢を利用する新しいパラダイムを探究しています。

モーダル中心表現学習

  • 視覚中心: DINOv2などはデータスケールの拡大を通じてCLIPと同等のOCR性能を実現
  • 言語中心: E5-Vなどは純粋なテキスト学習を利用して画像と合成検索タスクに汎化

表現能力研究

MIEBベンチマークはCLIPの性能向上が既に停滞していることを示し、MLLMベースの埋め込みモデルが有望な代替案となっています。

結論と議論

主要な結論

  1. 理論的貢献: MLLMに存在する暗黙的なクロスモーダル対齢を発見・検証
  2. 方法の革新: 効率的な言語中心オムニモーダル埋め込みフレームワークを提案
  3. スケーリング則: 生成能力と表現能力の間の理論的関連性を確立
  4. 実用的応用: 複数のベンチマークでSOTAを達成し、方法の有効性を証明

制限事項

  1. 計算コスト: 従来の手法より効率的ですが、依然としてMLLMをバックボーンとして必要とする
  2. 共同訓練: 計算コストの制限により、生成損失と対比損失の共同訓練は探究されていない
  3. 理論的仮定: GRSLの理論分析は特定の仮定に基づいており、より広範な検証が必要

今後の方向性

  1. 共同最適化: 生成損失と対比損失の共同訓練戦略を探究
  2. 理論的拡張: GRSLの理論的フレームワークをさらに改善
  3. 応用拡張: より多くのモーダルとタスクシナリオへの方法の拡張

深い評価

利点

  1. 理論的深さ: MLLM埋め込み手法の優位性に対する深い理解を提供
  2. 方法の革新: 言語中心の訓練パラダイムは強い革新性を持つ
  3. 実験の包括性: 複数のモーダル、複数のベンチマークにわたる広範な実験検証
  4. 理論的支援: PAC-ベイズフレームワークはGRSLに厳密な理論的基礎を提供
  5. 実用的価値: 顕著なデータ効率の向上は重要な実用的意義を持つ

不足点

  1. 仮定への依存: 理論分析は特定の仮定条件に依存
  2. 計算リソース: 依然として大規模MLLMを基礎として必要とし、計算リソースの要求が高い
  3. 汎化能力: クラスタリング、線形探査などの従来の強みタスクでの改善は限定的

影響力

  1. 学術的貢献: マルチモーダル表現学習に新しい理論的視点を提供
  2. 実用的価値: 訓練効率を大幅に向上させ、データ要件を削減
  3. 再現性: 完全なコードとリソースを提供し、再現と拡張を容易にする

適用シナリオ

  1. リソース制約環境: データまたは計算リソースが限定されたシナリオに適切
  2. 多言語応用: 多言語マルチモーダルタスクで優れた性能
  3. 文書理解: 視覚文書理解タスクで顕著な利点

参考文献

本論文は85の関連文献を引用しており、マルチモーダル学習、対比学習、大規模言語モデルなど複数の研究分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。


要約: 本論文はMLLMの潜在的なクロスモーダル対齢能力を深く分析することで、効率的な言語中心オムニモーダル埋め込みフレームワークを提案し、重要な理論的意義を持つ生成-表現スケーリング則を発見しました。本研究は複数のベンチマークで優れた性能を達成するだけでなく、マルチモーダル表現学習に新しい理論的洞察と実践的パラダイムを提供しています。