2025-11-23T22:10:17.101458

Scaling Language-Centric Omnimodal Representation Learning

Xiao, Chan, Zhang et al.
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic

Масштабирование языко-центричного омнимодального обучения представлениям

Основная информация

  • ID статьи: 2510.11693
  • Название: Scaling Language-Centric Omnimodal Representation Learning
  • Авторы: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong (DAMO Academy, Alibaba Group)
  • Классификация: cs.CL cs.AI cs.CV
  • Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
  • Ссылка на статью: https://arxiv.org/abs/2510.11693
  • Ссылка на код: https://github.com/LCO-Embedding/LCO-Embedding

Аннотация

В данной работе исследуются фундаментальные причины превосходства методов встраивания, основанных на многомодальных больших языковых моделях (MLLM). Авторы обнаруживают, что ключевое преимущество заключается в неявном кросс-модальном выравнивании, достигаемом в процессе генеративного предварительного обучения. Предложена структура языко-центричного омнимодального встраивания LCO-EMB и открыт закон масштабирования генеративно-представительный (GRSL), демонстрирующий положительную корреляцию между способностью представления, полученной посредством контрастного обучения, и генеративной способностью MLLM. Работа достигает передовых результатов на множестве тестовых наборов и предоставляет теоретическое объяснение.

Исследовательский контекст и мотивация

Проблемный фон

Традиционное кросс-модальное выравнивание представлений в основном опирается на крупномасштабное контрастное обучение, такое как модели в стиле CLIP. Однако эти методы демонстрируют плато производительности на сложных задачах, особенно на задачах, требующих глубокого кросс-модального понимания, таких как многоязычный поиск изображений, представление визуального текста и кодирование чередующихся мультимодальных данных.

Исследовательская мотивация

  1. Узкое место производительности: Прирост производительности моделей в стиле CLIP за счет увеличения размера модели, объема набора данных и размера пакета достигает плато
  2. Отсутствие теории: Хотя методы встраивания на основе MLLM демонстрируют отличные результаты, фундаментальные причины их превосходства еще не изучены глубоко
  3. Проблемы эффективности: Традиционное контрастное обучение требует большого количества кросс-модальных парных данных с высокими вычислительными затратами

Ключевые выводы

Авторы обнаруживают, что MLLM уже достигает неявного кросс-модального выравнивания в процессе генеративного предварительного обучения, где языковой декодер учится использовать мультимодальные сигналы в общем пространстве представлений для генерации одномодального вывода.

Основные вклады

  1. Теоретические открытия: Эмпирическое подтверждение существования потенциального кросс-модального выравнивания в представлениях MLLM посредством анализа анизотропии и структуры ядерного сходства
  2. Методологические инновации: Предложена структура языко-центричного омнимодального встраивания LCO-EMB, где контрастное обучение служит легким этапом уточнения
  3. Закон масштабирования: Открыт закон масштабирования генеративно-представительный (GRSL), устанавливающий положительную корреляцию между генеративной и представительной способностями
  4. Теоретическая поддержка: Предоставлено теоретическое объяснение GRSL через границы обобщения PAC-Bayesian
  5. Экспериментальная верификация: Достигнуты передовые результаты на множестве тестовых наборов с верификацией теории на задачах поиска визуальных документов с ограниченными ресурсами

Описание методологии

Анализ потенциального кросс-модального выравнивания

Анализ анизотропии

Авторы используют анизотропию для измерения степени вырождения пространства встраивания:

Anisotropy:=Ehi,hjD[cos(θij)]=Ehi,hjD[hiThjhihj]\text{Anisotropy} := E_{h_i,h_j \sim D}[\cos(\theta_{ij})] = E_{h_i,h_j \sim D}\left[\frac{h_i^T h_j}{\|h_i\| \|h_j\|}\right]

Эксперименты показывают, что после применения только текстового контрастного обучения анизотропия немодальных модальностей также улучшается, что доказывает существование потенциального кросс-модального выравнивания в MLLM.

Анализ сходства на уровне ядра

Используется взаимное k-ближайшее соседство (mutual kNN) для количественной оценки перекрытия структур сходства между различными модальностями:

mNN(ϕi,ψi)=1kS(ϕi)S(ψi)m_{NN}(\phi_i, \psi_i) = \frac{1}{k}|S(\phi_i) \cap S(\psi_i)|

где S(ϕi)S(\phi_i) и S(ψi)S(\psi_i) — наборы k-ближайших соседей признаков ϕi\phi_i и ψi\psi_i соответственно.

Структура LCO-EMB

Архитектурный дизайн

LCO-EMB основана на стандартной архитектуре MLLM:

  • Модально-специфичные кодировщики: Обработка входных данных различных модальностей
  • Проекторы: Выравнивание модально-специфичных представлений в пространство встраивания декодера
  • Языковой декодер: LLM как основной компонент

Стратегия обучения

  1. Текстовый вариант: Только микронастройка языкового декодера с использованием LoRA, остальные параметры заморожены
  2. Мультимодальный вариант: Добавление небольшого количества мультимодальных парных данных к текстовому обучению
  3. Параметрическая эффективность: Использование LoRA для минимального возмущения предварительно обученной модели

Конфигурация данных

  • all-NLI: Комбинация MNLI и SNLI, примерно 276k троек
  • Scale-1M: 1M пар предложений, выбранных из 20M многоязычных параллельных корпусов
  • Мультимодальные данные: Примерно 94k синтетических мультимодальных образцов

Закон масштабирования генеративно-представительный (GRSL)

Теоретическая структура

Определение качества генеративного приоритета: IP(X;Y):=Iθ0(X;Y)H(Y)Lg(P)I_P(X;Y) := I_{\theta_0}(X;Y) \approx H(Y) - L_g(P)

где Lg(P)L_g(P) — генеративная потеря, H(Y)H(Y) — энтропия целевых данных.

Основная теорема

Теорема 1: При условиях Предположения 1, с вероятностью не менее 1δ1-\delta, ожидаемый риск контрастного обучения на генеральной совокупности ограничен:

EθQ[Lpopc(θ)]logNIP(X;Y)+ϵP+KL(QP)+log(1/δ)2nE_{\theta \sim Q}[L_{pop}^c(\theta)] \leq \log N - I_P(X;Y) + \epsilon_P + \sqrt{\frac{KL(Q\|P) + \log(1/\delta)}{2n}}

Это показывает, что генеративная способность напрямую определяет верхнюю границу производительности представления.

Экспериментальная установка

Наборы данных

  • MIEB-Lite: 51 задача, охватывающая 8 категорий оценки встраивания изображение-текст
  • Аудио-текст: Наборы данных AudioCaps и Clotho
  • Видео-текст: Наборы данных MSR-VTT и ActivityNet
  • SeaDoc: Вновь построенный тестовый набор поиска визуальных документов на языках Юго-Восточной Азии с ограниченными ресурсами

Конфигурация модели

  • Базовые модели: LLaVA-Next, Qwen2.5-VL, Qwen2.5-Omni
  • Оптимизатор: AdamW с косинусным расписанием скорости обучения
  • Параметры LoRA: rank=64, α=16 (текст)/128 (мультимодальный)
  • Размер пакета: 768 (может быть отрегулирован в зависимости от пропорции набора данных)

Метрики оценки

  • Задачи поиска: nDCG@5/10, Recall@1
  • Задачи классификации: Точность
  • Задачи сходства: Коэффициент корреляции Спирмена
  • Задачи кластеризации: Нормализованная взаимная информация (NMI)

Результаты экспериментов

Основные результаты

Тестовый набор MIEB-Lite

На тестовом наборе MIEB-Lite с 51 задачей LCO-EMB достигает значительного повышения производительности:

МодельРазмер набора данныхСредняя производительность (47 задач)Средняя производительность (51 задача)
CLIP-ViT-bigG2B56.551.3
SigLIP-so400m9B57.353.5
Voyage Multimodal 3-57.758.1
mmE5 (11B)2.1M57.761.8
GME (7B)8.0M63.464.5
LCO-EMB-VL (7B)370k66.267.6
LCO-EMB-Omni (7B)370k67.668.8

Ключевые выводы

  1. Эффективность данных: LCO-EMB достигает передовых результатов, используя только ~0.37M пар обучения (в 21 раз меньше, чем GME)
  2. Кросс-модальное обобщение: Текстовый вариант превосходит продвинутые базовые модели на мультимодальных задачах
  3. Последовательное улучшение: Демонстрирует отличные результаты во всех категориях задач, особенно на многоязычном выравнивании, композиционности и понимании документов

Абляционные исследования

Сравнение стратегий обучения

Стратегия обученияВремя обученияМногоязычный поиск изображенийВизуальное STSПонимание документовЛинейное зондированиеСреднее
CLIP-стиль CL~550 часов18.2473.9244.8938.9350.02
Линейная проекция~8.8 часов40.2972.0535.6952.9656.22
Полная микронастройка~17.3 часов44.0583.1558.0253.3466.49
LoRA~9.3 часов56.6485.0567.4953.9171.98

Влияние набора данных

  • Обучение на all-NLI: Выдающиеся результаты на визуальном STS и понимании документов
  • Обучение на Scale-1M: Лидирующие результаты на линейном зондировании и многоязычном поиске изображений
  • Слияние моделей: Объединение преимуществ обоих наборов данных обучения для оптимальной общей производительности

Верификация закона масштабирования генеративно-представительный

Кросс-модальная верификация

Положительная корреляция между генеративной и представительной способностями наблюдается на трех категориях задач:

  • Задачи OCR: Генеративная производительность 65-80, представительная производительность 66-74
  • Видео-текст: Генеративная производительность 66-72, производительность поиска 38-46
  • Аудио-текст: Генеративная производительность 65-71, производительность поиска 23.6-24.3

Верификация SeaDoc

На задачах поиска визуальных документов на языках Юго-Восточной Азии с ограниченными ресурсами:

  • Базовая модель: nDCG@10 = 24.2
  • После непрерывного генеративного обучения: nDCG@10 = 35.8 (+47.5% улучшение)

Связанные работы

Обучение омнимодальному представлению

Существующие методы в основном опираются на обучение модально-специфичных кодировщиков на крупномасштабных кросс-модальных парных данных, таких как ImageBind. В данной работе исследуется новая парадигма использования потенциального выравнивания MLLM.

Обучение представлению, центрированное на модальности

  • Визуально-центричное: DINOv2 и другие достигают производительности OCR, сопоставимой с CLIP, за счет расширения масштаба данных
  • Языко-центричное: E5-V и другие используют обучение на чистом тексте для обобщения на задачи с изображениями и композиционным поиском

Исследование способности представления

Тестовый набор MIEB показывает, что прирост производительности CLIP достигает плато, что делает встраивание на основе MLLM многообещающей альтернативой.

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: Обнаружение и верификация неявного кросс-модального выравнивания в MLLM
  2. Методологические инновации: Предложена эффективная структура языко-центричного омнимодального встраивания
  3. Закон масштабирования: Установлена теоретическая связь между генеративной и представительной способностями
  4. Практическое применение: Достижение передовых результатов на множестве тестовых наборов, доказывающее эффективность метода

Ограничения

  1. Вычислительные затраты: Хотя более эффективно, чем традиционные методы, все еще требует MLLM в качестве базовой сети
  2. Совместное обучение: Из-за ограничений вычислительных ресурсов не исследовалось совместное обучение с генеративной и контрастной потерями
  3. Теоретические предположения: Теоретический анализ GRSL основан на конкретных предположениях, требующих более широкой верификации

Будущие направления

  1. Совместная оптимизация: Исследование стратегий совместного обучения с генеративной и контрастной потерями
  2. Расширение теории: Дальнейшее совершенствование теоретической структуры GRSL
  3. Расширение приложений: Распространение метода на дополнительные модальности и сценарии задач

Глубокая оценка

Преимущества

  1. Теоретическая глубина: Предоставляет глубокое понимание превосходства методов встраивания на основе MLLM
  2. Методологические инновации: Языко-центричная парадигма обучения обладает сильной инновационностью
  3. Комплексные эксперименты: Широкая экспериментальная верификация охватывает множество модальностей и тестовых наборов
  4. Теоретическая поддержка: Структура PAC-Bayesian предоставляет строгую теоретическую основу для GRSL
  5. Практическая ценность: Значительное улучшение эффективности данных имеет важное практическое значение

Недостатки

  1. Зависимость от предположений: Теоретический анализ зависит от конкретных условий предположений
  2. Требования к ресурсам: По-прежнему требует крупномасштабную MLLM в качестве основы с высокими требованиями к вычислительным ресурсам
  3. Ограниченное улучшение: Улучшение на некоторых традиционно сильных задачах (таких как кластеризация, линейное зондирование) ограничено

Влияние

  1. Академический вклад: Предоставляет новую теоретическую перспективу для обучения мультимодальному представлению
  2. Практическая ценность: Значительно повышает эффективность обучения и снижает требования к данным
  3. Воспроизводимость: Предоставляет полный код и ресурсы для облегчения воспроизведения и расширения

Применимые сценарии

  1. Среды с ограниченными ресурсами: Подходит для сценариев с ограниченными данными или вычислительными ресурсами
  2. Многоязычные приложения: Демонстрирует выдающиеся результаты на многоязычных мультимодальных задачах
  3. Понимание документов: Обладает значительным преимуществом на задачах понимания визуальных документов

Библиография

В работе цитируется 85 соответствующих источников, охватывающих важные работы в нескольких областях исследований, включая мультимодальное обучение, контрастное обучение и большие языковые модели, обеспечивая прочную теоретическую основу для исследования.


Резюме: Посредством глубокого анализа потенциальной способности кросс-модального выравнивания MLLM, в работе предложена эффективная структура языко-центричного омнимодального встраивания и открыт закон масштабирования генеративно-представительный с важным теоретическим значением. Данная работа не только достигает отличных результатов на множестве тестовых наборов, но, что более важно, предоставляет новые теоретические выводы и практическую парадигму для обучения мультимодальному представлению.