Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
academic
Масштабирование языко-центричного омнимодального обучения представлениям
В данной работе исследуются фундаментальные причины превосходства методов встраивания, основанных на многомодальных больших языковых моделях (MLLM). Авторы обнаруживают, что ключевое преимущество заключается в неявном кросс-модальном выравнивании, достигаемом в процессе генеративного предварительного обучения. Предложена структура языко-центричного омнимодального встраивания LCO-EMB и открыт закон масштабирования генеративно-представительный (GRSL), демонстрирующий положительную корреляцию между способностью представления, полученной посредством контрастного обучения, и генеративной способностью MLLM. Работа достигает передовых результатов на множестве тестовых наборов и предоставляет теоретическое объяснение.
Традиционное кросс-модальное выравнивание представлений в основном опирается на крупномасштабное контрастное обучение, такое как модели в стиле CLIP. Однако эти методы демонстрируют плато производительности на сложных задачах, особенно на задачах, требующих глубокого кросс-модального понимания, таких как многоязычный поиск изображений, представление визуального текста и кодирование чередующихся мультимодальных данных.
Узкое место производительности: Прирост производительности моделей в стиле CLIP за счет увеличения размера модели, объема набора данных и размера пакета достигает плато
Отсутствие теории: Хотя методы встраивания на основе MLLM демонстрируют отличные результаты, фундаментальные причины их превосходства еще не изучены глубоко
Проблемы эффективности: Традиционное контрастное обучение требует большого количества кросс-модальных парных данных с высокими вычислительными затратами
Авторы обнаруживают, что MLLM уже достигает неявного кросс-модального выравнивания в процессе генеративного предварительного обучения, где языковой декодер учится использовать мультимодальные сигналы в общем пространстве представлений для генерации одномодального вывода.
Теоретические открытия: Эмпирическое подтверждение существования потенциального кросс-модального выравнивания в представлениях MLLM посредством анализа анизотропии и структуры ядерного сходства
Методологические инновации: Предложена структура языко-центричного омнимодального встраивания LCO-EMB, где контрастное обучение служит легким этапом уточнения
Закон масштабирования: Открыт закон масштабирования генеративно-представительный (GRSL), устанавливающий положительную корреляцию между генеративной и представительной способностями
Теоретическая поддержка: Предоставлено теоретическое объяснение GRSL через границы обобщения PAC-Bayesian
Экспериментальная верификация: Достигнуты передовые результаты на множестве тестовых наборов с верификацией теории на задачах поиска визуальных документов с ограниченными ресурсами
Эксперименты показывают, что после применения только текстового контрастного обучения анизотропия немодальных модальностей также улучшается, что доказывает существование потенциального кросс-модального выравнивания в MLLM.
Эффективность данных: LCO-EMB достигает передовых результатов, используя только ~0.37M пар обучения (в 21 раз меньше, чем GME)
Кросс-модальное обобщение: Текстовый вариант превосходит продвинутые базовые модели на мультимодальных задачах
Последовательное улучшение: Демонстрирует отличные результаты во всех категориях задач, особенно на многоязычном выравнивании, композиционности и понимании документов
Существующие методы в основном опираются на обучение модально-специфичных кодировщиков на крупномасштабных кросс-модальных парных данных, таких как ImageBind. В данной работе исследуется новая парадигма использования потенциального выравнивания MLLM.
Тестовый набор MIEB показывает, что прирост производительности CLIP достигает плато, что делает встраивание на основе MLLM многообещающей альтернативой.
В работе цитируется 85 соответствующих источников, охватывающих важные работы в нескольких областях исследований, включая мультимодальное обучение, контрастное обучение и большие языковые модели, обеспечивая прочную теоретическую основу для исследования.
Резюме: Посредством глубокого анализа потенциальной способности кросс-модального выравнивания MLLM, в работе предложена эффективная структура языко-центричного омнимодального встраивания и открыт закон масштабирования генеративно-представительный с важным теоретическим значением. Данная работа не только достигает отличных результатов на множестве тестовых наборов, но, что более важно, предоставляет новые теоретические выводы и практическую парадигму для обучения мультимодальному представлению.