Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- ID статьи: 2510.12603
- Название: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- Авторы: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- Классификация: cs.CV cs.AI cs.CL
- Дата публикации/конференция: arXiv 14 января 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.12603
Мультимодальное рассуждение направлено на повышение возможностей мультимодальных больших языковых моделей (MLLM) путём включения промежуточных этапов рассуждения перед выводом окончательного ответа. Эта область развивалась от чистого текстового рассуждения к интеграции визуальной информации, позволяя процессу мышления передаваться как через изображения, так и через текст. Несмотря на эффективность, современные методы мультимодального рассуждения полагаются на явные этапы рассуждения, требующие трудоёмкого аннотирования видео-текста, и по своей природе вводят значительную задержку при рассуждении. Для решения этих проблем в данной работе предлагается мультимодальное рассуждение в скрытом пространстве с преимуществами мультимодального представления, сокращённого аннотирования и эффективности рассуждения. С этой целью предложен метод чередующегося видео-текстового рассуждения в скрытом пространстве (IVT-LR), который вводит визуальную и текстовую информацию в процесс рассуждения в скрытом пространстве. В частности, IVT-LR представляет каждый этап рассуждения путём объединения двух неявных компонентов: скрытого текста (скрытые состояния из предыдущего этапа) и скрытого видения (набор выбранных встраиваний изображений). Также предлагается прогрессивная многоэтапная стратегия обучения, позволяющая MLLM выполнять описанные выше этапы мультимодального рассуждения в скрытом пространстве. Эксперименты на M3CoT и ScienceQA показывают, что метод IVT-LR обеспечивает среднее повышение точности на 5,45% при одновременном достижении ускорения более чем в 5 раз.
Современное мультимодальное рассуждение сталкивается с тремя основными проблемами:
- Высокая стоимость аннотирования: существующие методы требуют большого объёма ручного аннотирования чередующихся видео-текстовых данных рассуждения
- Большая задержка рассуждения: явное создание длинных этапов рассуждения приводит к медленной скорости рассуждения
- Ограниченная репрезентативная способность: явное текстовое рассуждение затрудняет полное выражение сложной мультимодальной информации
Мультимодальное рассуждение является ключевой технологией для повышения возможностей MLLM и имеет важное прикладное значение в задачах визуального вопросно-ответного взаимодействия (VQA), решения научных проблем и других. Повышение эффективности и точности рассуждения критически важно для практического развёртывания.
- Методы текстового рассуждения: ранние методы в основном проводили чистое текстовое рассуждение и не могли эффективно использовать визуальную информацию
- Чередующееся видео-текстовое рассуждение: хотя и объединяет визуальную информацию, требует явного создания промежуточных этапов, увеличивая вычислительные затраты
- Рассуждение в скрытом пространстве: существующие методы рассуждения в скрытом пространстве в основном ориентированы на одномодальные данные, не хватает мультимодального слияния
Вдохновлённые успехом рассуждения в скрытом пространстве в больших языковых моделях, авторы считают, что рассуждение в скрытом пространстве имеет большой потенциал в мультимодальных сценариях:
- Потенциал мультимодального представления: скрытое пространство может лучше представлять богатую мультимодальную информацию
- Снижение требований к аннотированию: снижение зависимости от явных чередующихся видео-текстовых данных
- Эффективность рассуждения: избежание создания длинных явных цепочек рассуждения
- Первая полностью мультимодальная структура рассуждения в скрытом пространстве: предложен IVT-LR, реализующий совместное рассуждение текстовой и визуальной информации в скрытом пространстве
- Новая парадигма обучения: предложена прогрессивная многоэтапная стратегия обучения, одновременно эффективная по данным и вычислениям
- Значительное повышение производительности: достигнут новый уровень SOTA как по точности, так и по эффективности рассуждения
- Глубокий анализ механизма: через анализ внимания раскрыт внутренний механизм рассуждения в скрытом пространстве
Учитывая текстовую последовательность X=(x1,...,xI) и набор визуальных встраиваний Z=(z1,...,zJ), стандартная VLM предсказывает условное распределение следующего токена:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
где etfused=f(e1:ttext,Z) — скрытое состояние после слияния текстовых и визуальных признаков.
Ядром IVT-LR является рассуждение в скрытом пространстве, где каждый этап рассуждения содержит две части:
- Скрытый текст: использование скрытого состояния предыдущего этапа ht−1hidden вместо явного текстового токена
- Скрытое видение: выбор k наиболее релевантных встраиваний изображений на основе оценок внимания
Конкретно, входные данные на этапе t:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
Использование механизма внимания для динамического выбора ключевых визуальных признаков:
- Вычисление суммы весов внимания всех слоёв
- Выбор k позиций встраивания изображений с наивысшими накопленными оценками
- Конкатенация выбранных признаков со скрытыми состояниями
Обучение разделено на N этапов:
- Этап 0: стандартное контролируемое обучение CoT, все этапы рассуждения создаются явно
- Этапы 1-N: постепенное замещение явных этапов рассуждением в скрытом пространстве, начиная с первого этапа
Потеря обучения вычисляется только для оставшихся явных этапов и окончательного ответа, избегая чрезмерного выравнивания скрытых представлений с явным рассуждением.
Через динамический выбор ключевых визуальных областей достигается:
- Избежание вычислительных затрат полной обработки изображения
- Сосредоточение на визуальной информации, релевантной для задачи
- Поддержка прогрессивного визуального понимания
- M3CoT: крупномасштабный мультимодальный эталон рассуждения цепочкой мыслей, охватывающий науку, здравый смысл, математику и другие области
- ScienceQA: разнообразный набор данных научного вопросно-ответного взаимодействия, включающий естественные науки, языковые науки и социальные науки
- Точность: точность ответа при точном совпадении
- Количество автрегрессивных шагов: количество токенов, необходимых для создания ответа
- Среднее время отклика: задержка рассуждения для каждого вопроса
- Текстовое рассуждение: CCoT
- Видео-текстовое рассуждение: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- Базовый уровень без рассуждения: No-CoT
- Базовая модель: Qwen2-VL-7B и Chameleon-7B
- Количество этапов обучения: N=4 (3 этапа рассуждения)
- Размер пакета: 4
- Скорость обучения: 4×10^-5
- Оборудование: 4 GPU NVIDIA A6000
| Базовая модель | Метод | Точность M3CoT (%) | Точность ScienceQA (%) | Автрегрессивные шаги | Среднее время (с) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- Повышение точности: по сравнению с самым сильным базовым методом Chain-of-Focus повышение на 5-7,5% на M3CoT
- Значительное повышение эффективности: автрегрессивные шаги сокращены минимум в 9 раз, время рассуждения ускорено в 3-8 раз
- Согласованность между моделями: значительное повышение производительности на различных базовых моделях
| Вариант | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| без скрытого текста | 52.20 (-19.63) | 84.7 (-9.8) |
| без скрытого видения | 46.64 (-25.19) | 82.3 (-11.8) |
| без всей скрытой части | 58.02 (-13.81) | 86.4 (-7.7) |
Ключевые выводы:
- Скрытое видение вносит наибольший вклад (-25.19%)
- Скрытый текст также играет важную роль (-19.63%)
- Два компонента работают лучше всего в синергии
По мере увеличения длины скрытого видения на каждом этапе точность неуклонно повышается, что указывает на то, что более длинные последовательности скрытого видения предоставляют более богатые визуальные подсказки.
| Скрытый этап | Наука | Здравый смысл | Математика | Итого |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
Области науки и математики получают наибольшую пользу, что указывает на то, что задачи структурированного рассуждения особенно хорошо подходят для рассуждения в скрытом пространстве.
- Динамическое соотношение внимания: в режиме рассуждения в скрытом пространстве внимание постепенно переходит от видения к тексту
- Повышенная сосредоточенность внимания: внимание на этапах рассуждения становится всё более сосредоточенным, подобно процессу решения задач человеком
- Текстовое рассуждение: преобразование визуальной информации в текстовые описания перед рассуждением
- Чередующееся видео-текстовое рассуждение: одновременное использование изображений и текста в процессе рассуждения
- Методы специальных токенов: использование токенов , и т.д. для направления рассуждения
- Методы непрерывных скрытых состояний: прямое использование скрытых состояний для рассуждения
- Мультимодальные расширения: расширение рассуждения в скрытом пространстве на визуальную область
- IVT-LR реализует первую полностью мультимодальную структуру рассуждения в скрытом пространстве
- Значительно превосходит существующие методы как по точности, так и по эффективности
- Рассуждение в скрытом пространстве предоставляет новую парадигму решения для мультимодальных задач
- Фиксированные накладные расходы токенов: каждый этап требует дополнительных токенов скрытого видения
- Сложность обучения: требует специальной многоэтапной стратегии обучения
- Фиксированное количество этапов: в настоящее время использует фиксированное количество этапов рассуждения
- Адаптивное количество этапов рассуждения: динамическое определение этапов рассуждения в зависимости от сложности задачи
- Более широкое применение: расширение на задачи планирования и принятия решений в последовательных мультимодальных сценариях
- Более эффективный выбор видения: разработка более тонких механизмов визуального внимания
- Высокая инновационность: первая реализация полностью мультимодального рассуждения в скрытом пространстве, новый технический подход
- Полные эксперименты: проверка на нескольких наборах данных и базовых моделях, всесторонние абляционные эксперименты
- Значительные результаты: значительное повышение как по точности, так и по эффективности
- Глубокий анализ: раскрытие внутреннего механизма через анализ внимания
- Ограничения применимости: в основном ориентирован на задачи VQA, применимость к другим мультимодальным задачам требует дальнейшей проверки
- Сложность вычислений: многоэтапное обучение увеличивает сложность обучения
- Интерпретируемость: процесс рассуждения в скрытом пространстве лишён явного объяснения, интерпретируемость ограничена
- Академическая ценность: предоставляет новое направление исследований для мультимодального рассуждения
- Практическая ценность: значительное повышение эффективности имеет важное значение для практического развёртывания
- Воспроизводимость: предоставляет подробные детали реализации и код
- Среды с ограниченными ресурсами: сценарии мобильных устройств или граничных вычислений, требующие эффективного рассуждения
- Приложения в реальном времени: интерактивные системы со строгими требованиями к скорости рассуждения
- Крупномасштабное развёртывание: онлайн-сервисы, требующие обработки большого количества запросов
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
Общая оценка: Предложенный в данной работе метод IVT-LR имеет важную инновационную ценность в области мультимодального рассуждения. Благодаря тщательному проектированию скрытого пространства и прогрессивной стратегии обучения, при сохранении высокой точности достигается значительное повышение эффективности рассуждения. Несмотря на некоторые ограничения, работа предоставляет ценные новые идеи для развития этой области.