2025-11-12T14:52:10.377948

Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space

Chen, Ma, Li et al.

Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.

academic

Рассуждение в темноте: чередующееся видео-текстовое рассуждение в скрытом пространстве

Основная информация

ID статьи: 2510.12603
Название: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
Авторы: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
Классификация: cs.CV cs.AI cs.CL
Дата публикации/конференция: arXiv 14 января 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12603

Аннотация

Мультимодальное рассуждение направлено на повышение возможностей мультимодальных больших языковых моделей (MLLM) путём включения промежуточных этапов рассуждения перед выводом окончательного ответа. Эта область развивалась от чистого текстового рассуждения к интеграции визуальной информации, позволяя процессу мышления передаваться как через изображения, так и через текст. Несмотря на эффективность, современные методы мультимодального рассуждения полагаются на явные этапы рассуждения, требующие трудоёмкого аннотирования видео-текста, и по своей природе вводят значительную задержку при рассуждении. Для решения этих проблем в данной работе предлагается мультимодальное рассуждение в скрытом пространстве с преимуществами мультимодального представления, сокращённого аннотирования и эффективности рассуждения. С этой целью предложен метод чередующегося видео-текстового рассуждения в скрытом пространстве (IVT-LR), который вводит визуальную и текстовую информацию в процесс рассуждения в скрытом пространстве. В частности, IVT-LR представляет каждый этап рассуждения путём объединения двух неявных компонентов: скрытого текста (скрытые состояния из предыдущего этапа) и скрытого видения (набор выбранных встраиваний изображений). Также предлагается прогрессивная многоэтапная стратегия обучения, позволяющая MLLM выполнять описанные выше этапы мультимодального рассуждения в скрытом пространстве. Эксперименты на M3CoT и ScienceQA показывают, что метод IVT-LR обеспечивает среднее повышение точности на 5,45% при одновременном достижении ускорения более чем в 5 раз.

Исследовательский контекст и мотивация

Определение проблемы

Современное мультимодальное рассуждение сталкивается с тремя основными проблемами:

Высокая стоимость аннотирования: существующие методы требуют большого объёма ручного аннотирования чередующихся видео-текстовых данных рассуждения
Большая задержка рассуждения: явное создание длинных этапов рассуждения приводит к медленной скорости рассуждения
Ограниченная репрезентативная способность: явное текстовое рассуждение затрудняет полное выражение сложной мультимодальной информации

Значимость исследования

Мультимодальное рассуждение является ключевой технологией для повышения возможностей MLLM и имеет важное прикладное значение в задачах визуального вопросно-ответного взаимодействия (VQA), решения научных проблем и других. Повышение эффективности и точности рассуждения критически важно для практического развёртывания.

Ограничения существующих методов

Методы текстового рассуждения: ранние методы в основном проводили чистое текстовое рассуждение и не могли эффективно использовать визуальную информацию
Чередующееся видео-текстовое рассуждение: хотя и объединяет визуальную информацию, требует явного создания промежуточных этапов, увеличивая вычислительные затраты
Рассуждение в скрытом пространстве: существующие методы рассуждения в скрытом пространстве в основном ориентированы на одномодальные данные, не хватает мультимодального слияния

Исследовательская мотивация

Вдохновлённые успехом рассуждения в скрытом пространстве в больших языковых моделях, авторы считают, что рассуждение в скрытом пространстве имеет большой потенциал в мультимодальных сценариях:

Потенциал мультимодального представления: скрытое пространство может лучше представлять богатую мультимодальную информацию
Снижение требований к аннотированию: снижение зависимости от явных чередующихся видео-текстовых данных
Эффективность рассуждения: избежание создания длинных явных цепочек рассуждения

Основные вклады

Первая полностью мультимодальная структура рассуждения в скрытом пространстве: предложен IVT-LR, реализующий совместное рассуждение текстовой и визуальной информации в скрытом пространстве
Новая парадигма обучения: предложена прогрессивная многоэтапная стратегия обучения, одновременно эффективная по данным и вычислениям
Значительное повышение производительности: достигнут новый уровень SOTA как по точности, так и по эффективности рассуждения
Глубокий анализ механизма: через анализ внимания раскрыт внутренний механизм рассуждения в скрытом пространстве

Подробное описание метода

Определение задачи

Учитывая текстовую последовательность $X = (x_1, ..., x_I)$ и набор визуальных встраиваний $Z = (z_1, ..., z_J)$ , стандартная VLM предсказывает условное распределение следующего токена:

$M(x_{t+1} | x_{1:t}, Z) = \text{softmax}(W \cdot e^{fused}_t)$

где $e^{fused}_t = f(e^{text}_{1:t}, Z)$ — скрытое состояние после слияния текстовых и визуальных признаков.

Архитектура модели

Мультимодальное рассуждение в скрытом пространстве

Ядром IVT-LR является рассуждение в скрытом пространстве, где каждый этап рассуждения содержит две части:

Скрытый текст: использование скрытого состояния предыдущего этапа $h^{hidden}_{t-1}$ вместо явного текстового токена
Скрытое видение: выбор k наиболее релевантных встраиваний изображений на основе оценок внимания

Конкретно, входные данные на этапе t: $E_t = [e_1, ..., e_N, h^{latent}_1, z^{selected}_1, ..., h^{latent}_{t-1}, z^{selected}_{t-1}]$

Механизм выбора визуальных признаков

Использование механизма внимания для динамического выбора ключевых визуальных признаков:

Вычисление суммы весов внимания всех слоёв
Выбор k позиций встраивания изображений с наивысшими накопленными оценками
Конкатенация выбранных признаков со скрытыми состояниями

Технические инновации

Прогрессивное многоэтапное обучение

Обучение разделено на N этапов:

Этап 0: стандартное контролируемое обучение CoT, все этапы рассуждения создаются явно
Этапы 1-N: постепенное замещение явных этапов рассуждением в скрытом пространстве, начиная с первого этапа

Потеря обучения вычисляется только для оставшихся явных этапов и окончательного ответа, избегая чрезмерного выравнивания скрытых представлений с явным рассуждением.

Выбор визуальных элементов, управляемый вниманием

Через динамический выбор ключевых визуальных областей достигается:

Избежание вычислительных затрат полной обработки изображения
Сосредоточение на визуальной информации, релевантной для задачи
Поддержка прогрессивного визуального понимания

Экспериментальная установка

Наборы данных

M3CoT: крупномасштабный мультимодальный эталон рассуждения цепочкой мыслей, охватывающий науку, здравый смысл, математику и другие области
ScienceQA: разнообразный набор данных научного вопросно-ответного взаимодействия, включающий естественные науки, языковые науки и социальные науки

Метрики оценки

Точность: точность ответа при точном совпадении
Количество автрегрессивных шагов: количество токенов, необходимых для создания ответа
Среднее время отклика: задержка рассуждения для каждого вопроса

Методы сравнения

Текстовое рассуждение: CCoT
Видео-текстовое рассуждение: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
Базовый уровень без рассуждения: No-CoT

Детали реализации

Базовая модель: Qwen2-VL-7B и Chameleon-7B
Количество этапов обучения: N=4 (3 этапа рассуждения)
Размер пакета: 4
Скорость обучения: 4×10^-5
Оборудование: 4 GPU NVIDIA A6000

Результаты экспериментов

Основные результаты

Базовая модель	Метод	Точность M3CoT (%)	Точность ScienceQA (%)	Автрегрессивные шаги	Среднее время (с)
Qwen2-VL	Chain-of-Focus	64.3	91.2	185.7	2.63
Qwen2-VL	IVT-LR	71.8	94.6	10.0	0.65
Chameleon	Chain-of-Focus	36.5	61.2	739.4	3.09
Chameleon	IVT-LR	41.8	64.0	10.0	1.13

Ключевые выводы

Повышение точности: по сравнению с самым сильным базовым методом Chain-of-Focus повышение на 5-7,5% на M3CoT
Значительное повышение эффективности: автрегрессивные шаги сокращены минимум в 9 раз, время рассуждения ускорено в 3-8 раз
Согласованность между моделями: значительное повышение производительности на различных базовых моделях

Абляционные эксперименты

Вариант	M3CoT	ScienceQA
IVT-LR	71.83	94.1
без скрытого текста	52.20 (-19.63)	84.7 (-9.8)
без скрытого видения	46.64 (-25.19)	82.3 (-11.8)
без всей скрытой части	58.02 (-13.81)	86.4 (-7.7)

Ключевые выводы:

Скрытое видение вносит наибольший вклад (-25.19%)
Скрытый текст также играет важную роль (-19.63%)
Два компонента работают лучше всего в синергии

Глубокий анализ

Влияние длины скрытого видения

По мере увеличения длины скрытого видения на каждом этапе точность неуклонно повышается, что указывает на то, что более длинные последовательности скрытого видения предоставляют более богатые визуальные подсказки.

Влияние количества этапов рассуждения

Скрытый этап	Наука	Здравый смысл	Математика	Итого
1	56.66%	64.40%	38.59%	56.30%
2	61.71%	70.11%	43.57%	61.48%
3	70.90%	79.78%	63.07%	71.83%

Области науки и математики получают наибольшую пользу, что указывает на то, что задачи структурированного рассуждения особенно хорошо подходят для рассуждения в скрытом пространстве.

Анализ механизма внимания

Динамическое соотношение внимания: в режиме рассуждения в скрытом пространстве внимание постепенно переходит от видения к тексту
Повышенная сосредоточенность внимания: внимание на этапах рассуждения становится всё более сосредоточенным, подобно процессу решения задач человеком

Связанные работы

Мультимодальное рассуждение

Текстовое рассуждение: преобразование визуальной информации в текстовые описания перед рассуждением
Чередующееся видео-текстовое рассуждение: одновременное использование изображений и текста в процессе рассуждения

Рассуждение в скрытом пространстве

Методы специальных токенов: использование токенов , и т.д. для направления рассуждения
Методы непрерывных скрытых состояний: прямое использование скрытых состояний для рассуждения
Мультимодальные расширения: расширение рассуждения в скрытом пространстве на визуальную область

Заключение и обсуждение

Основные выводы

IVT-LR реализует первую полностью мультимодальную структуру рассуждения в скрытом пространстве
Значительно превосходит существующие методы как по точности, так и по эффективности
Рассуждение в скрытом пространстве предоставляет новую парадигму решения для мультимодальных задач

Ограничения

Фиксированные накладные расходы токенов: каждый этап требует дополнительных токенов скрытого видения
Сложность обучения: требует специальной многоэтапной стратегии обучения
Фиксированное количество этапов: в настоящее время использует фиксированное количество этапов рассуждения

Направления будущих исследований

Адаптивное количество этапов рассуждения: динамическое определение этапов рассуждения в зависимости от сложности задачи
Более широкое применение: расширение на задачи планирования и принятия решений в последовательных мультимодальных сценариях
Более эффективный выбор видения: разработка более тонких механизмов визуального внимания

Глубокая оценка

Преимущества

Высокая инновационность: первая реализация полностью мультимодального рассуждения в скрытом пространстве, новый технический подход
Полные эксперименты: проверка на нескольких наборах данных и базовых моделях, всесторонние абляционные эксперименты
Значительные результаты: значительное повышение как по точности, так и по эффективности
Глубокий анализ: раскрытие внутреннего механизма через анализ внимания

Недостатки

Ограничения применимости: в основном ориентирован на задачи VQA, применимость к другим мультимодальным задачам требует дальнейшей проверки
Сложность вычислений: многоэтапное обучение увеличивает сложность обучения
Интерпретируемость: процесс рассуждения в скрытом пространстве лишён явного объяснения, интерпретируемость ограничена

Влияние

Академическая ценность: предоставляет новое направление исследований для мультимодального рассуждения
Практическая ценность: значительное повышение эффективности имеет важное значение для практического развёртывания
Воспроизводимость: предоставляет подробные детали реализации и код

Применимые сценарии

Среды с ограниченными ресурсами: сценарии мобильных устройств или граничных вычислений, требующие эффективного рассуждения
Приложения в реальном времени: интерактивные системы со строгими требованиями к скорости рассуждения
Крупномасштабное развёртывание: онлайн-сервисы, требующие обработки большого количества запросов

Библиография

Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
Hao et al. (2024): Training large language models to reason in a continuous latent space
Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought

Общая оценка: Предложенный в данной работе метод IVT-LR имеет важную инновационную ценность в области мультимодального рассуждения. Благодаря тщательному проектированию скрытого пространства и прогрессивной стратегии обучения, при сохранении высокой точности достигается значительное повышение эффективности рассуждения. Несмотря на некоторые ограничения, работа предоставляет ценные новые идеи для развития этой области.