Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- 論文ID: 2510.12603
- タイトル: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- 著者: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- 分類: cs.CV cs.AI cs.CL
- 発表日時/会議: arXiv 2025年1月14日
- 論文リンク: https://arxiv.org/abs/2510.12603
マルチモーダル推論は、最終的な答えを導き出す前に中間推論ステップを組み込むことにより、マルチモーダル大規模言語モデル(MLLM)の能力を強化することを目的としています。本分野は純粋なテキスト推論から視覚情報の統合へと発展し、思考プロセスが画像とテキストの両方を通じて伝達されることが可能になりました。効果的ではありますが、現在のマルチモーダル推論手法は明示的な推論ステップに依存しており、労働集約的なビジョン-テキスト注釈が必要であり、本質的に著しい推論遅延をもたらします。これらの問題に対処するため、本論文はマルチモーダル表現、注釈削減、推論効率の利点を備えたマルチモーダル潜在推論を導入します。このため、潜在空間内の推論プロセス中にビジョンとテキスト情報を注入する交互型ビジョン-テキスト潜在推論(IVT-LR)手法を提案します。具体的には、IVT-LRは2つの暗黙的な部分を組み合わせることにより各推論ステップを表現します:潜在テキスト(前のステップからの隠れ状態)と潜在ビジョン(選択された画像埋め込みのセット)。また、MLLMが上記のマルチモーダル潜在推論ステップを実行できるようにする段階的マルチステージ訓練戦略も導入します。M3CoTおよびScienceQAでの実験により、IVT-LR手法は精度で平均5.45%の向上を達成しながら、5倍以上の速度向上を実現することが示されました。
現在のマルチモーダル推論は3つの核心的な問題に直面しています:
- 注釈コストが高い:既存の手法は大量の人工注釈されたビジョン-テキスト交互推論データを必要とします
- 推論遅延が大きい:冗長な推論ステップの明示的な生成により推論速度が低下します
- 表現能力が限定的:明示的なテキスト推論は複雑なマルチモーダル情報を十分に表現することが困難です
マルチモーダル推論はMLLMの能力を向上させるための重要な技術であり、視覚質問応答(VQA)や科学問題解答などのタスクにおいて重要な応用価値を持ちます。推論効率と精度の向上は実際の展開にとって重要です。
- テキスト推論手法:初期の手法は主に純粋なテキスト推論を行い、視覚情報を効果的に活用できません
- ビジョン-テキスト交互推論:視覚情報を組み込んでいますが、中間ステップの明示的な生成が必要であり、計算オーバーヘッドが増加します
- 潜在推論:既存の潜在推論は主に単一モーダルに焦点を当てており、マルチモーダル融合が不足しています
大規模言語モデルの潜在推論の成功に触発されて、著者らは潜在推論がマルチモーダルシナリオでより大きな可能性を持つと考えています:
- マルチモーダル表現の可能性:潜在空間は豊かなマルチモーダル情報をより良く表現できます
- 注釈要件の削減:明示的なビジョン-テキスト交互データへの依存を低減します
- 推論効率:冗長な明示的推論チェーンの生成を回避します
- 初の完全マルチモーダル潜在推論フレームワーク:IVT-LRを提案し、潜在空間でのテキストと視覚情報の共同推論を実現
- 新規の訓練パラダイム:段階的マルチステージ訓練戦略を提案し、データ効率と計算効率の両立を実現
- 顕著な性能向上:精度と推論効率の両面で新しいSOTA水準を達成
- 深い機構分析:注意メカニズム分析を通じて潜在推論の内在的メカニズムを明らかにします
テキストシーケンス X=(x1,...,xI) と視覚埋め込みセット Z=(z1,...,zJ) が与えられた場合、標準VLMは次のトークンの条件付き分布を予測します:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
ここで etfused=f(e1:ttext,Z) はテキストと視覚特徴を融合した後の隠れ状態です。
IVT-LRの核心は潜在空間での推論であり、各推論ステップは2つの部分を含みます:
- 潜在テキスト:前のステップの隠れ状態 ht−1hidden を明示的なテキストトークンの代わりに使用
- 潜在ビジョン:注意スコアに基づいてk個の最も関連性の高い画像埋め込みを選択
具体的には、ステップtでの入力は以下の通りです:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
注意メカニズムを使用して動的に主要な視覚特徴を選択します:
- すべてのレイヤーの注意重みの合計を計算
- 累積スコアが最も高いk個の画像埋め込み位置を選択
- 選択された特徴を隠れ状態と連結
訓練はN個のステージに分かれています:
- ステージ0:標準CoT監督、すべての推論ステップが明示的に生成
- ステージ1-N:段階的に明示的なステップを潜在推論に置き換え、最初のステップから開始
訓練損失は残りの明示的なステップと最終的な答えのみで計算され、潜在表現と明示的推論の過度な整列を回避します。
動的に主要な視覚領域を選択することにより、以下を実現します:
- 全画像処理の計算オーバーヘッドを回避
- タスク関連の視覚情報に焦点を当てる
- 段階的な視覚理解をサポート
- M3CoT:科学、常識、数学など複数の領域をカバーする大規模マルチモーダル思維チェーン推論ベンチマーク
- ScienceQA:自然科学、言語科学、社会科学を含む多様な科学質問応答データセット
- 精度:完全一致の回答精度
- 自己回帰ステップ数:回答生成に必要なトークン数
- 平均応答時間:各質問の推論遅延
- テキスト推論:CCoT
- ビジョン-テキスト推論:Chain-of-Focus、SCAFFOLD、ICoT、Multimodal-CoT
- 推論なしベースライン:No-CoT
- バックボーンモデル:Qwen2-VL-7BおよびChameleon-7B
- 訓練ステージ数:N=4(3つの推論ステップ)
- バッチサイズ:4
- 学習率:4×10^-5
- ハードウェア:4個のNVIDIA A6000 GPU
| バックボーンモデル | 手法 | M3CoT精度(%) | ScienceQA精度(%) | 自己回帰ステップ数 | 平均時間(s) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- 精度向上:最強のベースラインであるChain-of-Focusと比較して、M3CoTで5~7.5%向上
- 効率の大幅な向上:自己回帰ステップ数が少なくとも9倍削減され、推論時間が3~8倍向上
- モデル間の一貫性:異なるバックボーンモデル間で顕著な向上を達成
| 変種 | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| 潜在テキストなし | 52.20 (-19.63) | 84.7 (-9.8) |
| 潜在ビジョンなし | 46.64 (-25.19) | 82.3 (-11.8) |
| 潜在部分全体なし | 58.02 (-13.81) | 86.4 (-7.7) |
主要な発見:
- 潜在ビジョンの貢献が最大(-25.19%)
- 潜在テキストも重要な役割を果たす(-19.63%)
- 2つのコンポーネントが協調して最良の効果を発揮
各ステップの潜在ビジョン長が増加するにつれて、精度は着実に向上し、より長い潜在ビジョンシーケンスがより豊かな視覚的手がかりを提供することを示しています。
| 潜在ステージ | 科学 | 常識 | 数学 | 全体 |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
科学および数学領域が最も恩恵を受けており、構造化推論タスクが潜在空間推論に特に適していることを示しています。
- 動的注意比率:潜在推論モードでは、注意が視覚から段階的にテキストへシフト
- 注意焦点の向上:推論ステップにおいて注意がますます集中し、人間の問題解決プロセスに類似
- テキスト推論:視覚情報をテキスト説明に変換した後に推論を実施
- ビジョン-テキスト交互推論:推論プロセス中に画像とテキストを同時に使用
- 特殊トークン手法:、などのトークンを使用して推論をガイド
- 連続隠れ状態手法:隠れ状態を直接使用して推論を実施
- マルチモーダル拡張:潜在推論を視覚領域に拡張
- IVT-LRは初の完全マルチモーダル潜在推論フレームワークを実現
- 精度と効率の両面で既存手法を大幅に上回る
- 潜在空間推論はマルチモーダルタスクに対する新しい解決パラダイムを提供
- 固定トークンオーバーヘッド:各ステップで追加の潜在ビジョントークンが必要
- 訓練の複雑性:専門的なマルチステージ訓練戦略が必要
- ステージ数の固定:現在、固定の推論ステップ数を使用
- 適応的推論ステップ数:問題の複雑さに応じて推論ステップを動的に決定
- より広い応用:計画と意思決定などのシーケンシャルマルチモーダルタスクへの拡張
- より効率的な視覚選択:より洗練された視覚注意メカニズムの開発
- 革新性が高い:初めて完全マルチモーダル潜在推論を実現し、技術ルートが新規
- 実験が充分:複数のデータセットとバックボーンモデルで検証され、アブレーション実験が包括的
- 効果が顕著:精度と効率の両面で大幅な向上を達成
- 分析が深い:注意メカニズム分析を通じて内在的メカニズムを明らかに
- 適用性の制限:主にVQAタスクに焦点を当てており、他のマルチモーダルタスクへの適用性は検証が必要
- 計算複雑性:マルチステージ訓練が訓練複雑性を増加させる
- 解釈可能性:潜在推論プロセスは明示的な説明を欠き、解釈可能性が低い
- 学術的価値:マルチモーダル推論に新しい研究方向を提供
- 実用的価値:顕著な効率向上は実際の展開に重要な意義を持つ
- 再現性:詳細な実装詳細とコードを提供
- リソース制約環境:モバイルエッジコンピューティングなど高速推論が必要なシナリオ
- リアルタイムアプリケーション:推論速度に厳密な要件がある対話型システム
- 大規模展開:大量のリクエストを処理する必要があるオンラインサービス
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
総合評価:本論文で提案されたIVT-LR手法はマルチモーダル推論分野において重要な革新的価値を持ち、巧妙な潜在空間設計と段階的訓練戦略を通じて、高い精度を維持しながら推論効率を大幅に向上させています。いくつかの限界がありますが、本分野の発展に価値のある新しい思考を提供しています。