2025-11-12T14:52:10.377948

Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space

Chen, Ma, Li et al.

Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.

academic

अंधकार में तर्क: अव्यक्त स्थान में अंतरलीकृत दृष्टि-पाठ तर्क

मूल जानकारी

पेपर ID: 2510.12603
शीर्षक: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
लेखक: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
वर्गीकरण: cs.CV cs.AI cs.CL
प्रकाशन समय/सम्मेलन: arXiv 14 जनवरी 2025
पेपर लिंक: https://arxiv.org/abs/2510.12603

सारांश

बहुविध तर्क का उद्देश्य अंतिम उत्तर पर पहुंचने से पहले मध्यवर्ती तर्क चरणों को शामिल करके बहुविध बड़े भाषा मॉडल (MLLMs) की क्षमता को बढ़ाना है। यह क्षेत्र शुद्ध पाठ तर्क से दृष्टि जानकारी के एकीकरण तक विकसित हुआ है, जिससे विचार प्रक्रिया को छवियों और पाठ के माध्यम से संप्रेषित किया जा सकता है। प्रभावी होने के बावजूद, वर्तमान बहुविध तर्क विधियां स्पष्ट तर्क चरणों पर निर्भर करती हैं, जिन्हें श्रम-गहन दृष्टि-पाठ एनोटेशन की आवश्यकता होती है, और स्वाभाविक रूप से महत्वपूर्ण तर्क विलंब का परिचय देती हैं। इन समस्याओं को हल करने के लिए, यह पेपर बहुविध अव्यक्त तर्क प्रस्तुत करता है, जिसमें बहुविध प्रतिनिधित्व, कम एनोटेशन और तर्क दक्षता के लाभ हैं। इसके लिए, अंतरलीकृत दृष्टि-पाठ अव्यक्त तर्क (IVT-LR) विधि प्रस्तावित की गई है, जो अव्यक्त स्थान में तर्क प्रक्रिया के दौरान दृष्टि और पाठ जानकारी को इंजेक्ट करती है। विशेष रूप से, IVT-LR दो अंतर्निहित भागों को संयोजित करके प्रत्येक तर्क चरण का प्रतिनिधित्व करता है: अव्यक्त पाठ (पिछले चरण से छिपी हुई स्थिति) और अव्यक्त दृष्टि (चयनित छवि एम्बेडिंग का एक सेट)। एक प्रगतिशील बहु-चरण प्रशिक्षण रणनीति भी प्रस्तुत की गई है, जो MLLMs को उपरोक्त बहुविध अव्यक्त तर्क चरणों को निष्पादित करने में सक्षम बनाती है। M3CoT और ScienceQA पर प्रयोग दर्शाते हैं कि IVT-LR विधि सटीकता में औसतन 5.45% सुधार करती है, साथ ही 5 गुना से अधिक की गति में सुधार प्राप्त करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान बहुविध तर्क तीन मुख्य समस्याओं का सामना करता है:

उच्च एनोटेशन लागत: मौजूदा विधियों को बड़ी मात्रा में मानव-एनोटेट किए गए दृष्टि-पाठ अंतरलीकृत तर्क डेटा की आवश्यकता होती है
बड़ा तर्क विलंब: स्पष्ट रूप से लंबे तर्क चरणों को उत्पन्न करने से तर्क की गति धीमी हो जाती है
सीमित प्रतिनिधित्व क्षमता: स्पष्ट पाठ तर्क जटिल बहुविध जानकारी को पूरी तरह से व्यक्त करने में कठिनाई करता है

अनुसंधान का महत्व

बहुविध तर्क MLLMs की क्षमता को बढ़ाने के लिए एक महत्वपूर्ण तकनीक है, जिसका दृश्य प्रश्न उत्तर (VQA), वैज्ञानिक प्रश्न समाधान आदि कार्यों में महत्वपूर्ण अनुप्रयोग मूल्य है। तर्क दक्षता और सटीकता में सुधार व्यावहारिक तैनाती के लिए महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

पाठ तर्क विधियां: प्रारंभिक विधियां मुख्य रूप से शुद्ध पाठ तर्क करती हैं, दृष्टि जानकारी का प्रभावी ढंग से उपयोग नहीं कर सकती हैं
दृष्टि-पाठ अंतरलीकृत तर्क: हालांकि दृष्टि जानकारी को जोड़ता है, लेकिन मध्यवर्ती चरणों को स्पष्ट रूप से उत्पन्न करने की आवश्यकता है, जिससे कम्प्यूटेशनल ओवरहेड बढ़ता है
अव्यक्त तर्क: मौजूदा अव्यक्त तर्क मुख्य रूप से एकल-विध पर केंद्रित है, बहुविध संलयन की कमी है

अनुसंधान प्रेरणा

बड़े भाषा मॉडल में अव्यक्त तर्क की सफलता से प्रेरित होकर, लेखकों का मानना है कि अव्यक्त तर्क बहुविध परिदृश्यों में अधिक संभावनाएं रखता है:

बहुविध प्रतिनिधित्व संभावनाएं: अव्यक्त स्थान समृद्ध बहुविध जानकारी का बेहतर प्रतिनिधित्व कर सकता है
एनोटेशन आवश्यकता में कमी: स्पष्ट दृष्टि-पाठ अंतरलीकृत डेटा पर निर्भरता को कम करना
तर्क दक्षता: लंबी स्पष्ट तर्क श्रृंखला उत्पन्न करने से बचना

मुख्य योगदान

पहली पूर्ण बहुविध अव्यक्त तर्क रूपरेखा: IVT-LR प्रस्तावित करता है, अव्यक्त स्थान में पाठ और दृष्टि जानकारी का संयुक्त तर्क प्राप्त करता है
नई प्रशिक्षण प्रतिमान: प्रगतिशील बहु-चरण प्रशिक्षण रणनीति प्रस्तावित करता है, जो डेटा-कुशल और कम्प्यूटेशनल रूप से कुशल दोनों है
महत्वपूर्ण प्रदर्शन सुधार: सटीकता और तर्क दक्षता दोनों में नए SOTA स्तर तक पहुंचता है
गहन तंत्र विश्लेषण: ध्यान विश्लेषण के माध्यम से अव्यक्त तर्क के आंतरिक तंत्र को प्रकट करता है

विधि विवरण

कार्य परिभाषा

पाठ अनुक्रम $X = (x_1, ..., x_I)$ और दृष्टि एम्बेडिंग सेट $Z = (z_1, ..., z_J)$ दिए गए, मानक VLM अगले टोकन की सशर्त वितरण की भविष्यवाणी करता है:

$M(x_{t+1} | x_{1:t}, Z) = \text{softmax}(W \cdot e^{fused}_t)$

जहां $e^{fused}_t = f(e^{text}_{1:t}, Z)$ पाठ और दृष्टि विशेषताओं को संलयित करने के बाद की छिपी हुई स्थिति है।

मॉडल आर्किटेक्चर

बहुविध अव्यक्त तर्क

IVT-LR का मुख्य भाग अव्यक्त स्थान में तर्क है, प्रत्येक तर्क चरण में दो भाग होते हैं:

अव्यक्त पाठ: पिछले चरण की छिपी हुई स्थिति $h^{hidden}_{t-1}$ का उपयोग स्पष्ट पाठ टोकन के स्थान पर करना
अव्यक्त दृष्टि: ध्यान स्कोर के आधार पर k सबसे प्रासंगिक छवि एम्बेडिंग का चयन करना

विशेष रूप से, चरण t पर इनपुट है: $E_t = [e_1, ..., e_N, h^{latent}_1, z^{selected}_1, ..., h^{latent}_{t-1}, z^{selected}_{t-1}]$

दृष्टि विशेषता चयन तंत्र

गतिशील रूप से मुख्य दृष्टि विशेषताओं का चयन करने के लिए ध्यान तंत्र का उपयोग करना:

सभी परतों के ध्यान भार का योग की गणना करना
संचयी स्कोर सबसे अधिक होने वाली k छवि एम्बेडिंग स्थितियों का चयन करना
चयनित विशेषताओं को छिपी हुई स्थिति के साथ जोड़ना

तकनीकी नवाचार बिंदु

प्रगतिशील बहु-चरण प्रशिक्षण

प्रशिक्षण N चरणों में विभाजित है:

चरण 0: मानक CoT पर्यवेक्षण, सभी तर्क चरण स्पष्ट रूप से उत्पन्न होते हैं
चरण 1-N: क्रमशः स्पष्ट चरणों को अव्यक्त तर्क से प्रतिस्थापित करना, पहले चरण से शुरू करना

प्रशिक्षण हानि केवल शेष स्पष्ट चरणों और अंतिम उत्तर के लिए गणना की जाती है, अव्यक्त प्रतिनिधित्व को स्पष्ट तर्क के साथ अत्यधिक संरेखित करने से बचना।

ध्यान-संचालित दृष्टि चयन

गतिशील रूप से मुख्य दृष्टि क्षेत्रों का चयन करके, निम्नलिखित को प्राप्त करना:

पूर्ण छवि प्रसंस्करण के कम्प्यूटेशनल ओवरहेड से बचना
कार्य-संबंधित दृष्टि जानकारी पर ध्यान केंद्रित करना
प्रगतिशील दृष्टि समझ का समर्थन करना

प्रयोग सेटअप

डेटासेट

M3CoT: बड़े पैमाने पर बहुविध विचार श्रृंखला तर्क बेंचमार्क, विज्ञान, सामान्य ज्ञान, गणित आदि क्षेत्रों को शामिल करता है
ScienceQA: विविध वैज्ञानिक प्रश्न उत्तर डेटासेट, प्राकृतिक विज्ञान, भाषा विज्ञान और सामाजिक विज्ञान को शामिल करता है

मूल्यांकन मेट्रिक्स

सटीकता: सटीक मिलान उत्तर सटीकता
ऑटोरेग्रेसिव चरण: उत्तर उत्पन्न करने के लिए आवश्यक टोकन की संख्या
औसत प्रतिक्रिया समय: प्रत्येक प्रश्न का तर्क विलंब

तुलना विधियां

पाठ तर्क: CCoT
दृष्टि-पाठ तर्क: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
बिना तर्क आधार रेखा: No-CoT

कार्यान्वयन विवरण

बैकबोन मॉडल: Qwen2-VL-7B और Chameleon-7B
प्रशिक्षण चरणों की संख्या: N=4 (3 तर्क चरण)
बैच आकार: 4
सीखने की दर: 4×10^-5
हार्डवेयर: 4 NVIDIA A6000 GPU

प्रयोग परिणाम

मुख्य परिणाम

बैकबोन मॉडल	विधि	M3CoT सटीकता(%)	ScienceQA सटीकता(%)	ऑटोरेग्रेसिव चरण	औसत समय(s)
Qwen2-VL	Chain-of-Focus	64.3	91.2	185.7	2.63
Qwen2-VL	IVT-LR	71.8	94.6	10.0	0.65
Chameleon	Chain-of-Focus	36.5	61.2	739.4	3.09
Chameleon	IVT-LR	41.8	64.0	10.0	1.13

मुख्य निष्कर्ष

सटीकता सुधार: सबसे मजबूत आधार रेखा Chain-of-Focus की तुलना में, M3CoT पर 5-7.5% सुधार
दक्षता में बड़ी वृद्धि: ऑटोरेग्रेसिव चरण कम से कम 9 गुना कम, तर्क समय 3-8 गुना सुधार
क्रॉस-मॉडल सामंजस्य: विभिन्न बैकबोन मॉडल पर महत्वपूर्ण सुधार प्राप्त करता है

विलोपन प्रयोग

वेरिएंट	M3CoT	ScienceQA
IVT-LR	71.83	94.1
w/o अव्यक्त पाठ	52.20 (-19.63)	84.7 (-9.8)
w/o अव्यक्त दृष्टि	46.64 (-25.19)	82.3 (-11.8)
w/o पूरा अव्यक्त भाग	58.02 (-13.81)	86.4 (-7.7)

मुख्य निष्कर्ष:

अव्यक्त दृष्टि का योगदान सबसे बड़ा है (-25.19%)
अव्यक्त पाठ भी महत्वपूर्ण भूमिका निभाता है (-19.63%)
दोनों घटक सहयोग से सर्वोत्तम परिणाम देते हैं

गहन विश्लेषण

अव्यक्त दृष्टि लंबाई प्रभाव

प्रत्येक चरण की अव्यक्त दृष्टि लंबाई बढ़ने के साथ, सटीकता में क्रमिक सुधार होता है, जो दर्शाता है कि लंबी अव्यक्त दृष्टि श्रृंखला अधिक समृद्ध दृष्टि सुराग प्रदान करती है।

तर्क चरण संख्या प्रभाव

अव्यक्त चरण	विज्ञान	सामान्य ज्ञान	गणित	कुल
1	56.66%	64.40%	38.59%	56.30%
2	61.71%	70.11%	43.57%	61.48%
3	70.90%	79.78%	63.07%	71.83%

विज्ञान और गणित क्षेत्र सबसे अधिक लाभान्वित होते हैं, जो दर्शाता है कि संरचित तर्क कार्य विशेष रूप से अव्यक्त स्थान तर्क के लिए उपयुक्त हैं।

ध्यान तंत्र विश्लेषण

गतिशील ध्यान अनुपात: अव्यक्त तर्क मोड में, ध्यान क्रमशः दृष्टि से पाठ की ओर स्थानांतरित होता है
ध्यान फोकस सुधार: तर्क चरणों में ध्यान तेजी से केंद्रित होता है, मानव समस्या-समाधान प्रक्रिया के समान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

IVT-LR पहली पूर्ण बहुविध अव्यक्त तर्क रूपरेखा को लागू करता है
मौजूदा विधियों की तुलना में सटीकता और दक्षता दोनों में महत्वपूर्ण सुधार
अव्यक्त स्थान तर्क बहुविध कार्यों के लिए एक नई समाधान प्रतिमान प्रदान करता है

सीमाएं

निश्चित टोकन ओवरहेड: प्रत्येक चरण को अतिरिक्त अव्यक्त दृष्टि टोकन की आवश्यकता होती है
प्रशिक्षण जटिलता: विशेष बहु-चरण प्रशिक्षण रणनीति की आवश्यकता होती है
निश्चित चरण संख्या: वर्तमान में निश्चित तर्क चरणों की संख्या का उपयोग करता है

भविष्य की दिशाएं

अनुकूलनीय तर्क चरण: प्रश्न की जटिलता के आधार पर गतिशील रूप से तर्क चरणों को निर्धारित करना
व्यापक अनुप्रयोग: योजना और निर्णय जैसे अनुक्रमिक बहुविध कार्यों तक विस्तार करना
अधिक कुशल दृष्टि चयन: अधिक परिष्कृत दृष्टि ध्यान तंत्र विकसित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार पूर्ण बहुविध अव्यक्त तर्क को लागू करता है, तकनीकी मार्ग नई है
व्यापक प्रयोग: कई डेटासेट और बैकबोन मॉडल पर सत्यापन, विलोपन प्रयोग व्यापक हैं
महत्वपूर्ण प्रभाव: सटीकता और दक्षता दोनों में बड़ी वृद्धि प्राप्त करता है
गहन विश्लेषण: ध्यान विश्लेषण के माध्यम से आंतरिक तंत्र को प्रकट करता है

कमियां

अनुप्रयोग सीमाएं: मुख्य रूप से VQA कार्यों के लिए, अन्य बहुविध कार्यों की प्रयोज्यता सत्यापन की प्रतीक्षा में है
कम्प्यूटेशनल जटिलता: बहु-चरण प्रशिक्षण प्रशिक्षण जटिलता बढ़ाता है
व्याख्यात्मकता: अव्यक्त तर्क प्रक्रिया में स्पष्ट व्याख्या की कमी, व्याख्यात्मकता कम है

प्रभाव

शैक्षणिक मूल्य: बहुविध तर्क के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: महत्वपूर्ण दक्षता सुधार व्यावहारिक तैनाती के लिए महत्वपूर्ण है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और कोड प्रदान करता है

लागू परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल या एज कंप्यूटिंग परिदृश्यों में उच्च-दक्षता तर्क की आवश्यकता
वास्तविक समय अनुप्रयोग: इंटरैक्टिव सिस्टम जहां तर्क गति के लिए कठोर आवश्यकताएं हैं
बड़े पैमाने पर तैनाती: बड़ी संख्या में अनुरोधों को संभालने वाली ऑनलाइन सेवाएं

संदर्भ

Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
Hao et al. (2024): Training large language models to reason in a continuous latent space
Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought

समग्र मूल्यांकन: इस पेपर द्वारा प्रस्तावित IVT-LR विधि बहुविध तर्क क्षेत्र में महत्वपूर्ण नवाचार मूल्य रखती है, अव्यक्त स्थान डिजाइन और प्रगतिशील प्रशिक्षण रणनीति के माध्यम से, उच्च सटीकता बनाए रखते हुए तर्क दक्षता में काफी सुधार करता है। कुछ सीमाओं के बावजूद, यह क्षेत्र के विकास के लिए मूल्यवान नई सोच प्रदान करता है।