Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- معرّف الورقة: 2510.12603
- العنوان: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- المؤلفون: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- التصنيف: cs.CV cs.AI cs.CL
- تاريخ النشر/المؤتمر: arXiv 14 يناير 2025
- رابط الورقة: https://arxiv.org/abs/2510.12603
يهدف التفكير متعدد الأنماط إلى تعزيز قدرات نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) من خلال دمج خطوات تفكير وسيطة قبل التوصل إلى الإجابة النهائية. تطور هذا المجال من التفكير النصي البحت إلى دمج المعلومات البصرية، مما يسمح بنقل عملية التفكير من خلال الصور والنصوص معاً. على الرغم من فعاليتها، تعتمد طرق التفكير متعدد الأنماط الحالية على خطوات تفكير صريحة، مما يتطلب تعليقات بصرية-نصية كثيفة العمالة، وتدخل بشكل متأصل تأخيراً كبيراً في الاستدلال. لمعالجة هذه المشاكل، تقدم هذه الورقة التفكير الكامن متعدد الأنماط، بمزايا التمثيل متعدد الأنماط والتعليقات المخفضة وكفاءة الاستدلال. لهذا الغرض، تم اقتراح طريقة التفكير الكامن البصري-النصي المتشابك (IVT-LR)، التي تحقن معلومات بصرية ونصية أثناء عملية التفكير داخل الفضاء الكامن. بشكل محدد، يمثل IVT-LR كل خطوة تفكير من خلال الجمع بين جزأين ضمنيين: النص الكامن (الحالات المخفية من الخطوة السابقة) والرؤية الكامنة (مجموعة من تضمينات الصور المختارة). كما تم إدخال استراتيجية تدريب متعددة المراحل تدريجية، تمكن MLLMs من تنفيذ خطوات التفكير الكامن متعدد الأنماط المذكورة أعلاه. تُظهر التجارب على M3CoT و ScienceQA أن طريقة IVT-LR تحقق متوسط تحسن بنسبة 5.45% في الدقة، مع تحقيق تحسن في السرعة يزيد عن 5 مرات.
يواجه التفكير متعدد الأنماط الحالي ثلاث مشاكل أساسية:
- تكلفة التعليق العالية: تتطلب الطرق الموجودة كمية كبيرة من بيانات التفكير البصري-النصي المتشابك المعلقة يدويًا
- تأخير الاستدلال الكبير: ينتج عن الإنشاء الصريح لخطوات تفكير طويلة سرعة استدلال بطيئة
- قدرة التمثيل المحدودة: يصعب على التفكير النصي الصريح التعبير الكامل عن المعلومات المعقدة متعددة الأنماط
يعتبر التفكير متعدد الأنماط تقنية أساسية لتحسين قدرات MLLMs، مع قيمة تطبيقية مهمة في مهام مثل الإجابة على الأسئلة البصرية (VQA) وحل المشاكل العلمية. يعتبر تحسين كفاءة الاستدلال والدقة حاسماً للنشر العملي.
- طرق التفكير النصي: ركزت الطرق المبكرة بشكل أساسي على التفكير النصي البحت، وعجزت عن الاستفادة الفعالة من المعلومات البصرية
- التفكير البصري-النصي المتشابك: على الرغم من دمج المعلومات البصرية، فإنها تتطلب إنشاء خطوات وسيطة صريحة، مما يزيد من النفقات الحسابية
- التفكير الكامن: يركز التفكير الكامن الموجود بشكل أساسي على الأنماط الفردية، وينقصه الدمج متعدد الأنماط
مستوحاة من نجاح التفكير الكامن في نماذج اللغة الكبيرة، يعتقد المؤلفون أن التفكير الكامن يتمتع بإمكانية أكبر في السيناريوهات متعددة الأنماط:
- إمكانية التمثيل متعدد الأنماط: يمكن للفضاء الكامن تمثيل المعلومات الغنية متعددة الأنماط بشكل أفضل
- تقليل متطلبات التعليق: تقليل الاعتماد على بيانات التفكير البصري-النصي المتشابك الصريحة
- كفاءة الاستدلال: تجنب إنشاء سلاسل تفكير طويلة وصريحة
- أول إطار عمل كامل للتفكير الكامن متعدد الأنماط: اقتراح IVT-LR، الذي يحقق التفكير المشترك للمعلومات النصية والبصرية في الفضاء الكامن
- نموذج تدريب جديد: اقتراح استراتيجية تدريب متعددة المراحل تدريجية، فعالة من حيث البيانات والحسابات
- تحسن كبير في الأداء: تحقيق مستوى جديد من الحالة الفنية (SOTA) في الدقة وكفاءة الاستدلال
- تحليل آلي عميق: الكشف عن الآليات الداخلية للتفكير الكامن من خلال تحليل الانتباه
بالنظر إلى تسلسل نصي X=(x1,...,xI) ومجموعة تضمينات بصرية Z=(z1,...,zJ)، يتنبأ نموذج اللغة والرؤية (VLM) القياسي بالتوزيع الشرطي للرمز التالي:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
حيث etfused=f(e1:ttext,Z) هي الحالة المخفية بعد دمج الميزات النصية والبصرية.
يتمثل جوهر IVT-LR في إجراء التفكير في الفضاء الكامن، حيث يتضمن كل خطوة تفكير جزأين:
- النص الكامن: استخدام الحالة المخفية من الخطوة السابقة ht−1hidden بدلاً من رمز النص الصريح
- الرؤية الكامنة: اختيار k من تضمينات الصور الأكثر صلة بناءً على درجات الانتباه
بشكل محدد، الإدخال في الخطوة t هو:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
استخدام آلية الانتباه لاختيار الميزات البصرية الرئيسية ديناميكياً:
- حساب مجموع أوزان الانتباه عبر جميع الطبقات
- اختيار مواضع تضمينات الصور ذات أعلى الدرجات المتراكمة
- ربط الميزات المختارة مع الحالات المخفية
ينقسم التدريب إلى N مرحلة:
- المرحلة 0: إشراف CoT القياسي، يتم إنشاء جميع خطوات التفكير بشكل صريح
- المراحل 1-N: استبدال تدريجي للخطوات الصريحة بالتفكير الكامن، بدءاً من الخطوة الأولى
يتم حساب خسارة التدريب فقط للخطوات الصريحة المتبقية والإجابة النهائية، مما يتجنب الإفراط في محاذاة التمثيلات الكامنة مع التفكير الصريح.
من خلال اختيار المناطق البصرية الرئيسية ديناميكياً، يحقق:
- تجنب النفقات الحسابية لمعالجة الصورة الكاملة
- التركيز على المعلومات البصرية ذات الصلة بالمهمة
- دعم الفهم البصري التدريجي
- M3CoT: معيار استدلال سلسلة التفكير متعدد الأنماط واسع النطاق، يغطي العلوم والمعرفة العامة والرياضيات وغيرها
- ScienceQA: مجموعة بيانات الإجابة على الأسئلة العلمية المتنوعة، تتضمن العلوم الطبيعية وعلوم اللغة والعلوم الاجتماعية
- الدقة: دقة الإجابة المطابقة الدقيقة
- عدد خطوات الاستدلال الذاتي: عدد الرموز المطلوبة لإنشاء الإجابة
- متوسط وقت الاستجابة: تأخير الاستدلال لكل سؤال
- التفكير النصي: CCoT
- التفكير البصري-النصي: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- خط أساس بدون استدلال: No-CoT
- نموذج العمود الفقري: Qwen2-VL-7B و Chameleon-7B
- عدد مراحل التدريب: N=4 (3 خطوات استدلال)
- حجم الدفعة: 4
- معدل التعلم: 4×10^-5
- الأجهزة: 4 وحدات معالجة رسومات NVIDIA A6000
| نموذج العمود الفقري | الطريقة | دقة M3CoT (%) | دقة ScienceQA (%) | خطوات الاستدلال الذاتي | متوسط الوقت (ثانية) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- تحسن الدقة: مقارنة بأقوى خط أساس Chain-of-Focus، تحسن بنسبة 5-7.5% على M3CoT
- تحسن الكفاءة بشكل كبير: انخفاض خطوات الاستدلال الذاتي بما لا يقل عن 9 مرات، تحسن وقت الاستدلال بمعدل 3-8 مرات
- الاتساق عبر النماذج: تحقيق تحسن كبير على نماذج عمود فقري مختلفة
| المتغير | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| بدون نص كامن | 52.20 (-19.63) | 84.7 (-9.8) |
| بدون رؤية كامنة | 46.64 (-25.19) | 82.3 (-11.8) |
| بدون جزء كامن كامل | 58.02 (-13.81) | 86.4 (-7.7) |
الاكتشافات الرئيسية:
- تساهم الرؤية الكامنة بأكبر قدر (-25.19%)
- يلعب النص الكامن أيضاً دوراً مهماً (-19.63%)
- يعمل المكونان معاً بشكل متآزر بشكل أفضل
مع زيادة طول الرؤية الكامنة لكل خطوة، تتحسن الدقة بشكل مطرد، مما يشير إلى أن تسلسلات الرؤية الكامنة الأطول توفر إشارات بصرية أكثر ثراءً.
| مرحلة كامنة | العلوم | المعرفة العامة | الرياضيات | الإجمالي |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
تستفيد مجالات العلوم والرياضيات بشكل أكبر، مما يشير إلى أن مهام الاستدلال المنظمة مناسبة بشكل خاص للاستدلال في الفضاء الكامن.
- نسبة الانتباه الديناميكية: في نمط الاستدلال الكامن، ينتقل الانتباه تدريجياً من الرؤية إلى النص
- تحسن تركيز الانتباه: يصبح الانتباه أكثر تركيزاً في خطوات الاستدلال، مشابهاً لعملية حل المشاكل البشرية
- التفكير النصي: تحويل المعلومات البصرية إلى أوصاف نصية ثم إجراء الاستدلال
- التفكير البصري-النصي المتشابك: استخدام الصور والنصوص معاً أثناء عملية الاستدلال
- طرق الرموز الخاصة: استخدام رموز مثل و لتوجيه الاستدلال
- طرق الحالات المخفية المستمرة: استخدام الحالات المخفية مباشرة للاستدلال
- التوسع متعدد الأنماط: توسيع التفكير الكامن إلى المجال البصري
- يحقق IVT-LR أول إطار عمل كامل للتفكير الكامن متعدد الأنماط
- يتفوق بشكل كبير على الطرق الموجودة في الدقة والكفاءة
- يوفر التفكير في الفضاء الكامن نموذج حل جديد للمهام متعددة الأنماط
- النفقات الثابتة للرموز: تتطلب كل خطوة رموز رؤية كامنة إضافية
- تعقيد التدريب: تتطلب استراتيجية تدريب متعددة المراحل متخصصة
- عدد المراحل الثابت: يستخدم حالياً عدد خطوات استدلال ثابت
- خطوات الاستدلال التكيفية: تحديد خطوات الاستدلال ديناميكياً بناءً على تعقيد المشكلة
- التطبيقات الأوسع: توسيع نطاق التطبيق إلى مهام متعددة الأنماط التسلسلية مثل التخطيط واتخاذ القرار
- اختيار رؤية أكثر كفاءة: تطوير آليات انتباه بصري أكثر دقة
- ابتكار قوي: أول تنفيذ كامل للتفكير الكامن متعدد الأنماط، مع مسار تقني جديد
- تجارب شاملة: التحقق على مجموعات بيانات متعددة ونماذج عمود فقري، مع تجارب استئصال شاملة
- نتائج ملحوظة: تحسن كبير في الدقة والكفاءة
- تحليل عميق: الكشف عن الآليات الداخلية من خلال تحليل الانتباه
- قيود التطبيق: يركز بشكل أساسي على مهام VQA، مع عدم التأكد من قابلية التطبيق على مهام متعددة الأنماط أخرى
- التعقيد الحسابي: يزيد التدريب متعدد المراحل من تعقيد التدريب
- القابلية للتفسير: تفتقر عملية الاستدلال الكامن إلى التفسير الصريح، مع قابلية تفسير أقل
- القيمة الأكاديمية: توفير اتجاه بحثي جديد للتفكير متعدد الأنماط
- القيمة العملية: تحسن الكفاءة الكبير ذو أهمية كبيرة للنشر العملي
- قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود
- البيئات محدودة الموارد: سيناريوهات الحوسبة المحمولة أو الحدية التي تتطلب استدلالاً فعالاً
- التطبيقات في الوقت الفعلي: الأنظمة التفاعلية التي لها متطلبات صارمة لسرعة الاستدلال
- النشر على نطاق واسع: خدمات عبر الإنترنت تحتاج إلى معالجة عدد كبير من الطلبات
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
التقييم الشامل: تتمتع طريقة IVT-LR المقترحة في هذه الورقة بقيمة ابتكارية مهمة في مجال التفكير متعدد الأنماط. من خلال تصميم ذكي للفضاء الكامن واستراتيجية تدريب تدريجية متعددة المراحل، حققت تحسناً كبيراً في كفاءة الاستدلال مع الحفاظ على دقة عالية. على الرغم من وجود بعض القيود، فإنها توفر أفكاراً قيمة جديدة لتطور هذا المجال.